#llm のAIニュース

952件の記事

エージェント能力を強化し長文脈対応のABEJA-Qwen3-14B-Agentic-256k-v0.1を公開

ABEJAは、経済産業省とNEDOのプロジェクト「GENIAC」3期で開発した大規模言語モデル「ABEJA-Qwen3-14B-Agentic-256k-v0.1」を公開した。同モデルは、長文脈処理性能とエージェントとしての能力向上に重点を置いている。

ABEJA Tech Blog·3月27日·★★★★

AIで1日でJSONataを書き直し、年間50万ドルを節約

Reco.ai社がAIを活用してJSONataのJSON式言語を1日でGo言語で再実装し、年間50万ドルのコスト削減に成功した。

Simon Willison Blog·3月27日

Athena: LLMを用いた反復的足場付きアプリ生成のための中間表現

研究チームが、大規模言語モデル(LLM)による完全なユーザーインターフェース生成の課題を解決するため、複数ファイル間の関係を管理する中間表現「Athena」を開発した。

Apple Machine Learning·3月27日·★★★★

Gemini 3 Proの提供終了

GitHubは2026年3月26日、GitHub Copilotの全機能でGemini 3 Proモデルの提供を終了し、Gemini 3.1 Proへの移行を推奨している。

GitHub Changelog·3月27日

SageMaker Unified StudioとS3を用いた非構造化データによるLLMファインチューニングの加速

AWSがSageMaker Unified StudioとS3の連携を発表し、S3に保存された非構造化データを機械学習やデータ分析に活用する方法を紹介した。

AWS Machine Learning Blog·3月27日

ウィキペディア、AI生成コンテンツを禁止

ウィキペディアのボランティア編集者が、大規模言語モデルを使用した記事作成を禁止する新方針を採択した。

404 Media·3月27日·★★★★

RPAは重要だが、AIは自動化の仕組みを変える

RPAはAIなしで業務の手作業を減らす実用的な方法で、ソフトウェアボットが固定ルールに従いデータ入力などの反復作業を自動化する。近年、技術が成熟し、AIとの統合でより高度な自動化が可能になっている。

AI News·3月26日·★★★★

データサイエンティストの逆襲

ハバードビジネスレビューが21世紀の最優秀職業と称したデータサイエンティスト職は、かつて高給で人気を集めた。しかし、統計とソフトウェアエンジニアリングの両方のスキルを要求されるこの役割は、その黄金期を終えたのかという議論が起きている。

Hamel Husain·3月26日·★★★★

計画、分割、征服：弱モデルが長いコンテキストタスクで優れる理由

研究者らは、計画者・ワーカー・マネージャーによる「分割統治」フレームワークを開発した。これにより、Llama-3-70BやQwen-72Bといった比較的小さなモデルが、GPT-4oの単一ショット推論を上回る性能を発揮し、長大なコンテキスト処理におけるLLMの劣化問題を解決した。

Together AI Blog·3月26日·★★★★

大規模言語モデル訓練における下流タスク指標のスケーリング特性の再検討

研究チームが、大規模言語モデルの訓練予算からベンチマーク性能のスケーリングを直接モデル化する枠組みを提案し、固定トークン対パラメータ比率では単純なべき法則が複数の下流タスクの精度を正確に記述できることを発見した。

Apple Machine Learning·3月26日·★★★★

スピードを落とすことについての考察

Mario Zechner氏が、現在のエージェント工学のトレンドについて、過度なスピード追求と規律の欠如を批判している。

Simon Willison Blog·3月26日

datasette-llm 0.1a1 のリリース

DatasetteのLLM利用を可能にする基本プラグイン「datasette-llm」がバージョン0.1a1としてリリースされた。この更新により、他のDatasetteプラグインがLLMモデルを利用できるようになる。

Simon Willison Blog·3月26日

LiteLLMハッキング：あなたは47,000人のうちの一人でしたか？

Daniel HnykがBigQuery PyPIデータセットを使用し、悪意のあるLiteLLMパッケージがPyPIで公開されていた46分間のダウンロード数が約47,000件あったことを明らかにした。

Simon Willison Blog·3月26日

GoogleがAgile Robotsと提携し、AIロボティクス分野を強化

GoogleはAgile Robotsと提携し、Geminiモデルを同社のロボットハードウェアに導入することで、AIを実世界環境に統合する取り組みを加速させる。

AI Business·3月26日·★★★★

Anthropicの自動モードはClaudeの監視不要を意味する

AnthropicがClaude向け自動モード機能を発表した。この機能は時間節約に役立つが、より多くの幻覚生成や低品質コードの原因となる可能性がある。

AI Business·3月25日

トークンで学習、概念で調整：LLMにおける意味的キャリブレーションの出現

研究チームは、大規模言語モデル（LLM）がトークンレベルを超えて回答の意味に対する信頼度を評価できる「意味的キャリブレーション」を発見した。サンプリングベースの手法により、LLMはオープンドメイン質問応答タスクで有意な信頼度推定が可能であることを示した。

Apple Machine Learning·3月24日·★★★★

Anthropic経済指標レポート：学習曲線

Anthropicが2026年3月24日に経済指標レポートを発表し、学習曲線に関する分析を公開した。

Anthropic Research·3月24日

Neuroticaの引用

AI研究者のNeuroticaは、AI生成コンテンツ（スロップ）が人間の消費努力を生産努力より多く要し、同僚が未編集のGemini出力を共有することは時間の価値の軽視だと指摘している。

Simon Willison Blog·3月24日

Gemini 3.1 ProがJetBrains IDE、Xcode、Eclipseで利用可能に

GoogleはGemini 3.1 ProモデルをJetBrains IDE、Xcode、Eclipseを含む複数の開発環境で公開プレビューとして提供開始した。Copilot Enterprise、Business、ProユーザーがGitHub Copilot Chatを通じて利用できる。

GitHub Changelog·3月24日

裁判官がDOGE証言録取ビデオのオンライン公開を再許可

裁判官がDOGEメンバーの証言録取ビデオのオンライン公開を再許可した。当初は原告にビデオの削除を命じていたが、ビデオは既に広く拡散していた。

404 Media·3月24日

バーニー・サンダースのAI「ゲッチャ」動画は失敗、しかしミームは素晴らしい

バーニー・サンダース上院議員はAI「Claude」をだまして業界の秘密を明かさせようとしたが、実際にはチャットボットがいかに従順になり得るかを露呈しただけだった。

TechCrunch AI·3月24日

機械はあなたの技術を奪わなかった

David Abramは、プログラミングの本質はコード記述ではなく、システム理解や設計判断にあると述べ、LLMはこれらの課題を解決できないと主張している。

Simon Willison Blog·3月24日

このウェブツールはAIチャットボットを極端に遅くすることで妨害する

研究者が開発したウェブツールが、AIチャットボットの応答速度を意図的に低下させることで、ユーザーがAIに依存しすぎる問題を提起している。

404 Media·3月24日

機械はいつか知能を持つのか？

マイクロソフトリサーチのダグ・バーガーら専門家が、技術者・政策立案者・企業関係者向けに、AI移行を前向きに進めるための共通理解を深める取り組みを紹介している。

Microsoft Research·3月24日

最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発

Namazuシリーズ（α版）を搭載したチャットサービスSakana Chatが公開された。同サービスは最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発した。

Sakana AI·3月24日·★★★★

Import AI 450：中国の電波戦モデル、トラウマを抱えるLLM、サイバー攻撃のスケーリング則

Jack Clarkは、中国の電波戦用AIモデル、LLMのトラウマ現象、およびサイバー攻撃におけるスケーリング則に関する3つのトピックを紹介している。これらはAI研究の動向を示す注目に値する内容である。

Import AI·3月23日·★★★★

Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始

階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。

阶跃星辰·3月23日

損失を伴う自己改善

AI業界では急速な発展や特異点、再帰的自己改善が議論されている。数社のラボがモデルとリソースを独占し、寡占状態にある。現在のAIツールはエンジニアリングや研究職を急激に変革し、多くの技術的課題の解決が容易になっている。

Interconnects·3月23日·★★★★

マージ状態ビジュアライザー

Bram CohenがCRDTを用いたバージョン管理の将来像について述べ、470行のPythonコードで説明した。彼はそのコードをClaudeに入力し、可視化ツールを生成した。

Simon Willison Blog·3月23日

現代LLMにおけるアテンション変種のビジュアルガイド

著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。

Sebastian Raschka·3月22日

Hacker Newsユーザーのコメントに基づくプロファイリング

著者がHacker Newsユーザーの過去1000件のコメントをAlgolia APIで取得し、「このユーザーをプロファイリングせよ」というプロンプトで実験していることを紹介している。

Simon Willison Blog·3月22日

信頼度推定、自己評価、自動ウェブ調査を備えた不確実性認識LLMシステムの構築実装

研究者が、回答生成だけでなく信頼度推定も行う不確実性認識大規模言語モデルシステムを構築した。3段階の推論パイプラインで、モデルは回答と信頼度スコアを生成し、自己評価で回答を批判・改良する。

MarkTechPost·3月22日·★★★★

OpenAI、2026年までに従業員数を倍増し企業向けAI市場に本格参入

OpenAIは2026年末までに従業員数を約8,000人に倍増し、Anthropicが着実にシェアを拡大している企業向けAI市場への本格的な進出を計画している。

The Decoder·3月22日

Turbo Pascal 3.02Aの解体分析

James Hague氏が、1985年のTurbo Pascal 3.02実行ファイル（39,731バイト）が現代の小さなファイルよりも小さいことを指摘。これが著者に同実行ファイルの分析を促し、IDEとコンパイラを内包した当時の技術的効率性を明らかにした。

Simon Willison Blog·3月21日

NVIDIAがNemotron-Cascade 2をリリース：3Bの活性化パラメータを持つオープンな30B MoEモデルで、推論能力とエージェント機能を強化

NVIDIAは、30BのMixture-of-Expertsモデルで3Bの活性化パラメータを持つNemotron-Cascade 2を公開した。このモデルは「知能密度」を最大化し、フロンティアモデルよりも少ないパラメータで高度な推論能力を提供し、2025年の国際数学オリンピックなどでゴールドメダルレベルの性能を達成した。

MarkTechPost·3月21日·★★★★

Kimi.aiがCursorのComposer 2立ち上げを祝福、Kimi-k2.5が基盤を提供

Kimi.aiは、CursorがComposer 2を立ち上げたことを祝福した。Kimi-k2.5が基盤モデルを提供し、Cursorの継続事前学習と高性能RL学習を通じて効果的に統合された。

Simon Willison Blog·3月21日

StripeのエンジニアがMinionsを導入、自律エージェントが週数千のプルリクエストを生成

Stripeのエンジニアが、LLMとCI/CDパイプラインを活用した自律コーディングエージェント「Minions」を導入し、Slackやバグ報告から週1300件以上の本番対応可能なプルリクエストを生成している。

InfoQ·3月20日·★★★★

Mellea 0.4.0の新機能とGraniteライブラリのリリース

Melleaがバージョン0.4.0をリリースし、Graniteライブラリを公開した。新バージョンではパフォーマンス向上と新APIが追加され、Graniteライブラリは開発者がAI機能を統合しやすくするツールを提供する。

Hugging Face Blog·3月20日·★★★★

データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー

AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。

The Batch·3月20日

DevOpsチームなしでグローバル規模を実現する2つのスタートアップ

Leonardo.AIは世界中で毎日450万枚以上の画像を処理し、Relevance AIはタイムゾーンを超えてSalesforceやSlackなどのシステムで自律的に動作するエージェントを運用している。両社とも専任のDevOpsチームを持たない運用モデルを採用しており、APAC地域では1,000社以上のAIネイティブスタートアップが同モデルを採用している。

Vercel Blog·3月20日·★★★★

埋め込みなしで知識エージェントを構築する

Vercel社は、埋め込みモデルに依存する従来の知識エージェント構築方法の課題を指摘し、構造化データからの特定値取得に適した新たなアプローチを提案している。

Vercel Blog·3月20日·★★★★

AIモデルが2週間でFirefoxの22件の脆弱性を発見

Claude Opus 4.6が2週間でFirefoxの22件の脆弱性（うち14件は深刻度の高いもの）を発見し、2025年に修正された重大なFirefox脆弱性の約20%を占めた。また、AIは2件の脆弱性に対して有効なエクスプロイトも作成し、防御側に一時的な優位性を与える一方、サイバーセキュリティ分野での軍拡競争が加速していることを示した。

InfoQ·3月19日·★★★★