#llm のAIニュース
952件の記事
エージェント能力を強化し長文脈対応のABEJA-Qwen3-14B-Agentic-256k-v0.1を公開
ABEJAは、経済産業省とNEDOのプロジェクト「GENIAC」3期で開発した大規模言語モデル「ABEJA-Qwen3-14B-Agentic-256k-v0.1」を公開した。同モデルは、長文脈処理性能とエージェントとしての能力向上に重点を置いている。
AIで1日でJSONataを書き直し、年間50万ドルを節約
Reco.ai社がAIを活用してJSONataのJSON式言語を1日でGo言語で再実装し、年間50万ドルのコスト削減に成功した。
Athena: LLMを用いた反復的足場付きアプリ生成のための中間表現
研究チームが、大規模言語モデル(LLM)による完全なユーザーインターフェース生成の課題を解決するため、複数ファイル間の関係を管理する中間表現「Athena」を開発した。
Gemini 3 Proの提供終了
GitHubは2026年3月26日、GitHub Copilotの全機能でGemini 3 Proモデルの提供を終了し、Gemini 3.1 Proへの移行を推奨している。
SageMaker Unified StudioとS3を用いた非構造化データによるLLMファインチューニングの加速
AWSがSageMaker Unified StudioとS3の連携を発表し、S3に保存された非構造化データを機械学習やデータ分析に活用する方法を紹介した。
ウィキペディア、AI生成コンテンツを禁止
ウィキペディアのボランティア編集者が、大規模言語モデルを使用した記事作成を禁止する新方針を採択した。
RPAは重要だが、AIは自動化の仕組みを変える
RPAはAIなしで業務の手作業を減らす実用的な方法で、ソフトウェアボットが固定ルールに従いデータ入力などの反復作業を自動化する。近年、技術が成熟し、AIとの統合でより高度な自動化が可能になっている。
データサイエンティストの逆襲
ハバードビジネスレビューが21世紀の最優秀職業と称したデータサイエンティスト職は、かつて高給で人気を集めた。しかし、統計とソフトウェアエンジニアリングの両方のスキルを要求されるこの役割は、その黄金期を終えたのかという議論が起きている。
計画、分割、征服:弱モデルが長いコンテキストタスクで優れる理由
研究者らは、計画者・ワーカー・マネージャーによる「分割統治」フレームワークを開発した。これにより、Llama-3-70BやQwen-72Bといった比較的小さなモデルが、GPT-4oの単一ショット推論を上回る性能を発揮し、長大なコンテキスト処理におけるLLMの劣化問題を解決した。
大規模言語モデル訓練における下流タスク指標のスケーリング特性の再検討
研究チームが、大規模言語モデルの訓練予算からベンチマーク性能のスケーリングを直接モデル化する枠組みを提案し、固定トークン対パラメータ比率では単純なべき法則が複数の下流タスクの精度を正確に記述できることを発見した。
スピードを落とすことについての考察
Mario Zechner氏が、現在のエージェント工学のトレンドについて、過度なスピード追求と規律の欠如を批判している。
datasette-llm 0.1a1 のリリース
DatasetteのLLM利用を可能にする基本プラグイン「datasette-llm」がバージョン0.1a1としてリリースされた。この更新により、他のDatasetteプラグインがLLMモデルを利用できるようになる。
LiteLLMハッキング:あなたは47,000人のうちの一人でしたか?
Daniel HnykがBigQuery PyPIデータセットを使用し、悪意のあるLiteLLMパッケージがPyPIで公開されていた46分間のダウンロード数が約47,000件あったことを明らかにした。
GoogleがAgile Robotsと提携し、AIロボティクス分野を強化
GoogleはAgile Robotsと提携し、Geminiモデルを同社のロボットハードウェアに導入することで、AIを実世界環境に統合する取り組みを加速させる。
Anthropicの自動モードはClaudeの監視不要を意味する
AnthropicがClaude向け自動モード機能を発表した。この機能は時間節約に役立つが、より多くの幻覚生成や低品質コードの原因となる可能性がある。
トークンで学習、概念で調整:LLMにおける意味的キャリブレーションの出現
研究チームは、大規模言語モデル(LLM)がトークンレベルを超えて回答の意味に対する信頼度を評価できる「意味的キャリブレーション」を発見した。サンプリングベースの手法により、LLMはオープンドメイン質問応答タスクで有意な信頼度推定が可能であることを示した。
Anthropic経済指標レポート:学習曲線
Anthropicが2026年3月24日に経済指標レポートを発表し、学習曲線に関する分析を公開した。
Neuroticaの引用
AI研究者のNeuroticaは、AI生成コンテンツ(スロップ)が人間の消費努力を生産努力より多く要し、同僚が未編集のGemini出力を共有することは時間の価値の軽視だと指摘している。
Gemini 3.1 ProがJetBrains IDE、Xcode、Eclipseで利用可能に
GoogleはGemini 3.1 ProモデルをJetBrains IDE、Xcode、Eclipseを含む複数の開発環境で公開プレビューとして提供開始した。Copilot Enterprise、Business、ProユーザーがGitHub Copilot Chatを通じて利用できる。
裁判官がDOGE証言録取ビデオのオンライン公開を再許可
裁判官がDOGEメンバーの証言録取ビデオのオンライン公開を再許可した。当初は原告にビデオの削除を命じていたが、ビデオは既に広く拡散していた。
バーニー・サンダースのAI「ゲッチャ」動画は失敗、しかしミームは素晴らしい
バーニー・サンダース上院議員はAI「Claude」をだまして業界の秘密を明かさせようとしたが、実際にはチャットボットがいかに従順になり得るかを露呈しただけだった。
機械はあなたの技術を奪わなかった
David Abramは、プログラミングの本質はコード記述ではなく、システム理解や設計判断にあると述べ、LLMはこれらの課題を解決できないと主張している。
このウェブツールはAIチャットボットを極端に遅くすることで妨害する
研究者が開発したウェブツールが、AIチャットボットの応答速度を意図的に低下させることで、ユーザーがAIに依存しすぎる問題を提起している。
機械はいつか知能を持つのか?
マイクロソフトリサーチのダグ・バーガーら専門家が、技術者・政策立案者・企業関係者向けに、AI移行を前向きに進めるための共通理解を深める取り組みを紹介している。
最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発
Namazuシリーズ(α版)を搭載したチャットサービスSakana Chatが公開された。同サービスは最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発した。
Import AI 450:中国の電波戦モデル、トラウマを抱えるLLM、サイバー攻撃のスケーリング則
Jack Clarkは、中国の電波戦用AIモデル、LLMのトラウマ現象、およびサイバー攻撃におけるスケーリング則に関する3つのトピックを紹介している。これらはAI研究の動向を示す注目に値する内容である。
Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始
階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。
損失を伴う自己改善
AI業界では急速な発展や特異点、再帰的自己改善が議論されている。数社のラボがモデルとリソースを独占し、寡占状態にある。現在のAIツールはエンジニアリングや研究職を急激に変革し、多くの技術的課題の解決が容易になっている。
マージ状態ビジュアライザー
Bram CohenがCRDTを用いたバージョン管理の将来像について述べ、470行のPythonコードで説明した。彼はそのコードをClaudeに入力し、可視化ツールを生成した。
現代LLMにおけるアテンション変種のビジュアルガイド
著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。
Hacker Newsユーザーのコメントに基づくプロファイリング
著者がHacker Newsユーザーの過去1000件のコメントをAlgolia APIで取得し、「このユーザーをプロファイリングせよ」というプロンプトで実験していることを紹介している。
信頼度推定、自己評価、自動ウェブ調査を備えた不確実性認識LLMシステムの構築実装
研究者が、回答生成だけでなく信頼度推定も行う不確実性認識大規模言語モデルシステムを構築した。3段階の推論パイプラインで、モデルは回答と信頼度スコアを生成し、自己評価で回答を批判・改良する。
OpenAI、2026年までに従業員数を倍増し企業向けAI市場に本格参入
OpenAIは2026年末までに従業員数を約8,000人に倍増し、Anthropicが着実にシェアを拡大している企業向けAI市場への本格的な進出を計画している。
Turbo Pascal 3.02Aの解体分析
James Hague氏が、1985年のTurbo Pascal 3.02実行ファイル(39,731バイト)が現代の小さなファイルよりも小さいことを指摘。これが著者に同実行ファイルの分析を促し、IDEとコンパイラを内包した当時の技術的効率性を明らかにした。
NVIDIAがNemotron-Cascade 2をリリース:3Bの活性化パラメータを持つオープンな30B MoEモデルで、推論能力とエージェント機能を強化
NVIDIAは、30BのMixture-of-Expertsモデルで3Bの活性化パラメータを持つNemotron-Cascade 2を公開した。このモデルは「知能密度」を最大化し、フロンティアモデルよりも少ないパラメータで高度な推論能力を提供し、2025年の国際数学オリンピックなどでゴールドメダルレベルの性能を達成した。
Kimi.aiがCursorのComposer 2立ち上げを祝福、Kimi-k2.5が基盤を提供
Kimi.aiは、CursorがComposer 2を立ち上げたことを祝福した。Kimi-k2.5が基盤モデルを提供し、Cursorの継続事前学習と高性能RL学習を通じて効果的に統合された。
StripeのエンジニアがMinionsを導入、自律エージェントが週数千のプルリクエストを生成
Stripeのエンジニアが、LLMとCI/CDパイプラインを活用した自律コーディングエージェント「Minions」を導入し、Slackやバグ報告から週1300件以上の本番対応可能なプルリクエストを生成している。
Mellea 0.4.0の新機能とGraniteライブラリのリリース
Melleaがバージョン0.4.0をリリースし、Graniteライブラリを公開した。新バージョンではパフォーマンス向上と新APIが追加され、Graniteライブラリは開発者がAI機能を統合しやすくするツールを提供する。
データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー
AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。
DevOpsチームなしでグローバル規模を実現する2つのスタートアップ
Leonardo.AIは世界中で毎日450万枚以上の画像を処理し、Relevance AIはタイムゾーンを超えてSalesforceやSlackなどのシステムで自律的に動作するエージェントを運用している。両社とも専任のDevOpsチームを持たない運用モデルを採用しており、APAC地域では1,000社以上のAIネイティブスタートアップが同モデルを採用している。
埋め込みなしで知識エージェントを構築する
Vercel社は、埋め込みモデルに依存する従来の知識エージェント構築方法の課題を指摘し、構造化データからの特定値取得に適した新たなアプローチを提案している。
AIモデルが2週間でFirefoxの22件の脆弱性を発見
Claude Opus 4.6が2週間でFirefoxの22件の脆弱性(うち14件は深刻度の高いもの)を発見し、2025年に修正された重大なFirefox脆弱性の約20%を占めた。また、AIは2件の脆弱性に対して有効なエクスプロイトも作成し、防御側に一時的な優位性を与える一方、サイバーセキュリティ分野での軍拡競争が加速していることを示した。
過信する大規模言語モデルを特定するためのより良い方法
研究者らが、大規模言語モデル(LLM)が生成する信頼性の高いが不正確な応答をチェックするため、過信を特定する新たな不確実性定量化方法を開発した。従来の複数回プロンプト送信方法は自己信頼度のみ測定し、過信がユーザーを誤解させる可能性がある問題に対処する。
Appleの「LLM in a Flash」を活用してQwen 397Bをローカルで実行する自動研究
研究者のDan Woodsが、Appleの「LLM in a Flash」技術を応用し、通常209GB(量子化後120GB)のQwen3.5-397B-A17Bモデルを48GB MacBook Pro M3 Maxで5.5+トークン/秒で動作させることに成功した。
清華大学とアントグループの研究者、OpenClawの自律LLMエージェント脆弱性を緩和する5層ライフサイクル指向セキュリティフレームワークを発表
清華大学とアントグループの研究者が、OpenClawの自律LLMエージェントが従来の防御を回避する多段階システムリスクに脆弱であると指摘し、5層のライフサイクル指向セキュリティフレームワークを提案した。
GitHub CopilotにおけるGPT-5.3-Codexの長期サポート
GitHubは、企業のセキュリティレビューに対応するため、Copilot Business/Enterprise向けに長期サポートモデルを導入した。OpenAIと協力したGPT-5.3-Codexが初のLTSモデルとして、2026年2月5日から12ヶ月間利用可能となる。
ランキング対象企業が出資する「操作不能」リーダーボード
Arena(旧LM Arena)は、UCバークレーの博士研究から7ヶ月で、最先端LLMの事実上の公開リーダーボードとして台頭し、資金調達や製品発表に影響を与えている。
AI業界の審判となった博士課程学生たち
UCバークレーの博士課程学生らが立ち上げたArena(旧LM Arena)が、最先端LLMの事実上の公開リーダーボードとして、資金調達や製品発表に影響を与えている。
HubSpotのSidekick:マルチモデルAIコードレビューでフィードバック速度90%向上、エンジニア承認率80%
HubSpotのエンジニアが、大規模言語モデルと「判定エージェント」を活用したAIコードレビューシステム「Sidekick」を導入し、プルリクエストの初回フィードバック時間を約90%短縮した。
GPT 5.4はCodexにとって大きな一歩
筆者はGPT 5.4のレビューを遅延させた理由として、エージェント構築における重要軸の考察に時間を割いたことを明かす。従来のベンチマークが正解率という単一スコアに依存する限界を指摘し、より解釈可能な評価指標の必要性を示唆している。