#llm のAIニュース
409件の記事
Anthropicの自動モードはClaudeの監視不要を意味する
AnthropicがClaude向け自動モード機能を発表した。この機能は時間節約に役立つが、より多くの幻覚生成や低品質コードの原因となる可能性がある。
Kimi 1TパラメータM4 Maxで動作
1兆パラメータのKimiモデルがM4 Maxで1.7トークン/秒で動作
Claudeチームプラン提供開始
Claudeのチームプランがリサーチプレビューとして利用可能に
Anthropicのマルチエージェント手法
Claudeの性能向上のための新たな技術アプローチを紹介
397BモデルがiPhoneで動作
Qwen3.5-397B-A17BがストリーミングMoE技術でiPhoneで動作可能に
トークンで学習、概念で調整:LLMにおける意味的キャリブレーションの出現
研究チームは、大規模言語モデル(LLM)がトークンレベルを超えて回答の意味に対する信頼度を評価できる「意味的キャリブレーション」を発見した。サンプリングベースの手法により、LLMはオープンドメイン質問応答タスクで有意な信頼度推定が可能であることを示した。
Anthropic経済指標レポート:学習曲線
Anthropicが2026年3月24日に経済指標レポートを発表し、学習曲線に関する分析を公開した。
Neuroticaの引用
AI研究者のNeuroticaは、AI生成コンテンツ(スロップ)が人間の消費努力を生産努力より多く要し、同僚が未編集のGemini出力を共有することは時間の価値の軽視だと指摘している。
Gemini 3.1 ProがJetBrains IDE、Xcode、Eclipseで利用可能に
GoogleはGemini 3.1 ProモデルをJetBrains IDE、Xcode、Eclipseを含む複数の開発環境で公開プレビューとして提供開始した。Copilot Enterprise、Business、ProユーザーがGitHub Copilot Chatを通じて利用できる。
AIエージェントの課題
長期的タスクでのAIエージェント連携の限界について
裁判官がDOGE証言録取ビデオのオンライン公開を再許可
裁判官がDOGEメンバーの証言録取ビデオのオンライン公開を再許可した。当初は原告にビデオの削除を命じていたが、ビデオは既に広く拡散していた。
バーニー・サンダースのAI「ゲッチャ」動画は失敗、しかしミームは素晴らしい
バーニー・サンダース上院議員はAI「Claude」をだまして業界の秘密を明かさせようとしたが、実際にはチャットボットがいかに従順になり得るかを露呈しただけだった。
機械はあなたの技術を奪わなかった
David Abramは、プログラミングの本質はコード記述ではなく、システム理解や設計判断にあると述べ、LLMはこれらの課題を解決できないと主張している。
このウェブツールはAIチャットボットを極端に遅くすることで妨害する
研究者が開発したウェブツールが、AIチャットボットの応答速度を意図的に低下させることで、ユーザーがAIに依存しすぎる問題を提起している。
機械はいつか知能を持つのか?
マイクロソフトリサーチのダグ・バーガーら専門家が、技術者・政策立案者・企業関係者向けに、AI移行を前向きに進めるための共通理解を深める取り組みを紹介している。
Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始
階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。
マージ状態ビジュアライザー
Bram CohenがCRDTを用いたバージョン管理の将来像について述べ、470行のPythonコードで説明した。彼はそのコードをClaudeに入力し、可視化ツールを生成した。
現代LLMにおけるアテンション変種のビジュアルガイド
著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。
Hacker Newsユーザーのコメントに基づくプロファイリング
著者がHacker Newsユーザーの過去1000件のコメントをAlgolia APIで取得し、「このユーザーをプロファイリングせよ」というプロンプトで実験していることを紹介している。
エージェントの新概念ガイド
本番環境でのAIエージェントの振る舞いに関する新ガイド
信頼度推定、自己評価、自動ウェブ調査を備えた不確実性認識LLMシステムの構築実装
研究者が、回答生成だけでなく信頼度推定も行う不確実性認識大規模言語モデルシステムを構築した。3段階の推論パイプラインで、モデルは回答と信頼度スコアを生成し、自己評価で回答を批判・改良する。
OpenAI、2026年までに従業員数を倍増し企業向けAI市場に本格参入
OpenAIは2026年末までに従業員数を約8,000人に倍増し、Anthropicが着実にシェアを拡大している企業向けAI市場への本格的な進出を計画している。
Turbo Pascal 3.02Aの解体分析
James Hague氏が、1985年のTurbo Pascal 3.02実行ファイル(39,731バイト)が現代の小さなファイルよりも小さいことを指摘。これが著者に同実行ファイルの分析を促し、IDEとコンパイラを内包した当時の技術的効率性を明らかにした。
NVIDIAがNemotron-Cascade 2をリリース:3Bの活性化パラメータを持つオープンな30B MoEモデルで、推論能力とエージェント機能を強化
NVIDIAは、30BのMixture-of-Expertsモデルで3Bの活性化パラメータを持つNemotron-Cascade 2を公開した。このモデルは「知能密度」を最大化し、フロンティアモデルよりも少ないパラメータで高度な推論能力を提供し、2025年の国際数学オリンピックなどでゴールドメダルレベルの性能を達成した。
Kimi.aiがCursorのComposer 2立ち上げを祝福、Kimi-k2.5が基盤を提供
Kimi.aiは、CursorがComposer 2を立ち上げたことを祝福した。Kimi-k2.5が基盤モデルを提供し、Cursorの継続事前学習と高性能RL学習を通じて効果的に統合された。
NvidiaがNemotron-Cascade 2を公開
NvidiaがHugging Faceで新しいモデルNemotron-Cascade 2をリリース
StripeのエンジニアがMinionsを導入、自律エージェントが週数千のプルリクエストを生成
Stripeのエンジニアが、LLMとCI/CDパイプラインを活用した自律コーディングエージェント「Minions」を導入し、Slackやバグ報告から週1300件以上の本番対応可能なプルリクエストを生成している。
Mellea 0.4.0の新機能とGraniteライブラリのリリース
Melleaがバージョン0.4.0をリリースし、Graniteライブラリを公開した。新バージョンではパフォーマンス向上と新APIが追加され、Graniteライブラリは開発者がAI機能を統合しやすくするツールを提供する。
データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー
AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。
量子化精度がツール呼び出しに影響
2ビット量子化でツール呼び出しが壊れ、4ビットにアップグレードで解決
Appleの「LLM in a Flash」を活用してQwen 397Bをローカルで実行する自動研究
研究者のDan Woodsが、Appleの「LLM in a Flash」技術を応用し、通常209GB(量子化後120GB)のQwen3.5-397B-A17Bモデルを48GB MacBook Pro M3 Maxで5.5+トークン/秒で動作させることに成功した。
清華大学とアントグループの研究者、OpenClawの自律LLMエージェント脆弱性を緩和する5層ライフサイクル指向セキュリティフレームワークを発表
清華大学とアントグループの研究者が、OpenClawの自律LLMエージェントが従来の防御を回避する多段階システムリスクに脆弱であると指摘し、5層のライフサイクル指向セキュリティフレームワークを提案した。
Qwen 3.5 397B-A17B M3 Mac動作
209GB MoEモデルがM3 Macで動作、約5.7トークン/秒を実現
エージェントの新概念ガイド
本番環境でのエージェント挙動に関する新ガイド公開
ランキング対象企業が出資する「操作不能」リーダーボード
Arena(旧LM Arena)は、UCバークレーの博士研究から7ヶ月で、最先端LLMの事実上の公開リーダーボードとして台頭し、資金調達や製品発表に影響を与えている。
AI業界の審判となった博士課程学生たち
UCバークレーの博士課程学生らが立ち上げたArena(旧LM Arena)が、最先端LLMの事実上の公開リーダーボードとして、資金調達や製品発表に影響を与えている。
HubSpotのSidekick:マルチモデルAIコードレビューでフィードバック速度90%向上、エンジニア承認率80%
HubSpotのエンジニアが、大規模言語モデルと「判定エージェント」を活用したAIコードレビューシステム「Sidekick」を導入し、プルリクエストの初回フィードバック時間を約90%短縮した。
GPT-5.4 mini/nano発表
OpenAIがGPT-5.4の小型モデルminiとnanoを発表
Prose2Policy (P2P): 自然言語アクセスポリシーを実行可能なRegoコードに変換する実用的なLLMパイプライン
Prose2Policy (P2P)は、自然言語のアクセス制御ポリシーをOpen Policy AgentのRegoコードに変換するLLMベースのツールで、ポリシー検出から自動テスト生成までをカバーするエンドツーエンドパイプラインを提供する。
GPT-5.4 mini/nano発表
GPT-5.4のminiとnanoモデルがリリース、特にnanoモデルに注目
GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現
OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。
llm 0.29
llmプロジェクトがバージョン0.29をリリースし、OpenAIの新モデル「gpt-5.4」「gpt-5.4-mini」「gpt-5.4-nano」のサポートを追加した。
OpenAIがGPT-5.4 miniとnanoをリリース、性能向上も最大4倍の価格上昇
OpenAIがコーディングアシスタントやサブエージェント向けの小型モデル「GPT-5.4 mini」と「nano」を発表した。GPT-5.4 miniはフルモデルに匹敵する性能を持つが、前モデル比最大4倍の価格上昇となった。
GPT-5.4 miniリリース
WindsurfでGPT-5.4 miniが利用可能に
GPT-5.4 mini APIリリース
GPT-5.4 miniがAPI、Codex、ChatGPTで利用可能に
GPT-5.4 mini性能発表
小型モデルが大型モデルに匹敵する性能を達成
GPT-5.4 mini/nano発表
OpenAIが小型モデルGPT-5.4 miniとnanoを発表
GPT-5.4 nano API公開
GPT-5.4 nanoがAPIで利用可能に
GPT-5.4 miniリリース
OpenAIがGPT-5.4 miniをChatGPT、Codex、APIで公開。コーディング最適化。
LumberChunker: 長編物語文書のセグメンテーション
IST、NeuralShift AI、CMUの研究者らが、長編物語文書を構造的に分割する「LumberChunker」を発表した。