#llm のAIニュース
410件の記事
LumberChunker: 長編物語文書のセグメンテーション
IST、NeuralShift AI、CMUの研究者らが、長編物語文書を構造的に分割する「LumberChunker」を発表した。
Tim Schillingの引用
Tim Schillingは、LLMの不適切な使用がDjangoへの貢献を阻害すると指摘する。特に、コードレビューで人間性のない対応はコミュニティの士気を下げると述べている。
GPT 5.4 MiniとNanoがAI Gatewayで利用可能に
OpenAIがGPT-5.4 MiniとGPT-5.4 NanoをVercel AI Gatewayで公開した。これらのモデルは、複数の小規模モデルが大規模タスクを協調するサブエージェントワークフロー向けに設計され、応答詳細度や推論レベルの制御が可能である。
Trustpilot、従来型検索の衰退に伴いAI企業と提携
Trustpilotは、AI主導の買い物が普及する中、大手eコマース企業との提携を進めている。同社CEOは、消費者を代表するAIエージェントには企業情報が必要であり、Trustpilotのデータセットが有効だと述べた。
長期的な視野のためのトレーニングコンポーザー
Googleが、AIモデル「Composer」のトレーニングに自己要約を組み込むことで、モデルの最大コンテキストウィンドウを超える長い軌跡から学習信号を得られることを発表した。
GPT-5.4 miniおよびnanoの紹介
OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。
階躍星辰の「最強ロブスター脳」が極氪8Xに搭載:今すぐ出発!
階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。
Mistral Small 4の紹介
Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。
CEOがChatGPTに2億5000万ドル契約無効化を相談、弁護士を無視し法廷で大敗
クラフトンCEOがChatGPTを利用してSubnautica 2開発スタジオの乗っ取り計画を立案し、開発者を不当解雇したため、裁判所が解雇無効を命じた。
GPT-5.4 API初週好調
Sam AltmanがGPT-5.4 APIの初週の好調な利用状況を報告。
ブリタニカ百科事典、OpenAIを無断で約10万記事の学習使用により提訴
ブリタニカ百科事典がOpenAIを、許可なく約10万記事をAI学習に使用したとして著作権侵害で提訴した。欧州ではAIモデルが著作物を「保存」できるかについて裁判所の判断が分かれている。
OpenEvalsアップデート公開
LangChainがLLM評価ライブラリのアップデートをリリース
研究が示す:孤独感軽減にはチャットボットより見知らぬ人とのテキスト通話が効果的
ブリティッシュコロンビア大学の研究者が、新入生を対象に実施した研究で、毎日ランダムに選ばれた同級生と2週間テキスト通話をした場合、孤独感が約9%減少することを発見した。
GPT-4.5、73%の人々を人間だと思わせるために「より愚か」を装う
研究者がGPT-4.5にタイプミスをさせ、句読点を省略させ、基本的な計算を間違えさせたところ、73%の参加者がGPT-4.5を人間だと判断した。
米国財務省、金融機関向けAIリスクガイドブックを公表
米国財務省は、金融サービス業界向けにAIリスク管理フレームワークとガイドブックを公表した。100以上の金融機関・業界団体が協力して開発したもので、AIリスクへの体系的な対応を提案している。
VercelでLiteLLMサーバーがサポートされる
VercelがLiteLLMサーバーのデプロイを可能にし、開発者はOpenAI互換ゲートウェイを通じてVercel AI Gatewayを含む複数プロバイダーのLLMにアクセスできるようになった。
エージェンティック・エンジニアリングとは何か
著者のSimon Willison氏が、コーディングエージェント(Claude Code、OpenAI Codexなど)の支援を受けてソフトウェアを開発する実践を「エージェンティック・エンジニアリング」と定義している。
オープンモデル最新動向
GTCでオープンモデルの現状と展望について議論
Claude利用時間拡大
ピーク時間外のClaude利用枠を倍増する発表
Codexグローバル展開
Codexの世界規模のミートアップ開催開始
グーグル研究者、大規模言語モデル向けベイズ的教授法を提案
グーグルリサーチは、最適なベイズシステムの予測から学習することで大規模言語モデルがベイズ推論を近似する訓練方法を提案した。この手法は、多段階インタラクション中に新しい情報を受け取った際のモデルの信念更新方法の改善に焦点を当てている。
エージェントAI新章発表
NVIDIA主導の複数企業連携によるエージェントAI新展開
Anthropic、100万トークンコンテキストウィンドウの追加料金を廃止しOpus 4.6とSonnet 4.6を大幅に低価格化
AnthropicがClaude Opus 4.6とSonnet 4.6の長文コンテキストに対する追加料金を廃止し、20万トークンを超えるリクエストのコストが最大2倍から通常料金に引き下げられた。
Claude 100万トークン対応
Claude Opus/Sonnet 4.6で100万トークン対応が一般提供開始
大規模言語モデルの相互作用の大規模識別
カリフォルニア大学バークレー校の研究者らが、大規模言語モデル(LLM)の相互作用を大規模に識別する手法を開発した。
GPT-5.4がCursorBenchで首位
GPT-5.4がCursorBenchで正確性と効率的なトークン使用でトップ
MALUS - サービスとしてのクリーンルーム
MALUSは、オープンソースプロジェクトを独自のAIロボットで一から再構築し、法的に区別されたコードを企業向けライセンスで提供するサービスを提案している。
Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立
xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。
米国戦争省CTO、AnthropicのAIモデルが組み込み倫理でサプライチェーンを「汚染」すると発言
米国戦争省がAnthropicのAIモデル「Claude」をサプライチェーンから排除する方針を示した。同省CTOは、AIモデルに組み込まれた倫理規範が中国のAIに対する政治的統制に類似していると指摘し、サプライチェーンを「汚染」すると批判した。
CHMv2公共部門で活用
CHMv2が米欧などの公共部門で使用開始
LangChainがNemotron 3 Superをサポート
NvidiaのオープンソースモデルNemotron 3 SuperをLangChainがサポート開始
LLMの推論と知識の関係
LLMにおける推論がパラメトリック知識を解放する仕組みに関する研究論文
エージェントの予測不能性ガイド
LangChainがエージェントの予測不能性に関する概念ガイドを公開
コードコンセプト:プログラミング概念の種から生成された大規模合成データセット
研究者がプログラミング概念の種から生成した大規模合成データセット「Code Concepts」を発表した。このデータセットはAIによるコード生成や理解の研究に活用される。
【社内勉強会】AI生成スライド限定の社内LT会を開催
Algomatic社が、発表スライドを全てAIで生成する条件で社内LT会を開催し、LLM製品の品質担保やAI駆動開発の設計環境など実務課題への試行錯誤をエンジニア間で共有した。
AIがほぼ全てのコードを書く時代、ソフトウェア工学はどう変わるのか?
ベテランエンジニアたちが、AIのコーディング能力が質的転換点を超え、コードを書く価値は低下する一方で、ソフトウェア「工学」の価値は高まっていると指摘している。
生の相互作用から再利用可能な知識へ:AIエージェントのメモリ再考
マイクロソフトが、AIエージェントのメモリ問題を解決する「PlugMem」を発表した。現在のAIエージェントは長い対話履歴を保存するが再利用が困難で、生のメモリ検索は長く価値の低い文脈でエージェントを圧倒する。PlugMemは対話履歴を構造化された再利用可能な知識に変換し、単一の汎用メモリモジュールで多様なエージェントベンチマークの性能を向上させる。
非自己回帰LLM音声認識モデル発表
トランスクリプト編集による新音声認識手法の論文公開
カスタムLLMのデプロイを加速: OumiでファインチューニングしAmazon Bedrockにデプロイ
OumiのDavid StewartとMatthew Personsが、オープンソース大規模言語モデルの実験から本番環境への移行における課題を解決する方法を紹介。LlamaモデルをOumiでファインチューニングし、Amazon Bedrockにデプロイする手順を示す。
1.58ビットLLMの新手法
Sparse-BitNet、半構造化スパース性に適した1.58ビットLLMを発表
教師なしRLVRのLLM学習拡張可能性
教師なしRLVRによる大規模言語モデル学習の拡張性に関する研究論文
LLMの長文生成の一貫性バグ
大規模言語モデルの長文生成における一貫性問題に関する研究論文
GeminiがGoogle Workspaceに統合
GoogleがGemini AIをWorkspaceに統合し、業務効率化を強化
フロンティアLLMにおける命令階層の改善
研究チームがIH-Challengeを開発し、大規模言語モデルに信頼できる命令を優先させる訓練を行い、命令階層の向上、安全性の制御性、プロンプトインジェクション攻撃への耐性を改善した。
LLMの自律的調査能力を高めるAgenticRLの取り組みと知見
ABEJAの服部氏が、LLMの自律的(Agentic)能力向上のためのPost Training(SFTと強化学習)の手法と知見を紹介した。SFTでの精度劣化回避やTool-Useを用いた強化学習タスク、実装上の課題などをまとめている。
nanochat自動チューニング実験
Andrej Karpathyがnanochatの自動研究チューニング実験を実施、新たな発見を報告
NVIDIA Megatron CoreにおけるFalcon-H1ハイブリッドアーキテクチャの実装
NVIDIAが、大規模言語モデル開発の基盤フレームワーク「Megatron Core」に、新しいハイブリッドアーキテクチャ「Falcon-H1」を実装した。この技術は、LLMトレーニングの効率性と拡張性を向上させることを目的としている。
Anthropicの画期的な訴訟、政府のAI安全性判断への罰則権限に挑戦
Anthropicが17の米連邦機関を提訴した。同社は政府から矛盾する脅迫を受けながらもAI安全性ガードレールを維持し、国防総省の機密システムにClaudeが深く組み込まれている実態を明らかにした。
分散型サービングから推測作業を排除
NVIDIAが、大規模言語モデルの高性能かつコスト効率の良いサービングにおける分散型アーキテクチャの最適化手法を提案し、推測作業を減らす技術を発表した。
Penguin-VL効率限界の探求
LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表