#llm のAIニュース
413件の記事
Anthropicの画期的な訴訟、政府のAI安全性判断への罰則権限に挑戦
Anthropicが17の米連邦機関を提訴した。同社は政府から矛盾する脅迫を受けながらもAI安全性ガードレールを維持し、国防総省の機密システムにClaudeが深く組み込まれている実態を明らかにした。
分散型サービングから推測作業を排除
NVIDIAが、大規模言語モデルの高性能かつコスト効率の良いサービングにおける分散型アーキテクチャの最適化手法を提案し、推測作業を減らす技術を発表した。
Penguin-VL効率限界の探求
LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表
AIエージェントを強化する『合成データ』作成の実践的Tips集
この記事は、LLMやAIエージェントを用いてAIエージェント向けの合成データを生成するための実践的な方法を紹介している。
大規模モデル稼働中
Andrej Karpathyが8×H100で大規模モデルを稼働中と報告
オープンソース向けCodex
OpenAIが人気オープンソースプロジェクトのメンテナー向けに、Codex付きChatGPT Proを6ヶ月間無料提供するプログラムを開始した。
人間の判断を拡張:DropboxがRAGシステムのラベリング改善にLLMを活用する方法
Dropboxのエンジニアは、自社のAIアシスタント「Dropbox Dash」の応答精度向上のため、人間によるラベリング作業を大規模言語モデル(LLM)で補完する手法を導入した。このアプローチは検索拡張生成(RAG)システムの構築に有用な知見を提供する。
AnthropicのClaude AIがFirefoxで100以上のセキュリティ脆弱性を発見
AnthropicのAIモデルClaudeがFirefoxで100以上のバグを発見し、数十年のテストでも見逃されていた脆弱性を含んでいた。
言語モデルが幻覚を起こす時、自身の数学に「こぼれたエネルギー」を残す
ローマ・サピエンツァ大学の研究者が、大規模言語モデルが幻覚を起こす際に計算内に残す測定可能な痕跡を検出するトレーニング不要の手法を開発した。この手法は従来のアプローチよりも汎化性能が高い。
米国防総省の禁止令にもかかわらず、Google、AWS、MicrosoftはAnthropicのAIモデルを継続利用
米国防総省がAnthropicのAIモデル使用を禁止したが、Google、Amazon Web Services、Microsoftは軍事分野以外で同社との提携を継続している。
iPhoneでQwen 3.5実行可能
iPhoneアプリでQwen 3.5の4Bモデルが実行可能に。3.06GBのダウンロード。
Qwen3.5 4BがGPT-4oを一部ベンチマークで上回る
Qwen3.5 4BがGPT-4oを一部ベンチマークで上回ったと報告。新モデルの性能評価。
Gemini 3.1 Flash-Lite発表
Google AIがGemini 3.1 Flash-Liteをプレビュー公開、コスト効率重視の新モデル
LLMエージェントとR統計の統合
分布認識検索によるLLMエージェントとR統計エコシステムの連携
GPT-5.4 APIガイド更新
GPT-5.4 API向けプロンプトガイドが更新され、エージェントパターンが追加
マイクロソフト、グーグル、アマゾンはAnthropic Claudeが非防衛顧客に引き続き利用可能と表明
マイクロソフト、グーグル、アマゾンは、トランプ政権の国防省とAnthropicの対立が、自社製品を通じてClaudeを利用する他企業に影響しないと発表した。
Claude Opus 4.6評価結果
AnthropicがClaude Opus 4.6のBrowseComp評価結果を公開
新研究がAIコーディングにおけるAGENTS.mdファイルの価値を再評価
ETH Zurichの研究者が、AGENTS.mdファイルはAIコーディングエージェントの妨げになることが多いと結論付け、LLM生成のコンテキストファイルを完全に省略し、人間が書く指示は推測不可能な詳細に限定することを推奨した。
ClaudeとFirefoxのセキュリティテスト
AnthropicとMozillaがClaudeの脆弱性発見能力をFirefoxでテスト
Claude Marketplace発表
企業向けAIツール調達を簡素化するマーケットプレイス
Anthropic契約のClaude利用可能
既存のAnthropic契約でClaude利用が可能に。組織向け新展開。
AIモデルは自身の推論をほとんど制御できないが、OpenAIはそれが良い兆候だと主張
OpenAIがGPT-5.4の「CoT制御性」を初めて報告し、AIモデルが自身の推論を意図的に操作できるかを測定した。研究では推論モデルがほぼ普遍的にこの課題に失敗しており、OpenAIはAI安全性にとって励みになると述べている。
バリャスニー・アセット・マネジメントが投資のためのAI研究エンジンを構築した方法
バリャスニー・アセット・マネジメントは、GPT-5.4、厳格なモデル評価、エージェントワークフローを用いたAI研究システムを構築し、大規模な投資分析を変革した。
エージェントが説得するとき:LLMにおけるプロパガンダ生成と緩和
研究チームが、LLMベースのエージェントがプロパガンダ目的で操作され、扇動的なコンテンツを生成する可能性を調査した。プロパガンダ分類モデルと修辞技法検出モデルを用いて出力を分析した。
Mozillaとの提携によるFirefoxのセキュリティ向上
MozillaがFirefoxブラウザのセキュリティ向上のために提携を発表した。具体的な技術的改善内容は明記されていないが、ブラウザセキュリティ分野での協力関係構築を示している。
GPT-5.4がGitHub Copilotで一般提供開始
OpenAIは最新のエージェント型コーディングモデルGPT-5.4をGitHub Copilotで展開開始した。実世界テストで成功率向上、複雑な多段階プロセスにおける論理的推論とタスク実行能力が強化されている。
GPT-2モデル2時間で学習
nanochatがGPT-2相当モデルを8XH100ノード1台で2時間で学習可能に
OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合
OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。
GPT-5.4高速化
GPT-5.4が1.5倍高速化、知性は維持
GPT-5.4とGPT-5.4 Thinking提供開始
PerplexityでGPT-5.4とGPT-5.4 ThinkingがPro/Maxユーザー向けに利用可能に
GPT-5.4 APIリリース
GPT-5.4がAPIとCodexで利用可能に、本日中に展開
GPT-5.4 Windsurfで公開
GPT-5.4がWindsurfで利用可能に、複数推論機能搭載
GPT-5.4リリース開始
GPT-5.4がChatGPTとCodexで段階的に展開開始。APIでも利用可能に。
GPT-5.4発表、新機能搭載
GPT-5.4リリース、コンピュータ操作機能と最大100万トークン対応
GPT 5.4がCursorで利用可能に
CursorでGPT 5.4が公開。より自然で確信的な応答を実現。
GPT-5.4発表
OpenAIがGPT-5.4を発表。事実性と効率性を向上
GPT-5.4新モデル発表
GPT-5.4 ThinkingとPro版がChatGPTで提供開始
LTX-2.3モデル公開
LTX-2.3モデルがHugging Faceでリリースされました
GPT-5.4がWindsurfで利用可能に
WindsurfがGPT-5.4を複数の推論努力レベルで提供開始し、期間限定でセルフサービスユーザー向けに1倍クレジットからのプロモーション価格を設定した。
GPT-5.4 思考システムカード
OpenAIがGPT-5.4の思考システムカードを公開し、AIモデルの内部推論プロセスを透明化する新たな説明可能性フレームワークを導入した。
GPT-5.4の紹介
OpenAIが、プロフェッショナル向けに最も高性能で効率的なフロンティアモデル「GPT-5.4」を発表した。最新のコーディング、コンピュータ使用、ツール検索機能と100万トークンのコンテキストを備えている。
AIの労働市場への影響:新たな測定方法と初期の証拠
研究者がAIの労働市場への影響を評価する新たな測定方法を開発し、初期の証拠を示した。
AI翻訳の3つの進化段階:プロンプト時代→推論モデル時代→エージェント時代
著者がAI翻訳ツール開発で経験した3段階の進化を解説。プロンプト設計から推論モデル活用、自律的エージェントへの発展過程と、翻訳品質向上のための設計原則を共有。
JAXでLLM構築コース公開
Andrew Ng氏とGoogleがJAXを使ったLLM構築コースを提供開始
生成報酬モデルの新手法
長さスケーリングを超えた生成報酬モデルの新たなアプローチ
Meta、年額最大5000万ドルのAI契約をニューズ・コープと締結
Metaは年額最大5000万ドルでニューズ・コープからAI学習データを購入する複数年契約を結んだ。個別の出版社には有益だが、業界全体には悪影響と指摘されている。
Qwen 3.5ファミリー発表
Qwenが新モデルファミリーをリリース、AI専門家向け情報
Gemini 3.1 Flash-Lite発表
Demis Hassabisが高速・低コストの新AIモデルを発表
ドナルド・クヌースが引用
ドナルド・クヌース氏は、数週間取り組んでいた未解決問題が、Anthropic社が3週間前にリリースしたハイブリッド推論モデル「Claude Opus 4.6」によって解決されたと報告した。この経験から、生成AIに関する自身の見解を改める必要があると述べている。
Google AI Studioで3.1 Flash-Lite活用
小売業向けエージェントを構築、計画・実行機能を実現