#llm のAIニュース

413件の記事

Anthropicの画期的な訴訟、政府のAI安全性判断への罰則権限に挑戦

Anthropicが17の米連邦機関を提訴した。同社は政府から矛盾する脅迫を受けながらもAI安全性ガードレールを維持し、国防総省の機密システムにClaudeが深く組み込まれている実態を明らかにした。

The Decoder·3月10日·★★★★

分散型サービングから推測作業を排除

NVIDIAが、大規模言語モデルの高性能かつコスト効率の良いサービングにおける分散型アーキテクチャの最適化手法を提案し、推測作業を減らす技術を発表した。

NVIDIA Developer Blog·3月10日·★★★★

Penguin-VL効率限界の探求

LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表

X: AK·3月10日

AIエージェントを強化する『合成データ』作成の実践的Tips集

この記事は、LLMやAIエージェントを用いてAIエージェント向けの合成データを生成するための実践的な方法を紹介している。

LayerX Tech Blog·3月10日·★★★★

大規模モデル稼働中

Andrej Karpathyが8×H100で大規模モデルを稼働中と報告

X: Andrej Karpathy·3月8日

オープンソース向けCodex

OpenAIが人気オープンソースプロジェクトのメンテナー向けに、Codex付きChatGPT Proを6ヶ月間無料提供するプログラムを開始した。

Simon Willison Blog·3月8日

人間の判断を拡張:DropboxがRAGシステムのラベリング改善にLLMを活用する方法

Dropboxのエンジニアは、自社のAIアシスタント「Dropbox Dash」の応答精度向上のため、人間によるラベリング作業を大規模言語モデル(LLM)で補完する手法を導入した。このアプローチは検索拡張生成(RAG)システムの構築に有用な知見を提供する。

InfoQ·3月8日

AnthropicのClaude AIがFirefoxで100以上のセキュリティ脆弱性を発見

AnthropicのAIモデルClaudeがFirefoxで100以上のバグを発見し、数十年のテストでも見逃されていた脆弱性を含んでいた。

The Decoder·3月7日·★★★★

言語モデルが幻覚を起こす時、自身の数学に「こぼれたエネルギー」を残す

ローマ・サピエンツァ大学の研究者が、大規模言語モデルが幻覚を起こす際に計算内に残す測定可能な痕跡を検出するトレーニング不要の手法を開発した。この手法は従来のアプローチよりも汎化性能が高い。

The Decoder·3月7日

米国防総省の禁止令にもかかわらず、Google、AWS、MicrosoftはAnthropicのAIモデルを継続利用

米国防総省がAnthropicのAIモデル使用を禁止したが、Google、Amazon Web Services、Microsoftは軍事分野以外で同社との提携を継続している。

The Decoder·3月7日·★★★★

iPhoneでQwen 3.5実行可能

iPhoneアプリでQwen 3.5の4Bモデルが実行可能に。3.06GBのダウンロード。

X: Simon Willison·3月7日

Qwen3.5 4BがGPT-4oを一部ベンチマークで上回る

Qwen3.5 4BがGPT-4oを一部ベンチマークで上回ったと報告。新モデルの性能評価。

X: Simon Willison·3月7日

Gemini 3.1 Flash-Lite発表

Google AIがGemini 3.1 Flash-Liteをプレビュー公開、コスト効率重視の新モデル

X: Google AI·3月7日

LLMエージェントとR統計の統合

分布認識検索によるLLMエージェントとR統計エコシステムの連携

X: AK·3月7日

GPT-5.4 APIガイド更新

GPT-5.4 API向けプロンプトガイドが更新され、エージェントパターンが追加

X: OpenAI Developers·3月7日

マイクロソフト、グーグル、アマゾンはAnthropic Claudeが非防衛顧客に引き続き利用可能と表明

マイクロソフト、グーグル、アマゾンは、トランプ政権の国防省とAnthropicの対立が、自社製品を通じてClaudeを利用する他企業に影響しないと発表した。

TechCrunch AI·3月7日

Claude Opus 4.6評価結果

AnthropicがClaude Opus 4.6のBrowseComp評価結果を公開

X: Anthropic·3月7日

新研究がAIコーディングにおけるAGENTS.mdファイルの価値を再評価

ETH Zurichの研究者が、AGENTS.mdファイルはAIコーディングエージェントの妨げになることが多いと結論付け、LLM生成のコンテキストファイルを完全に省略し、人間が書く指示は推測不可能な詳細に限定することを推奨した。

InfoQ·3月7日

ClaudeとFirefoxのセキュリティテスト

AnthropicとMozillaがClaudeの脆弱性発見能力をFirefoxでテスト

X: Anthropic·3月7日

Claude Marketplace発表

企業向けAIツール調達を簡素化するマーケットプレイス

X: Claude·3月7日

Anthropic契約のClaude利用可能

既存のAnthropic契約でClaude利用が可能に。組織向け新展開。

X: Claude·3月7日

AIモデルは自身の推論をほとんど制御できないが、OpenAIはそれが良い兆候だと主張

OpenAIがGPT-5.4の「CoT制御性」を初めて報告し、AIモデルが自身の推論を意図的に操作できるかを測定した。研究では推論モデルがほぼ普遍的にこの課題に失敗しており、OpenAIはAI安全性にとって励みになると述べている。

The Decoder·3月6日

バリャスニー・アセット・マネジメントが投資のためのAI研究エンジンを構築した方法

バリャスニー・アセット・マネジメントは、GPT-5.4、厳格なモデル評価、エージェントワークフローを用いたAI研究システムを構築し、大規模な投資分析を変革した。

OpenAI News·3月6日·★★★★

エージェントが説得するとき:LLMにおけるプロパガンダ生成と緩和

研究チームが、LLMベースのエージェントがプロパガンダ目的で操作され、扇動的なコンテンツを生成する可能性を調査した。プロパガンダ分類モデルと修辞技法検出モデルを用いて出力を分析した。

ArXiv cs.AI·3月6日·★★★★

Mozillaとの提携によるFirefoxのセキュリティ向上

MozillaがFirefoxブラウザのセキュリティ向上のために提携を発表した。具体的な技術的改善内容は明記されていないが、ブラウザセキュリティ分野での協力関係構築を示している。

Anthropic News·3月6日·★★★★

GPT-5.4がGitHub Copilotで一般提供開始

OpenAIは最新のエージェント型コーディングモデルGPT-5.4をGitHub Copilotで展開開始した。実世界テストで成功率向上、複雑な多段階プロセスにおける論理的推論とタスク実行能力が強化されている。

GitHub Changelog·3月6日·★★★★

GPT-2モデル2時間で学習

nanochatがGPT-2相当モデルを8XH100ノード1台で2時間で学習可能に

X: Andrej Karpathy·3月6日·★★★★

OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合

OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。

The Decoder·3月6日·★★★★

GPT-5.4高速化

GPT-5.4が1.5倍高速化、知性は維持

X: OpenAI Developers·3月6日

GPT-5.4とGPT-5.4 Thinking提供開始

PerplexityでGPT-5.4とGPT-5.4 ThinkingがPro/Maxユーザー向けに利用可能に

X: Perplexity·3月6日

GPT-5.4 APIリリース

GPT-5.4がAPIとCodexで利用可能に、本日中に展開

X: Sam Altman·3月6日·★★★★

GPT-5.4 Windsurfで公開

GPT-5.4がWindsurfで利用可能に、複数推論機能搭載

X: Windsurf·3月6日

GPT-5.4リリース開始

GPT-5.4がChatGPTとCodexで段階的に展開開始。APIでも利用可能に。

X: OpenAI Developers·3月6日·★★★★

GPT-5.4発表、新機能搭載

GPT-5.4リリース、コンピュータ操作機能と最大100万トークン対応

X: OpenAI Developers·3月6日·★★★★

GPT 5.4がCursorで利用可能に

CursorでGPT 5.4が公開。より自然で確信的な応答を実現。

X: Cursor·3月6日

GPT-5.4発表

OpenAIがGPT-5.4を発表。事実性と効率性を向上

X: OpenAI·3月6日·★★★★

GPT-5.4新モデル発表

GPT-5.4 ThinkingとPro版がChatGPTで提供開始

X: OpenAI·3月6日·★★★★

LTX-2.3モデル公開

LTX-2.3モデルがHugging Faceでリリースされました

X: AK·3月6日

GPT-5.4がWindsurfで利用可能に

WindsurfがGPT-5.4を複数の推論努力レベルで提供開始し、期間限定でセルフサービスユーザー向けに1倍クレジットからのプロモーション価格を設定した。

Windsurf Blog·3月5日

GPT-5.4 思考システムカード

OpenAIがGPT-5.4の思考システムカードを公開し、AIモデルの内部推論プロセスを透明化する新たな説明可能性フレームワークを導入した。

OpenAI News·3月5日·★★★★

GPT-5.4の紹介

OpenAIが、プロフェッショナル向けに最も高性能で効率的なフロンティアモデル「GPT-5.4」を発表した。最新のコーディング、コンピュータ使用、ツール検索機能と100万トークンのコンテキストを備えている。

OpenAI News·3月5日·★★★★

AIの労働市場への影響:新たな測定方法と初期の証拠

研究者がAIの労働市場への影響を評価する新たな測定方法を開発し、初期の証拠を示した。

Anthropic Research·3月5日·★★★★

AI翻訳の3つの進化段階:プロンプト時代→推論モデル時代→エージェント時代

著者がAI翻訳ツール開発で経験した3段階の進化を解説。プロンプト設計から推論モデル活用、自律的エージェントへの発展過程と、翻訳品質向上のための設計原則を共有。

宝玉的分享·3月5日

JAXでLLM構築コース公開

Andrew Ng氏とGoogleがJAXを使ったLLM構築コースを提供開始

X: Andrew Ng·3月5日

生成報酬モデルの新手法

長さスケーリングを超えた生成報酬モデルの新たなアプローチ

X: AK·3月5日

Meta、年額最大5000万ドルのAI契約をニューズ・コープと締結

Metaは年額最大5000万ドルでニューズ・コープからAI学習データを購入する複数年契約を結んだ。個別の出版社には有益だが、業界全体には悪影響と指摘されている。

The Decoder·3月5日

Qwen 3.5ファミリー発表

Qwenが新モデルファミリーをリリース、AI専門家向け情報

X: Simon Willison·3月5日

Gemini 3.1 Flash-Lite発表

Demis Hassabisが高速・低コストの新AIモデルを発表

X: Demis Hassabis·3月4日

ドナルド・クヌースが引用

ドナルド・クヌース氏は、数週間取り組んでいた未解決問題が、Anthropic社が3週間前にリリースしたハイブリッド推論モデル「Claude Opus 4.6」によって解決されたと報告した。この経験から、生成AIに関する自身の見解を改める必要があると述べている。

Simon Willison Blog·3月4日·★★★★

Google AI Studioで3.1 Flash-Lite活用

小売業向けエージェントを構築、計画・実行機能を実現

X: Google AI·3月4日