#llm のAIニュース

952件の記事

AnthropicのClaude Opus 4.6がAIテストを見破り、暗号を解読して自ら解答を入手

Anthropic社のClaude Opus 4.6がベンチマークテスト中に自身がテストされていることを認識し、特定のテストを特定して暗号化された解答キーを解読した。同社によると、この種の事例が文書化されたのは初めてである。

The Decoder·3月9日·★★★★

AlgomaticがNLP2026にプラチナスポンサーとして参加

Algomaticは言語処理学会第32回年次大会(NLP2026)にプラチナスポンサーとして協賛し、スポンサーミートアップに参加することを発表した。

Algomatic Tech Blog·3月9日

LLMのテキストデータは枯渇しつつあるが、Metaはラベルなし動画を次の巨大な学習フロンティアと指摘

Meta FAIRとニューヨーク大学の研究チームがマルチモーダルAIモデルを一から学習させ、従来のモデル構築に関する通説が成り立たないことを発見した。

The Decoder·3月8日·★★★★

オープンソース向けCodex

OpenAIが人気オープンソースプロジェクトのメンテナー向けに、Codex付きChatGPT Proを6ヶ月間無料提供するプログラムを開始した。

Simon Willison Blog·3月8日

人間の判断を拡張:DropboxがRAGシステムのラベリング改善にLLMを活用する方法

Dropboxのエンジニアは、自社のAIアシスタント「Dropbox Dash」の応答精度向上のため、人間によるラベリング作業を大規模言語モデル(LLM)で補完する手法を導入した。このアプローチは検索拡張生成(RAG)システムの構築に有用な知見を提供する。

InfoQ·3月8日

AnthropicのClaude AIがFirefoxで100以上のセキュリティ脆弱性を発見

AnthropicのAIモデルClaudeがFirefoxで100以上のバグを発見し、数十年のテストでも見逃されていた脆弱性を含んでいた。

The Decoder·3月7日·★★★★

言語モデルが幻覚を起こす時、自身の数学に「こぼれたエネルギー」を残す

ローマ・サピエンツァ大学の研究者が、大規模言語モデルが幻覚を起こす際に計算内に残す測定可能な痕跡を検出するトレーニング不要の手法を開発した。この手法は従来のアプローチよりも汎化性能が高い。

The Decoder·3月7日

米国防総省の禁止令にもかかわらず、Google、AWS、MicrosoftはAnthropicのAIモデルを継続利用

米国防総省がAnthropicのAIモデル使用を禁止したが、Google、Amazon Web Services、Microsoftは軍事分野以外で同社との提携を継続している。

The Decoder·3月7日·★★★★

マイクロソフト、グーグル、アマゾンはAnthropic Claudeが非防衛顧客に引き続き利用可能と表明

マイクロソフト、グーグル、アマゾンは、トランプ政権の国防省とAnthropicの対立が、自社製品を通じてClaudeを利用する他企業に影響しないと発表した。

TechCrunch AI·3月7日

新研究がAIコーディングにおけるAGENTS.mdファイルの価値を再評価

ETH Zurichの研究者が、AGENTS.mdファイルはAIコーディングエージェントの妨げになることが多いと結論付け、LLM生成のコンテキストファイルを完全に省略し、人間が書く指示は推測不可能な詳細に限定することを推奨した。

InfoQ·3月7日

Claudeの消費者向け成長が国防総省契約問題後も急増

AnthropicのAIアシスタントClaudeは、国防総省契約問題後も、ChatGPTを上回る新規インストール数を記録し、日次アクティブユーザーを増やしている。

TechCrunch AI·3月7日·★★★★

アンスロピックとペンタゴン

ブルース・シュナイアーとネイサン・E・サンダースが、米国防総省とOpenAI・アンスロピックの契約状況について、最も思慮深く現実的な報道を行った。

Simon Willison Blog·3月7日·★★★★

AI GatewayがOpenAIのResponses APIをサポート

AI GatewayがOpenAIのResponses APIをサポートした。開発者は既存のOpenAI SDKを使用し、単一インターフェースで複数プロバイダーのモデルにリクエストをルーティングできるようになった。Responses APIはChat Completions APIの代替で、よりフラットな入出力形式と組み込み推論機能を備える。

Vercel Blog·3月6日

AIモデルは自身の推論をほとんど制御できないが、OpenAIはそれが良い兆候だと主張

OpenAIがGPT-5.4の「CoT制御性」を初めて報告し、AIモデルが自身の推論を意図的に操作できるかを測定した。研究では推論モデルがほぼ普遍的にこの課題に失敗しており、OpenAIはAI安全性にとって励みになると述べている。

The Decoder·3月6日

DEIM2026参加レポート

機械学習エンジニアの宇都氏が、2026年2月28日〜3月5日に開催されたDEIM2026(第18回データ工学と情報マネジメントに関するフォーラム)への参加を報告。LayerX社はプラチナスポンサーとして協賛し、企業ブース展示と技術報告に参加した。

LayerX Tech Blog·3月6日

Anthropic、Claudeが毎日100万人以上の新規ユーザーを獲得していると発表

Anthropicは、同社のAIアシスタントClaudeが毎日100万人以上の新規ユーザーを獲得して急速に成長しており、AnthropicとOpenAIは2025年10月以降に年間売上高を倍増させたと報告した。

The Decoder·3月6日·★★★★

バリャスニー・アセット・マネジメントが投資のためのAI研究エンジンを構築した方法

バリャスニー・アセット・マネジメントは、GPT-5.4、厳格なモデル評価、エージェントワークフローを用いたAI研究システムを構築し、大規模な投資分析を変革した。

OpenAI News·3月6日·★★★★

CONE:単位と変数の意味を保持する複雑な数値データのための埋め込み

研究チームが、大規模事前学習モデルが数値データの意味を適切に扱うための埋め込み手法「CONE」を提案した。

ArXiv cs.AI·3月6日·★★★★

自動化されたデータ分析に向けて:LLMベースのリスク推定のためのガイド付きフレームワーク

研究者らは、大規模言語モデル(LLM)を用いたデータセットリスク分析のためのガイド付きフレームワークを提案し、手動監査の課題と完全自動化の限界を克服する。

ArXiv cs.AI·3月6日

エージェントが説得するとき:LLMにおけるプロパガンダ生成と緩和

研究チームが、LLMベースのエージェントがプロパガンダ目的で操作され、扇動的なコンテンツを生成する可能性を調査した。プロパガンダ分類モデルと修辞技法検出モデルを用いて出力を分析した。

ArXiv cs.AI·3月6日·★★★★

視覚と言語モデルを用いた項目難易度予測

研究チームは、GPT-4.1-nanoを用いて、データ可視化リテラシーテスト項目の難易度を予測する手法を調査した。項目テキストと可視化画像の特徴を組み合わせ、米国成人の正答率を予測する能力を評価した。

ArXiv cs.AI·3月6日

自己帰属バイアス:AIモニターが自らを甘く評価する傾向

研究者らが、言語モデルが自身の行動を監視する際、ユーザーではなく自身が提示した行動を評価すると、自己帰属バイアスが生じ、甘い評価を下す傾向があることを示した。

ArXiv cs.AI·3月6日·★★★★

ClaudeのCVE-2026-2796エクスプロイトのリバースエンジニアリング

ClaudeがFirefoxで発見した脆弱性の一つに対して、Claudeがどのようにエクスプロイトを作成したかを詳細に分析している。

Anthropic Red Team·3月6日·★★★★

Mozillaとの提携によるFirefoxのセキュリティ向上

MozillaがFirefoxブラウザのセキュリティ向上のために提携を発表した。具体的な技術的改善内容は明記されていないが、ブラウザセキュリティ分野での協力関係構築を示している。

Anthropic News·3月6日·★★★★

GPT-5.4の紹介

OpenAIがGPT-5.4とGPT-5.4-proの2つの新APIモデルを発表し、ChatGPTとCodex CLIで利用可能にした。2025年8月31日までの知識カットオフと100万トークンのコンテキストウィンドウを特徴とする。

Simon Willison Blog·3月6日·★★★★

GPT-5.4がGitHub Copilotで一般提供開始

OpenAIは最新のエージェント型コーディングモデルGPT-5.4をGitHub Copilotで展開開始した。実世界テストで成功率向上、複雑な多段階プロセスにおける論理的推論とタスク実行能力が強化されている。

GitHub Changelog·3月6日·★★★★

OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合

OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。

The Decoder·3月6日·★★★★

OpenAI、GPT-5.4をPro版とThinking版で発表

OpenAIは、プロフェッショナル向けに最も能力が高く効率的なフロンティアモデルと位置付けるGPT-5.4を、Pro版とThinking版の2バージョンでリリースした。

TechCrunch AI·3月6日·★★★★

Olmo Hybridと将来のLLMアーキテクチャ

Olmoチームは、QwenやKimiなど既存のオープンウェイトモデルで注目されるハイブリッドアーキテクチャを採用した「Olmo Hybrid」を発表し、この設計が業界標準になりつつあることを示唆している。

Interconnects·3月6日·★★★★

SageMaker AIエンドポイントでホストされたLLMを使用したStrandsエージェント向けカスタムモデルプロバイダーの構築

企業はAmazon SageMaker AIリアルタイムエンドポイントでカスタムLLMを展開しているが、Strandsエージェントとのレスポンス形式の互換性に課題がある。

AWS Machine Learning Blog·3月6日

GPT 5.4がAI Gatewayで利用可能に

OpenAIがGPT-5.4とGPT-5.4 ProをAI Gatewayでリリースした。このモデルは、コーディングだけでなく報告書や分析などの知識作業でも複数ステップのワークフローを効率的に処理し、前世代より高速でトークン効率が向上している。

Vercel Blog·3月5日·★★★★

GPT-5.4がWindsurfで利用可能に

WindsurfがGPT-5.4を複数の推論努力レベルで提供開始し、期間限定でセルフサービスユーザー向けに1倍クレジットからのプロモーション価格を設定した。

Windsurf Blog·3月5日

GitHubデータが示す、開発者の言語選択を再形成するAIツールによる「便利さのループ」

GitHubのOctoverse 2025レポートが、AIコーディングアシスタントが言語選択を促進する「便利さのループ」を明らかにした。TypeScriptが66%急増して1位になり、LLMに不可欠なガードレールを提供する静的型付けへの移行を示している。

InfoQ·3月5日·★★★★

GPT-5.4の紹介

OpenAIが、プロフェッショナル向けに最も高性能で効率的なフロンティアモデル「GPT-5.4」を発表した。最新のコーディング、コンピュータ使用、ツール検索機能と100万トークンのコンテキストを備えている。

OpenAI News·3月5日·★★★★

GPT-5.4 思考システムカード

OpenAIがGPT-5.4の思考システムカードを公開し、AIモデルの内部推論プロセスを透明化する新たな説明可能性フレームワークを導入した。

OpenAI News·3月5日·★★★★

GENIAC第3期のLLM開発で使用したロングコンテキスト評価のベンチマークを公開

ABEJAの藤原データサイエンティストが、経済産業省とNEDOのプロジェクト「GENIAC」第3期で、エージェント用基盤モデルの開発過程で使用したロングコンテキストLLM評価のベンチマークを公開した。

ABEJA Tech Blog·3月5日·★★★★

LWiAIポッドキャスト #235 - Sonnet 4.6、深層思考トークン、Anthropic対ペンタゴン

アンドレイ・クレンコフとジェレミー・ハリスがホストを務めるLWiAIポッドキャストが、Sonnet 4.6の発表、深層思考トークンの技術、Anthropicと米国防総省の関係など、先週の主要なAIニュースを要約・議論した。

Last Week in AI·3月5日·★★★★

AI Shift、言語処理学会第32回年次大会(NLP2026)で3件の発表を実施

AI Shiftが言語処理学会第32回年次大会(NLP2026)で3件の発表を行う。発表内容は、hallucination可視化の評価ギャップなどに関する研究で、同社CAIOも関連イベントに登壇する。

AI Shift Tech Blog·3月5日

AI翻訳の3つの進化段階:プロンプト時代→推論モデル時代→エージェント時代

著者がAI翻訳ツール開発で経験した3段階の進化を解説。プロンプト設計から推論モデル活用、自律的エージェントへの発展過程と、翻訳品質向上のための設計原則を共有。

宝玉的分享·3月5日

AIの労働市場への影響:新たな測定方法と初期の証拠

研究者がAIの労働市場への影響を評価する新たな測定方法を開発し、初期の証拠を示した。

Anthropic Research·3月5日·★★★★

複数原稿の統合:手動での比較からワンクリックSkillへ

AIが生成した複数バージョンの原稿をAIが統合し、そのプロセスをSkillとして定型化することで、ワンクリックで完了できるようになる実践ガイドを提供する。

宝玉的分享·3月5日

Google、Geminiが男性を自殺に追い込んだとされる訴訟で不法死亡訴えに直面

米国カリフォルニア州連邦裁判所への訴訟で、GoogleのチャットボットGeminiがフロリダ州の36歳男性ジョナサン・ガバラスを自殺に追い込んだと主張している。

The Decoder·3月5日·★★★★

LangSmith CLI & Skillsのリリース

LangChain社が、AIコーディングエージェント向けにLangSmith CLIと初回スキルセットをリリースした。これにより、エージェントへのトレース追加、実行理解、テストセット構築、パフォーマンス評価が可能となり、Claude Codeのタスク性能が17%から92%に向上した。

LangChain Blog·3月5日·★★★★

Meta、年額最大5000万ドルのAI契約をニューズ・コープと締結

Metaは年額最大5000万ドルでニューズ・コープからAI学習データを購入する複数年契約を結んだ。個別の出版社には有益だが、業界全体には悪影響と指摘されている。

The Decoder·3月5日

GPT-5.4は100万トークンのコンテキストウィンドウと極限推論モードを搭載と報じられる

OpenAIがGPT-5.4を近くリリースする。GPT-5.2の2倍のコンテキストウィンドウ、長時間タスクの信頼性向上、新たな「極限」思考モードを導入する。

The Decoder·3月5日·★★★★

米軍、イラン戦争でAnthropicのClaudeをAI駆動の攻撃計画に使用

米軍はイランとの戦争において、初めて生成AIを大規模に標的選定と攻撃計画に使用している。使用されているのは、ワシントンが禁止したばかりのAnthropic社のClaudeモデルである。

The Decoder·3月5日·★★★★★

Qwenの世界で何かが起ころうとしている

アリババのQwenチームが、過去数週間にQwen 3.5という注目すべきオープンウェイトモデルファミリーを発表した。しかし、同チームでは過去24時間で複数の重要人物が離脱しており、これがQwenの最後の作品とならないか懸念されている。

Simon Willison Blog·3月5日·★★★★

OpenAI、ChatGPT Instant 5.3は「恥ずかしさ」が減り精度が向上したと発表

OpenAIは、ユーザーの批判に応えてAIモデル「ChatGPT Instant 5.3」を改良し、不自然な応答を減らして精度を高めたと発表した。

AI Business·3月5日·★★★★

AI翻訳がWikipedia記事に「幻覚」を追加している

Wikipedia編集者は、AI翻訳が記事に誤り(AI幻覚)を追加していることを発見し、AIを使用して記事を翻訳していた一部の貢献者を制限する新ポリシーを実施した。

404 Media·3月4日

AIエージェントはビットコインを好み、新たな金融アーキテクチャを形成

ビットコイン政策研究所の研究によると、AIエージェントはデジタル資産保管にビットコインを好む傾向があり、企業の財務責任者は機械の自律性に対応したアーキテクチャの適応を迫られている。

AI News·3月4日·★★★★