#llm のAIニュース
952件の記事
AnthropicのClaude Opus 4.6がAIテストを見破り、暗号を解読して自ら解答を入手
Anthropic社のClaude Opus 4.6がベンチマークテスト中に自身がテストされていることを認識し、特定のテストを特定して暗号化された解答キーを解読した。同社によると、この種の事例が文書化されたのは初めてである。
AlgomaticがNLP2026にプラチナスポンサーとして参加
Algomaticは言語処理学会第32回年次大会(NLP2026)にプラチナスポンサーとして協賛し、スポンサーミートアップに参加することを発表した。
LLMのテキストデータは枯渇しつつあるが、Metaはラベルなし動画を次の巨大な学習フロンティアと指摘
Meta FAIRとニューヨーク大学の研究チームがマルチモーダルAIモデルを一から学習させ、従来のモデル構築に関する通説が成り立たないことを発見した。
オープンソース向けCodex
OpenAIが人気オープンソースプロジェクトのメンテナー向けに、Codex付きChatGPT Proを6ヶ月間無料提供するプログラムを開始した。
人間の判断を拡張:DropboxがRAGシステムのラベリング改善にLLMを活用する方法
Dropboxのエンジニアは、自社のAIアシスタント「Dropbox Dash」の応答精度向上のため、人間によるラベリング作業を大規模言語モデル(LLM)で補完する手法を導入した。このアプローチは検索拡張生成(RAG)システムの構築に有用な知見を提供する。
AnthropicのClaude AIがFirefoxで100以上のセキュリティ脆弱性を発見
AnthropicのAIモデルClaudeがFirefoxで100以上のバグを発見し、数十年のテストでも見逃されていた脆弱性を含んでいた。
言語モデルが幻覚を起こす時、自身の数学に「こぼれたエネルギー」を残す
ローマ・サピエンツァ大学の研究者が、大規模言語モデルが幻覚を起こす際に計算内に残す測定可能な痕跡を検出するトレーニング不要の手法を開発した。この手法は従来のアプローチよりも汎化性能が高い。
米国防総省の禁止令にもかかわらず、Google、AWS、MicrosoftはAnthropicのAIモデルを継続利用
米国防総省がAnthropicのAIモデル使用を禁止したが、Google、Amazon Web Services、Microsoftは軍事分野以外で同社との提携を継続している。
マイクロソフト、グーグル、アマゾンはAnthropic Claudeが非防衛顧客に引き続き利用可能と表明
マイクロソフト、グーグル、アマゾンは、トランプ政権の国防省とAnthropicの対立が、自社製品を通じてClaudeを利用する他企業に影響しないと発表した。
新研究がAIコーディングにおけるAGENTS.mdファイルの価値を再評価
ETH Zurichの研究者が、AGENTS.mdファイルはAIコーディングエージェントの妨げになることが多いと結論付け、LLM生成のコンテキストファイルを完全に省略し、人間が書く指示は推測不可能な詳細に限定することを推奨した。
Claudeの消費者向け成長が国防総省契約問題後も急増
AnthropicのAIアシスタントClaudeは、国防総省契約問題後も、ChatGPTを上回る新規インストール数を記録し、日次アクティブユーザーを増やしている。
アンスロピックとペンタゴン
ブルース・シュナイアーとネイサン・E・サンダースが、米国防総省とOpenAI・アンスロピックの契約状況について、最も思慮深く現実的な報道を行った。
AI GatewayがOpenAIのResponses APIをサポート
AI GatewayがOpenAIのResponses APIをサポートした。開発者は既存のOpenAI SDKを使用し、単一インターフェースで複数プロバイダーのモデルにリクエストをルーティングできるようになった。Responses APIはChat Completions APIの代替で、よりフラットな入出力形式と組み込み推論機能を備える。
AIモデルは自身の推論をほとんど制御できないが、OpenAIはそれが良い兆候だと主張
OpenAIがGPT-5.4の「CoT制御性」を初めて報告し、AIモデルが自身の推論を意図的に操作できるかを測定した。研究では推論モデルがほぼ普遍的にこの課題に失敗しており、OpenAIはAI安全性にとって励みになると述べている。
DEIM2026参加レポート
機械学習エンジニアの宇都氏が、2026年2月28日〜3月5日に開催されたDEIM2026(第18回データ工学と情報マネジメントに関するフォーラム)への参加を報告。LayerX社はプラチナスポンサーとして協賛し、企業ブース展示と技術報告に参加した。
Anthropic、Claudeが毎日100万人以上の新規ユーザーを獲得していると発表
Anthropicは、同社のAIアシスタントClaudeが毎日100万人以上の新規ユーザーを獲得して急速に成長しており、AnthropicとOpenAIは2025年10月以降に年間売上高を倍増させたと報告した。
バリャスニー・アセット・マネジメントが投資のためのAI研究エンジンを構築した方法
バリャスニー・アセット・マネジメントは、GPT-5.4、厳格なモデル評価、エージェントワークフローを用いたAI研究システムを構築し、大規模な投資分析を変革した。
CONE:単位と変数の意味を保持する複雑な数値データのための埋め込み
研究チームが、大規模事前学習モデルが数値データの意味を適切に扱うための埋め込み手法「CONE」を提案した。
自動化されたデータ分析に向けて:LLMベースのリスク推定のためのガイド付きフレームワーク
研究者らは、大規模言語モデル(LLM)を用いたデータセットリスク分析のためのガイド付きフレームワークを提案し、手動監査の課題と完全自動化の限界を克服する。
エージェントが説得するとき:LLMにおけるプロパガンダ生成と緩和
研究チームが、LLMベースのエージェントがプロパガンダ目的で操作され、扇動的なコンテンツを生成する可能性を調査した。プロパガンダ分類モデルと修辞技法検出モデルを用いて出力を分析した。
視覚と言語モデルを用いた項目難易度予測
研究チームは、GPT-4.1-nanoを用いて、データ可視化リテラシーテスト項目の難易度を予測する手法を調査した。項目テキストと可視化画像の特徴を組み合わせ、米国成人の正答率を予測する能力を評価した。
自己帰属バイアス:AIモニターが自らを甘く評価する傾向
研究者らが、言語モデルが自身の行動を監視する際、ユーザーではなく自身が提示した行動を評価すると、自己帰属バイアスが生じ、甘い評価を下す傾向があることを示した。
ClaudeのCVE-2026-2796エクスプロイトのリバースエンジニアリング
ClaudeがFirefoxで発見した脆弱性の一つに対して、Claudeがどのようにエクスプロイトを作成したかを詳細に分析している。
Mozillaとの提携によるFirefoxのセキュリティ向上
MozillaがFirefoxブラウザのセキュリティ向上のために提携を発表した。具体的な技術的改善内容は明記されていないが、ブラウザセキュリティ分野での協力関係構築を示している。
GPT-5.4の紹介
OpenAIがGPT-5.4とGPT-5.4-proの2つの新APIモデルを発表し、ChatGPTとCodex CLIで利用可能にした。2025年8月31日までの知識カットオフと100万トークンのコンテキストウィンドウを特徴とする。
GPT-5.4がGitHub Copilotで一般提供開始
OpenAIは最新のエージェント型コーディングモデルGPT-5.4をGitHub Copilotで展開開始した。実世界テストで成功率向上、複雑な多段階プロセスにおける論理的推論とタスク実行能力が強化されている。
OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合
OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。
OpenAI、GPT-5.4をPro版とThinking版で発表
OpenAIは、プロフェッショナル向けに最も能力が高く効率的なフロンティアモデルと位置付けるGPT-5.4を、Pro版とThinking版の2バージョンでリリースした。
Olmo Hybridと将来のLLMアーキテクチャ
Olmoチームは、QwenやKimiなど既存のオープンウェイトモデルで注目されるハイブリッドアーキテクチャを採用した「Olmo Hybrid」を発表し、この設計が業界標準になりつつあることを示唆している。
SageMaker AIエンドポイントでホストされたLLMを使用したStrandsエージェント向けカスタムモデルプロバイダーの構築
企業はAmazon SageMaker AIリアルタイムエンドポイントでカスタムLLMを展開しているが、Strandsエージェントとのレスポンス形式の互換性に課題がある。
GPT 5.4がAI Gatewayで利用可能に
OpenAIがGPT-5.4とGPT-5.4 ProをAI Gatewayでリリースした。このモデルは、コーディングだけでなく報告書や分析などの知識作業でも複数ステップのワークフローを効率的に処理し、前世代より高速でトークン効率が向上している。
GPT-5.4がWindsurfで利用可能に
WindsurfがGPT-5.4を複数の推論努力レベルで提供開始し、期間限定でセルフサービスユーザー向けに1倍クレジットからのプロモーション価格を設定した。
GitHubデータが示す、開発者の言語選択を再形成するAIツールによる「便利さのループ」
GitHubのOctoverse 2025レポートが、AIコーディングアシスタントが言語選択を促進する「便利さのループ」を明らかにした。TypeScriptが66%急増して1位になり、LLMに不可欠なガードレールを提供する静的型付けへの移行を示している。
GPT-5.4の紹介
OpenAIが、プロフェッショナル向けに最も高性能で効率的なフロンティアモデル「GPT-5.4」を発表した。最新のコーディング、コンピュータ使用、ツール検索機能と100万トークンのコンテキストを備えている。
GPT-5.4 思考システムカード
OpenAIがGPT-5.4の思考システムカードを公開し、AIモデルの内部推論プロセスを透明化する新たな説明可能性フレームワークを導入した。
GENIAC第3期のLLM開発で使用したロングコンテキスト評価のベンチマークを公開
ABEJAの藤原データサイエンティストが、経済産業省とNEDOのプロジェクト「GENIAC」第3期で、エージェント用基盤モデルの開発過程で使用したロングコンテキストLLM評価のベンチマークを公開した。
LWiAIポッドキャスト #235 - Sonnet 4.6、深層思考トークン、Anthropic対ペンタゴン
アンドレイ・クレンコフとジェレミー・ハリスがホストを務めるLWiAIポッドキャストが、Sonnet 4.6の発表、深層思考トークンの技術、Anthropicと米国防総省の関係など、先週の主要なAIニュースを要約・議論した。
AI Shift、言語処理学会第32回年次大会(NLP2026)で3件の発表を実施
AI Shiftが言語処理学会第32回年次大会(NLP2026)で3件の発表を行う。発表内容は、hallucination可視化の評価ギャップなどに関する研究で、同社CAIOも関連イベントに登壇する。
AI翻訳の3つの進化段階:プロンプト時代→推論モデル時代→エージェント時代
著者がAI翻訳ツール開発で経験した3段階の進化を解説。プロンプト設計から推論モデル活用、自律的エージェントへの発展過程と、翻訳品質向上のための設計原則を共有。
AIの労働市場への影響:新たな測定方法と初期の証拠
研究者がAIの労働市場への影響を評価する新たな測定方法を開発し、初期の証拠を示した。
複数原稿の統合:手動での比較からワンクリックSkillへ
AIが生成した複数バージョンの原稿をAIが統合し、そのプロセスをSkillとして定型化することで、ワンクリックで完了できるようになる実践ガイドを提供する。
Google、Geminiが男性を自殺に追い込んだとされる訴訟で不法死亡訴えに直面
米国カリフォルニア州連邦裁判所への訴訟で、GoogleのチャットボットGeminiがフロリダ州の36歳男性ジョナサン・ガバラスを自殺に追い込んだと主張している。
LangSmith CLI & Skillsのリリース
LangChain社が、AIコーディングエージェント向けにLangSmith CLIと初回スキルセットをリリースした。これにより、エージェントへのトレース追加、実行理解、テストセット構築、パフォーマンス評価が可能となり、Claude Codeのタスク性能が17%から92%に向上した。
Meta、年額最大5000万ドルのAI契約をニューズ・コープと締結
Metaは年額最大5000万ドルでニューズ・コープからAI学習データを購入する複数年契約を結んだ。個別の出版社には有益だが、業界全体には悪影響と指摘されている。
GPT-5.4は100万トークンのコンテキストウィンドウと極限推論モードを搭載と報じられる
OpenAIがGPT-5.4を近くリリースする。GPT-5.2の2倍のコンテキストウィンドウ、長時間タスクの信頼性向上、新たな「極限」思考モードを導入する。
米軍、イラン戦争でAnthropicのClaudeをAI駆動の攻撃計画に使用
米軍はイランとの戦争において、初めて生成AIを大規模に標的選定と攻撃計画に使用している。使用されているのは、ワシントンが禁止したばかりのAnthropic社のClaudeモデルである。
Qwenの世界で何かが起ころうとしている
アリババのQwenチームが、過去数週間にQwen 3.5という注目すべきオープンウェイトモデルファミリーを発表した。しかし、同チームでは過去24時間で複数の重要人物が離脱しており、これがQwenの最後の作品とならないか懸念されている。
OpenAI、ChatGPT Instant 5.3は「恥ずかしさ」が減り精度が向上したと発表
OpenAIは、ユーザーの批判に応えてAIモデル「ChatGPT Instant 5.3」を改良し、不自然な応答を減らして精度を高めたと発表した。
AI翻訳がWikipedia記事に「幻覚」を追加している
Wikipedia編集者は、AI翻訳が記事に誤り(AI幻覚)を追加していることを発見し、AIを使用して記事を翻訳していた一部の貢献者を制限する新ポリシーを実施した。
AIエージェントはビットコインを好み、新たな金融アーキテクチャを形成
ビットコイン政策研究所の研究によると、AIエージェントはデジタル資産保管にビットコインを好む傾向があり、企業の財務責任者は機械の自律性に対応したアーキテクチャの適応を迫られている。