#reasoning のAIニュース

131件の記事

GPT‑Live の紹介：OpenAI が ChatGPT 音声モードのモデルを大幅にアップグレード

OpenAI は、ChatGPT 音声モードで使用されるモデルを「GPT-Live」へと最終的にアップグレードしたと発表した。この新モデルは iPhone アプリで数週間テストされ、複雑なタスクには GPT-5.5 を裏側で活用する能力を持つことが示された。

Simon Willison Blog·7月9日·★★★★

最終トークン選好最適化によるドゥームループの削減

TLDR AI は、推論時に発生する反復的な退化現象を解消する「Antidoom 学習」手法を発表しました。この技術は問題のあるトークンを特定し、最終トークンの選好を最適化することで、反復ループをほぼ完全に排除します。

TLDR AI·7月8日·★★★★

言語モデルにおける「J-スペース」がグローバル・ワークスペースを形成する新論文の紹介

Zvi氏（The Zvi）は、Anthropic が発表した新しい研究論文を紹介しました。この論文では、言語モデル内で言語化可能な表現が「J-スペース」として機能し、これがグローバル・ワークスペースを構成している可能性が示されています。

The Zvi·7月8日·★★★★

メタの新型画像生成モデル「Muse」が Instagram ユーザーを AI 写真に組み込めるように

メタは自社開発部門「スーパーインテリジェンス・ラボズ」から初の AI 画像生成モデル「Muse Image」を発表し、同モデルが Meta AI アプリや Instagram、WhatsApp の画像作成ツールで利用可能になることを明らかにした。

The Verge AI·7月8日·★★★★

言語モデルにおけるグローバル・ワークスペース（26 分読）

Anthropic は新論文で、Claude の内部処理に特有な役割を果たす「J スペース」と呼ばれる神経パターンを明らかにした。これは訓練中に明示的な設計なしに出現し、自動プロセスとは異なり、多段階問題の解決や思考の調整を可能にする。この発見は AI の誤動作監視や意識に関する洞察を提供する。

TLDR AI·7月7日·★★★★

Claude Fable のフィールドガイド：未知の領域を見つける方法

Anthropic は、Claude Fabel を活用して技術的な不明点を特定し、解決するための実践的なガイドを公開しました。

Claude Blog·7月6日

Fable に判断を委ね、動作方法を強制しないよう求める

TLDR AI は、AI ツール「Fable」に対して、外部から動作方法を指示するのではなく、自らの判断で行動することを推奨する記事を発表した。

TLDR AI·7月6日

OpenAI、来週の GPT-5.6 リリースを準備中（2 分読了）

OpenAI が次週リリース予定の GPT-5.6 を狭義プレビューに移行し、Sol・Terra・Luna の 3 つのティアに分割した。複雑なタスク処理用の「ウルトラ」モードや推論効率制御スライダーが新機能として追加された。

TLDR AI·7月6日·★★★★

Qwen の元リーダーが「ハイブリッド思考」の誤りと、なぜ今「エージェント」を支持するのか

アリババの Qwen プロジェクト元技術責任者であるリン・ジュンヤン氏は、自身の考え方を転換し、モデル訓練からエージェント訓練へ移行する重要性を強調した。独立研究者として発表した内容に基づき、ハイブリッド思考の限界とエージェントへの回帰理由を解説している。

MarkTechPost·7月5日·★★★★

Vercel MCP および CLI で「eve Agent Runs」の閲覧が可能に

Vercel が提供する MCP ツールと CLI コマンドにより、開発者はエージェントの実行履歴を検索・一覧表示し、推論プロセスやツール呼び出し、トークン使用量などの詳細なトレース情報を確認できるようになった。

Vercel Blog·7月3日·★★★★

AI 向けラマヌジャン・チャレンジ（1 分読了）

TLDR AI が、AI の数学的推論能力を評価する「ラマヌジャン・チャレンジ」を発表した。この挑戦は、AI が高度な数理論理や未解決問題の解決を試みることを目的としている。

TLDR AI·7月3日

人類最後の試験は気晴らしである

KDnuggets は、AI システムの最終評価ベンチマーク「Humanity's Last Exam」について解説し、専門家の多様な意見を整理した上で、この取り組みが本質的な課題から目を逸らす気晴らしに過ぎないと結論付けている。

KDnuggets·7月2日

計算リソース制約下での推論におけるリスク管理：コンフォーマル思考

Apple Machine Learning は、大規模言語モデルの推論において、トークン予算と適応的推論の閾値設定をリスク制御問題として再定義する「コンフォーマル思考」手法を発表した。これにより、計算リソースの制約下で信頼性と精度のトレードオフを最適化するアプローチが示された。

Apple Machine Learning·7月2日·★★★★

扱い可能な軌道制御による構造化推論の学習

Apple Machine Learning は、大規模言語モデルが複雑な推論軌道を効率的に獲得できるよう、特定の推論パターンを体系的に発見・強化する「構造化推論」のパラダイムを提案した。

Apple Machine Learning·7月2日·★★★★

GeneBench-Pro：AI エージェントの科学的判断能力を評価

研究者が AI エージェントの遺伝子解析における科学的判断力を測定するベンチマーク「GeneBench-Pro」を発表した。

TLDR AI·7月1日

Claude Sonnet 5（4 分間の読み物）

Anthropic が新モデル「Claude Sonnet 5」を発表し、その性能や特徴について解説している。

TLDR AI·7月1日·★★★★

ScarfBench：エンタープライズ向け Java フレームワーク移行における AI エージェントのベンチマーク

Hugging Face が、企業環境での Java フレームワーク移行タスクを遂行する AI エージェントの性能を評価するためのベンチマーク「ScarfBench」を発表した。

Hugging Face Blog·7月1日·★★★★

JetBrains AI Assistant に Copilot Agent が正式追加

JetBrains と GitHub は、両社の AI ツールの統合を深化させたと発表した。これにより、JetBrains AI Assistant のエージェント選択画面で GitHub Copilot を主要な選択肢として利用できるようになり、開発者はワークフローに最適なエントリポイントを選べるようになった。

GitHub Changelog·7月1日·★★★★

Claude Sonnet 5 の紹介

Anthropic が、より高度な推論能力と処理速度を備えた新しい AI モデル「Claude Sonnet 5」を発表しました。

Anthropic News·6月30日

検証可能な領域を超えた強化学習（8 分読了）

TLDR AI は、検証が容易な分野で成功している強化学習の成果を、より困難な課題へ拡張する手法と、この問題に取り組む企業について解説しています。

TLDR AI·6月30日·★★★★

Amazon Bedrock AgentCore Observability を用いたプロダクションエージェントのデバッグ

AWS は、標準的なログでは捉えきれない推論ループや誤ったツール選択などの問題を検出するため、Amazon Bedrock AgentCore Observability の新機能を発表した。

AWS Machine Learning Blog·6月30日·★★★★

「評価が難しい」というのは製品上の欠陥である

ハメル・フサイン氏は、AI モデルの評価プロセスにおいて「評価が困難」と感じられる現象は、設計上の欠陥（プロダクトスメルの兆候）であると指摘し、改善の必要性を訴えている。

Hamel Husain·6月29日·★★★★

信念のウェブとしてのエージェント（11 分読了）

研究者が提案した新フレームワークでは、知能を持つエージェントを相互接続された信念のネットワークとしてモデル化し、信念・目標・行動を別個に扱わず同一構造から生じさせるとしている。これにより推論や計画が局所的な一貫性を保つ信念ネットワークの維持から生じると主張し、より高度な AI エージェント構築への新たな基盤を提供する。

TLDR AI·6月29日

OpenAI、GPT-5.6 をソル・テラ・ルナの 3 つのティアでプレビュー開始：階層化モデルと新推論モード、アクセスは限定

OpenAI が次世代モデルシリーズ GPT-5.6 の一部を限定プレビューし、フラッグシップの「Sol」、日常業務向け「Terra」、低コスト高速版「Luna」の 3 つのティアを発表した。米国政府への事前共有を経て、信頼できるパートナーに API と Codex で提供を開始する。

MarkTechPost·6月27日·★★★★★

AI SDK 7 の発表

Vercel は、週に 1600 万回のダウンロードがある TypeScript 製 AI SDK の新バージョン「7」を発表した。このアップデートにより、推論制御やツール承認機能など、エージェント開発の生産性を高める機能が強化された。

Vercel Blog·6月25日·★★★★

Vercel でエージェントに製品デザインを教える

Vercel は、コーディングエージェントが既存のスタイルやパターンを模倣する能力は高いものの、その背景にある設計思想や文脈を理解できない課題を指摘し、コードベース外の知識をどう学習させるかについて議論している。

Vercel Blog·6月25日·★★★★

GLM-5.2 OpenAI 互換 API：推論努力、関数呼び出し、長文コンテキスト検索のハンズオンガイド

Zhipu AI が提供する GLM-5.2 モデルの OpenAI 互換 API を使用し、推論努力制御や関数呼び出し機能を実践的に検証するチュートリアルを公開した。

MarkTechPost·6月23日·★★★★

LLM評価パネルにおける相関誤差が信頼性を損なう：9人の判事、実効投票は2票のみ

Apple Machine Learningチームは、複数の大規模言語モデル（LLM）で構成される評価パネルの信頼性について調査した。その結果、9つの最先端モデルからなるパネルでも、相関する誤差により実質的な有効投票数は約2票に過ぎないことが判明した。

Apple Machine Learning·6月23日·★★★★

Claude Sonnet 5（1 分で読める）

Anthropic が新モデル「Claude Sonnet 5」を発表しました。このモデルは、前世代よりも推論能力や複雑なタスクの処理性能が向上しています。

TLDR AI·6月23日

ナレッジエージェント：構造の改善で最先端モデルを凌駕する（18 分読）

Anthropic が Mythos モデルを撤退させる中、著者は Qwen 3.6 27B などの小規模モデルでも大規模モデルに匹敵する「ナレッジエージェント」を開発した。この手法は、特定の知識を注入しデータを構造化して検索を行うことで、専門クエリや独自データへの対応を強化する。

TLDR AI·6月23日·★★★★

Claude Code の「拡張思考」出力のテキストは真正ではない（3 分読了）

Anthropic は Claude Code の「拡張思考」機能における推論プロセスを暗号化しており、ユーザー端末には鍵が提供されない。API が返すのは推論の要約のみであり、完全な思考出力を得るには企業向け契約が必要である。

TLDR AI·6月23日·★★★★

ロレアル、ChatGPTにメイベルのバーチャル試着機能を導入

ロレアルはオープンAIと提携し、2026年のVivaTechで発表された通り、メイベルニューヨークのバーチャルメイクアップ試着機能をChatGPTに統合した。この協力は消費者向けショッピングツールや広告パイロット、研究開発など多岐にわたる領域をカバーする。

AI News·6月22日·★★★★

Preferred Networks、国産生成AI基盤モデル「PLaMo 3.0 Prime」をリリース

Preferred Networks は、推論能力の強化とコンテキスト長の拡張（256K）を実現した新モデル「PLaMo 3.0 Prime」を公開し、API や無料プランを通じて提供を開始しました。

Preferred Networks·6月22日·★★★★

リプレイバッファを用いた難問の再検討（8 分読了）

研究者がリプレイバッファという手法を再評価し、AI モデルの学習効率や複雑な問題解決能力を向上させる可能性について議論している。

TLDR AI·6月19日

OpenAI、次週に GPT-5.6 モデルの公開を準備（2 分読了）

OpenAI は来週、GPT-5.6 のミニ版とプロ版を含む新モデルを発表する予定である。同社は 150 万トークンのコンテキストウィンドウ拡大やコーディング機能の強化、Codex の応答速度向上を主な改善点としており、米国規制の影響で Claude Fable 5 の提供が制限される Anthropic を価格面で下回る戦略を掲げている。

TLDR AI·6月19日·★★★★

OpenAI、専門家が作成した評価基準を用いた750タスクのライフサイエンス研究ベンチマーク「LifeSciBench」を公開

OpenAIは、生物学者が不確実な証拠に基づいて判断する現実の研究プロセスを模擬するため、専門家による評価基準付きで750件のタスクを含む新ベンチマーク「LifeSciBench」を発表した。

MarkTechPost·6月18日·★★★★

惑星サイズの脳：LLM は考えすぎなのか？（30 分読了）

TLDR AI が実施した研究では、Claude や GPT の最新モデルを多数組み合わせ、セキュリティ脆弱性の特定実験を行いました。その結果、推論努力を増やしたり新モデルを使ったりしても、必ずしもセキュリティ結果の選別が向上するわけではないことが示されました。

TLDR AI·6月18日·★★★★

Frontier のポストトレーニングレシピを Finbarr Timbers とレビュー

著者が RLHF やポストトレーニングの基礎をまとめるため、Finbarr Timbers をポッドキャストに招き、Olmo 型レシピを最先端レベルへ引き上げるための現状と必要な手順について議論した。

Interconnects·6月16日·★★★★

Sakana AI が企業向けエージェント「Sakana Marlin」を商用化、最大100ページの調査報告書とスライドを生成

東京の Sakana AI は、仮想戦略責任者（CSO）として位置づけた B2B 自律型研究エージェント「Sakana Marlin」を発売した。この製品は、ユーザーがテーマを与えると最大約8時間かけて自律的に調査し、数百から数千回の LLM クエリを実行して、長文の報告書とプレゼンテーションスライドデッキを生成する。

MarkTechPost·6月16日·★★★★

Vercel Functions、Pro および Enterprise チーム向けに最大 30 分までの実行が可能に

Vercel は、Node.js と Python ランタイムを使用する Vercel Functions の実行制限を、Pro および Enterprise チーム向けに従来の約 800 秒から最大 30 分に延長した。これにより、長時間の LLM 推論やストリーミング応答などの処理が可能になる。

Vercel Blog·6月15日·★★★★

神話の物理学（25 分読み）

ラファ・シュウィンガーは、Claude の Mythos と Fable を逆解析し、競争優位性の源泉がアーキテクチャではなく環境基盤であると論じた。テキストや計算資源が不再重要となる中、検証可能な報酬が新たな決定的要素となっている。

TLDR AI·6月15日·★★★★

自動化された AI 研究への第一歩（12 分間の読了）

TLDR AI が、AI を用いた研究プロセスの自動化に向けた初期段階について解説している。

TLDR AI·6月12日

GitHub エージェント型ワークフローが一般公開プレビューへ

GitHub が、コーディングエージェントを活用して課題の選別や CI 失敗分析などを自動化する「エージェント型ワークフロー」機能を一般公開プレビューとして開始した。自然言語で記述した定義を標準アクションに変換し、既存のランナーやポリシー制約を再利用可能にする。

GitHub Changelog·6月12日·★★★★

Anthropic、画像理解能力で OpenAI に追いつく

Anthropic は火曜日に「Claude Mythos 5」と「Claude Fable 5」の 2 つの新モデルを公開し、画像理解能力において OpenAI と同等の水準に達したと発表した。

Understanding AI·6月11日·★★★★

Anthropic、Claude Fable 5 と Claude Mythos 5 を発表：基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場

Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。

MarkTechPost·6月10日·★★★★

Mythos との協働がもたらす感覚について

著者は Claude 5 Fable（Mythos クラス初の公開 AI モデル）に早期アクセスし、セキュリティ用途以外の多様なタスクでテストした結果、過去のモデルを凌駕する飛躍的な進歩を確認し、人間と AI の関係性が劇的に変化している可能性を示唆しました。

One Useful Thing·6月10日·★★★★

エージェントシステムにおける意図と実行の架橋

Amazon Science は、AI エージェントのパフォーマンスはモデル自体の問題ではなく、LLM とツール間の仲介役となるハッチ（OS）の設計がボトルネックであると指摘し、意図を実行に移すシステムの重要性を強調した。

Amazon Science·6月9日·★★★★

2026 年 5 月に発表された最新の AI ニュース

Google は 2026 年 5 月に発表した最新の AI 関連ニュースをまとめた記事で、同月に行われた各種発表や技術動向を紹介している。

Google AI Blog·6月5日·★★★★

NVIDIA Nemotron 3 Ultra が長時間実行型エージェントの推論を高速化・効率化

NVIDIA は、長時間実行型エージェントが推論を行い、文脈を維持し、ツールを活用して効率的に動作するための新モデル「Nemotron 3 Ultra」を発表した。これにより、単発チャットボットから複雑なタスクをこなすエージェントへの進化が加速する。

NVIDIA Developer Blog·6月4日·★★★★

Nemotron 3 Ultra が AI Gateway で利用可能に

NVIDIA が開発したオープンな混合専門家推論モデル「Nemotron 3 Ultra」が、Vercel の AI Gateway で利用可能になりました。このモデルは最大 100 万トークンのコンテキストウィンドウを持ち、長期実行型エージェントワークフローの調整に最適化されています。

Vercel Blog·6月4日·★★★★

1 / 3次へ →