Smol AI News·2026年6月5日 14:44·約1分

今日は何も起こらなかったわけではない：Anthropic の新モデルと Sakana AI の研究プログラムに注目が集まる

#LLM #エージェント #ベンチマーク #自己改善 (RSI)#Anthropic #Sakana AI

TL;DR

Anthropic の最新モデル評価や Sakana AI の研究プログラム、そして新しいエージェントベンチマークの導入により、AI エージェントの実用性と信頼性に関する業界の認識が再定義されている。

AI深層分析2026年7月4日 22:07

重要/ 5段階

深度40%

キーポイント

Anthropic モデルの評価と課題

Claude Mythos のワンショットワークフローへの評価が高い一方で、Opus 4.8 のベンチマーク低下や化学タスクにおける強さなど、モデルごとの特性に大きなばらつきが見られる。

Sakana AI の自己改善研究の正式化

計算資源制約下での再帰的自己改善（RSI）に焦点を当てた「RSI Lab」を設立し、この分野の研究プログラムとして公式化した。

新ベンチマークによるエージェントの限界暴露

長期的・経済的意義を持つタスクを試す ALE や SWE-Marathon などの新基準で、現在のエージェントは合格率低く、一貫性の課題が浮き彫りになった。

主要モデルの信頼性不足と評価ツールの進化

GPT-5.5 や Gemini 3.1 Pro など主要モデルも依然として信頼性に欠けるという研究結果があり、Meta の OpenEnv に代表される RL 環境型フレームワークが評価ツールとして注目されている。

影響分析・編集コメントを表示

影響分析

この記事は、AI エージェント技術が単なる性能向上から「信頼性」と「長期的タスク実行能力」へと焦点を移す転換点にあることを示しています。特に新ベンチマークの導入と主要モデルの評価結果は、開発者や企業に対して、現在の AI 技術を過信せず、厳格な評価フレームワークの導入が不可欠であることを警告しています。

編集コメント

業界が「性能」から「信頼性」という次のハードルへ移行していることを示す重要な指標記事です。特に新ベンチマークの結果は、実務での AI 導入において過剰な期待を抑制する役割を果たすでしょう。

Anthropic の Mythos/Opus シリーズは、Claude Mythosのワンショットワークフローへの称賛とOpus 4.8のベンチマークでの後退への懸念という、混在する反応を引き起こしました。Opus 4.7は化学タスクにおいて顕著なパフォーマンスを示し、「Claude を化学者にした」と評されました。Sakana AIは計算リソース制約下における再帰的自己改善（RSI: Recursive Self-Improvement）に焦点を当てたRSI Labを立ち上げ、RSI を正式な研究プログラムとして位置づけました。新しいベンチマークであるAgents' Last Exam (ALE)およびSWE-Marathonは、長期かつ経済的意義のあるタスクにおいてエージェントを検証しますが、その結果、合格率が低く、一貫性に関する課題が浮き彫りとなりました。プリンストン大学の ICML 2026 の論文では、GPT 5.5、Gemini 3.1 Pro / 3.5 Flash、そしてClaude Opus 4.7といったモデルがいまだに意味のある信頼性の向上を欠いていることが示されました。ツールの動向は、エージェント評価において RL（強化学習）環境スタイルのフレームワークを支持するものであり、Meta のOpenEnvがその好例です。

原文を表示

Anthropic's Mythos/Opus cycle sparked mixed reactions with praise for Claude Mythos's one-shot workflows and concerns over Opus 4.8 benchmark regressions. Opus 4.7 showed strong chemistry task performance, "making Claude a chemist." Sakana AI launched an RSI Lab focusing on recursive self-improvement under compute constraints, marking RSI as a formal research program. New benchmarks like Agents' Last Exam (ALE) and SWE-Marathon test agents on long-horizon, economically meaningful tasks, revealing low pass rates and coherence challenges. Princeton's ICML 2026 paper found models like GPT 5.5, Gemini 3.1 Pro / 3.5 Flash, and Claude Opus 4.7 still lack meaningful reliability improvements. Tooling trends favor RL-environment-style frameworks for agent evaluation, exemplified by Meta's OpenEnv.