Anthropic has caught up to OpenAI in image understanding｜Anthropic、画像理解能力で OpenAI に追いつく | AIニュース最前線

火曜日、Anthropic は Claude Mythos 5 と Claude Fable 5 という 2 つの新しいモデルをリリースしました。内部構造を見ると、この 2 つのモデルは非常に似ています。どちらも Anthropic が 2 ヶ月前に発表（ただし一般公開は行わなかった）した Claude Mythos Preview の派生バージョンです。両者を区別するのは、どのようにしてリリースされるかという点です。 Mythos の新バージョンはオリジナルと同様、Project Glasswing というプロジェクトの下で手選定された組織のみが利用可能です。これらの信頼できるパートナーには、比較的制限の少ないアクセス権が付与されます。 一方、Fable は一般公開されています。ただし、いくつかの重要な制限があります。新しいシステムは、顧客がハッキングや生物兵器の設計など危険なリクエストを行ったと判断した場合に自動的に検出し、それらをより能力の低い Claude Opus 4.8（Opus）へ自動転送しようとします。 Mythos と Fable は、コーディング能力において前モデルからの大きな飛躍であり、過去 1 年間の傾向を継続するものです。しかし、他の機能においてはモデルの進歩は限定的です。 例えば、フロンティアモデル（最先端モデル）は歴史的に画像理解で苦戦してきました。これは私が 2024 年と 2025 年に詳しく記録した事実です。最近まで、主要なモデルはアナログ時計を読むや画像内のアイテム数を数えるといった単純なタスクでも困難を極めていました。 そこで公式発表記事を読み進めていた際、この一文が私の目を引きました。「Fable 5 は、ビジョン（視覚）関連のタスクにおける新たな最先端モデルです」 これらのタスク自体はそれほど重要ではありませんが、現代の AI 業界で広く信じられている仮説に対する興味深いテストケースとなっています。すなわち、「十分なデータと計算資源があれば、最先端モデルは真に汎用的な知能を発達させる」という仮説です。新しいモデルが数学やコーディングでは劇的に優れている一方で、画像理解においてはわずかにしか向上していない場合、それは真に汎用的な知能はまだ遠くにある可能性を示唆しています。 そこで私は、Fable 5 とその主要な競合他社のビジョン（視覚）能力を評価することを決めました。これは今年 8 月の GPT-5 に関する記事以来のことです。 私の調査では、Claude Fable 5 と GPT-5.5（ただし Google の Gemini モデルは除く）が、昨年のトップモデルたちを悩ませた多くの画像ベースの問題を一貫して解決できることが分かりました。Fable 5 はこれらのタスクにおいて GPT-5.5 よりもわずかに優れていると言えますが、その差は非常に僅かです。 しかし、これらのモデルにおける進歩はそれほど大きなものではありません。GPT-5.5 と Claude Fable 5 は依然として、幼児レベルの幾何学的推論能力しか有していません。この種のタスクで人間を超えた性能を達成するためには、より根本的なアーキテクチャ（構造）の革新が必要となる可能性があります。 さらに詳しく読む

Anthropic、画像理解能力で OpenAI に追いつく

背景や根拠まで確認しますか？

関連記事