今日のオープンとクローズドモデルのパフォーマンス格差を読む
記事は、オープンモデルとクローズドモデルの性能差を単一の数値で評価することの限界を指摘し、ベンチマークと実世界のパフォーマンスの乖離、および評価指標そのものの進化について分析している。
キーポイント
ベンチマーク指標の限界
Artificial Analysis Intelligence Indexのような複合ベンチマークは、モデルの「距離」を単一数値で表すが、これは実際の能力分布やニュアンスを見誤らせる可能性がある。
ベンチマークと実利用の乖離
Gemini 3のような優れたベンチマークスコアを持つモデルでも、実際のエージェント環境やデプロイメント現場では無関係であるケースがあり、指標の信頼性が低下している。
評価パラダイムのシフト
ChatGPT後のチャット・数学から、現在は複雑なコーディングやアジェンティックタスクへ焦点が移行しており、12〜18ヶ月ごとに評価対象領域が変化している。
クローズドモデルの投資と展開
最先端ラボはコードやターミナルタスクの習得に莫大な資金を投じつつ、会計・法務・医療といった専門知識を必要とする多様なナレッジワーク領域へ展開を進めている。
データ取得の非対称性と学習レバンの変化
最先端ラボは高額な新規環境やデータを購入するが、追随者は後から安価に入手できる。また、中国のラボは蒸留(distillation)だけでなく、強化学習(RL)環境の構築にも注力する必要がある。
フロントティアラボの収益維持とイノベーション
モデル性能の優位性が飽和した場合、企業収益はモデルの差ではなく顧客関係や製品開発に依存するようになる。そのため、最先端ラボは新たな価値あるユースケースを開発し続ける経済的圧力に晒されている。
中国オープンモデルのベンチマーク重視と実力
中国の主要ラボは米国クローズドモデルに追いつく姿勢からベンチマーク重視だが、それらは実際に強力なモデルであり、過度な宣伝と真の革新のバランスが取れている。
影響分析・編集コメントを表示
影響分析
この分析は、AI開発者がベンチマークスコアに依存するのではなく、実際のユースケースやエージェント環境でのパフォーマンスを重視すべきであることを示唆しています。また、オープンソースエコシステムがクローズドモデルの追従を続ける中で、評価基準自体が頻繁に変動するため、開発戦略の柔軟性が求められることを示しています。
編集コメント
ベンチマークスコアが実世界のパフォーマンスと必ずしも一致しないという指摘は、開発者にとって重要な警鐘です。単なるスコア競争ではなく、実際のユースケースでの信頼性をどう測るかが次の課題となります。
現在、オープンモデルはクローズドモデルの追跡を永遠に続けるという明確な均衡状態がありますが、このギャップを単一の数値、「距離」として捉えることは、モデルがカバーしている能力に関する微妙で重要なダイナミクスを覆い隠しています。このギャップについて言及する最も一般的なベンチマークは、Artificial Analysis Intelligence Indexです。これは、現在の言語モデルの「フロンティア」を捉えるために時間とともに維持される約10のサブ評価からなる複合ベンチマークです。
特に、私はパフォーマンスやトレンドを単一の数値に還元する人間の傾向によって、そのインデックスに影響を与えるダイナミクスが誤解されていることを理解することに多くの時間を費やしています。その例としては、以下のようなものがあります:
ベンチマークが時間とともにどのように進化し、人々が実際にモデルを使用する方法との相関が強くなったり弱くなったりするか、
異なるモデルの実世界のパフォーマンスがベンチマークランキングとどのように関係しているか、
そして、トレーニングレジームが時間とともに進化し、これらのベンチマークをどのように改善していくか。
アジェンティック・ベンチマークはある程度良好な状態にありますが、ベンチマークはもはや実世界のパフォーマンスとの相関関係として信頼されていません。このグレーゾーンにおける重要な例は、Gemini 3の驚くべきベンチマーク結果と、現在AIツールがテストおよび展開されている領域(エージェント)におけるその顕著な無関係さです。これらのトレンドは、私たちの測定方法に明白かつ永続的な欠陥があることを示しています。
共有
このダイナミクス、すなわち相関モデルの現実世界のパフォーマンスとベンチマークスコアとの関係性のダンスの根底にあるのは、業界における絶え間ないシフトです。すべてのモデル、つまりオープンソースとクローズドの両方が時間とともに進化していくにつれて、ベンチマークの対象となるトピックは約12〜18ヶ月ごとにシフトしていきます。関心の高いすべてのドメインには、特にポストトレーニングの段階において、それぞれ異なる関連する学習ドメインが存在します。単一のパラダイムが長く続けば続くほど、業界はパフォーマンスの測定においてより熟練していきます。急速なポストトレーニングの改善という新しい時代において、私はベンチマークに対する個人的な信頼度を相対的な最小値と見なしています。
タスクの進化とLLMのパラダイム
ChatGPT直後、焦点はチャット、数学、そして単純なコードの混合でした。インストラクションチューニングとRLHF(Reinforcement Learning from Human Feedback:人間のフィードバックによる強化学習)が支配的でした。チャットの機能は飽和状態に達し、すぐに衰退しました。その後、数学が焦点から外れていきました。2025年から現在に至るまで、特に推論モデルがデフォルトとなった以降、焦点はより複雑なコーディングやその他の単純なエージェントタスクへとシフトしました。私たちはこの最初の時代の終盤にいます。最近のトレーニングレシピはすべて、検証可能な報酬を用いた強化学習(RLVR: Reinforcement Learning with Verifiable Rewards)によって支配されていますが、それが適用されるドメインは基本的な質問応答のチェックから複雑な環境へと劇的に変化しています。
私たちが目撃しているのは、クローズドなフロンティアラボが、現在の焦点(つまりコードやターミナルタスクなど)の習得に驚くべき額の資金を投じており、より多様なナレッジワータスクへの展開を開始しているという事実です。これらの新しいタスクには、会計、法律、医療などの専門分野が含まれます。これらは依然としてエージェント型ですが、より高度な専門知識を必要とし、既存のソフトウェアやドメイン固有のツールとの統合を頻繁に要求します。
これらの新しいドメインにおける真の能力バランスに関する証拠は非常に限られていますが、オープンモデルが追いつくのが困難になると私が言う際に焦点を当てている領域はこれらです。問題は、複雑な言語モデルワークフローの評価自体も、困難な研究課題であることです。
タスクはより複雑になり、それらに対してヒルクライム(局所最適化)するために必要なデータは、よりプライベートなものになりつつあります(GitHubに膨大なコードが存在するコードとは対照的です)。主要なオープンモデルラボを支援しているのは、データ業界で起きているダイナミクスであり、これはチップファブ(半導体工場)を構築する経済的動態に似ています。米国にある数少ない主要ラボは、新しい環境やデータセットを購入するために天文学的な金額を支払いますが、その後を追うラボ(多くは中国にある)は、これらのものを大幅な割引で購入します。
これは重要な見落とし点です——非フロンティアラボが追いつくために使用するレバーは、時間とともに絶えず変化するという点です。中国のモデルの進歩における主要なレバーとして蒸留(distillation)に焦点を当てることは、現在のトレーニングレジームにおいて強化学習環境(RL environments)の重要性を見落としている盲点に他なりません。もし評価環境が、Artificial Analysis Index における単一の評価として構築できる場合、あるいはそれを模倣するものであれば、現在のところ中国のラボは追いつくことができるでしょう。
Interconnects AI は読者支援型の出版物です。購読をご検討ください。
「フロンティア」を再発明するための経済的圧力
ここで検討すべき重要な質問は、OpenAI や Anthropic が主要なオープンウェイトモデル(さらには Google 系でさえも)に対して圧倒的なビジネス採用上の優位性を持つ、現在のタスクセット(再び、コーディングおよびターミナルタスク)が、収益数を維持するためにどれほど重要かということです。これらの記録的な成長数と軌道を維持するためには、パフォーマンスにおける意味のある優位性が継続的に存在し続ける必要があります。もしより安価なオープンモデルの同等品に置き換えることができるのであれば、多くの企業はトークン支出コストを削減したいと願うでしょう。
エージェント型コーディング能力が飽和し、AI パフォーマンスの「フロンティア」が他の領域へ移動した場合、エンタープライズ収益の大部分は、モデルが飛躍的に優れていることではなく、確立された顧客関係、慣性(インシャーシア)、およびより優れた製品開発に依存することになる可能性があります。
この不安定な立場こそが、私が「フロンティアラボは自らの存在意義を常に再発明し続けなければならない」と記述するものであり、AIインフラの広範な整備(buildout)を収益化することにおける分野全体の展望でもあります。私は依然として、この整備は価値があるという立場に立ち、AnthropicとOpenAIは天文学的な利益を生む企業になるだろうと考えています。したがって、私はこれを、両社がモデルに対して魅力的で新しい、価値のあるユースケースを継続的に解き明かしていくという信念と、オープンモデルが近づいているベンチマークが完全な指標ではないという見解の混合体として捉えています。
私は、中国の主要なオープンモデルは、米国の主要なクローズドラボよりもベンチマークにやや焦点を当てているという前提で行動しています。彼らにはそのようにするインセンティブがあります——彼らは、常に最高のクローズドモデルの足元を追っているという印象を与えたいのです。中国のラボが、ベンチマークへの過剰適合(overfitting)のみがこの物語に含まれていると主張することは、非常に無邪気で誤りです。彼らのモデルは本当に強力であり、過大評価と実際の革新の間のこのダイナミクスは、微妙なバランスの上に成り立っています。
WeirdMLやARC AGI 2のような分布外(out-of-distribution)ベンチマークでは、オープンウェイトモデルが大幅に劣位にあるケースがいくつか存在しますが、これらのオープンモデルが予期せず強力であることを示す無数のランダムなベンチマークも存在します。実際にモデルを使用すると、こうした堅牢性の欠如(例えば、ロングコンテキスト能力の不足や、ClaudeやCodexよりも頻繁にエージェントのコンテキストをリセットする必要があることなど)が把握できますが、それらが根本的に異なるカテゴリのモデルであるという意味でのカテゴリーエラーではありません。実際には、多くの人が予想していたよりもはるかに近い存在です。
オープンモデルはどれくらいの期間、追いついていけるのか?
続きを読む
原文を表示
It’s a clear, current equilibrium that open models will be in perpetual catch-up of closed models, but this gap being viewed as a single number, a “distance”, covers up a nuanced and crucial dynamic at what capabilities the models are covering. The most popular benchmark to comment on this gap is the Artificial Analysis Intelligence Index — a composite benchmark of ~10 sub-evals that they maintain over time to capture the “frontier” of current language model capabilities.
Particularly, I spend a lot of time understanding how dynamics that feed into that index are misunderstood by the natural tendency to reduce performance and trends to one number. Examples include:
How benchmarks evolve over time, becoming more or less correlated with how people actually use models,
How different models’ real-world performance relates to their benchmark rankings, and
How training regimes evolve over time to move said benchmarks.
Agentic benchmarks are in a decent place, but benchmarks are no longer as trusted as a correlate to real-world performance. A key example to this gray area is Gemini 3’s incredible benchmarks and remarkable irrelevance in where AI tools currently are being tested and deployed (agents). These trends point to obvious and lasting flaws in our measurements.
Share
At the root of this dynamic — the dance of correlating model real-world performance and benchmark scores — is the constant shift of the industry. As all the models, i.e. both open and closed, evolve over time, the topics of focus for benchmarking shifts about every 12 to 18 months. All of the domains of interest have very different training domains associated with them, especially in post-training. The longer a single paradigm goes on, the better the industry gets at measuring performance. In a new era of rapid post-training improvements, I’m at a relative minimum in my personal confidence in benchmarks.
Task evolution and LLM paradigms
Right after ChatGPT the focus was a mix of chat, math, and simple code. Instruction tuning and RLHF dominated. Chat capabilities saturated and faded quickly, then mathematics became less focal. Through 2025 and to today, especially once reasoning models became the default, the focus shifted to more complex coding and other simpler agentic tasks. We’re at the tail end of this first era. Recent training recipes are all dominated by reinforcement learning with verifiable rewards (RLVR), but the domains it is applied in have shifted dramatically from basic question-answer checking to complex environments.
What we’re seeing is that the closed, frontier labs are investing astounding sums of money in mastering these current foci — i.e. code, terminal tasks, etc. — while starting to push into more diverse knowledge work tasks. These newer tasks encompass specialized domains, such as accounting, law, healthcare, etc. They are still agentic, but require more expertise and often integrations with existing software or domain-specific tools.
We have very limited evidence on the true balance of capabilities of these newer domains, but these are the areas I’m focusing on when I say open models will struggle to keep up. The problem is that evaluating complex language model workflows is also a challenging research problem in itself.
The tasks are getting harder and the data needed to hillclimb on them is getting more private (relative to code, which has swaths of code on GitHub). Leading open model labs are helped by dynamics happening in the data industry that are economically similar to building chip fabs. The few, leading labs in the U.S. pay astronomical sums to buy new environments and datasets, then the fast-following labs (often in China), buy these later at a steep discount.
This is a key missed point — that the levers non-frontier labs pull to keep up constantly shift over time. A focus on distillation as the key lever to Chinese models’ progress reflects a blind-spot to the importance of RL environments to current training regimes. If an environment can be built either as a single evaluation in the Artificial Analysis Index, or to mirror it, currently the Chinese labs will be able to keep up.
Interconnects AI is a reader-supported publication. Consider becoming a subscriber.
Economic pressure to reinvent “the frontier”
The question worth dwelling on is: How crucial is the current set of tasks (again, coding and terminal tasks), where the likes of OpenAI and Anthropic have a massive business-adoption advantage over leading open weight models (and even Google alike), is crucial to maintaining revenue numbers? In order to maintain these record growth numbers and trajectories, there needs to keep being a meaningful edge in performance. Many companies would love to reduce their token expenditure cost if they can swap in a far cheaper, open model equivalent.
If agentic coding abilities saturate and the “frontier” of AI performance moves elsewhere, a large amount of the enterprise revenue could be reliant on well-formed customer relationships, inertia, and better product development, rather than the models being leaps and bounds better.
This precarious position is what I describe as the frontier labs needing to constantly reinvent themselves, and the field’s prospects, for monetizing the vast buildout of AI infrastructure. I still tend to fall on the side that the buildout will be worth it, and Anthropic and OpenAI will be astronomically profitable businesses, so I take this as a faith of a mix of them continuing to unlock compelling, new, valuable use-cases for the models, and that the benchmarks the open models are closing in on as not being a complete signal.
I operate with a sort of presumption where the leading open models from China are focused slightly more on benchmarks than the leading closed labs in the U.S. They’re incentivized to do so — they want to present the image as constantly being on the heels of the best closed models. Saying the Chinese labs are only in this narrative because they’re overfitting to benchmarks would be incredibly naive and incorrect. They’re genuinely strong models, and these dynamics of overselling and real innovation are a fine balance.
There are a few out-of-distribution benchmarks where open-weight models are very far behind, such as WeirdML or ARC AGI 2, but there are countless random benchmarks that show these open models as being unexpectedly strong. When you use the models, you can pick up on this lack of robustness (e.g. in long-context capabilities, and needing to reset your agent context more often than Claude/Codex), but they’re not a category error in the sense that they’re fundamentally different classes of models. They’re far closer than many would’ve expected.
How long can open models keep up?
Read more
関連記事
Anthropic の「Claude Fable 5」が AI Gateway で利用可能に
Anthropic が開発した新モデル「Claude Fable 5」が、Vercel の AI Gateway で利用可能になりました。このモデルは複雑な多段階タスクで人間の手を介さずに実行でき、長期の生産性維持や並列エージェントの制御に優れています。
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中
マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み