AI 評価が新たな計算リソースのボトルネックに
Hugging Face の記事は、大規模モデルの進化に伴い、計算資源(Compute)に次ぐ新たなボトルネックとして評価(Evals)が浮上し、業界全体で標準化と効率化の必要性が高まっている現状を指摘しています。
キーポイント
評価のボトルネック化
モデルトレーニングにおける計算資源の限界が顕在化する中、モデルの性能検証や比較を行うための「評価(Evals)」プロセス自体が新たなボトルネックとなっている。
評価コストの増大
モデルの複雑化と多様化に伴い、正確な評価を行うために必要な計算リソースや人的リソースが急激に増加しており、開発サイクルを阻害している。
標準化と協力の必要性
Hugging Face は「EvalEval Coalition」の形成を通じて、評価基準の統一、共通ベンチマークの共有、および業界全体での協力体制構築を提唱している。
評価コストの爆発的増加
モデル開発中のチェックポイント評価を繰り返すことで、推論コストが前学習(pretraining)コストを上回るケースがあり、小規模モデルでは開発サイクル全体で評価コストが主要な計算リソースとなっている。
計算資源の削減による順位維持
HELMの評価結果を分析したところ、計算量を100倍から200倍削減してもモデルのランキング順序はほぼ維持されることが示された。
Flash-HELMによる効率化アプローチ
安価な評価で候補を絞り込み、上位候補に対してのみ高解像度の計算リソースを投入する「粗から細へ」の手順(coarse-to-fine)が提案された。
静的ベンチマークからエージェント評価への移行によるコスト増大
静的な予測ベースのベンチマークでは少量のサンプルで順位付けが可能だったものの、エージェント評価(コード実行、ウェブナビゲーションなど)では複雑さが増し、評価コストが劇的に上昇している。
影響分析・編集コメントを表示
影響分析
本記事は、AI 開発の成熟段階において、単にモデルを大きくするだけでなく、その品質を客観的かつ効率的に検証するインフラの重要性を浮き彫りにしています。業界全体が評価プロセスの最適化と標準化に取り組まなければ、イノベーション速度が低下するリスクがあり、Hugging Face の提唱する協調体制は今後の AI 開発生態系において重要な役割を果たす可能性があります。
編集コメント
モデルの性能向上が頭打ちになる中で、品質保証のための評価プロセス自体がリソース制約となるという洞察は、開発者にとって極めて示唆に富んでいます。業界全体の標準化への動きは、今後の AI 開発効率を左右する重要な転換点と言えるでしょう。
要約。 AI 評価は、誰がそれを行えるかを決定するコストの閾値を超えました。Holistic Agent Leaderboard (HAL) は最近、9 つのモデルと 9 つのベンチマークにわたる 21,730 のエージェントロールアウトを実行するために約 40,000 ドルを費やしました。先端的なモデルにおける単一の GAIA 実行は、キャッシュ適用前に 2,829 ドルのコストがかかります。Exgentic がエージェント設定全体で実施した 22,000 ドルのスウィープでは、同一タスクにおいて 33 倍のコスト差が確認され、スケフォールドの選択が主要なコストドライバーであることが特定されました。また、UK-AISI は最近、推論時の計算リソースを研究するためにエージェントステップ数を数百万にまで拡大しました。科学分野の機械学習(ML)では、新しいアーキテクチャ 1 つの評価に約 960 H100-時間、4 つのベースライン全体のスウィープには 3,840 H100-時間が必要です。圧縮技術は静的ベンチマークに対して提案されていますが、新しいエージェントベンチマークはノイズが多く、スケフォールドに敏感であり、部分的にしか圧縮できません。トレーニングループ内(in-the-loop)のベンチマークは構造的に高コストであり、これらの評価に信頼性を追加しようとすると、反復実行によってコストがさらに倍増します。
静的 LLM ベンチマークをより安価にする方法
エージェントが登場する以前から、コストの問題は存在していました。スタンフォード大学の CRFM が 2022 年に HELM を公開した際、論文内のモデルごとの内訳では、OpenAI の code-cushman-001 で API コストが 85 ドル、AI21 の J1-Jumbo(178B)で 10,926 ドルに達し、オープンソースモデルでは GPU 使用時間が 540 から 4,200 時間と幅広かったものの、BLOOM(176B)や OPT(175B)がその上限を占めていました。Perlitz et al. (2023) はより大きな HELM のコストパターンを再確認しており、IBM Research は「Granite-13B を HELM に通すだけで、最大で 1,000 GPU 時間を消費する可能性がある」と指摘しています。HELM の 30 モデルと 42 シナリオ全体を通じた報告されたコストと GPU 計算資源の合計は、およそ 10 万ドルに達しました。
もう一つの驚くべき観察結果は、Perlitz 他による分析から得られました。この分析では EleutherAI の Pythia のチェックポイントが対象となっています。開発者はモデル開発の過程で評価を繰り返し実行するために費用を負担しています。Pythia は 8 つのサイズにわたる 16 のモデルそれぞれに対して 154 のチェックポイントをリリースしており、各モデルのチェックポイントを個別に数えれば合計 2,464 個となります。これによりコミュニティはトレーニングダイナミクスを研究することが可能になりました。LM Evaluation Harness(言語モデル評価ハッチ)をこれらのすべてのチェックポイントで実行すると、評価がトレーニングに対する乗数として機能します。Perlitz 他 (2024) は、「チェックポイントを評価する際の費用は、事前学習の費用さえも上回る可能性がある」と指摘しています。小規模モデルにおいては、評価が開発サイクル全体を通じて主要な計算リソースの項目となります。推論時の計算リソースをスケールさせると、評価コストも同様にスケールします。
Perlitz 他は次に、HELM(ヘルム)のランキングに実際にどの程度の計算量が寄与しているのかを問いました。その結果は際立っていました:計算量を 100 倍から 200 倍削減しても、ほぼ同じ順序が維持され、さらに大きな削減でも論文で提案された階層分析の下では粗いグループ化には有用であることが示されました。Flash-HELM はこの知見を「粗から細へ」の手順に変換しました:まず安価な評価を実行し、その後、高解像度の計算リソースは上位候補のみに費やすのです。HELM の計算量の多くは、すでに分野全体がより安価に推測できたランキングを確認するものでした。
他の研究も異なる角度から同じ結論に達しています。tinyBenchmarks は項目反応理論(Item Response Theory)を用いて、MMLU を約 2% の誤差で 14,000 項目から 100 のアンカー項目に圧縮しました。Open LLM Leaderboard も 29,000 例から 180 例へと縮小されました。Anchor Points は、GLUE においてわずか 1 から 30 の例で 87 の言語モデルとプロンプトのペアを順位付けできることを示し、他の研究 もこれに追随してデータセットサイズを 90% 削減しました。静的ベンチマークには悪用可能な弱点がありました:モデル間の違いはしばしば限られた項目のサブセットに集中するため、厳格なサンプリングを行っても順位付けは維持できるのです。
しかし、ベンチマークが静的予測からエージェントへと移行すると、このトリックは劇的に弱体化しました。
エージェント評価はより複雑になる
エージェント評価に関する非常に優れた公開報告として、Holistic Agent Leaderboard(Kapoor 他、ICLR 2026)が挙げられます。HAL はコーディング、ウェブナビゲーション、科学タスク、カスタマーサービスをカバーする 9 つのベンチマークにわたって標準化されたエージェントハネスを実行し、共通の足場と集中型のコスト追跡を採用しています。主要なコストは、9 つのモデルと 9 つのベンチマークにわたる 21,730 回のロールアウトで 40,000 ドルです。2026 年 4 月までに、このリーダーボードは 26,597 回のロールアウトへと成長しました。Ndzomga の独立した再現研究 も同様に、242 回の実行でほぼ同じ金額である 46,000 ドルに到達しています。
その集計値の背後には、HAL タスク間では単一のベンチマーク実行コストが 4 桁もの範囲で変動し、個々のベンチマーク内でも 3 桁の変動があるという事実があります。
Figure 1. 各棒グラフは、単一のベンチマークにおける HAL 設定間の最小から最大のコストを示しています。強調表示された棒グラフは、1 回あたり約 1,000 ドルの閾値を超えています。「実行」とは、すべてのタスクにわたる完全なエージェント評価を指します。ベンチマーク内でのばらつきは、モデル×スキャフォールド×トークン予算の積によって生じます。出典:2026 年 4 月のライブ HAL リーダーボード。
これらの数値の背後には、率直な価格設定の事実があります。Claude Opus 4.1 は、入力トークン 100 万あたり 15 ドル、出力トークン 100 万あたり 75 ドルを請求します。一方、Gemini 2.0 Flash はそれぞれ 0.10 ドルと 0.40 ドルで、入力のみでも 2 桁の価格差があります。エージェントベンチマークは通常、「モデル」だけを単独で評価するわけではありません。それらは「モデル×スキャフォールド×トークン予算」という製品の組み合わせを評価するものであり、スキャフォールド(基盤構造)のわずかな選択の違いが、コストを 10 倍に増幅させることもあります。
さらに悪いことに、支出を増やしても必ずしも良い結果が得られるわけではありません。Online Mind2Web において、Claude Sonnet 4 を使用した Browser-Use は精度 40% でコストが 1,577 ドルでした。一方、GPT-5 Medium を使用した SeeAct は 42% の精度を達成し、コストはわずか 171 ドルです。HAL の論文では「精度の差がたった 2 ポイントであるにもかかわらず、コストには 9 倍の開きがある」と指摘されています。GAIA では、o3 Medium を使用した HAL Generalist が精度 28.5% でコスト 2,828 ドルでしたが、別のエージェントは 57.6% の精度を達成し、コストは 1,686 ドルでした。CLEAR は、300 のエンタープライズタスクにおける 6 つの最先端(SOTA)エージェントを対象に調査した結果、「精度を最適化する構成は、実世界でのパフォーマンスが同等であるにもかかわらず、パレート効率的な代替案よりも 4.4 倍から 10.8 倍のコストがかかる」と結論付けています。
静的な時代のツールキットは役立ったはずですが、その効果には限界がありました。Ndzomga の中程度の難易度フィルタ(過去の実行成功率が 30% から 70% のタスクを選択するもの)は、スキャフォールドや時間的変化の下でランクの忠実度を維持しつつ、2 倍から 3.5 倍のコスト削減を実現しています。これは有用ですが、静的ベンチマークで得られる 100 倍から 200 倍の改善には遠く及びません。各項目が独自のばらつきを持つマルチターンロールアウトである場合、単一の質問に対する避けられない長い軌道そのものが、高価な対象物となります。
一部の評価は訓練に過ぎない
一部のベンチマークは、その評価プロトコルがモデルをゼロから訓練するため、API コストの枠組みからは完全に外れています。
The Well は、この現象の非常に興味深い例を示しています。これは、生物系、流体力学、磁気流体力学、超新星爆発、粘弾性不安定、アクティブマターにわたる 16 の科学機械学習データセットをバンドルしたもので、合計 15 TB に達します。論文のヘッドラインにある「16 データセット・グリッド」プロトコルに従うと、節約する余地はほとんど残されません:各ベースラインモデルを単一の H100 で 12 時間訓練し、(モデル,データセット) ペアごとに 5 つの学習率を試行し、4 つのアーキテクチャと 16 のデータセット全体でこれを繰り返します。このヘッドライン・グリッドによる探索には 3,840 H100 時間が消費され、以下の換算仮定に基づけば約 9,600 ドルに相当します。新しいアーキテクチャを 1 つ追加するだけでも、約 960 H100 時間、つまり約 2,400 ドルのコストがかかります。
ニューラル演算子(neural operator)の訓練には単一の 12 時間の H100 実行で十分ですが、ベンチマーク全体での評価にはその 80 倍に相当する 80 回の訓練が必要です。この非対称性が、The Well の重要性を決定づける要因です。機械学習(ML)のこの分野では、評価に必要な計算資源は訓練に必要な計算資源よりもおおよそ 2 桁多く、従来の深層学習における常識的なモデルが逆転しています。
同じパターンは SciML 全体にわたって繰り返されています。PDEBench は 11 の偏微分方程式(PDE)ファミリーを網羅し、データセットやモデルファミリーごとのエポックあたりのタイミングテーブルを報告していますが、アーキテクチャごとの明確なコスト金額は、選択されたトレーニングプロトコルとハードウェアに依存します。MLE-Bench(OpenAI)はエージェントとトレーニングの両方の領域の間に位置しています。各エージェントが 75 の Kaggle コンペティションのいずれかに挑戦する際、単一の A10 GPU で 24 時間かけて実際の ML パイプラインをトレーニングします。論文では明確に「主要な実験設定の単一ラン(各コンペティション試行あたり 24 時間)には、24 時間 × 75 コンペティション = 1,800 GPU 時間の計算リソースが必要である」と記されており、さらに o1-preview はシードあたり 1.275 億トークンの入力と 1,500 万トークンの出力を消費します。A10 の時間単価が 1.50 ドルの場合、GPU 費用だけでも 2,700 ドルとなり、o1-preview の API 使用料を加えると、シード 1 つあたりのランコストは約 5,500 ドルに達します。したがって、3 つのシード × 6 つのモデルであれば、追加の評価や再試行にかかるオーバーヘッドを考慮する前に、総額約 100,000 ドルになります。
METR's RE-Bench では、7 つの研究工学環境それぞれについて、1 から 6 台の H100 GPU を使用して最大 8 時間に制限されています。したがって、一連のテストを単に通過するだけでも、繰り返し試行や複数のシード、あるいは複数のエージェントを追加する前に、56 から 336 の H100 時間が必要となります。一方、71 回の専門家による試行を行う人間ベースラインでは、暗黙的な予算はさらに大幅に引き上げられます。ベンチマークがエージェントと人間に対して同じ壁時計時間の計算リソースを提供するため、リアルタイムのトレーニングプロセスがコストの下限を決定します。トークン予算はもはや上限を規定するものではなくなります。
ResearchGym (ICLR 2026) では、エージェントが実際の機械学習(ML)研究を実行します。ACL、ICLR、ICML の論文から抽出された 5 つのテストタスク(39 のサブタスク)が含まれており、これには ACL Highlights、ICML Spotlight、ICLR Spotlight、および ICLR Oral カテゴリが含まれます。提案手法は隠蔽されています。エージェントは仮説を立案し、モデルを訓練し、元の著者のベースラインを上回る必要があります。予算は厳しく、各タスクあたり API 利用料で 10 ドル、24 GB 未満の単一 GPU で 12〜24 時間です。フルパス(5 タスク × 24 時間 × 3 シード)では、エージェントあたり約 360 GPU 時間を消費します。
PaperBench ではコスト状況が過酷になります。ICML 2024 の Spotlight または Oral 論文 20 編をゼロから再現し、8,316 のリーフノール基準を持つ評価ルブリックツリーに対して採点します。各ロールアウトでは A10 GPU を 12 時間使用し、論文ごとの計算は単純明快です。
- o1 IterativeAgent ロールアウトあたり API 利用料が 400 ドルで、20 編の論文を掛け合わせると、評価あたりの総額は約 8,000 ドルになります。
- o3-mini ジャッジによる採点は論文あたり 66 ドル、ベンチマーク全体では 1,320 ドルです。
- o1 をジャッジとして使用すると、採点コストは論文あたり約 830 ドルに跳ね上がります。
PaperBench Code-Dev は意図的に実行を省略しています。この選択により、ロールアウトコストは約 4,000 ドルに半減し、採点コストは論文あたり 10 ドル(85% 削減)になります。OpenAI は多くのグループがフルベンチマークを負担できないため、このバリアントを構築しました。
歴史的な先例としては NAS-Bench-101 があり、その表形式の構築には 100 TPU 年以上にわたるトレーニングが必要でした。この一度きりの投資がなければ、すべての NAS アルゴリズム比較は実行あたり 1 から 100+ GPU 時間のコストがかかり、比較自体がアルゴリズムよりも高価になっていただろう。
Figure 2. 単一のモデルまたはエージェントを完全なベンチマークプロトコルを通じて評価する際のすべての値(米ドル)。GPU コストは H100 で時間あたり 2.50 ドル、A10 で時間あたり 1.50 ドルで換算。API および採点コストも該当する場合に含める。強調されたバーは、評価あたりのラウンド 5,000 ドルの閾値以上がかかるベンチマークを示す。これらのうち最も高価なものは、最も高価なエージェント ベンチマーク(Figure 1)と一致し、API で代替できない GPU 計算リソースを必要とする。
ベンチマークが実際の業務に近づくにつれ、圧縮はより困難になる:静的予測では大幅な節約の余地があるが、エージェントによるロールアウトではその余地が減り、ループ内トレーニングではほとんど残らない。
Figure 3. 評価を圧縮するためのツールキットは、ベンチマークが複雑化するにつれて引き継がれない。バーはモデルランクの忠実度を維持する最大測定圧縮率を示し、ラベルには公開された範囲が記載されている。強調されたバーは、一般的な圧縮手法が存在しない約 1× のベースラインを示す。静的ベンチマークでは通常、ランキングを失うことなく 100〜200 倍の圧縮が可能である。一方、エージェント ベンチマークでは最大でも 2〜3.5 倍の圧縮しか達成できない。ループ内トレーニング ベンチマークは評価対象が訓練済みモデルそのものであるため、サブサンプリングに抵抗する。
Reliability is the expensive part
信頼性は高コストな部分です。上記の費用の多くは、統計的パワーが限られた単一実行の測定結果を購入するだけです。反復実行にわたる信頼性を測定すると、静的ベンチマーク、エージェントベンチマーク、トレーニング・イン・ループ(学習プロセス内)ベンチマークのすべてがより高価になります。
エージェントの信頼性は、1 回の実行を証拠として扱うのをやめると急激に低下する可能性があります。最もよく知られた例は、Yao らによるτ-benchで、後にCLEAR(Mehta, 2025)で再構成されました:パフォーマンスは単一実行では60%ですが、8回の実行における一貫性を求めると25%まで低下します。Kapoor らの「AI Agents That Matter」 は、HumanEval において単純なベースライン・エージェントが複雑な SOTA(State-of-the-Art:最先端)エージェント(Reflexion, LDB, LATS)をパレート支配し、コストは50分の1であることを発見しました。彼らのホールドアウト分析では、17 のベンチマークのうち 7 つにホールドアウトセットが存在しないことが判明しました。残りの 10 個のうちでも、適切な一般化レベルでタスクをホールドアウトしていたのはわずか 5 つのみでした。したがって、17 個中 12 個が最終的にホールドアウト基準を満たしませんでした。HAL論文は、「何もしない」エージェントが元の構成においてτ-benchの航空会社タスクの38%に合格すると指摘しています。HAL自身のログ分析では、TAU-benchのFew Shot(少サンプル)スキャフォールドにデータリークが存在することが明らかになり、2025 年 12 月にその除去を余儀なくされました。
最近の信頼性に関する会計報告の一つは、Rabanser, Kapoor らによる「AI エージェントの信頼性の科学へ向けて」 からのものです。この論文では、一貫性、堅牢性、予測可能性、安全性にわたる 12 の指標を提案しています。その発見は「最近の能力向上は、信頼性においてわずかな改善しかもたらしていない」というものです。HAL の内部分析は、集計された精度の背後に隠れた脆さを示しています。SciCode および CORE-Bench では、エージェントがツール呼び出しの失敗なしに実行を完了することはほとんどありませんでした。AssistantBench および CORE-Bench では、環境エラーが約 40% の実行で発生しました。失敗したタスクにおいて、エージェントは最終回答で明示的なベンチマーク指示を違反する割合が 60% を超えました。
k = 8 の再試行を各セルで行う統計的に信頼できる HAL スタイルの評価では、$40K の集計コストは約 $320K に跳ね上がります。PaperBench の 1 回あたり $9,500 というコストに同じ乗数を適用すると、単一エージェントの評価費用は $75K を超え、The Well ではマルチシードプロトコルにより、アーキテクチャあたりのコストが約 960 H100 時間から数千時間に膨れ上がります。信頼性は上記のすべてのコストカテゴリに対して乗数として作用します。
HAL は新しいモデル評価を一時停止し、信頼性向上に注力しています。この分野の見出しとなる数値にはまだノイズが多すぎるためです。また、そのノイズを低減するには実費がかかります。そして上記の数値は下限値であり、多くの評価者はすでに価格面で排除され始めています。
これが ML 分野にとって何を意味するか
評価コストが責任の壁となっている
学術団体、AI セーフティ研究所、そしてジャーナリストたちは、最先端エージェントを独立して評価する際、技術的な制約に直面する前に予算の制約にぶつかるようになっています。GAIA の単一のランは、大学院生の年間旅行予算を超えてしまうこともあります。LLM 判定を含む PaperBench の単一評価では約 9,500 ドルがかかります。6 つのモデルを 3 シードで比較する研究(これは論文として発表されるようなもの)では、150,000 ドルを超えることになります。「ベンチマークを一度実行して精度の数値を報告する」という確立された慣行は、完璧な気象条件下で車をただ一台クラッシュテストする程度の厳密さに過ぎません。これを超えていくには、学術システムが現在研究用計算資源として割り当てていない資金が必要です。
計算リソースの格差に評価も加わった今
Ahmed, Wahed and Thompson (Science 2023) は、2021 年の業界モデルがパラメータ数において学術モデルの 29 倍大きかったこと、そして 2020 年に AI の博士号取得者の約 70% が業界へ進出した一方、2004 年は 21% に過ぎなかったことを記録しています。当初の「計算リソース格差」の話は、評価がトレーニングに比べて安価に見えたため、主にこれを無視していました。しかし多くのベンチマークがこの関係性を逆転させました。7B モデルをファインチューニングできるラボでも、業界が真剣に扱うベンチマークを実行する費用を負担できるとはもはや考えられません。
コスト意識のないリーダーボードが浪費を助長する
リーダーボードが生データとしての精度のみを報告し、コストを省略した場合、研究者は合理的に問題解決のためにトークンを投入し続け、数値が上昇するまで続けることになります。HAL 論文では、推論努力を増大させることがむしろ多数の試行において精度を低下させるという結果が示されています:追加的な推論計算リソースは、最適化すべき指標でさえも信頼性を持って改善しないのです。パレートフロンティアは、コストに対する精度の順位付けによって比較を可能にします。HAL はこれを実装していますが、ほとんどのリーダーボードはまだ実装していません。
もし最高コストのアジェンシー型および科学系ベンチマークにおいて統計的に信頼できるベンチマーク数値を生み出せる計算リソースがフロンティア・ラボの予算のみで限られているなら、AI システムの評価という社会的プロセスは、それらシステムを構築する同じラボ内部に集中することになり、外部検証は部分的なものとなり、あるいは誰かがコストを直接補助しない限り完全に欠如した状態になります。
ベンチマーク種別ごとのコストサマリー
ベンチマーク種別 | 単一評価あたりの費用(USD) | 「1 回の評価」の意味
HELM (LLM ごと、2022) | Static LLM | $85 – $10,926 (API); 540 – 4,200 GPU-hrs (オープン)
1 つの LLM を 42 のシナリオに適用; HELM §6 p. 43 にモデル別テーブルあり
ScienceAgentBench | Agentic, science | $0.19 – $77
1 つのエージェント設定を 102 のタスクで実行
TAU-bench Airline | Agentic | $0.31 – $180
1 つのエージェントを全航空会社タスクで実行
SciCode | Agentic, science | $0.12 – $625
1 つのエージェントを 338 のサブ問題で実行
CORE-Bench Hard | Agentic, replication | $2 – $510
1 つのエージェントを 45 の論文で実行
SWE-bench Verified Mini | Agentic, coding | $4 – $1,600
1 つのエージェントを 50 の課題で実行
Online Mind2Web | Agentic, web | $5 – $1,610
1 つのエージェントを 300 のウェブタスクで実行
GAIA (エージェント型・多モーダル): $7.80 – $2,829。GAIA タスク全体を 1 つのエージェントが担当
ResearchGym(フルパス): ML 研究、トレーニング。$540 – $1,260。5 タスク × 24 時間 × 3 シード(約 360 GPU-時間)+ API
RE-Bench(シングルパス): ML R&D、トレーニング。$140 – $840。7 エンバイロンメント × 8 時間 × 1–6 H100
The Well(アーキテクチャごと): SciML、トレーニング。約 $2,400。ヘッドラインの 16 データセットグリッド:5 つの学習率 × 16 データセット × 12 時間の H100
MLE-Bench(1 シード): ML R&D、トレーニング。約 $5,500。75 の Kaggle コンペティション × A10 で 24 時間 + o1-preview API
PaperBench Code-Dev: 科学分野、コードのみ。約 $4,200。20 篇の論文全体を 1 つのエージェントが担当(実行なし)
The Well(フルスイープ): SciML、トレーニング。約 $9,600。ヘッドラインの 16 データセットグリッドの下で 4 つのアーキテクチャ
PaperBench(フル): 科学分野。約 $9,500。20 篇の論文全体を 1 つのエージェントが担当、完全なプロトコル
HAL アグリゲート:9 ベンチマーク × 9 モデル。約 $40,000。すべての 81 セル(各セル 1 シード)
すべての数値は単一評価あたりの米ドルに正規化されています。GPU コンピューティングは H100 で時間あたり$2.50、A10 で時間あたり$1.50 で換算され、該当する場合は API および採点コストが含まれています。Pythia(「評価が事前トレーニングを超える場合あり」)、PDEBench(アーキテクチャごとのコストは選択されたトレーニングプロトコルおよびハードウェアに依存)、NAS-Bench-101 の 100 TPU-年の構築コストは、それぞれを単一評価あたりの米ドル数値にきれいに正規化できないため除外されています。
同じ評価に対して二度払いしないようにしよう
これらの数値が高止まりしている理由の一つは、分野全体が同じ評価を繰り返し実行し続けていることです。フロンティア研究所は HAL スイープのために支払いを行い、学術グループはその一部再現のために再度支払いを行い、監査組織は関心のあるモデルバージョンのために三度支払いを行い、ジャーナリストはリーダーボードのスポットチェックのために四度支払います。これらの実行のほとんどが、重複するモデルを重複するベンチマーク上でカバーしています。しかし、基礎となるインスタンスレベルの出力のほとんどは、次のチームがそれらに基づいて構築できる場所に最終的に届きません。なぜなら、結果は PDF 内の単一の精度数値として、またはスキャフォールド(足場)、プロンプト、シードを隠すモデルカードテーブルやリーダーボードエントリとして報告されるからです。上記のコスト見積もりが大きいのは、分野全体がコミュニティの他のメンバーが再利用できないアーティファクトに対して毎回小売価格で支払っている部分があるためです。
標準化されたドキュメンテーションは、ここで利用可能な最も安価なレバーであり、かつ信頼性研究において不可欠な作業でもあります。もし 9,500 ドルの PaperBench ロールアウトが共有スキーマ内で完全な採点トレースをエクスポートすれば、同じ論文を研究する次のグループは予算をベースラインの繰り返しではなく、新しい摂動(擾乱)に充てることができます。もしマルチシード HAL 実行が経路ごとのツール呼び出しログを公開すれば、エージェントの信頼性研究は単一の精度数値では回答できない質問に応えることができるでしょう。この節約効果は複利のように積み上がります:高コストベンチマークにおいて再利用率が 2 倍になるだけでも、あらゆる圧縮技術を合計した金額よりも多くの資金をエコシステムに戻すことになります。
評価データの共有。 EvalEval コーリションの Every Eval Ever プロジェクトは、これに使用する標準化されたフォーマットです。これはメタデータスキーマ、バリデーター、および HELM、lm-eval-harness、Inspect AI などの人気のあるハーンセスからのコンバーターをバンドルしており、既存の評価ログをワンステップで共有フォーマットに変換できます。Hugging Face のコミュニティリポジトリにはすでに数十人の貢献者による結果がホストされており、さらに追加するためのオープンな Shared Task が用意されています。もし本記事で言及した高コストな評価のいずれかを実行した場合、その成果物を統一された、透明性があり、検証可能かつ再現可能な方法で投稿することは、他の分野全体にとって利用可能な最もレバレッジの高いコスト削減策です。さらに、ベンチマークが Hugging Face 上にある場合、Community Evals を介してハブのリーダーボードやモデルページ上で結果を公開することもできます!
ここまでの結論
経済構造は変化しました。つい最近まで、トレーニングは高価で評価は安価でした。5000 万ドルから 1 億ドルをかけて訓練された最先端の LLM にとって、評価はまだ丸め誤差のように見えますが、その丸め誤差は今やベンチマーク実行ごとに数万ドルのコストを伴い、しばしばノイズの多い結果を残します。ニューラル演算子、ML 研究エージェント、および再現性ベンチマークにおいては、この比率は逆転しています:信頼できる評価には、候補モデルを訓練するコストよりも多くがかかることがあります。
静的な評価をより安価にする方法はすでに知られています。Flash-HELM、tinyBenchmarks、Anchor Points は機能します。エージェントの評価については部分的な対策しかありませんが、中程度の難易度フィルタリングは役立ち、パレートフロンティアリーダーボードも有用です。しかし、ツールキットはまだ貧弱です。トレーニング・イン・ザ・ループ評価には一般的な圧縮手法が存在せず、表形式の事前計算と厳格な予算上限は、ベンチマークが測定する範囲を狭めることでコストを削減できるだけです。信頼性はさらに別の層を加えます。なぜなら、反復実行により各プロトコルの価格が上昇するためです。
分野では依然として、能力が主要な制約条件であるかのように語られていますが、評価は信頼性がより厳しい制約であることを示しています。ガバナンス機関は、単回実行の精度と pass^k 一貫性の間のギャップを測定すべきだと考えるべきですが、そのギャップを測定するコストが最も高くなります。静的ベンチマークの圧縮は、エージェントやトレーニング中のループにおけるベンチマークには転用できず、中程度の難易度フィルタリングが唯一信頼できる部分的代替手段となっています。コストを無視したリーダーボードは現在、設計上誤解を招くものであり、追加支出を報奨しながらもその支出で何を得たかを報告しないためです。
評価には今や独自の計算リソース予算、統計的手法、および失敗モードが存在します。その価格自体が、最初に強力なシステムを評価できる者を決定する要因となっています。評価費用を支払える者がリーダーボードを作成する権利を持つのです。
Sources
- Ying et al. (2019). NAS-Bench-101: Towards Reproducible Neural Architecture Search. arXiv:1902.09635.
- Liang et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110.
- Takamoto et al. (2022). PDEBench: An Extensive Benchmark for Scientific Machine Learning. arXiv:2210.07182.
- Ahmed, Wahed and Thompson (2023). The growing influence of industry in AI research. Science 379(6635).
- Biderman et al. (2023). Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling. arXiv:2304.01373.
- IBM Research (2023). Efficient LLM Benchmarking. research.ibm.com.
- Perlitz et al. (2023). Efficient Benchmarking of Language Models. arXiv:2308.11696.
- Vivek 他 (2023). Anchor Points: Benchmarking Models with Much Fewer Examples. arXiv:2309.08638.
- Chan 他 (2024). MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv:2410.07095.
- Chen 他 (2024). ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery. arXiv:2410.05080.
- Kapoor 他 (2024). AI Agents That Matter. arXiv:2407.01502.
- Wijk 他 (METR, 2024). RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts. arXiv:2411.15114.
- Ohana 他 (2024). The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning. arXiv:2412.00568.
- Polo 他 (2024). tinyBenchmarks: evaluating LLMs with fewer examples. arXiv:2402.14992.
- Siegel 他 (2024). CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark. arXiv:2409.11363.
- Tian 他 (2024). SciCode: A Research Coding Benchmark Curated by Scientists. arXiv:2407.13168.
- Kapoor 他 (2025). Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation. arXiv:2510.11977.
- Li 他 (2025). Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks. arXiv:2511.04689.
- Mehta (2025). Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems. arXiv:2511.14136.
- Starace 他 (2025)。PaperBench: AI の AI 研究再現能力の評価。arXiv:2504.01848。
- UK AISI (2025)。AI サイバータスクにおける推論スケーリングのエビデンス:評価予算の増額が成功率の上昇を示す。aisi.gov.uk。
- Bandel 他 (2026)。一般エージェント評価。arXiv:2602.22953。
- Garikaparthi 他 (2026)。ResearchGym:実世界の AI 研究における言語モデルエージェントの評価。arXiv:2602.15112。
- Ndzomga (2026)。AI エージェントの効率的なベンチマーク。arXiv:2603.23749。
- Rabanser 他 (2026)。AI エージェント信頼性の科学へ向けて。arXiv:2602.16666。
- ホリスティックエージェントリーダーボード(ライブ版)。hal.cs.princeton.edu。
BibTeX 引用
@misc{ghosh2026evalbottleneck,
author = {Ghosh, Avijit and Mai, Yifan and Channing, Georgia and Choshen, Leshem},
title = {{AI} evals are becoming the new compute bottleneck},
year = {2026},
month = apr,
howpublished = {EvalEval Coalition Blog},
url = {https://evalevalai.com/research/2026/04/29/eval-costs-bottleneck/}
}
原文を表示
Summary. AI evaluation has crossed a cost threshold that changes who can do it. The Holistic Agent Leaderboard (HAL) recently spent about $40,000 to run 21,730 agent rollouts across 9 models and 9 benchmarks. A single GAIA run on a frontier model can cost $2,829 before caching. Exgentic's $22,000 sweep across agent configurations found a 33× cost spread on identical tasks, isolating scaffold choice as a first-order cost driver, and UK-AISI recently scaled agentic steps into the millions to study inference-time compute. In scientific ML, The Well costs about 960 H100-hours to evaluate one new architecture and 3,840 H100-hours for a full four-baseline sweep. While compression techniques have been proposed for static benchmarks, new agent benchmarks are noisy, scaffold-sensitive, and only partly compressible. Training-in-the-loop benchmarks are expensive by construction, and when you try to add reliability to these evals, repeated runs further multiply the cost.
Making static LLM benchmarks cheaper
The cost problem started before agents. When Stanford's CRFM released HELM in 2022, the paper's own per-model accounting showed API costs ranging from $85 for OpenAI's code-cushman-001 to $10,926 for AI21's J1-Jumbo (178B), and 540 to 4,200 GPU-hours for the open models, with BLOOM (176B) and OPT (175B) at the top end. Perlitz et al. (2023) restate the larger HELM cost pattern, and IBM Research notes that putting Granite-13B through HELM "can consume as many as 1,000 GPU hours." Across HELM's 30 models and 42 scenarios, the aggregate of reported costs and GPU compute came to roughly $100,000.
Another shocking observation came from Perlitz et al.'s analysis of EleutherAI's Pythia checkpoints: developers pay for evaluation repeatedly during model development. Pythia released 154 checkpoints for each of 16 models spanning 8 sizes, or 2,464 checkpoints if each model checkpoint is counted separately, so the community could study training dynamics. Running the LM Evaluation Harness across all those checkpoints turns eval into a multiplier on training: Perlitz et al. (2024) noted that evaluation costs "may even surpass those of pretraining when evaluating checkpoints." For small models, evaluation becomes the dominant compute line item across the whole development cycle. When we scale inference-time compute, we scale evaluation costs.
Perlitz et al. then asked how much of HELM actually carried the rankings. The result was striking: a 100× to 200× reduction in compute preserved nearly the same ordering, with larger reductions still useful for coarse grouping under the paper's tiered analysis. Flash-HELM turned that finding into a coarse-to-fine procedure: run cheap evaluations first, then spend high-resolution compute only on the top candidates. Much of HELM's compute was confirming rankings that the field could have inferred much more cheaply.
Other work reached the same conclusion from different angles. tinyBenchmarks compressed MMLU from 14,000 items to 100 anchor items at about 2% error using Item Response Theory. The Open LLM Leaderboard collapsed from 29,000 examples to 180. Anchor Points showed that as few as 1 to 30 examples could rank-order 87 language-model/prompt pairs on GLUE, and others followed, reducing dataset sizes by 90\%. Static benchmarks had a weakness you could exploit: model differences often concentrate in a small subset of items, so ranking can survive aggressive subsampling.
That trick weakened sharply once benchmarks moved from static predictions to agents.
Agent evals are messier
A very nice public accounting of agent evaluation comes from the Holistic Agent Leaderboard (Kapoor et al., ICLR 2026). HAL runs standardized agent harnesses across nine benchmarks covering coding, web navigation, science tasks, and customer service, with shared scaffolds and centralized cost tracking. The headline cost: $40,000 for 21,730 rollouts across 9 models and 9 benchmarks. By April 2026, the leaderboard had grown to 26,597 rollouts. Ndzomga's independent reproduction arrives at almost the same number: $46,000 across 242 agent runs.
Behind that aggregate, the cost of a single benchmark run varies by four orders of magnitude across HAL tasks, and by three orders within some individual benchmarks.
Figure 1. Each bar shows the minimum-to-maximum cost across HAL configurations on a single benchmark. Highlighted bars cross the round $1,000-per-run threshold. A "run" is one full agent evaluation across all tasks. Within-benchmark spread reflects the model × scaffold × token-budget product. Source: live HAL leaderboard, April 2026.
Behind these numbers is a blunt pricing fact. Claude Opus 4.1 charges $15 per million input tokens and $75 per million output. Gemini 2.0 Flash charges $0.10 and $0.40, a two-order-of-magnitude spread on input alone. Agent benchmarks rarely benchmark "the model" in isolation. They benchmark a model × scaffold × token-budget product, and small scaffold choices can multiply costs 10×.
Worse, higher spend does not reliably buy better results. On Online Mind2Web, Browser-Use with Claude Sonnet 4 cost $1,577 for 40% accuracy. SeeAct with GPT-5 Medium hit 42% for $171. The HAL paper notes "a 9× difference in cost despite just a two-percentage-point difference in accuracy." On GAIA, an HAL Generalist with o3 Medium cost $2,828 for 28.5% accuracy, while a different agent hit 57.6% for $1,686. CLEAR finds across 6 SOTA agents on 300 enterprise tasks that "accuracy-optimal configurations cost 4.4 to 10.8× more than Pareto-efficient alternatives" with comparable real-world performance.
The static-era toolkit should have helped, but it has only gone so far. Ndzomga's mid-difficulty filter, which selects tasks with 30 to 70% historical pass rates, achieves a 2× to 3.5× reduction while preserving rank fidelity under scaffold and temporal shifts. That is useful, but it falls far short of the 100× to 200× gains available for static benchmarks. When each item is a multi-turn rollout with its own variance, the unavoidable long trajectory per single question becomes the expensive object.
Some evals are just training
Some benchmarks escape the API-cost framing altogether because their evaluation protocol trains models from scratch.
The Well gives a very interesting example of this. It bundles 16 scientific machine-learning datasets spanning biological systems, fluid dynamics, magnetohydrodynamics, supernova explosions, viscoelastic instability, and active matter, totaling 15 TB. Using the paper's headline 16-dataset grid, the protocol leaves little room to economize: train each baseline model for 12 hours on a single H100, try five learning rates per (model, dataset) pair, repeat across four architectures and 16 datasets. That headline-grid sweep consumes 3,840 H100-hours, or roughly $9,600 under the conversion assumptions below. A single new architecture still costs about 960 H100-hours, or about $2,400.
Training one neural operator can take a single 12-hour H100 run, while evaluating it across the benchmark requires 80 such trainings. That asymmetry is what makes The Well important. In this corner of ML, evaluation compute exceeds training compute by roughly two orders of magnitude, reversing the old deep-learning mental model.
The same pattern recurs across SciML. PDEBench covers 11 PDE families and reports per-epoch timing tables across datasets and model families, but a clean per-architecture dollar figure depends on the chosen training protocol and hardware. MLE-Bench (OpenAI) sits between agent and training regimes. Each agent attempt at one of 75 Kaggle competitions runs 24 hours on a single A10 GPU, training real ML pipelines. The paper is explicit: "A single run of our main experiment setup of 24 hours per competition attempt requires 24 hours × 75 competitions = 1,800 GPU hours of compute," plus o1-preview consuming 127.5M input and 15M output tokens per seed. At $1.50 per A10-hour, the GPU floor alone is $2,700; adding o1-preview API usage brings a one-seed run to roughly $5,500. Three seeds × six models would therefore land near $100,000 before any additional grading or retry overhead.
METR's RE-Bench caps each of seven research engineering environments at 8 hours on 1 to 6 H100s. A single pass across the suite is therefore 56 to 336 H100-hours before adding repeated attempts, multiple seeds, or multiple agents; the human baseline, with 71 expert attempts, raises the implicit budget much further. Because the benchmark gives agents and humans the same wall-clock compute, a real-time training process sets the cost floor. A token budget no longer bounds it from above.
ResearchGym (ICLR 2026) makes the agent run actual ML research. Five test tasks (39 sub-tasks) drawn from ACL, ICLR, and ICML papers, including ACL Highlights, ICML Spotlight, ICLR Spotlight, and ICLR Oral categories, with the proposed methods withheld. The agent has to propose hypotheses, train models, and beat the original authors' baselines. The budget is tight: $10 in API plus 12 to 24 hours on a single GPU under 24 GB per task. A full pass (5 tasks × 24h × 3 seeds) consumes about 360 GPU-hours per agent.
The cost picture turns brutal in PaperBench. Twenty ICML 2024 Spotlight or Oral papers must be replicated from scratch, graded against rubric trees with 8,316 leaf-node criteria. Each rollout uses an A10 GPU for 12 hours, and the per-paper math is straightforward:
- $400 in API per o1 IterativeAgent rollout, times 20 papers, comes to about $8,000 per evaluation.
- Grading runs $66 per paper with the o3-mini judge, or $1,320 for the full benchmark.
- Using o1 as judge would push grading to about $830 per paper.
PaperBench Code-Dev drops execution on purpose. That choice halves rollout cost to about $4,000 and cuts grading to $10 per paper (85% lower). OpenAI built the variant because many groups cannot afford the full benchmark.
The historical precedent is NAS-Bench-101, whose tabular construction required over 100 TPU-years of training. Without that one-time investment, every NAS algorithm comparison would have cost 1 to 100+ GPU-hours per run, which would have made comparison pricier than the algorithms themselves.
Figure 2. All values in USD per single evaluation of one model or agent through the full benchmark protocol. GPU costs converted at $2.50/H100-hr, $1.50/A10-hr; API and grading costs included where applicable. Highlighted bars denote benchmarks costing at least the round $5,000-per-evaluation threshold. The most expensive of these match the most expensive agent benchmarks (Figure 1) and require GPU compute that has no API substitute.
As benchmarks move closer to real work, compression gets harder: static prediction leaves room for large savings, agent rollouts leave less, and in-the-loop training leaves almost none.
Figure 3. The toolkit for compressing evaluation does not transfer as benchmarks become more complex. Bars show the maximum measured compression that preserves model-rank fidelity; labels give the published range. The highlighted bar flags the ~1× baseline where no general compression method exists. Static benchmarks routinely compress 100–200× without losing rankings. Agent benchmarks compress 2–3.5× at best. Training-in-the-loop benchmarks resist subsampling because the unit being evaluated *is* the trained model.
Reliability is the expensive part
Most of the costs above buy only single-run measurements with limited statistical power. When you measure reliability across repeated runs, static benchmarks, agent benchmarks, and training-in-the-loop benchmarks all become more expensive.
Agent reliability can fall hard when you stop treating one run as evidence. The best-known example comes from Yao et al.'s τ-bench, later reframed in CLEAR (Mehta, 2025): performance can drop from 60% on a single run to 25% under 8-run consistency. Kapoor et al.'s "AI Agents That Matter" found that simple baseline agents Pareto-dominate complex SOTA agents (Reflexion, LDB, LATS) on HumanEval at 50× lower cost. Their holdout analysis found that 7 of 17 benchmarks had no holdout set; among the 10 that did, only 5 held out tasks at the appropriate level of generality, so 12 of 17 failed their holdout criterion overall. The HAL paper notes that a "do-nothing" agent passes 38% of τ-bench airline tasks under the original construction. HAL's own log analysis revealed data leakage in the TAU-bench Few Shot scaffold, forcing its removal in December 2025.
Another recent reliability accounting comes from Rabanser, Kapoor et al.'s "Towards a Science of AI Agent Reliability", which proposes twelve metrics across consistency, robustness, predictability, and safety. Their finding: "recent capability gains have only yielded small improvements in reliability." HAL's internal analysis shows how much fragility hides behind aggregate accuracy. On SciCode and CORE-Bench, agents almost never completed a run without a tool-calling failure. On AssistantBench and CORE-Bench, environmental errors occurred in roughly 40% of runs. Agents violated explicit benchmark instructions in their final answer over 60% of the time on failed tasks.
A statistically credible HAL-style evaluation with k = 8 reruns per cell takes the $40K aggregate to roughly $320K. The same multiplier on PaperBench's $9,500-per-run cost pushes a single agent's evaluation past $75K, and on The Well, a multi-seed protocol takes the per-architecture cost from ~960 H100-hours to several thousand. Reliability acts as a multiplier on every cost category above.
HAL has paused new model evaluations to focus on reliability: the field's headline numbers still carry too much noise, and reducing that noise costs real money. And the figures above are lower bounds; many evaluators are already priced out.
What this means for ML as a field
Eval cost is now an accountability barrier
Academic groups, AI Safety Institutes, and journalists now hit the budget constraint before the technical one when they try to evaluate frontier agents independently. A single GAIA run can exceed an annual graduate student travel budget. A single PaperBench evaluation, including the LLM judge, runs about $9,500. Three-seed comparisons of six models, the kind of study one might publish, push above $150,000. The established practice of "running a benchmark once and reporting the accuracy number" has roughly the rigor of crash-testing one car in perfect weather. Moving past it requires money the academic system does not currently allocate as research compute.
The compute divide now includes evaluation
Ahmed, Wahed and Thompson (Science 2023) documented that industry models in 2021 were 29× larger than academic ones by parameter count, and that about 70% of AI PhDs went to industry in 2020 versus 21% in 2004. The original "compute divide" story mostly ignored evaluation because evaluation used to look cheap next to training. Many benchmarks have reversed that relationship. A lab that can fine-tune a 7B model can no longer assume it can afford the benchmarks the field takes seriously.
Cost-blind leaderboards reward waste
When leaderboards report raw accuracy and omit cost, researchers can rationally pour tokens into a problem until the number ticks up. The HAL paper finds that higher reasoning effort actually reduces accuracy in the majority of runs: extra inference compute does not reliably improve even the metric it is supposed to optimize. Pareto frontiers fix the comparison by ranking accuracy against cost. HAL implements them, but most leaderboards still do not.
If only frontier-lab compute budgets can produce statistically reliable benchmark numbers on the highest-cost agentic and scientific benchmarks, the social process of evaluating AI systems becomes concentrated inside the same labs that build them, rendering external validation partial, and sometimes absent, unless someone subsidizes the cost directly.
Cost summary across benchmark types
Benchmark
Type
USD per single evaluation
What "one evaluation" means
HELM (per LLM, 2022)Static LLM$85 – $10,926 API; 540 – 4,200 GPU-hrs openOne LLM through 42 scenarios; per-model table in HELM §6 p. 43
ScienceAgentBenchAgentic, science$0.19 – $77One agent config across 102 tasks
TAU-bench AirlineAgentic$0.31 – $180One agent across all airline tasks
SciCodeAgentic, science$0.12 – $625One agent across 338 sub-problems
CORE-Bench HardAgentic, replication$2 – $510One agent across 45 papers
SWE-bench Verified MiniAgentic, coding$4 – $1,600One agent across 50 issues
Online Mind2WebAgentic, web$5 – $1,610One agent across 300 web tasks
GAIAAgentic, multimodal$7.80 – $2,829One agent across GAIA tasks
ResearchGym (full pass)ML research, training$540 – $1,2605 tasks × 24h × 3 seeds (~360 GPU-hrs) + API
RE-Bench (single pass)ML R&D, training$140 – $8407 environments × 8h × 1–6 H100s
The Well (per architecture)SciML, training~$2,400Headline 16-dataset grid: 5 LRs × 16 datasets × 12h H100
MLE-Bench (1 seed)ML R&D, training~$5,50075 Kaggle competitions × 24h on A10 + o1-preview API
PaperBench Code-DevScientific, code only~$4,200One agent across 20 papers, no execution
The Well (full sweep)SciML, training~$9,6004 architectures under the headline 16-dataset grid
PaperBench (full)Scientific~$9,500One agent across 20 papers, full protocol
HAL aggregate9 benchmarks × 9 models~$40,000All 81 cells, single seed each
All figures normalized to USD per single evaluation. GPU compute converted at $2.50/H100-hour, $1.50/A10-hour; API and grading costs included where applicable. Pythia ("eval can exceed pretraining"), PDEBench (per-architecture cost depends on the selected training protocol and hardware), and NAS-Bench-101's 100 TPU-year construction cost are excluded because they do not normalize cleanly to a per-evaluation USD figure.
Stop paying twice for the same eval
One reason these numbers stay high is that the field keeps re-running the same evaluations. A frontier lab pays for a HAL sweep, an academic group pays again for a partial reproduction, an audit organization pays a third time for the model versions it cares about, and a journalist pays a fourth to spot-check the leaderboard. Most of those runs cover overlapping models on overlapping benchmarks. Almost none of the underlying instance-level outputs end up in a place where the next team can build on them, because results get reported as a single accuracy number in a PDF, in a model card table, or in a leaderboard entry that hides scaffold, prompt, and seed. The cost figures above are large in part because the field is paying retail every time, on artifacts the rest of the community could not reuse if it wanted to.
Standardized documentation is the cheapest lever available here, and it is the one reliability work needs anyway. If a $9,500 PaperBench rollout exports its full grading trace in a shared schema, the next group studying the same papers can spend its budget on new perturbations instead of repeating the baseline. If a multi-seed HAL run publishes per-trajectory tool-call logs, agent reliability research can answer questions that a single accuracy number cannot. The saving compounds: even a 2× reuse rate on the high-cost benchmarks would put more money back in the ecosystem than every compression technique combined.
Sharing Eval Data. The EvalEval Coalition's Every Eval Ever project is the standardized format we use for this. It bundles a metadata schema, validators, and converters from popular harnesses such as HELM, lm-eval-harness, and Inspect AI, so existing eval logs can be transformed into a shared format with one step. The community repository on Hugging Face already hosts results from dozens of contributors, with an open Shared Task for adding more. If you ran one of the costly evaluations in this post, depositing the artifacts in a unified, transparent, verifiable and reproducible manner is the highest-leverage cost-reduction move available to the rest of the field. Additionally, if your benchmark is on Hugging Face, you can also expose your results on hub leaderboards and model pages via Community Evals!
Where this leaves us
The economics have changed. Not long ago, training was expensive and evaluation was cheap. For frontier LLMs trained at $50 million to $100 million, evaluation still looks like a rounding error, but that rounding error now costs tens of thousands of dollars per benchmark run and often leaves noisy results behind. For neural operators, ML research agents, and replication benchmarks, the ratio has flipped: a credible evaluation can cost more than training the candidate model.
We already know how to make static evaluation cheaper. Flash-HELM, tinyBenchmarks, and Anchor Points work. Agent evaluation has only partial fixes: mid-difficulty filtering helps, and Pareto-front leaderboards help, but the toolkit remains thin. Training-in-the-loop evaluation has no general compression method; tabular precomputation and tight budget caps can reduce cost only by narrowing what the benchmark measures. Reliability adds another layer because repeated runs raise the price of every protocol.
The field still talks as if capability sets the main constraint, but evaluation points to reliability as the tighter one. Governance institutions should want to measure the gap between single-run accuracy and pass^k consistency, yet that gap costs the most to measure. Static-benchmark compression does not transfer to agent or training-in-the-loop benchmarks, and mid-difficulty filtering remains the only credible partial substitute. Cost-blind leaderboards now mislead by design, because they reward extra spending without reporting what that spending bought.
Evaluation now has its own compute budgets, statistical methods, and failure modes. Its price also shapes who gets to evaluate powerful systems in the first place. Whoever can pay for the evaluation gets to write the leaderboard.
Sources
- Ying et al. (2019). NAS-Bench-101: Towards Reproducible Neural Architecture Search. arXiv:1902.09635.
- Liang et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110.
- Takamoto et al. (2022). PDEBench: An Extensive Benchmark for Scientific Machine Learning. arXiv:2210.07182.
- Ahmed, Wahed and Thompson (2023). The growing influence of industry in AI research. Science 379(6635).
- Biderman et al. (2023). Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling. arXiv:2304.01373.
- IBM Research (2023). Efficient LLM Benchmarking. research.ibm.com.
- Perlitz et al. (2023). Efficient Benchmarking of Language Models. arXiv:2308.11696.
- Vivek et al. (2023). Anchor Points: Benchmarking Models with Much Fewer Examples. arXiv:2309.08638.
- Chan et al. (2024). MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv:2410.07095.
- Chen et al. (2024). ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery. arXiv:2410.05080.
- Kapoor et al. (2024). AI Agents That Matter. arXiv:2407.01502.
- Wijk et al. (METR, 2024). RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts. arXiv:2411.15114.
- Ohana et al. (2024). The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning. arXiv:2412.00568.
- Polo et al. (2024). tinyBenchmarks: evaluating LLMs with fewer examples. arXiv:2402.14992.
- Siegel et al. (2024). CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark. arXiv:2409.11363.
- Tian et al. (2024). SciCode: A Research Coding Benchmark Curated by Scientists. arXiv:2407.13168.
- Kapoor et al. (2025). Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation. arXiv:2510.11977.
- Li et al. (2025). Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks. arXiv:2511.04689.
- Mehta (2025). Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems. arXiv:2511.14136.
- Starace et al. (2025). PaperBench: Evaluating AI's Ability to Replicate AI Research. arXiv:2504.01848.
- UK AISI (2025). Evidence for inference scaling in AI cyber tasks: increased evaluation budgets reveal higher success rates. aisi.gov.uk.
- Bandel et al. (2026). General Agent Evaluation. arXiv:2602.22953.
- Garikaparthi et al. (2026). ResearchGym: Evaluating Language Model Agents on Real-World AI Research. arXiv:2602.15112.
- Ndzomga (2026). Efficient Benchmarking of AI Agents. arXiv:2603.23749.
- Rabanser et al. (2026). Towards a Science of AI Agent Reliability. arXiv:2602.16666.
- Holistic Agent Leaderboard (live). hal.cs.princeton.edu.
BibTeX Citation
@misc{ghosh2026evalbottleneck,
author = {Ghosh, Avijit and Mai, Yifan and Channing, Georgia and Choshen, Leshem},
title = {{AI} evals are becoming the new compute bottleneck},
year = {2026},
month = apr,
howpublished = {EvalEval Coalition Blog},
url = {https://evalevalai.com/research/2026/04/29/eval-costs-bottleneck/}
}関連記事
アリババのページエージェント:DOM を介して自然言語で Web インターフェースを制御する JavaScript 内蔵 GUI エージェント
大規模モジュラー LLM:デンマーク基盤モデルプロジェクトが FlexOlmo を活用し、機密データを共有せずに専門知識を集約する方法
美团发布长猫 2.0:1.6 兆パラメータのオープン MoE モデルがネイティブ 100 万トークンコンテキストと長猫スパースアテンションを実現
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み