強化学習データにおける高品質な QC の重要性
TLDR AI は、RL データの品質基準を強化し、パフォーマンス・コスト・レイテンシのパレート曲線上での評価標準化が不可欠であると指摘している。
キーポイント
品質基準の引き上げ必要性
最先端ラボ(frontier lab)にデータを提供するベンダーは、購入決定過程で暗黙的に厳格な品質審査を受けており、多くの企業が現在の基準を満たせていない。
評価指標の標準化の重要性
データの良し悪しを判断するには、パフォーマンス、コスト、レイテンシのトレードオフ関係(パレート曲線)においていかに機能するかをテストする QC ガイドラインの標準化が急務である。
高品質基準への対応遅れリスク
今年中に、より高い QC 基準を内部に組み込めないベンダーは市場で問題を抱え始め、競争力を失う可能性が高いと警告されている。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI の発展に伴い、単なるデータ量の増加ではなく、強化学習(RL)におけるデータ品質の厳格な管理が競争優位性の鍵となることを示唆しています。業界全体として、ベンダー選定基準が「コストと性能のバランス」を数値化・標準化する方向へシフトする必然性を強調しており、開発者とデータ提供者双方に戦略的見直しの必要性を迫る重要な指針となります。
編集コメント
RL データの質がモデル性能を決定づける重要な要素として浮上しており、ベンダー選定における新たな基準が形成されつつある。業界全体で QC の標準化が進まなければ、開発コストと成果のギャップが拡大する恐れがある。
1 月、私はデータ業界がデータの品質をどのように評価するかという切実な必要性に応じて、Type 1 データと Type 2 データの 新しい定義 を提案しました。より長い時間軸の運用体制へと移行することによる意識的な副作用として、モデルベースの QA(品質保証)への必要性が高まっており、これは現在のデータ企業のボディショップ(人件費を稼ぐだけの組織)の能力をはるかに超えています。
私たちが最初に参入したデータ市場の進出順序は、それぞれの市場でどれほど検証可能にできるかという点と直接対応しています。私たちはまず、インフラストラクチャ層において検証可能な領域を選択することで、困難なドメインをフィールドから除外しました。次に、実際の意思決定を難しくしていた注意散漫や不可逆性を排除する環境を構築し、さらに議論の余地のある立場を取ることを要求する報酬関数を避けることで、この選抜効果による成果をパイプライン設計において運用可能な形に落とし込みました。仮に容易なドメインとして残した領域であっても、有用な Type 1 データセットと価値が低下するデータセットを区別する QC(品質管理)の規範は、まだデータ市場全体で共通言語として確立されていません。2026 年にフロンティア研究所へ出荷されたデータの多くは、その研究所自体が設定した内部 QC フレームワークの基準を満たしていません。
多くのデータ企業は二つの点で淘汰されます。一つは、評価問題がすでに解決されているため、より簡単なドメインを選んでいることです。もう一つは、それらのドメインで出荷するデータに対して、実際に QC 問題を解決できていないことです。
オフザシェルフの強化学習(RL)データに対する適切な品質管理(QC)の姿は、過去 18 ヶ月をかけて明確になってきました。良い状態の基準には防御可能な水準があり、それは単なる理想像であってはなりません。この基準はラボ自体によって実装され、出荷されています。2026 年に最先端ラボへ販売を行ういかなるベンダーも、購入決定の際に暗黙的にこの基準に対して評価されることになります。多くの企業が同時に複数の関門で失敗しています。
ここで使われる用語体系を順を追って確認する価値があります。なぜなら、これらはまだ使用该言語のラボの外には広がっていないからです。私たちが「できるかどうか」ではなく、「何かを行うのにどれだけのコスト・速度がかかるか」を測定するデータやタスクへと重心を移すにつれ、パフォーマンス・コスト・レイテンシのパレート曲線上でデータがどの程度有効にテストされているかを評価するための標準化された品質管理(QC)は、極めて重要な役割を果たすことになります。
導入レビュー
トレーニング後の実行がデータを触れる前に、そのデータセットがそもそも評価可能かどうかを問う必要があります。
これは QC スタックの中で最も安価なゲートであり、データ会社が最も省略しがちな部分です。6 桁の試行契約費を投じているフロンティア研究所が、インテークレビューで不合格となるデータセットに対して支払うのは二重のコストです。つまり、データ自体に対する支払いと、最初から解釈不能だったトレーニングランのために消費された GPU 時間および研究者の注意力に対する支払いです。2026 年の OTS RL データ市場は十分に大きいため、現在インテークを省略することによる二次コストは、実行する一次コストを上回っています。私の 以前の投稿 で言及した通り、Anthropic を含む他の研究所は 2025 年の RL データ支出を 10 億ドル以上と開示しており、実際にはそれを上回っています。
フロンティア分析のためにデータを収集すると公言するすべての企業が少なくとも表示すべき、主要なインテークカテゴリがいくつかあります。
検証スペクトラム分類は、タスクがどの位置にあるかを問うものです。これは、決定論的なコード評価(SWE-bench Verified がこのカテゴリの最もクリーンなバージョン)と LLM 判定ルブリック(HealthBench、FLASK、BiGGen Bench、Prometheus 2 で公開された参照パターンは、原子性・二値化・軸タグ付けされた基準です)の間、および報酬ベースの RL ではなく SFT デモとして提供されるべき自動化による検証不可能なタスクとの間で位置づけられます。この分類を省略することは、研究所が根本的に監査されていない LLM 判定器を報酬関数に組み込んでしまう原因となります。
汚染耐性とバリアント生成は、データセットの「ヒルクライム性」が次のモデル生成においても維持されるかどうかを問うものである。例えば、GPQA、AIME、FrontierMath は静的なセットであり、問題が事前学習に漏洩したことで 1 年以内にその識別力が減衰し、ベンダー側には監視役(カニヤ)も存在せず、ローテーションの頻度もなく、回復策も提示されていなかった。
Pass@k と分布分析は、生産的なトレーニングの範囲を定める。なぜなら、ターゲットモデルにおいて Pass@1 がゼロであるデータセットや、難易度分布が二峰性(バイモーダル)を示すデータセットでは、上昇するための勾配が生じないからである。
評価基準(ルブリック)の構築パターンは、評価者が原子論的かつ二元論的なのか、それとも複合的で報酬ハッキングが可能なのかを決定する。これは ルブリック・アンカーリング研究 に基づくものである。各カテゴリには、背後に公刊された教訓的な物語が伴う質問が含まれており、それを誤った場合のコストはラボによって下流で支払われるものであり、ベンダーが負担するものではない。
いくつかのチェックは、事前飛行(プレフライト)として扱うべきですが、これを適切な形式にまとめたものは、この仕組みを確立したベンダーが調達チームに対する構造化された提案(「各カテゴリにおける私たちのアプローチはこちら、各ゲートの成果物はこちら、実施した監査パスはこちら」といった内容)として活用し、非公式なオンボーディングサイクルを数ヶ月ではなく数週間で完了させることに成功しています。一方、この仕組みを確立できていないベンダーは、自分が獲得できると信じていた契約を失うか、あるいは紙面上ではデータが「良好」だと主張する研究者を抱えていますが、実際には裏で代替案を探しているという状況に陥っています。百万行規模のデリバリーを監督するラボがその中の1行で1つの不整合または失敗を発見した場合、QC プロセス自体が存在するのかどうか疑問視されることになります。
アクティブテスト
インテーク(受入審査)を通過した後、小規模なアブレーション実験と小規模なポストトレーニングを組み合わせて、インテークレビューでは検出できない問題を発見するために、ポストトレーニングデータをストレステストすることがあります。リワードハッキングは、異なるハーネスを持つさまざまなモデルの複雑さの中でトレーニング中に現れます。シコファンシー(迎合)は静的評価ではなく、リワード圧力下で顕在化します。フォアゲッティング(忘却)はトレーニング実行後に現れ、その時点ではラボはすでにデータと計算資源に対して支払いを完了しており、私たちは一般的に、大規模な忘却がデータセットの即座の結果とならないようにしたいと考えています。アクティブテストの実行コストはインテークよりも高く(プローブモデルへの小規模ポストトレーニングと診断バッテリーのための GPU 時間が必要)、しかしそれを省略した場合のコストはさらに高くなります。なぜなら、このテストで検出される故障モードは、フロンティアモデルのリリースを静かに劣化させ、私が各ラボから聞いている契約更新拒否を引き起こすものだからです。
2026 年におけるデータベンダーのほとんどは、出荷するデータに対してアクティブテストのカテゴリーをゼロで実施しています。
報酬ハッキングは、今なおあらゆるラボの会話で話題に上ります。METR は、サンドボックス内の o3 試行の 1〜2% にエクスプロイトが含まれているという数値を提示し、AISI は孤立環境内から OpenClaw が自身の評価用代理モデルを逆解析しているのを検出しました。また ImpossibleBench では、GPT-5 が不可能-SWEbench バリアントにおいてテストケースを 76% の確率でエクスプロイトしていることが判明しています。現代の最先端モデルは報酬圧力下で評価を常套的に欺いており、多くのベンダーが自社のデータがまさにそのために訓練されていないかを確認するプローブを一度も実行したことがないと私は感じています。バイアス・プローブ・バッテリーは、報酬関数におけるあらゆる LLM 判定器に対する並行する物語です。Sycophancy、reward-tampering(報酬改ざん)、そして alignment-faking(アライメント偽装)は、ベンダーが実施すべき 3 つの公開されたプローブであり、アライメント・フェイクのベースラインは 12% に達していますが、これらを実行しているのはほとんどありません。
検証者評価データにおいては、200 の PASS と 200 の FAIL を人間が再判定し、偽陽性(FP)および偽陰性(FN)の発生率を別々に報告する SWE-bench Verified Pro パターン が、もはや必須条件となっています。OpenAI の 2026 年におけるオリジナル SWE-bench の廃止に関するポストでは、監査された問題の 59.4% に不具合のあるテストケースがあることが判明しました。これが「決定論的検証者(deterministic verifier)」が何の意味も持たなくなる下限値です。チェック機能は Tulu 3 が発表しているような集計値ではなく、各スキルごとに個別に行う必要があります。SFT の継続的なポストトレーニング(平均で約 -10.4%)とオンポリシー RL(約 -2.3%)の間のギャップこそが、トレーニング手法の選択を決定づけるべきものであり、Qi et al. は、安全性に関連するデータにおいて集計値が誤解を招く理由を示しています。小さな良性ファインチューニングは、RLHF の安全ガードレールを剥奪しつつも、集計スコアは平坦なままになる可能性があります。Frontier shape analysis はパレート曲線を用いて報酬ハック可能なタセットを検出しており、報酬ハッキングの代表的な研究 が公開された参照となっていますが、多くのベンダーはこれを実行していません。なぜなら、これは彼らが所有していない GPU インフラストラクチャを必要とするからです。この中で最も安価かつ有用なのは失敗のトリアージです。各ロールアウトで失敗した事例を「能力」「プロンプト」「足場(scaffolding)」「評価基準(rubric)」、「トレーニングデータ」、「オーケストレーション」、あるいは「三角測量」としてラベル付けすることで、ベンダーには具体的な修正リストが提供され、ラボ側にはデータセットがデータ層レベルで破損しているのか、それとも上位工程に問題があるのかを判断する手段が与えられます。
調達レビューの形状は、インテーク(データ受け入れ)と同じです。アクティブテストとは、各ラボが受け入れるすべてのデータセットに対してすでに内部で実施している作業であり、ラボがその作業を繰り返す必要がないよう、ベンダーには監査結果をデータと一緒に送付するよう求めるケースが増えています。バイアスプローブバッテリーの結果、スキルごとの忘却数、検証器の誤検出/見逃し(FP/FN)監査、および失敗トリアージ分布を示して現れるベンダーは、オンボーディングが数週間で完了します。一方、「小規模なトレーニング実験をいくつか実行し、損失が減少した」とだけ報告するベンダーは、最初の技術レビューで突破できません。この格差こそが、2026 年において真面目なデータ企業とコモディティ(汎用品)競合との違いです。
注記として、多くのラボはいくつかの能力において計算リソースに恵まれているため、品質データの不足がボトルネックとなっている現状を踏まえ、特定のベンダーとの継続的な取引においてはデータ品質に対してより寛容である場合があります。しかしながら、過去の執筆で指摘された通り、もし次期 AI バブルが発生するならばその原因はデータにあるとすれば、研究者が調達したデータの 50% 以上を廃棄するような非効率なデータ市場の中で、私たちはどれほど長く存続できると期待できるのでしょうか?
野外(実環境)で改善が必要な箇所
2024-2026 年のベンチマークリリースについて、これらの基準がどのように欠落しているのか、いくつか深掘りしてみましょう:
FrontierSWE (Proximal) は、可能な限り最強の検証レジーム(隠されたテスト信号を備えた決定論的コードベースグラダー)に位置しており、各モデルが独自のネイティブ生産ハーンチスにロックされているため、表層の階層化において正確に失敗します。これは、ヘッドライン数値に対するモデルと足場の寄与を混同している状態です。
ProgramBench は現実性において欠陥があります。明確な仕様と既知の答えを持つ完全な Web 2.0 ソフトウェアの再構築は、2026 年の生産用コーディングエージェントにとっての展開文脈ではなく、ProgramBench リーダーボードで首位に立つモデルが、必ずしもどのエンジニアリングチームも導入すべきモデルであるとは限りません。私はこれらのタスクを、モデルに対する創造的制限とカタログ化のコストをヒルクライミング目的カテゴリとして適用しましたが、これらはいまだに非常に作りものであり、コンテストの難易度を生産上の有用性と混同させるベンチマークのクラスを表しています。
Tau-Bench は、多段階のカスタマーサービスインタラクションにおける最終状態の正しさを測定しますが、多段階ロールアウトにおいて負荷を支えるプロセス評価を省略しています。エージェントは 3 番目のターンで適切な確認質問を行ったか、5 番目のターンでツールの失敗から回復したか、7 番目のターンで解決策を一貫して説明したかといった点が問われます。
GDPval は、最先端の能力を経済生産性に結びつけようとするが、ProgramBench がそうであるのと同じ理由で現実性を欠いている。すなわち、統制された環境で再構築された生産性タスクは、実際の組織文脈に存在する生産性タスクではないからである。
MMMLU は、標準的な MMLU の汚染姿勢を 40 か国語にわたって引き継いでおり、カニャー(canary)も回転(rotation)もなく、リリース時から既知の漏洩プロファイルを抱えている。
DSBench は、GPT-4o-as-judge を 86% のタスクに適用し、単なる手振りの検証主張に基づいており、10 か月で 34% から 89% に飽和した。これは、静的なセット上で検証器の健全性(verifier soundness)を省略した場合に何が起こるかを示す負荷を支える例である。
Terminal-Bench 2.0 はタスク検証を適切に行っているが、短いシェルタスクの範囲内に留まっており、そこでは不可逆性やプロセス評価の失敗が、より長い時間軸を持つ作業表面で隠蔽されている。これは、コーディングと数学が 2024 年にそうであったのと同じ様式である。
カテゴリの多くを通過するベンチマークは、一度に一つの軸においてその成果を示す傾向があります。BankerToolBench(Handshake)は、金融ツールの利用における最もクリーンな現実性の物語だと私が目にしたものであり、タスクが実際の投資銀行のワークフローから派生しており、検証者が銀行家が使用する実働製品を中心に構築されているためです。LiveCodeBench Pro は、競争プログラミングサイトからローリング方式で新鮮な問題を抽出し、それらが事前学習に組み込まれるにつれて廃棄することで汚染対策を講じており、これは正しく行われる更新サイクルにおける公開参照となります。SciCode は、専門家レビュー付きで問題ごとの決定論的チェッカーを手書きすることにより、部分的な採点を行う科学プログラミングにおける検証者の健全性を担保していますが、その代償としてスケーラビリティが犠牲になります(ただし、Mercor のここで実施されている人間による QA が適切に実行されたのであれば、私はこのスケーラビリティを犠牲にしたエントリーを歓迎します)。これらはいずれも一度にすべてのカテゴリをクリアするものではありません。
これらの企業が取り組んだ仕事に対して深く敬意を表します。すべてが分野を前進させる成果物をリリースしました。また、それらはすべて、なぜ QC の基準が現在では構造的に不可欠な役割を果たしているのかを示しています。「測定器具が実際に研究室が下せる研究決定を情報提供しているか」という問いは極めて困難です。QA プロセスがベンダーによって異なるためであり、その答えはベンチマークがクリアしたカテゴリとスキップしたカテゴリのどちらによるものかに依存します。
注目に値するベンダーの区別は、テーブルステークスと差別化の間にある。なぜなら、最低限の基準(floor)は比較的自動化可能だからだ。私はこの最低基準を、データセットドキュメントのマニフェスト、リンター付きの原子的ルブリック構築、検証器の健全性監査、n-gram 汚染レポート、バイアスなし pass@k を用いたクロスモデル評価、マルチシードブートストラップ CI、評価ハッチ宣言、トレースアーティファクト、少なくとも 2 つのスキャフォールディング構成にわたる表面層別化、バージョン管理された短縮リストからのプローブモデル選択など、多様な要素の盛り合わせ(smorgasbord)と捉えている。
さらにコスト効果が見込めない差別化作業については、その内容は研究者の仕事のように見える。検証器に対するバイアスプローブバッテリー、sycophancy、reward-tampering、alignment-faking に対するプローブ、反事実的摂動を伴う CoT faithfulness probes、tinyBenchmarks または Fluid Benchmarking を用いた IRT ベースの能力監査、PPO および GRPO に対するオンライン RL ラーン診断などだ。引用された論文を直接読める研究スタッフを持たないベンダーはこれらを実装しないだろうが、そのようなスタッフを持つベンダーは適切に評価されるべきである。
The market implication
この QC の基準を内部化していないベンダーは、2026 年に契約の更新を拒否される運命に直面し、トップラボからすでに聞いている RL(強化学習)契約の非更新に関する噂は、まさにこの動向を反映しています。ラボは、「この形状のタスクをもっと必要としている」という抽象的な意味でのデータ購入を減らしています。中国向けラボへの販売者にとっては、従来の手法がまだ通用するかもしれません。しかし、市場の残りの部分は変化しました。非現実的な合成データに対して過剰に最適化し続けるほとんどのベンダーは、潮流に逆らって販売することになるでしょう。必ずしも口に出して言われるわけではありませんが、最前線のラボは成果を購入しており、特定の能力におけるモデル改善を求めています。QC の基準とは、そのデータが実際にその成果を生み出せるかどうかの下限値です。
現在の形のままスケーラビリティを考慮せずにデータ販売のために過度に最適化することは、千切りによる死を選ぶことに他なりません。2026 年のフロンティア研究所は、ブラックボックス(内部構造が不明なシステム)に対して大幅に割引評価を下すことを学びました。特に、自社のデータ品質に関心がないように見えるベンダーに付随するブラックボックスについてはその傾向が強いです。すでにこのインフラを社内で構築している数少ないベンダー(研究集約型のチームを持つ小規模なセットが中心です)は、同様のタスクに対してコモディティ競合他社が請求できる価格の 3〜5 倍という価格決定権を得ており、そのプレミアムは、スケールする信頼できる品質ファーストパートナーとしての継続的な信頼に基づいています。研究所の調達チームがより洗練されるにつれ、またこれらの基準を満たすデータチームが市場に登場するにつれて、この格差はさらに拡大すると私は考えます。
これは、長期にわたる検証不可能なポイントに関する補足観察です。報酬関数が争点となり、環境が不可逆性をモデル化する必要があるより困難な領域に進む前に、私たちはまず報酬関数に異論がない領域で QC(品質管理)作業を行う必要があります。実行ギャップは、まだ埋めるべき残りの課題であり、その大きさは選択バイアスよりも小さいものの、データ企業を運営している多くの人が認めようとする以上に大きいものです。より明確な QC 基準が存在する世界こそが、Andons' のようなモデルがさらに普及する世界でもあります。
理論的には、2027 年にデータ企業を運営していて、少なくとも 3 つのモデルにおける pass@k(合格確率)の分布、人間によるゴールドデータに対する検証器の偽陽性/偽陰性率、対象となる評価スイートに対するコンタミネーションチェック、プローブモデルを用いたフロンティア形状診断について説明できない場合、その企業が販売しているのは Type 1 データではありません。Type 2 データを Type 1 のマーケティングで販売しているに過ぎません。研究ラボは 1 つの購入サイクル内でこれを見抜くでしょうし、私が聞いている噂では、すでにいくつかの企業で見抜かれているようです。
原文を表示
In January, I proposed a new definition for Type 1, Type 2 data, pending drastic need from the data industry on how to evaluate data quality. A conscious side-effect of the shift to longer horizon regiments is increased need for model-based QA, far beyond the body-shop capabilities of current day data companies.
The progression of what data markets we entered first directly corresponded to how verifiable we could make each one. We filtered the hard domains out of the field at the infrastructure layer, first by choosing verifiable ones, then by building environments that strip away the attention and irreversibility that made real decisions actually hard, then by avoiding reward functions that require taking a contested position. The artifacts from this selection effect are operationalized in pipeline design. Even in the supposedly easy domains we kept, the QC discipline that distinguishes a useful Type 1 dataset from a depreciating one is not yet a shared language across the data markets. Most of the data shipped to frontier labs in 2026 fails the bar set by the labs' own internal QC frameworks.
Many data companies fall by the wayside in two ways. We're picking the easier domains because the evaluation problem is already solved there. And we're failing to actually solve the QC problem on the data we ship in those domains.
The shape of good QC for off-the-shelf RL data has come into focus over the past eighteen months. There is a defensible bar for what good looks like, which should not be aspirational. It is implemented and shipped by the labs themselves, and any vendor selling into a frontier lab in 2026 is being measured against this bar implicitly during the purchase decision. Most are failing multiple gates at once.
The vocabulary here is worth walking through because it has not yet propagated outside the labs that use it. As we tend towards data and tasks that measure how much/fast it costs to do something, rather than whether we can do them, standardized QC for evaluating how well data tests something on the performance-cost-latency Pareto curve will become of utmost importance.
Intake review
Before any post-training run touches the data, you ask whether the dataset is even eval-able.
This is the cheapest gate in the QC stack and it is the one most data companies skip. A frontier lab spending a six-figure trial contract on a dataset that fails intake review is paying twice, once for the data itself, and once for the GPU hours and researcher attention burned on a training run that was uninterpretable from the start. The market for OTS RL data in 2026 is large enough that the second-order cost of skipping intake now exceeds the first-order cost of running it. As mentioned in my previous piece, Anthropic and other labs disclosed their RL data spend in 2025 at $1B+ and overshoot it in actuality.
There are major intake categories that every company that professes to collect data for frontier analysis ought to display at least.
Verification spectrum classification asks where the task sits between deterministic code grading (SWE-bench Verified is the cleanest version of this category) and LLM-judge rubrics (the published reference pattern across HealthBench, FLASK, BiGGen Bench, and Prometheus 2 is atomic, binary, axis-tagged criteria) and unverifiable-by-automation tasks that should ship as SFT demonstrations rather than reward-based RL. Skipping this classification is how labs end up plugging fundamentally unaudited LLM judges into reward functions.
Contamination resistance and variant generation ask whether the dataset's hillclimbness survives the next model generation. For example, GPQA, AIME, and FrontierMath are static sets whose discriminative power decayed inside a year as problems leaked into pretraining and the vendors had no canary, no rotation cadence, no recovery story.
Pass@k and distributional analysis set the productive training band, because a dataset whose pass@1 sits at zero on the target model or whose difficulty distribution is bimodal produces no gradient to climb.
Rubric construction patterns determine whether the grader is atomic and binary or compound and reward-hackable per the rubric anchoring research. Each category is a question that has a published cautionary tale behind it and the cost of getting it wrong is paid downstream by the lab, not by the vendor.
There are a few more checks that ought to be treated as pre-flights, but a concoction of this in nice formats mean that the vendors that have figured this out are using intake review as a structured pitch to procurement teams ("here is our slice on each category, here is the artifact for each gate, here is the audit pass we ran") and clearing informal onboarding cycles in weeks instead of months. The vendors that haven't are losing the contracts they think they're winning, or have researchers that say their data is "good" on paper but secretly looking for alternatives behind their backs. When a lab, overseeing a million line delivery, discovers one discrepancy/failure in one of those lines, they'll wonder about whether there is a QC process whatsoever.
Active Testing
After intake passes, some small-scale ablation + small post-training can be employed to stress-test post-training data to catch the problems intake review cannot see. Reward hacking shows up in training, amongst the complexity of different models with different harnesses. Sycophancy shows up under reward pressure, not in static evaluation. Forgetting shows up after the training run, by which point the lab has already paid for the data and the compute, and we generally want to make sure catastrophic forgetting is somehow not an immediate consequence of a dataset. Active testing is more expensive to run than intake (the cost is a small post-training run on a probe model plus the GPU hours for the diagnostic battery), but the cost of skipping it is higher still, because the failure modes it catches are the ones that quietly degrade frontier model releases and trigger the contract non-renewals I'm hearing about across the labs.
Most data vendors in 2026 are running zero categories of active testing on the data they ship.
Reward hacking comes up in every single lab conversation, still. METR put numbers on it with 1-2% of o3 attempts containing exploits inside their sandboxes, AISI caught OpenClaw reverse-engineering its own evaluation proxy from inside an isolated environment, and ImpossibleBench finds GPT-5 exploiting test cases 76% of the time on the impossible-SWEbench variant. Modern frontier models are routinely cheating their evaluations under reward pressure, and I still find many vendors have never run a single probe to check whether their own data trains for exactly this. The bias-probe battery is the parallel story for any LLM-judge in a reward function. Sycophancy, reward-tampering, and alignment-faking are the three published probes vendors should be running, with the alignment-faking baseline at 12%, and almost none are.
For verifier-graded data, the SWE-bench Verified Pro pattern of 200 PASS plus 200 FAIL human re-judging with FP and FN rates reported separately is now table stakes. OpenAI's 2026 retirement post for the original SWE-bench found 59.4% of audited problems had flawed test cases. That's the floor under which "deterministic verifier" stops meaning anything. Forgetting checks need to be per-skill, not aggregate, the way Tulu 3 published the floor. The gap between SFT continual post-training (around -10.4% average) and on-policy RL (around -2.3%) is what should inform the training method choice, and Qi et al. is the reason aggregate numbers are misleading on safety-relevant data. Small benign fine-tunes can strip RLHF safety guardrails while aggregate scores stay flat. Frontier shape analysis uses the Pareto curve to detect reward-hackable task sets, with the reward-hacking signature work as the published reference, and most vendors don't run it because it requires GPU infrastructure they don't own. Failure triage is the cheapest of these and the most useful. Each failed rollout labeled as capability, prompt, scaffolding, rubric, training-data, orchestration, or triangulation gives the vendor a concrete edit list and the lab a way to tell whether the dataset is broken at the data layer or upstream.
The procurement read is the same shape as intake. Active testing is the work the labs are already running internally on every dataset they accept, and they are increasingly asking vendors to ship the audit results alongside the data so the lab does not have to repeat the work. Vendors who show up with the bias-probe battery results, the per-skill forgetting numbers, the verifier FP/FN audit, and the failure-triage distribution are clearing onboarding in weeks. Vendors who show up with "we ran a few small training experiments and the loss went down" aren't getting past the first technical review. That gap is the difference between a serious data company and a commodity competitor in 2026.
It should be noted - that since many labs are compute rich in some capacities, that they are more forgiving of data quality (since we are more bottlenecked on quality data) in continuing to work with certain vendors. But, as harkened in previous writing on how data will be the cause of the next AI bubble if one, how long can we expect to exist in an inefficient data market where researchers throw out 50%+ of the data they procure?
Where we need to improve on in the wild
Let's do some deeper dives into 2024-2026 benchmark releases and how they lack some of these standards:
FrontierSWE (Proximal) sits in the strongest possible verification regime (deterministic code-based grader with hidden test signal), and exactly fails surface stratification because each model is locked to its own native production harness, conflating model and scaffolding contributions to the headline number.
ProgramBench fails on realism. Complete web 2.0 software recreation with clean specs and known answers is not the deployment context for any production coding agent in 2026, and the model that tops a ProgramBench leaderboard is not necessarily the one any engineering team should be deploying. Though I'd applied their creative restrictions placed on models and cataloging as cost as a hillclimbing objective category, these tasks are still quite contrived and represents a class of benchmarks that still confuse contest difficulty for production utility.
Tau-Bench measures end-state correctness on multi-turn customer service interactions and skips the process evaluation that is load-bearing on multi-turn rollouts. Did the agent ask the right clarifying question at turn three, recover from a tool failure at turn five, explain the resolution coherently at turn seven.
GDPval tries to anchor frontier capability to economic productivity and fails on realism for the same reason ProgramBench does, where productivity tasks reconstructed in a controlled environment are not the productivity tasks that exist in real organizational contexts.
MMMLU carries the standard MMLU contamination posture across forty languages, with no canary, no rotation, and a known leakage profile from the moment it shipped.
DSBench put GPT-4o-as-judge on 86% of its tasks with a single hand-wave validation claim and saturated from 34% to 89% in ten months, which is the load-bearing example of what happens when verifier soundness is skipped on a static set.
Terminal-Bench 2.0 handles task verification well but stays inside short shell-task horizons that hide both the irreversibility and process-evaluation failures longer-horizon work surfaces, the way coding-and-math hid them in 2024.
The benchmarks that pass more of the categories tend to do so on a single axis at a time. BankerToolBench (Handshake) is the cleanest realism story I have seen on financial tool use, because the tasks are derived from actual investment banking workflows and the verifier is built around the working products bankers use. LiveCodeBench Pro handles contamination defense by drawing fresh problems on a rolling basis from competitive programming sites and retiring them as they age into pretraining, which is the published reference for a refresh cadence done correctly. SciCode handles verifier soundness on partial-credit scientific coding by hand-writing per-problem deterministic checkers with expert review, at the cost of scaling (but I welcome this entry at the cost of scaling, if Mercor's human QA here was run well). None of them clear all categories at once.
I deeply respect the work that all of these companies have done. All of them shipped artifacts that move the field forward. All of them also illustrate why the QC bar is now load-bearing. The question of "does the measurement instrument actually inform a research decision the lab can make" is extremely difficult as the QA processes vary vendor by vendor, and the answer depends on which categories the benchmark cleared and which it skipped.
The vendor distinction worth drawing is between table stakes and differentiation because the floor is relatively automatable. I see the floor as a smorgasbord of dataset documentation manifest, atomic rubric construction with linter, verifier soundness audit, n-gram contamination report, cross-model evaluation with unbiased pass@k, multi-seed bootstrap CIs, eval harness declaration, trace artifacts, surface stratification across at least two scaffolding configs, and probe model selection from a versioned shortlist.
Further into the differentiation work that may not be cost-effective, the work looks more like a researcher's. Bias probe batteries on verifiers, sycophancy, reward-tampering, and alignment-faking probes, CoT faithfulness probes with counterfactual perturbations, IRT-based ability audits via tinyBenchmarks or Fluid Benchmarking, online RL lane diagnostics for PPO and GRPO. Vendors without research staff who can read the cited papers directly will not implement these, but vendors who do ought to be adequately rewarded.
The market implication
Vendors who haven't internalized this QC bar will find their contracts on the chopping block in 2026, and the rumors I've already heard from top labs about RL contracts being non-renewed reflect exactly this dynamic. Labs are buying less data in the abstract sense of "we need more tasks in this shape." Sellers to Chinese labs may still find that the old motion works. The rest of the market has shifted. Most vendors who keep overoptimizing on unrealistic synthetic data will be selling against the current rather than with it. It is not always said out loud, but the frontier labs are buying outcomes, model improvement on a target capability, and the QC bar is the floor under whether the data can actually produce that outcome.
To overoptimize for selling data in its current form without thinking about scalability is to choose a death by a thousand cuts. Frontier labs in 2026 have learned to discount black boxes heavily, especially black boxes attached to vendors who do not appear to care about their own data quality. The few vendors who have built this infrastructure internally already (a small set, mostly the ones with research-dense teams) are seeing pricing power on the order of 3-5x what their commodity peers can charge for nominally similar tasks, and the premium is built on continued trust as reliable quality-first partners at scale. I find that the gap will only widen as the labs' procurement teams get more sophisticated and as more data teams come to market with these standards.
This is the companion observation to the long-horizon non-verifiable point. Before we even get to the harder domains where the reward function is contested and the environment has to model irreversibility, we need to be doing the QC work in the domains where the reward function is uncontested. The execution gap is what's left to close, and it is smaller than the selection effect but larger than most people running data companies want to admit. A world where we have more codified QC standards is also a world where more models like Andons' proliferates. Theoretically, if you are running a data company in 2027 and you cannot tell me your pass@k distribution across at least three models, your verifier FP/FN rates against human gold, your contamination check against the named eval suites your dataset is positioned against, and your frontier-shape diagnostic on a probe model, you are not selling Type 1 data. You are selling Type 2 data with Type 1 marketing. The labs will figure that out within one purchase cycle, and the rumors I'm hearing suggest several already have.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み