検証可能な領域を超えた強化学習(8 分読了)
Anthropic の CEO ダリオ・アモデイ氏と専門家による分析は、検証可能なタスク(数学・コード)における RLVR の成功に対し、計画や科学発見など「検証不可能なタスク」が AI の次のボトルネックであることを示唆している。
キーポイント
検証可能性の制約と Verifier's Law
Jason Wei が提唱した「Verifier's Law」により、AI の学習難易度はタスクの検証容易さに比例し、数学やコードのように答えが明確な分野では RLVR(検証可能報酬による強化学習)が劇的な進歩をもたらしている。
検証不可能な領域への課題
火星ミッションの計画、CRISPR などの基礎科学発見、小説執筆など、即座に正誤を判定できないタスクにおいては、AI の能力向上に根本的な不確実性が残っている。
業界の現状と将来展望
OpenAI と Google DeepMind が国際数学オリンピックで金メダルレベルを達成する一方、10 年以内に「データセンター内の天才国家」が実現するかは、検証不可能なタスクをどう解決できるかにかかっている。
影響分析・編集コメントを表示
影響分析
この記事は、現在の AI ブームが「検証可能なタスク」に偏っていることを指摘し、次世代の AI 発展における真の課題を浮き彫りにしています。業界全体が RLVR の成功に沸く中、検証不可能な領域へのアプローチ法を見出すことが、汎用人工知能(AGI)実現の鍵となることを示唆しており、研究開発の方向性を再考させる重要な視点を提供します。
編集コメント
検証可能なタスクでの AI の飛躍的進歩は驚異的ですが、この分析が示す「検証不可能な領域」への壁こそが、次世代の知能を語る上で最も重要な論点です。
*私はタナヤ・ジャイプーリアです。Wing のパートナーであり、テクノロジー業界のビジネスに関する週刊ニュースレターを発信しています。タナヤのニュースレターをあなたのメールボックスで受け取りたい方は、こちらから無料で購読してください:*
こんにちは、友人たち。
Dwarkesh 氏とのポッドキャストにおいて、Anthropic の CEO であるダリオ・アモダイ氏は、10 年以内に「データセンター内に天才の国」が誕生すると 90% の確信を持っていると語りました。そして、残りの 10% の不確実性について説明する際、彼の最大の懸念は一つの事実に集約されます。それは検証不可能なタスクです:
*コーディングについては、その不可避的な不確実性を除けば、1〜2 年後には到達していると思います。エンドツーエンドのコーディング能力において、10 年以内に到達しないという可能性はあり得ません。私が長期的な時間軸においても抱く根本的な不確実性の一部は、検証不可能なタスクに関するものです:火星へのミッション計画;CRISPR(クリスパー)のような基礎科学の発見;小説の執筆。それらのタスクを検証するのは困難です。
それが今日の議論の主題となります。本稿では以下を取り上げます:
- 検証可能性が制約となる理由
- 現在機能している技術
- この問題に取り組む企業たち
過去一年間の進歩の大きな理由は、検証可能な報酬を用いた強化学習、すなわち RLVR(Verifiable Rewards を用いた強化学習)です。その考え方は単純です。答えを検査・検証できる問題をモデルに与え、解決策に至るまでの推論を促し、正しい結果に至った試行を強化するのです。
数学とコードは完璧な組み合わせであり、私たちはその対応する進歩を目にしてきました。報酬は明確で安価であり、数百万回実行することも可能です。SWE-bench における進展が示すように、ヒルクライミング(勾配上昇法)による実質的な成果も確かに存在します。2025 年には OpenAI と Google DeepMind の両方が、国際数学オリンピックで金メダルレベルを達成し、強力な学部生でも手がつけられないような問題においてそれぞれ 42 問中 35 点というスコアを記録しました。
Jason Wei(当時 OpenAI に所属)はこれを「検証者の法則」としてまとめました。つまり、AI をあるタスクに訓練する難易度は、そのタスクがどれだけ検証可能かという点におおむね比例します。迅速かつ客観的に確認できるものであれば、それが機能するまで強化学習(RL: Reinforcement Learning)で延々と試行錯誤を繰り返すことができます。
しかし、課題は、最も価値ある作業の多くは必ずしも容易に検証可能ではないという点にあります。優れたメモやデザインにはテストスイートが存在せず、ましてやビジネス構築のように、長期の時間軸と現実世界からのフィードバックを必要とするようなことについてはなおさらです。
したがって、「検証不可能な領域」におけるゲーム全体は、一つの問いに帰着します。答えを容易に確認できない場合、報酬はどこから来るのでしょうか?
この問題自体は新しいものではありません。RLHF(Human Feedback を用いた強化学習)と Constitutional AI は、どちらも本質的には「チェックする者がいない場合にどうするか」という問いに対する答えです。
RLHF は、人間の嗜好(どちらの回答が優れているか)に基づいて別個の報酬モデルを訓練し、そのモデルに対して高いスコアを獲得するように最適化します。Anthropic がすべての Claude モデルで採用している Constitutional AI では、人間のフィードバックの多くが、書かれた原則によって導かれる AI フィードバックに置き換えられています。
これらはアライメント(整合性)の一形態として機能しますが、RLVR が数学やコードにおいて生み出したような主観的領域における能力の飛躍には至っておらず、むしろ能力向上よりもエンゲージメントの最適化を目的としているとさえ言えます。では、主観的領域に対してどのようにして検証者や報酬信号を得るのでしょうか?
必ずしも容易に検証できないものを確認しようとするために、いくつかのアプローチが試みられています:
ルブリック(評価基準)を報酬として使用する。 Scale AI は 2025 年中盤 にこのテーマに関する論文を発表しました。各プロンプトに対して、インスタンス固有のルブリック、つまり良い回答が満たすべきチェックリストを生成します。これは通常、人間の専門家によって策定されます。LLM 判定者が各試行をチェックリストに基づいて評価し、そのスコアが報酬となります。
これは、検証が難しい回答の妥当性を確認するという問いを、より小さな Yes/No 形式やスコアリングに基づく複数の質問に分解することで機能します。審査員に対して「これが良いか」と尋ねてノイズの多い 1 から 10 の評価を得るのではなく、「X に言及しているか、Y を避けているか、Z を処理できているか」と問いかけ、それぞれの項目がほぼ検証可能になるようにします。HealthBench(医療分野のベンチマーク)では、単純な審査員によるスコアリングと比較して相対的に 31% の向上が報告されています Scale 社ブログ。OpenRubrics [arXiv:2510.07743] などの後続の研究は、現在これらのルーブリックを大規模に生成することに注力しています。これは、法律、医療、金融などのドメインにおける多くのデータプロバイダーが採用している一般的なアプローチです。
生成型報酬モデル。これは LLM-as-judge(LLM を審査員として用いる)のアプローチと似ています。ブラックボックス的な数値を出力するのではなく、まず推論を行い、その後に回答にスコアを付けます。
プロセス報酬モデル。これは最終回答だけでなく、推論の各ステップに対して評価を下すアプローチであり、より長い時間軸や検証が困難なタスクにおいては特に重要となります。
共通しているのは、プログラムでチェックャーを作成できない場合、最終出力または中間段階を比較するための多数のルーブリックを作成して近似したチェックャーとし、LLM や同様のモデルを用いてそれらに対して評価を下すという点です。
検証が難しいドメインにおいて RL(強化学習)を実現しようとするため、異なるアプローチを採用する企業はいくつか存在します。
1. 検証器とデータをラボへ販売する。 最初のグループの企業は、これらのドメインにおいてプログラム可能な検証器や強化学習(RL)環境を構築し、それをラボに販売しています。一般的なレシピは、専門家がタスクのための評価基準(ルブリック)を作成することです。各評価基準項目は、プログラムによってチェックできるほど具体的であり、曖昧な判断をスケーラブルにスコアリング可能なものに変換します。Mercor、Surge、Micro1 などがこれを行っており、医療、法務、金融などの分野でルブリックベースのアプローチを採用しています。また Taste Labs は、検証が難しいデザインや「味覚」といったより主観的な領域に明確に取り組んでいます。彼らは、すべての人の嗜好を平均化すると「味覚」そのものが失われてしまうため、RLHF(人間フィードバックによる強化学習)が行き詰まると明確に述べています。
2. ドメインを形式化する。 もう一つのアプローチは、ある程度曖昧な領域を取り上げ、機械が即座にチェックできる形に変換し、その垂直分野で最終ソリューションを販売することです。数学の分野ではすでにこれが機能しています:Lean などの形式言語で記述された証明書は自己検証を行うため、DeepMind の AlphaProof などのシステムは人間の介入なしに報酬を得ることができます。
Pramaana Labs は、このアイデアをより複雑でリスクの高い作業へと拡張しており、税務、法務、医療といった規制された分野での回答を証明可能にするために形式検証(formal verification)を利用しています。あなたが管理下に置けるドメインが一つ増えるごとに、「検証不可能」なカテゴリーは一つ減っていきます。
3. ループ全体を支配する。 もう一つの企業群は、答えの検証が困難だが、コンピュータ上ではなく何らかの方法で可能となるドメインに焦点を当てています。新しい材料や医薬品をチェックリストや証明式で確認することはできません。実験を実行する必要があります。そのため、これらの企業はループ全体を自前で支配しています。AI が提案し、物理的なラボが検証し、その結果が報酬となります。
元 OpenAI や DeepMind の研究者らが設立した Periodic Labs は、新素材発見のためにロボットラボを運用しています。DeepMind の医薬品発見部門から分社化した Isomorphic Labs は、その予測を実験室および最終的には臨床現場の現実に基づいています。Lila Sciences は、生命科学と材料科学の分野にまたがる自律型ラボを構築中です。ここで重要なのは、これらのシステムの検証が現実世界で行われるため、時間がかかり高コストになる可能性がある一方で、ループ全体を自前で支配することで報酬を物理的な現実に根付かせることができる点です。
検証可能な領域における RL は明らかに機能していますが、次の大きな飛躍は、同じような進展を経済の他の分野にもたらすアプローチや企業から生まれるでしょう。そこでは検証がより困難となります。現在の RLVR(Reinforcement Learning with Verifiable Rewards)のアプローチがどこまで一般化できるか、それとも新たなブレイクスルーが必要なのかという点は、大きな未解決課題の一つです。これらの領域で構築を進めている方は、ぜひお話ししましょう!
原文を表示
*I’m Tanay Jaipuria, a partner at Wing and this is a weekly newsletter about the business of the technology industry. To receive Tanay’s Newsletter in your inbox, subscribe here for free:*
Hi friends,
On a podcast with Dwarkesh, Dario Amodei, CEO of Anthropic, said he’s 90% sure we get a “country of geniuses in a data center” within ten years. And when he explains the missing 10%, his biggest uncertainty comes down to one thing, the tasks you can’t verify:
With coding, except for that irreducible uncertainty, I think we’ll be there in one or two years. There’s no way we will not be there in ten years in terms of being able to do end-to-end coding. My one little bit of fundamental uncertainty, even on long timescales, is about tasks that aren’t verifiable: planning a mission to Mars; doing some fundamental scientific discovery like CRISPR; writing a novel. It’s hard to verify those tasks.
That’s what we’ll discuss today. In this piece, I’ll cover:
- Why verifiability is the constraint
- The techniques that are working now
- The companies attacking the problem
A big reason for the progress over the last year has been RL with verifiable rewards, or RLVR. The idea is simple. Give the model a problem where you can check or verify the answer, let it reason through to a solution, and reinforce the attempts that land on the right one.
Math and code are the perfect fit and we’ve seen the corresponding progress. The reward is clean, cheap, and you can run it millions of times. And the hill-climbing has been real as evidenced by the progress on SWE-bench. In 2025 both OpenAI and Google DeepMind hit gold-medal level at the International Math Olympiad, each scoring 35 out of 42 on problems most strong undergraduates can’t touch.
Jason Wei (then at OpenAI) wrote this up as a “verifier’s law”: the ease of training AI to do a task is roughly proportional to how verifiable the task is. Anything you can check quickly and objectively, you can grind on with RL until it works.
The catch is that most valuable work isn’t necessarily easily verifiable. There’s no test suite for a good memo or a design, let alone for things like building a business, which requires long time horizons and feedback from the real world..
So the whole game in “unverifiable domains” comes down to one question: where does the reward come from when you can’t easily check the answer?
This problem isn’t new. RLHF and Constitutional AI are both, at heart, answers to “what do you do when there’s no checker.”
RLHF trains a separate reward model on human preferences (which of these two answers is better) and then optimizes the model to score well against it. Constitutional AI, which Anthropic uses on every Claude model, swaps much of the human feedback for AI feedback guided by a written set of principles.
These work as forms of alignment but they haven’t produced the capability jumps in subjective domains that RLVR produced in math and code and arguably have optimised for engagement rather than capability improvements. So what are the other ways we can get verifiers or reward signals for subjective domains?
There are a couple of different approaches being taken to try to verify things that aren’t necessarily easily verifiable:
Rubrics as rewards. Scale AI published a paper about this in mid-2025. For each prompt, you generate an instance-specific rubric, a checklist of what a good answer should do, usually anchored to human experts. An LLM judge scores each attempt against the checklist, and that score becomes the reward.
It works because it breaks the question of validating a difficult to verify answer into many smaller yes/no or scoring based questions. Instead of asking a judge “is this good” and getting back a noisy 1-to-10, you ask “does it mention X, avoid Y, handle Z,” and each of those is close to checkable. Scale reported up to a 31% relative gain on HealthBench, a medical benchmark, over plain judge scoring. Follow-up work like OpenRubrics is now focused on generating these rubrics at scale. This is the approach commonly taken by many of the data providers in domains like legal, healthcare, finance, etc.
Generative reward models. This is similar to the LLM-as-judge approach. Instead of spitting out a black-box number, the reward model reasons first and then scores the answer.
Process reward models. This is an approach to grade each step of the reasoning rather than just the final answer, which can be more critical for longer horizon and harder to verify tasks.
The common thread is that when you can’t programmatically create a checker, you can approximate one checker by creating a bunch of rubrics to compare either the final output or intermediate stages, and use LLMs or similar models to grade against those.
There are a number of companies taking different approaches to try to enable RL in these harder to verify domains:
1. Sell the verifier and the data to labs. The first set of companies are building programmatic verifiers and RL environments in these domains and selling them to the labs. The usual recipe is expert humans writing rubrics for a task, where each rubric item is concrete enough to be checked programmatically, which turns a fuzzy judgment into something you can score at scale. Mercor, Surge, Micro1 and others are doing, this taking the rubics based approach in areas like healthcare, law and finance. Taste Labs is another explicitly going for more subjective areas like design and “taste” that are hard to verify. They explicitly talk about how RLHF stalls because averaging everyone’s preferences leaves you with no taste at all.
2. Formalize the domain. Another approach is to take areas that are somewhat fuzzy and convert them into something a machine can check outright, then sell the end solution in that vertical. In math this already works: a proof written in a formal language like Lean checks itself, which is why systems like DeepMind’s AlphaProof get rewards with no human in the loop.
Pramaana Labs is pushing that idea into messier, higher-stakes work, using formal verification to make answers in regulated fields like tax, law, and healthcare provable. Every domain you manage to formalize leaves the “unverifiable” column.
3. Own the whole loop. Another set of companies focuses on domains where the answer is difficult to verify but can be, just not on a computer. You can’t check a new material or a drug with a rubric or a proof. You have to run the experiment. So these companies own the full loop themselves, AI proposes, a physical lab tests, and the result becomes the reward.
Periodic Labs, started by ex-OpenAI and DeepMind researchers, is running robotic labs to discover new materials. Isomorphic Labs, the DeepMind drug-discovery spinout, grounds its predictions in wet-lab and ultimately clinical reality. Lila Sciences is building autonomous labs across life and materials science. The idea here is that the verification for these systems takes place in the real world and so can be slow and expensive, but by owning the whole loop, you can ground the reward in physical reality.
RL in verifiable areas is clearly working, but the next big leap will come from approaches and companies that help bring the same advancements to the rest of the economy which is harder to verify. And just how far current RLVR approaches generalize, versus whether a new breakthrough is needed, is one of the big open questions. If you’re building in these areas, I’d love to chat!
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み