次のパラダイム(7 分間の読了)
主要な AI ラボは、膨大な計算リソースと拡張されたコンテキストウィンドウを活用することで、データ効率や継続学習の課題を克服し、汎用問題解決能力を持つ AGI を実現しようとしている。
キーポイント
RL とスケーリングによる AGI への賭け
数百万もの検証可能なタスクを多様な RL 環境で訓練することで、エラーや曖昧さに対処する一般化された問題解決スキルが獲得できると考えられている。
データ効率と継続学習の再定義
トレーニング中の非効率性は、一度きりのコストとして数十億回のセッションで償却可能であり、継続学習(オンライン学習)はコンテキストウィンドウの拡大によって代替できると主張されている。
コンピュータ操作の進展が遅い理由
計算機操作がコーディングや数学に比べて進歩が遅いのは、高品質なマルチモーダルデータ不足と、動画データのコンテキストウィンドウへの負荷によるものと考えられる。
影響分析・編集コメントを表示
影響分析
この記事は、現在の AI 研究の主流である「スケーリング仮説」を強化し、計算リソースとコンテキストウィンドウの拡大が AGI への主要な道筋であると示唆しています。特に、継続学習やデータ効率性といった長年の課題に対する新しい解決策(重み更新ではなく文脈内学習)を提示することで、業界の技術的アプローチに大きな影響を与える可能性があります。
編集コメント
「スケーリングこそが全て」という楽観的な視点が、継続学習の必要性を否定するほど強力に主張されている点は非常に興味深いです。ただし、計算機操作領域の遅れに関する分析は、まだ仮説段階であり今後の実証が待たれます。
現在、各研究所が行っている大きな研究への賭けは以下の通りです:AI を数千の多様な強化学習(RL)環境において数百万件の検証可能なタスクを達成するように訓練すれば、ほぼ AGI が構築されることになります。なぜなら、そのような訓練によって、エラーやミス、曖昧さに対峙しながら数週間にわたってオープンエンドなタスクで進歩する方法といった、一般的な問題解決スキルが育まれるからです。
このビジョンに楽観的な人々は、現在の学習パラダイムにおける根本的な欠陥(例えば、データ効率の低さや継続的学習の欠如など)は、計算資源を投入する規模を拡大することで容易に克服できると言うでしょう。実際、自然言語処理におけるすべての「根本的」とされる研究課題が、LLM への膨大な計算資源の投入という洪水によって崩壊したのと同じです。
はい、これらのモデルは訓練中に人間と比較してサンプル効率が百万分の1程度に過ぎません。しかし、これは数十億回のユーザーセッション全体でコストを按分する一度きりの投資です。重要なのは、セッション内におけるモデルの賢さ、汎用性、そしてサンプル効率であり、これは強化学習(RL)訓練を増やすにつれて明らかに向上しています。AI はより長い時間スパンにわたって、より野心的な問題を解決できるようになっており、コード作成にこれらのモデルを使用している人なら誰でも知っている事実です。
同様に、継続学習(モデルの重みがデプロイメントから更新されることと定義される)は、必ずしも必要ではないかもしれません。再び言うなら、コンテキスト内学習がより長い時間範囲にわたって非常に良くなるのであれば、オンザジョブ学習を得るために重みに再蒸留する必要はありません。人々はよく、従業員が職場で 6 ヶ月以上経たないと正味の生産性を発揮しないと言いますが、明らかにオンライン学習は能力獲得のために必要です。しかし、もしこの 6 ヶ月をコンテキストウィンドウに収められるとしたらどうでしょうか?トランスフォーマーには、保存できるコンテキストの長さを劇的に増加させる多くのアーキテクチャ上の革新があります。あと数年の進展があれば、なぜ任意に大きなコンテキストウィンドウを持たないことができないのでしょうか。
これが機能するかどうかに対処するために、まず私が混乱し興味深いと考える現在の AI 進歩の本質に関する質問を投げかけるために、少し迂回したいです。なぜコンピュータの使用における進歩はこれほど遅いのでしょうか?
コンピュータの使用は非常に明確に検証可能です(目的のエツィーのアイテムが注文されたか、イベントに必要なすべてのものが予約されているか、税金が提出されたか)。それなのに、なぜコンピュータの使用における進歩はコーディングや数学、および他の検証可能なドメインよりもはるかに遅れているのでしょうか?これには多くの理由があるでしょう。その中には、モデルが事前学習中に高品質なマルチモーダルデータにさらされる量がはるかに少ないこと、そして動画がコンテキストウィンドウをはるかに速く消費することが含まれます。[1]
しかし、私がこの点が非常に過小評価されていると考えている理由の一つ、そして AI の進歩という川がゆっくりと削り取るにすぎない崖壁を明らかにしている理由は、ある領域が検証可能であるだけでは不十分だからです。その領域は「非常に grindable(反復練習可能な)」でなければなりません。つまり、決定論的かつ再生可能なシミュレーターに対して大量の並列ロールアウトを実行できるという意味です。モデルをコーディング能力向上のために改善しようとする場合、欠落した機能があり、AI にその作成を命じたソフトウェアリポジトリを含む環境を作成できます。そして、同じコンテナのコピーを一つずつ持つ千の並列エージェントがその問題に取り掛かることができます。
しかし、これはコンピュータの使用(computer use)においては機能しません—少なくとも自明には機能しません。Amazon.com 上で同じチェックアウトフローを試すために千のエージェントを送り込むことはできません。なぜなら、Andy Jassy があなたのボットを見つけ検知して、あなたをシャットダウンするからです。
Slack、Gmail、およびその他の一般的なアプリケーションやウェブサイトのクローンを作成することでこの問題を解決できます。しかし、少なくとも現状では、これは環境を構築するための非常に労働集約的かつスケーラブルではない方法です。もちろん、AI がコーディングにおいて自身でこれらのクローンを極めて高い忠実度で構築できるほどに熟練すれば、コンピュータの使用(computer use)は大幅な進歩を遂げると確信しています。また、この種の手法では一石二鳥となります。なぜなら、複雑なアプリケーション全体をゼロから再構築するよう AI に指示することは、コーディングにおける優れた強化学習(RL: Reinforcement Learning)の目標となるからです。
しかし、コンピューター利用そのものがまもなく解決されるかもしれない一方で、現在の停滞は次のことを示しています。つまり、ドメインに対して非常に反復可能なトレーニングターゲットを構築できない限り、モデルは大きな進展を遂げることは困難だということです。これが真実である理由は当然のことながら、モデルがトレーニング中に驚くほどサンプル効率が低いからです。これは私が私の最後のモノローグで指摘していた点です。
コンピューター利用においては、このサンプル効率の欠陥を、これらの農耕可能な決定論的シミュレーターを構築することで補えるかもしれません。しかし、AGI が学習する必要がある多くの異なる種類のスキルについては、私たちは単にこれを行うことができません。
AI にビジネスを構築させるにはどう訓練すればよいのでしょうか?裁判で勝つのが本当に得意な AI を作るにはどうすればよいでしょうか?あるいは、市場での日次取引で利益を出すこと?それとも候補者の選挙勝利を支援すること?ロールアウトには世界との相互作用が必要であり、データセンター内だけで単純に再現することはできません。また、外側のループの検証には、現実世界の行動が数ヶ月から数年かかることもあり、モデルの動作を数千回並列に変化させて何が実際に機能したのかを特定できるように再観測することもできません。
このような リセットフリー な非定常環境への対処は、強化学習(RL: Reinforcement Learning)における既知の未解決問題です。私が新しいことを指摘しているわけではありません。しかし、世界中のほとんどのドメインにおいてデータが固有かつ希少であるという性質ゆえに、熟練するにはサンプル効率性が不可欠であることを、私は強く強調したいのです。
AI が人間が持つすべてのスキルを、さらには人類が持たないようなスキルさえも習得するためには、限られた量の現実世界との相互作用から、非構造的で検証不可能かつ曖昧な方法で明らかにされる情報から学習できる必要があります。なぜなら、多くのドメインでは、関連するトレーニング情報が他のいかなる形でも存在しないからです。
AI をリンドン・ジョンソン並みに政治に長けさせたり、イーロン・マスク並みに宇宙発射事業を構築できるようにするための強化学習環境とは何でしょうか?
研究ラボは、RLVR がこれらすべての他のドメインにも一般化すると賭けています。十分にコンテナ化され再現可能な環境で訓練すれば、計画を立てて実行し、新しい情報から急速に学習し、さらにはセッション内で新たなスキルさえも習得できる、非常に汎用的なエージェントが育成されます。
この無限に RLVR された AI を 1948 年のテキサス政治に放り込めば、上院議員の座を勝ち取るためのアドバイスについて LBJ よりも優れた助言を与えることができるでしょう。そして、2002 年に 1 億ドルを与えて任せておけば、あなたのために SpaceX を構築することもできるのです。
RLVR が本当にそこまでよく一般化するかは、未解決の実証的な問いである:もし研究所が RL 環境に数十億ドルを費やすことから兆ドル規模の投資へと移行した場合、コンテキストウィンドウ内で完全に一般化された人間のような知能が動作するようになるだろうか?
Dario は私とのポッドキャストの中で、RLVR の一般化がこれほどまでに無限に強力ではないことを示唆していると思われる、示唆に富む発言をした。彼はモデルのパフォーマンスが長いコンテキストで低下する傾向がある理由を説明する際、こう述べた。
トレーニングを行う際のコンテキスト長と、サービス提供時のコンテキスト長は別物だ。短いコンテキスト長でトレーニングを行い、その後長いコンテキスト長でサービスを提供しようとすれば、おそらくこれらのパフォーマンスの低下が生じるだろう。
私が見すぎているかもしれないが、彼は短期間の RL トレーニングが必ずしも長時間の RL パフォーマンスに一般化されるとは限らないと言っているように思える。そして、もし短期的なものから長期的なものへの一般化ができないのであれば、エージェントはどのようにして多くのホワイトカラータスクのトレーニングから、例えば現実に放り込まれてサム・ウォルトンと同様にゼロからビジネスを構築することへと一般化するのだろうか?
たとえ十分なコンテキスト内での経験を経て、AI がアルベルト・アインシュタインやヘンリー・フォードのような存在になれたとしても、その学習成果を重み(weights)に還元できないのであれば、それらはすべて一時的なものであり、無駄に終わってしまいます。現在、研究機関の計算資源の約 30〜50% が推論(inference)に費やされていますが、この計算資源はモデル改善に役立つ生産的な活動にはほとんど使われていません。なんと無駄なことでしょう!それ以上にひどい状況です。なぜなら、モデルが学習できる最も価値ある情報の多くは、実際に導入・運用された段階で初めて明らかになるからです。「私が現在利用されている組織では実際何が起こっているのか?」「私は何のために使われているのか?」「そして現実世界ではどのようなミスを犯しがちなのか?」
私たちは、インターンシップを一度も許されていない天才的な大学院生のような存在を育てています。そして、環境における強化学習(RL training)という形で、教室でのケーススタディを次々と与え続けています。経済全体に広く展開されることで蓄積されうるこの経験に対し、AI を訓練しないのは奇妙であり、無駄です。彼らには数百万もの異なる課題が与えられ、実践の機会が提供されています。また、組織固有やドメイン固有の暗黙知(tacit knowledge)にもアクセスできるのです。
⟦CODE_0⟧
しかし、このような継続的な学習には、重みへのアクセスが必要となります。AI は、より多くのユーザーから学習するたびにサイズが増大する KV キャッシュを単に積み上げていくだけでは不十分です。それはスケーラブルではなく、また人間が学習する方法とも一致しません。私たちにはパラメータと活性化値の分離が存在せず、生涯を通じて多くのことを学ぶにつれて頭蓋骨からさらに突き出してくるような「高速重み表現」の塊があるわけでもありません。私たちが何かを学ぶとき、明らかに何らかの圧縮が行われており、それが一般化や深い理解(grokking)を助けます。実際には、数年後に無作為な数字の表や意味のない音節に対する自閉症の天才型記憶力を持つ人間がいます——これはモデルがコンテキスト内で持つ情報の忠実度のようなものです。しかし、そのような膨大な量は、これらの人間の抽象概念や比喩を理解する能力を麻痺させてしまいます。人間における継続的な学習とは、すべての観察結果をすぐに口に出せるようにしておくことではなく、適切な直感と全体像の知識を重みの中に刻み込むことにこそあります。
しかし、重み付け(weights)の領域に移行すると、コンテキスト内学習(in-context learning)のサンプル効率性を捨てる必要があります。勾配更新(gradient updates)は極めてサンプル非効率的であるため、オンラインで実装された学習モデルはすべて、数百万人のユーザーにわたって同じことを学ぶ必要がありました。例えば、Cursor Tab モデルは、1 日に 4 億回以上のリクエストに対して同じ正確な目的(この場合、どの編集が受け入れられたか)を予測することでオンライン学習を行っています。少なくとも現時点では、異なるユーザーに対してモデルが異なる種類のものをオンラインで学習する様子はまだ見ていません。なぜなら、単一のセッションで生成されるデータ量は人間が学ぶには十分であっても、より能力の高い AI を訓練するには不十分だからです。
現在のオンライン学習は、非常に限られた数のユースケースにおいては機能します。しかし、継続的学習(continual learning)の根本的な意義とは、世界が極めて複雑であり、それぞれの仕事や企業、問題が異なる点にあります。そして、特定のデプロイメントに関連する具体的な情報を学習できる知能が必要であり、それは共有されたトレーニングランに詰め込むことはできません。組織内のすべてのものがどのように機能し、どう連携しているか、インフラや周囲の人々と協力してより大きなプロジェクトで進展する方法、一般的な失敗モードなどです。
これが、サンプル効率性と継続的学習が実際にどのように深く結びついているかという点です。モデルは「現場」で比較的少ないデータしか利用できません。そのデータから学習するにはサンプル効率性が必要です。モデルはコンテキスト内でそれを実現できますが、このサンプル効率性を可能にするアテンション[3]によってその場で構築される「高速重み」は、メモリ面において非常にスケーラビリティに欠けます。そのため、何らかの中間表現を可能にするアーキテクチャ上の革新が必要です。以前にもお話しした通り、スパースアテンションや KV キャッシュ圧縮など、この種のアイデアにはすでに多くの異なる実用的なものが存在しています。私には、アーキテクチャが継続的学習の本質的なボトルネックであるようには思えません。
おそらくボトルネックは損失関数にあります。ある特定のセッションから学習した情報に基づいて、重み(モデルそのものの改善)をどのように更新すればよいのでしょうか?ここでも直感的には、機能するはずのアイデアが多数存在するように思えます。最近では多くの人がオンポリシー自己蒸留について議論しています。その仕組みについて詳しく知りたい場合は、数週間前にサシャ・ラッシュが私に教えてくれたこの小規模な即席黒板講義をご覧ください。ただし説明を要約すると、アイデアの核心は、ベースモデルに対して、ある実世界の課題を解決しようとする際に、長いセッション後に蓄積されたすべての文脈を考慮したモデルが出力するはずの予測と同じ予測を行わせるよう促すことにあります。この手順の全体的な目的は、セッション中にモデルが学習した内容を重みそのものに蒸留することです。
これは RLVR よりも優れた点があります。第一に、OPSD(オンポリシー自己蒸留)には外部ループで検証可能な報酬は不要です。文脈ウィンドウ内で正しいことを学習できるモデルがあれば十分です。それがあれば、セッション中にすべての経験を蓄積したベテラン教師モデルと一致するようにベースモデルを訓練できます。第二に、OPSD は単純な RL に比べてはるかに密度の高い監督信号を提供します。単一の報酬を軌跡全体を通じて投影するのではなく、教師モデルと生徒モデルのトークンごとの確率差に基づいて訓練できるからです[4]。
継続学習において、OPSD は教師ありファインチューニング(SFT)よりも優れています。この用途における SFT の最も素朴なバージョンは、セッション中に観測されたすべてのトークンを予測するようにベースモデルを訓練することです。しかし、これは学習目標として意味がありません。仕事で上達する方法は、毎日起こったことを完璧な忠実度で書き写しを思い出すことではありません。むしろ、仕事をよりよく遂行するために関連する数少ない洞察や知識の断片を統合することによって達成されるのです。
RL 訓練はこの失敗モードに陥らず、結果を正しく得るために必要な部分だけに勾配更新を集中させるのが得意です。これが RLからの更新が非常にスパースである理由です。これは継続学習にとって非常に重要な特性です。なぜなら、現場で学習を進める过程中、ベースモデルがすでに知っている他のすべての知識を上書きして忘れてしまうことを望まないからです。
数ヶ月前に私は投稿を行い、強化学習(RL)は教師あり学習に比べて1サンプルあたりに獲得する情報がはるかに少ないと論じました。しかし、これは悪いことではなく良いことかもしれません。あなたは結果を達成するために絶対に必要な分だけモデルを変更し、それ以上変更しないからです。OPSD はこの強化学習の性質を維持します。つまり、教師あり学習があなたに教えるように教師分布に向かってスリングショットするのではなく、現実世界のタスクで同じ結果を得るために必要な知識のみを抽出するのです。
したがって、OPSD はサンプル効率の問題に対処する方法の一つです。この貴重な現実世界の経験を取得し、すべての信号を小さく、ターゲットを絞った更新に圧縮することができます。しかし、さらに別の、はるかに推測的なアイデアもあります。これを「夢想[5]」と呼びましょう。AI が新しいスキルを練習したり、代替戦略を試したり、効果のあるものを強化したりするための現実の良好なシミュレーションを構築できるのであれば、同じ壁時計時間内で、シミュレートされたサンプル数を桁違いに増やすことが可能になります。
DeepMind が AlphaZero をリリースしてから数年後、EfficientZero という名前のモデルを訓練する研究者グループが登場しました。もしこのモデルと人間が、これまで見たことのないアタリゲームのシミュレーターに対してそれぞれ合計 2 時間ずつ対戦するとしたら、このモデルは初心者である人間に勝つ可能性が高いでしょう。これはつまり、このモデルの方が人間よりもサンプル効率(sample efficiency)が高いということでしょうか?いえ、それはサンプル効率をどのように測定するかによります。なぜなら、実ゲームの各ステップにおいて、EfficientZero は頭の中で数十回ものシミュレーションゲームをプレイしているからです。同様に、将来の大規模言語モデル(LLM)は、自分たちで構築した環境に対して無限に練習を行うことで、現実世界のデータを大幅に削減しながら学習できるようになるかもしれません。もちろん大きな違いは、世界全体をシミュレートすることは将棋のゲームをエミュレートするよりもはるかに難しいということです。だからこそ私は、これはより推測的な話だと述べたのです。
もしこれが実現すれば、事前トレーニング(pretraining)、強化学習(RL)、推論時の計算リソース(inference-time compute)に続くスケーリングの第 4 の軸となるでしょう。これをテスト時学習(test-time training)や夢想(dreaming)と呼ぶこともできます。モデルは、特定のユーザーに対して実際にプロダクションで使われるスキルを反復練習するための強化学習環境(RL environments)を作成し、計算リソースを費やすのです。Codex や Cursor、Claude に対して /compact コマンドを実行して少量の計算リソースで要約を書かせ、継続学習のシミュラクラム(simulacrum)を与えるのではなく、/dream コマンドを実行することで、モデルが現実世界で目撃しているものをビデオゲーム版に変換し、それに対して構築・訓練するために膨大な量の計算リソースを燃焼させるのです。
では、2027 年末における継続学習はどのような姿を呈するのでしょうか。また、そこへ至るにはどうすればよいのでしょうか。
このすべての RLVR(強化学習による検証・調整)トレーニングによって生み出されるエージェントは、見知らぬ問題に直面した際に自らの位置を把握し、異なる戦略を試行し、行き詰まりに遭遇した際には反復して改善する能力を持っています。これが RLVR がもたらす最も重要な成果です:少なくとも実世界での経験を積むために十分な能力を持つ AI です。
一度そのような能力を獲得すれば、そのエージェントを実社会へ送り出し、トレーニングデータ分布外のプロジェクトを含む実際の業務を遂行させることができます。
この時点では、有効なコンテキスト長が拡張され、この AI が壁時計時間での1週間中あなたと共同作業できるようになっている可能性があります。週が終わる頃には、あなたはそれに対して親指を立てるか下げるかを判断します。もし親指を立てれば、ベースモデルはセッション中に AI が学習したすべての内容を蒸留し、OPSD や「夢見(dreaming)」、あるいは私たちがまだ認識していない他の技術、またはこれらの組み合わせを用いてその処理を行います。また、AI は RLVR を用いて、事前に明示的にトレーニングされた領域に隣接する分野でも能力を向上させることができます。次のラウンドでは、以前オンラインで学習したことに隣接する事項においてさらに上達します。AI のスキル、知識、および能力の範囲は、モデルが展開される前に検証可能なトレーニングドメインをはるかに超えて広がります。事前トレーニングが、さらなる RLVR 訓練を通じて有能なエージェントとなるのに十分な基礎知能を生み出したように、RLVR もまた、実際に世界で展開され、したがって継続学習という未来のパラダイムを活用するのに十分な能力を持つエージェントを生み出しました。
この時点で、AI がより良くなる主な方法は、モデルが一般公開される前に受けたトレーニングによるものではなく、むしろ世界中に広く展開され、さまざまな種類のタスクに従事することで蓄積してきた経験から得られるものです。あなたが AI とやり取りするたびに、それはより賢くなります。これは、すべての過去のセッションから学習しているだけでなく、世界中の他のユーザーとのすべてのやり取りからも学習しているからです。これは恐ろしくも興奮し、現在の AI が改善される方法とは非常に異なります。
Mercury は、私のビジネスにおける請求書支払いプロセスをほぼ完全に自動化しています。私は契約者に専用のメールアドレスを与えるだけで、彼らが請求書を送信すると、Mercury が自動的にレビュー用のドラフト支払いを作成してくれます。もはやメールボックスの中で請求書を探し回ったり、請求書を追跡するために messy なスプレッドシートと格闘したりする必要はありません。Mercury がすべてを処理します。詳しくは mercury.com をご覧ください。
- ビデオを 1 時間視聴するだけで、テキストに換算すると約 100 万トークンを消費します。
- AI エージェントが特に囲碁(Go)で優れていると聞いたことがあります。その理由は、囲碁には優れた標準化されたパッケージマネージャーが存在する一方で、Python や Typescript には「膨大な数のフレームワーク、型付けアプローチ、ユーティリティライブラリの組み合わせ空間」が存在するためです。このような空間は、勾配降下法によるクリーンで高スループットの並列探索には適していません。
- Llama 3 70B を基準として考えてみましょう。KV キャッシュ(文脈を学習することで構築される表現)は、トークンごとに 320KB ずつ増大します。一方、トレーニング時にはモデルが保持するのはトークンあたりわずか 0.075 ビットです(16 ビットのパラメータを持つ 70B モデルが 15 トリリオンのトークンで学習されています)。つまり、文脈内学習と事前学習の間には、トークンあたりの情報保存量において 3500 万倍の差があります。
- OPSD に対して予想される明らかな問題の一つは次の通りです。教師モデルから得られるのは、生徒がエラーを犯す時点まで(およびその時点での)密な監督信号であり、それ以降の経路はそのエラーに起因して展開されます。つまり、すでに誤った道を進み続けることになりますが、これは教師モデルが決して訪れることのない道です。したがって、そのポイントを超えると、ロールアウトの残りの部分については教師から有用なフィードバックを得られなくなります。この問題は「Trajectory-Refined Distillation(経路洗練蒸留)」と呼ばれる技術によって修正可能であると考えられます。これは、エラー発生時点以降の経路を教師モデルが書き直し、完全で正しい続編へと変換する手法です。
- 参考までに、私が言っているのは、漏洩した Claude Code のソースコードに含まれるとされる今後の「ドリーミング(夢見)」機能のことではありません。これはおそらく、モデル自身が多数の Markdown ファイルを生成することに関するものだと推測しています。私が指しているのは、実際に重み(weights)そのものを更新することです。単に自分自身にメモを残すことで新しいスキルを蓄積できるとは思えません。以前の記事で使った例えですが、サックスの演奏方法を学ぶ学生が、これまで一度も触れたことのないこの新しい楽器を試し、何が間違っていたかについてメモを書き、それを次に同じく初めて演奏する学生に渡すようなものだと想像してみてください。
⟦CODE_0⟧
⟦CODE_1⟧
原文を表示
Here’s the big research bet the labs are making *currently*: if we train AIs to accomplish millions of verifiable tasks across thousands of diverse RL environments, then we’ll basically have built AGI. Because such training will create these general problem solving skills (like how to make progress on an open ended task for weeks on end in the face of errors, mistakes, and ambiguity).
The people optimistic about this vision would say that anything we might consider a fundamental deficits with the current learning paradigm—for example, data inefficiency and lack of continual learning—can be steamrolled by just scaling training more, just as all the supposed “fundamental” research problems in natural language processing collapsed against the flood of compute thrown into LLMs.
Yes, these models are1/1-millionth as sample efficient as humans during training. But training a one-time cost amortized across billions of user sessions. What matters is how smart, general, and sample efficient the model is *within a session*, and that’s clearly been improving as we do more RL training. AIs are able to solve more and more ambitious problems across longer and longer time spans - anybody who’s been using these models for coding knows that.
Similarly, continual learning—as defined as the model’s weights getting updated from deployment—may simply not be necessary. Again, because if in-context learning gets so good across longer and longer horizons, then we don’t need to distill back to weights to get on-the-job learning. People often say that their employees are not net productive until six months or more on the job, so clearly online learning is necessary for competence. But what if you could just fit those six months into the context window? There’s been tons of architectural innovations on the transformer which dramatically increase the length of context you can store. With a couple more years of progress, why couldn’t we have arbitrarily large context windows?
To address whether this will work, I want to first take a detour and ask a question about the current nature of AI progress that I find confusing and interesting. Why has progress on computer use been so slow?
Computer use is so clearly verifiable (did the desired Etsy item get ordered, is everything I need corporate for my event booked, have my taxes been submitted). So isn’t it weird that computer use has been making much slower progress than coding and math and other verifiable domains? There’s many reasons for this, I’m sure, among them the fact that the models are exposed to far less high quality multimodal data during pretraining, and that video consumes the context window far faster.[1]
But one reason that I think it quite underrated, and also which reveals the canyon walls against which the river of AI progress will only slowly chip away at, is that it is not enough for a domain to be verifiable. It also has to be very grindable—in the sense that you can run lots of parallel rollouts against a deterministic and replayable simulator. If you’re trying to make a model better at coding, you can create an environment that has a software repo with some missing feature that you’ve tasked the AIs with creating, and then you have a thousand parallel agents just go at the problem, each with their identical copy of the container.[2]
But this doesn’t work with computer use—at least not trivially. You can’t have a thousand agents go try the same checkout flow on Amazon.com. Because Andy Jassy will find and detect your bots and shut your ass down.
You can solve this by making clones of Slack, Gmail, and all the other common applications and websites. But at least currently, this is a very labor-intensive and unscalable way to build environments. Of course, once AIs get good enough at coding to themselves build these clones with extremely high fidelity, then I’m sure computer use will make a ton of progress. And you’re also killing two birds with one stone with this kind of procedure, because getting AIs torebuild whole complex applications from scratch is a great RL objective for coding as well.
But while computer use itself may soon be solved, its current lethargy tells us the following: that unless you can build a very replayable training target for a domain, the models will struggle to make much progress. The reason this is true is, of course, that the models are incredibly sample inefficient during training. This is the point I was making inmy last monologue.
In computer use, we might be able to make up for this sample efficiency deficit by building these farmable deterministic simulators. But for so many different other kinds of skills an AGI would need to learn, we simply can’t do this.
How would we train an AI to build a business? How would you make an AI that’s really good at winning court cases? Or having a profitable day trading in the markets? Or helping a candidate win an election? The rollout requires interacting with the world and cannot be recreated simply within the datacenter. And the outer loop verification may take months or years of real world actions to elicit, and cannot be re-observed by perturbing the model’s actions thousands of times in parallel so that you can isolate what exactly the model did that actually worked.
Dealing with such reset-free non-stationary environments is a known open problem in RL. I’m not pointing out anything new. But I really do want to emphasize that because of the idiosyncratic and sparse nature of the data in most domains in the world, you need sample efficiency in order to get proficient.
If AIs are to develop all the skills that humans have, and even skills that no humans have, then they need to be able to learn from information revealed in unstructured, unverifiable, and ambiguous ways from scarce amounts of real world interaction. Because in many domains, the relevant training information simply doesn’t exist in any other way.
What is the RL environment to make an AI as good at politics as Lyndon Johnson, or as good at building a space launch business as Elon Musk?
The labs are betting that RLVR will generalize to all these other domains. If you train in enough containerized, reproducible environments, you will develop a very general agent that can make and execute plans, and learn rapidly from new information, and even pick up new skills, all within a session.
If you drop this endlessly RLVRed AI into Texas politics in 1948, it could give you better advice than LBJ about winning the Senate seat; And if you gave it 100 million dollars in 2002 and let it cook, it could build SpaceX for you.
Whether RLVR generalizes *that* well is an open empirical question: if labs went from spending billions of dollars on RL environments to a trillion dollars, would you get a fully general, human-like intelligence operating within the context window?
Dario gave a telling quote during our podcast together, which I think hints that RLVR generalization is not this infinitely strong. When he was explaining why model performance tends to degrade at long context, he said:
There’s the context length you train at and there’s a context length that you serve at. If you train at a small context length and then try to serve at a long context length, maybe you get these degradations.
Maybe I’m reading too much into it but he seems to be saying that short-horizon RL training doesn’t necessarily generalize to long-horizon RL performance. And if we can’t generalize from short to long horizon, how are agents supposed to generalize from lots of white collar task training, to, say, getting dropped into the real world and building a business from scratch as well as Sam Walton?
And even if after enough in-context experience, the AIs could become Albert Einsteins and Henry Fords, all that would be ephemeral and wasted if you can’t get those learnings back into the weights. Around 30-50% of a lab’s compute goes to inference, and that compute is currently not really doing anything productive in helping improve the model. What a waste! It’s even worse than it sounds. Because it is only in deployment that the most valuable bits of information which your model could learn from are revealed (What’s actually happening in the organizations I’m being used at? What are they using me for? And what kind of mistakes do I tend to make in the real world?)
We’ve got some genius grad student who has never been allowed to take an internship. And we keep giving it more and more classroom case studies in the form of RL training on environments. It’s bizarre and wasteful that we don’t train the AIs against all this experience could be accumulating thanks to being so broadly deployed through the economy and getting to practice against millions of different assignments given to them and being privy to so much tacit organization- and domain-specific knowledge
But this kind of continual learning requires going back to the weights. AIs can’t just keep building up a KV cache that grows in size as you keep learning from more and more users. That’s just not scalable, and it’s also not how humans learn. We don’t have some separation between parameters and activations. And there’s not some lump of these fast-weight representations that juts out further and further from our skull as we learn more things throughout our lifetime. When we learn stuff, there’s clearly some kind of compression, which actually aids generalization and grokking. There are in factsome humans who have this autistic savant type recall of random tables of numbers or nonsense syllables years later—basically the kind of fidelity of information that models have in context. And such sheer volume cripples these humans’ ability to understand abstractions and metaphors. Human continual learning is less about having all your observations at the tip of your tongue, and more about chiseling the right intuitions and big picture knowledge back into the weights.
But the moment you move into the weights, you have to give up on in-context learning’s sample efficiency. Because gradient updates are super sample-inefficient, all the successfully shipped online learning models have had to learn the same thing across millions of users. For example, the Cursor Tab model online-learns by predicting the same exact objective for over 400M+ requests a day (that objective is which edits got accepted). At least so far, we haven’t seen models online-learn different kinds of things for different users, because while a single session may generate more than enough data for a human to learn from, it’s not enough to train a more capable AI.
Current online learning can work for a very limited number of use cases. But the whole point of continual learning is that the world is very complicated, and each job and company and problem is different, and you need your intelligence to be able to learn the specific information related to a particular deployment, which simply can’t be stuffed into a shared training run. Things like how everything in your organization works and fits together, how to cooperate with the infrastructure and the other people around you to make progress on some larger project, what common failure modes are, etc.
This is the way in which sample efficiency and continual learning are actually deeply connected problems. Relatively little data is available to the model “on-the-job”. To learn from that data requires sample efficiency. Models can do that in context, but the “fast weights” built on the fly by attention[3] which allow for this sample efficiency scale very poorly in terms of memory. So we need architectural innovations which allow for some kind of intermediate representation. I talked before about how there are already many different working ideas for this kind of thing, from sparse attention and KV cache compaction. It doesn’t seem to me that architecture is fundamentally the bottleneck to continual learning.
Perhaps the bottleneck is the loss function. How do you update the weights (aka improve the model itself) based on information that was learned from one particular session? Even here naively it seems like there are many ideas that oughta work. Lots of people have been talking abouton-policy self-distillation recently. If you want to learn more about how it works, check out this little impromptu blackboard lecture that Sasha Rush gave me a couple of weeks ago. But to summarize the explanation a bit, the idea is that we encourage the base model to make the same predictions when trying to solve some real world problem as the model with all the context accumulated after a long session would have made. The whole point of this procedure is to distill what the model learned in a session back into the weights themselves.
This is better than RLVR for two reasons. One, OPSD doesn’t require an outer loop verifiable reward. We just need a model that can learn the right things within the context window. As long as we have that, we can train the base model to match our veteran teacher model which has built up all this experience during the session. And two, OPSD provides a much denser supervision signal than naive RL—instead of projecting a single reward through the whole trajectory, you can train on the per token probability discrepancy between the teacher and student[4].
For continual learning, OPSD is also superior to supervised fine tuning. The most naive version of SFT for this application you can imagine is to train the base model to predict all the tokens observed during the session. But this makes no sense as a learning target - the way you get better at your job is not by recalling the transcript of what happened through every single day with perfect fidelity. Rather, it’s by consolidating the handful of insights and pieces of knowledge that are relevant to doing your job better.
RL training doesn’t suffer from this failure mode, and it’s great at concentrating the gradient update to only what is relevant to getting the outcome right—that’s why the updates from RLare incredibly sparse. And this is a very important property for continual learning, because as you’re learning on the job, you don’t want to overwrite and forget all the other things the base model knows.
I wrotea post a few months earlier arguing that RL learns much less information per sample than supervised learning. But this may be a good thing rather than a bad thing—you only change the model as much as is absolutely necessary to achieve the outcome, and no more. OPSD preserves this property of RL where instead of slingshotting towards the teacher distribution like supervised learning would have you do, you only extract the knowledge that is necessary to achieve the same results on real world tasks.
So OPSD is one way to attack the sample-efficiency problem: you can take this scarce real world experience and squeeze all the signal into a tiny, well-targeted update. But there’s also another much more speculative idea. Let’s call it dreaming[5]. If the AI can build a good simulation of reality against which to rehearse new skills, or try alternative strategies and reinforce what works, then it could experience orders of magnitude more simulated samples in the same wall clock time.
A couple years after DeepMind released AlphaZero, a group of researchers trained a model called EfficientZero. If this model and a human both got 2 hours total to play against a simulator of an Atari game they hadn’t seen before, this model would likely beat the novice human. Does that mean this model was more sample efficient than humans? Well it depends on how you measure sample efficiency. Because for each step in the real game, EfficientZero is playing dozens of simulated games in its head. In a similar way, future LLMs might be able to consume far less real-world data while practicing endlessly against environments they build for themselves. The big difference, of course, is that it’s much harder to build a simulation of the whole world than it is to emulate the game of Go. That’s why I said this is much more speculative.
If it works, it would become a fourth axis of scaling, alongside pretraining, RL, and inference-time compute. You can call it test-time training or dreaming. The model spends compute writing up RL environments in which rehearse the skills that will actually be used in production for a specific user. Instead of hitting /compact on Codex or Cursor or Claude, which kindles a small amount of compute to write up a summary, and which gives you a simulacrum of continual learning, you hit /dream, which incinerates huge amounts of compute to build and train against a video game version of what the model is witnessing in the world.
So what might continual learning look like at the end of 2027, and how do we get there? All this RLVR training is producing an agent that can get its bearings when it’s thrown at an unfamiliar problem, and try different strategies, and iterate when it hits a roadblock. This is the crucial thing that RLVR has given you: an AI that is at least competent enough to start getting some real-world experience. Once you have that, you send it out into the world to do real work, even on projects off the training distribution.
By this point, effective context lengths may have expanded such that this AI can cowork with you for a full week of wall clock time. At the end of the week you give it a thumbs up or a thumbs down. If you give it a thumbs up, the base model distills everything the AI learned during the session, and it may use OPSD, or dreaming, or some other technique we aren’t even aware of, or a combination of all of the above, to do so. And AI can get better at domains that are adjacent to what it was explicitly trained for beforehand with RLVR. And in the next round it gets better at the thing adjacent to what it was previously online learned. The gamut of AI skills and knowledge and capability expands far beyond the verifiable domains against which the model was trained before it was deployed. Just as pre-training created a base intelligence that was smart enough to become a competent agent with further RLVR training, so RLVR has created an agent that is competent enough to actually be deployed in the world and thus take advantage of the future paradigm of continual learning.
By this point, the main way that AI gets better is not through the training received before the model is released to the public. Rather, it’s from all this experience that they are accumulating from being broadly deployed through the world and engaging in so many different kinds of tasks. Every time you interact with AI, it’ll be smarter. Not only because it has been learning from all your previous sessions, but also from all its interactions with all the other users in the world. And that’s scary and exciting and very different from the way that AI improves right now.
Mercury has automated basically my entire bill pay process for my business. I just give contractors a dedicated email address, and when they send an invoice, Mercury automatically creates a draft payment for me to review. I no longer have to hunt through my inbox for invoices or deal with messy spreadsheets to track my bills. Mercury handles it all. Learn more at mercury.com.
- Just one hour of video consumes around 1 million tokens of text.
- I’ve heard that AI agents are especially good at Go, because it has an excellent standardized package manager whereas Python and Typescript have a “massive combinatorial space of frameworks, typing approaches, and utility libraries.” Such spaces are less amenable to clean, high throughput, parallel search via gradient descent.
- Let’s use Llama 3 70B as a reference. The KV cache (aka the representation that is built up from learning the context) grows 320 KB with each token. Whereas in training, the model only stores 0.075 bits per token (it’s a 70B model with 16 bit parameters trained on 15 trillion tokens). So between in-context learning and pre-training there’s a 35 million fold difference in the amount of information you’re storing per token.
- One obvious issue you might anticipate with OPSD is this: you get dense supervision up to and at the point where the student makes an error, but the rest of the trajectory follows from that error - it continues down an already-mistaken path that the teacher was never going to visit anyway. So past that point, you’re no longer getting useful feedback from the teacher for the rest of the rollout. This seems fixable by a technique called Trajectory-Refined Distillation, where the teacher rewrites the trajectory from the error onward into a complete, correct continuation.
- For what it’s worth, I’m not talking about the upcoming dreaming feature in the leaked Claude Code source code, which I’m guessing will be more about the model writing lots of Markdown files for itself. I mean actually updating the weights themselves. I just don’t think you can accumulate new skills by passing yourself notes. The analogy I used in a previous blog post: imagine if the way students learned how to play the saxophone is by giving this new instrument you’d never tried before a go, taking some notes about what went wrong, and then giving it to the next student who is also playing it for the first time.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み