Frontier のポストトレーニングレシピを Finbarr Timbers とレビュー
Interconnects のポッドキャストは、2026 年の Frontier モデル開発における「MOPD(Multi-teacher On-Policy Distillation)」という新パラダイムを解説し、単一モデルでの複雑な RLHF から専門特化型教師モデルの統合へ移行する技術的転換点を明らかにした。
キーポイント
2026 年のレシピ変遷と MOPD の台頭
2022-2025 年の単一パイプラインや複雑な RLHF から、2026 年には「MOPD(Multi-teacher On-Policy Distillation)」が主流となり、複数の専門特化型教師モデルを統合するアプローチへ移行している。
MOPD の技術的仕組みと利点
各ドメインで SFT と RL を行った N 人の専門家(Teacher)に対し、汎用学生モデルが自身のロールアウトを通じて逆 KL 発散を最小化して学習する手法であり、計算コストの削減や能力競合の回避に寄与する。
業界動向と具体事例
MiMo Flash V2 が MOPD を導入し、DeepSeek V4 や Nemotron 3 Ultra はこれを 10 人以上の教師モデルへスケールさせることで、数学・コード・エージェントタスクなどの複雑な RLVR(Reasoning with Verifiable Rewards)を成功させている。
RLVR の台頭と SFT の役割変化
DeepSeek R1 を皮切りに、大規模な検証可能報酬(RLVR)が学習の主要原動力となり、SFT は RL で獲得した推論行動を抽出・洗練させるための手段へと役割を変化させている。
複雑な多段階プロセスからシンプルへ
Llama 2 や Llama 3 のような複雑な反復 RLHF や PPO を用いた多段プロセスに対し、Tülu 3 や OLMo 3 では SFT→DPO→RLVR というシンプルな 3 ステージ構成が採用される傾向にある。
推論能力の獲得戦略の進化
DeepSeek R1-Zero のようにベースモデルに直接 RL(GRPO)を適用して推論行動を創発させたり、R1 では冷間開始 SFT を経て推論 RL を実行するなど、推論能力を効率的に獲得する手法が確立されつつある。
MOPD の進化と多段階アプローチ
MiMo Flash v2 から Nemotron 3 Ultra にかけて、単一の RL ステージから複数のドメイン特化教師を用いたマルチターン MOPD(On-Policy Multi-Teacher Distillation)へ移行し、知識の統合効率を向上させた。
影響分析・編集コメントを表示
影響分析
この記事は、大規模言語モデルのポストトレーニング戦略が「単一モデルによる全能型学習」から「専門特化型モデルの合成・統合」へとパラダイムシフトしていることを示唆しており、今後のモデル開発コスト構造とアーキテクチャ設計に大きな影響を与える。企業や研究機関は、複雑な RLHF の代わりに MOPD などの分散型アプローチを採用することで、計算リソースの最適化と能力競合の回避を図る必要がある。
編集コメント
2026 年のモデル開発トレンドとして、MOPD という具体的な技術的転換点が明確に提示されており、RLHF のコスト問題を解決する新たな標準的なアプローチとして注目すべき内容です。
RLHF/ポストトレーニングに関する私の書籍の完結に向けて、ポストトレーニングの基礎を振り返っている最中ですが、現状について議論するためにフィンバ・ティンバーズを再びポッドキャストに招く必要があると知りました。過去数ヶ月の間、オームスタイルのレシピをフロンティアレベルのものにするために何が必要かという点について多くの議論がありましたが、それらはフィンバが最近のモデル技術報告書を幅広く読んだ経験に基づいたものです。
この準備として、歴史的な主要なポストトレーニングレシピ(InstructGPTから今日に至るまでの道筋)と、現在の主要なオープンフロンティアモデルに関する要約スライドデッキを作成しました。このデッキは以下の技術的概要にまとめられていますが、ポッドキャストではこれについて 20〜35 分ほど議論しているため、今回は YouTube で視聴するのが最も良い体験となるでしょう。
私は以前、2024 年 12 月に o1 と Tülu 3 のリリース直後(および Ai2 への参加前)にフィンバとインタビューを行い、「RL は再び復活した」という時代の話題について話し合いました。
チャプター:
00:00 イントロダクション & オームに関する考察
06:28 ポストトレーニングレシピのレビュー(歴史編)
23:00 2026 年のモデルレシピ(MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6 など)
39:05 オープンエンドなポストトレーニングに関する議論
48:22 LLM ラスにおけるキャリアアドバイス
シェアする
Apple Podcasts、Spotify、およびポッドキャストを入手できるあらゆる場所で聴くことができます。他の Interconnects のインタビューについては、こちらをご覧ください。
教育的なポストトレーニング動画については、私が作成中のコースをご覧ください。
技術的概要
これらは AI の支援を受けて作成されたスライドデッキから整理したメモであり、主に議論の題材や参照資料として有用です。
ポストトレーニングレシピの形状は、過去 3 年間に比べて直近 1 年でより大きく変化しました。
2022–2023 年(InstructGPT):1 つのパイプライン — SFT → リワードモデル → RL。
2024 年(Llama 3、Tülu 3 など):オープンレシピでは、検証可能なリワードを用いた SFT → DPO → RL が正式化されました。クローズドレシピは多くの段階の RLHF を使用します。
2025 年(DeepSeek R1):推論型 RL(R1)により、大規模な RL が中心となりました。
2026 年(MiMo Flash V2):レシピは多数の専門モデルに分裂し、それらが再び 1 つに統合されます。
新しい概念:MOPD
Multi-teacher On-Policy Distillation (MOPD) は、2026 年の最前線で現れるパターンです。
N 個のドメイン特化型教師モデルを訓練します(それぞれ:SFT を行った後、関連するドメインで RL を実行)。
1 つの汎用学生モデルを、自身の軌道からサンプリングして訓練します(これが最終的なポストトレーニング済みモデルです)。
各ロールアウトにおいて、トークンごとに、関連する教師モデルの出力分布への逆 KL 発散を最小化します。
系譜:MiMo Flash v2 がこれを導入 → DeepSeek V4 & Nemotron 3 Ultra がこれを 10 人以上にスケールアップしました。
なぜ MOPD が登場したのか?
RL は高コストとなり、対立が生じやすくなりました。数学、コード、エージェント型 RL を 1 つの実行で混合すると、最終的には相互の能力をトレードオフすることになります。
専門家は作成が安価であり、組織的にスケーラブルです。単一ドメインでの SFT-then-RL はよく理解されており、並列化可能です。ポストトレーニングがより複雑になるにつれ、組織間でのスケーリングは大きな利点となります。
オンポリシー蒸留が成熟した。RLVR(強化学習による検証・評価)のルネサンスを通じて、文献やノウハウが引き続き登場している。
出典:DeepSeek V4 第5.1節、MiMo-V2-Flash
歴史的なレシピの要約
InstructGPT(2022年3月)— 標準的な3ステップ · ペーパー

人間のデモンストレーションによるSFT(Supervised Fine-Tuning:教師あり微調整)
人間の比較データに基づいて訓練された報酬モデル
報酬モデルに対するPPO(Proximal Policy Optimization:近似的政策最適化)
Llama 2(2023年7月)— マルチステージRLHF · ペーパー · インターコネクトの振り返り

SFTの後、複数ラウンドにわたる反復的なRLHF(Reinforcement Learning from Human Feedback:人間フィードバックによる強化学習)
各ラウンド:リジェクトサンプリング → PPO
2つの報酬モデル — 有用性と安全性を別々に評価
Llama 3(2024年7月)— より単純な最適化器を用いた複雑なマルチステージレシピ · ペーパー · インターコネクトの振り返り

各ラウンド:報酬モデル → プロンプトあたりK個のサンプリング → リジェクトサンプリング → SFT → DPO(Direct Preference Optimization:直接選好最適化)
オンライン RL は行わない—RM(報酬モデル)はフィルタリングのみを行い、6 ラウンドにわたって実行し、最良のモデルが次のラウンドのシードとなる
Tülu 3(2024 年 11 月)—シンプルな 3 ステージのポストトレーニング・ペーパー・相互接続のリキャップ

キュレーションされたプロンプト → SFT(教師あり微調整)→ DPO(直接最適化プロセス)→ RLVR(検証可能な報酬を用いた強化学習—この用語はこの論文で初めて作られた)。
OLMo 3(2025 年 12 月)—Tülu 3 のレシピに対する推論のアップデート・ペーパー・相互接続のリキャップ

DeepSeek R1(2025 年 1 月)—RL を中核に据えたレシピ・ペーパー・相互接続のリキャップ

レシピの内容:
R1-Zero—ベースモデルに対する純粋な RL(GRPO)のみで、SFT は行わない。これはフルランにおける推論行動をシードするために使用され、別個のプロダクトではない。
R1—コールドスタート SFT → 推論用 RL → 拒否サンプリングによる SFT → 最終的な RL → 密化モデルへの蒸留
レシピにおける大きな変化: 大規模な RLVR を主要な原動力とし、SFT で RL の行動を蒸留・洗練させること
DeepSeek の V3 以降の進化
V3 · 2024 年 12 月 — SFT(教師あり微調整)+GRPO RL(一般化された相対的優位性強化学習)。
R1 · 2025 年 1 月 — マルチステージ RL;推論能力が顕在化。
V3.1 · 2025 年 8 月 — 思考型と非思考型のハイブリッドを単一モデルで実現。
V3.2 · 2025 年 12 月 — RL を通じて 6 つの専門家が SFT(教師あり微調整)による蒸留を経て、一つの混合 GRPO モデルへ統合。
V4 · 2026 年 4 月 — 10 以上のドメイン専門家 → MOPD(マルチティーチャーオンポリシー蒸留)。
2026 年スタイルのレシピ!
MiMo Flash v2(2026 年 1 月)— MOPD が始まった場所 · 論文

ステージ:ステージ 1 SFT → ステージ 2 で約 6 つのドメイン専門家教師を訓練(古いスタイルのポストトレーニングレシピを使用) → ステージ 3 で MOPD を用いて単一の学生モデルへ統合。
マルチティーチャーオンポリシー蒸留を統合ステップとして初めて明確に定義 — 単一のモノリス型 RL ステージを、専門家からの蒸留で置き換え。
Nemotron 3 Ultra(2026 年 6 月)— 2 ラウンド、多数の教師 · 論文

ステージ:SFT → マルチティーチャーオンポリシー蒸留を 2 回反復実行、推論、コード、数学、エージェントドメインにまたがる 10 人以上の教師を使用。
新規性:異なるドメイン間でのマルチラウンド MOPD — 蒸留後、刷新された教師から再蒸留。
MAI-Thinking-1(2026 年 6 月)— V4 よりも R1 に近い · 発表

工程:中程度に訓練されたベースモデル → 3 つの専門分野向け RL(強化学習)による「登頂」(例:STEM 分野)→ 登頂を定着させるためのトレース蒸留 SFT(教師あり微調整)→ 最終的な RL 登頂 → MAI-Thinking-1。
V4 よりも DeepSeek R1 に近い — トレース蒸留 SFT を用いて登頂を定着させる多段階 RL。オンポリシー MOPD(モデル最適化プロセスディスタillation)は使用していない。MOPD を使っていないラボがこれだけではない!
Kimi K2.5(2026 年 1 月)— エージェント型、マルチモーダル · ペーパー · ブログ

工程:テキスト専用 SFT → コーディング、ビジョン(視覚)、推論、エージェントタスクにわたる統合テキスト・ビジョン RL。(MOPD に関する言及なし。)
GLM-5(2026 年 2 月)— 能力別段階的 RL · ペーパー

工程:ベース → SFT → 推論 RL → エージェント RL → 一般 RL。
トランスクリプト
00:00:00 ネイサン・ランバート:こんにちは、Interconnects の会話に戻ってきました。私はインタビューをしているとはあまり言いたくないですね。ゲストを頻繁に遮るからと批判されるんです。インタビューが上手い方ではないですが、人を楽しませるためにここに来ています。また、私自身もポストトレーニングのコースを作成しようとしていて、これがその高度な部分にちょうどフィットする感じなんです。
なので、Interconnects のコンテンツと私がこの夏に時間を費やしてきた他の内容とのクロスオーバーのようなものですね。Finbarr を再びお迎えできることを嬉しく思います。彼が最初の再登場ゲストでしょうか?確認していませんが。
00:00:37 フィンバール・ティンバーズ:おお、 wow。
00:00:37 ネイサン・ランバート:えーと、フィンバールと私は AI2 でしばらくこの種のポストトレーニングレシピについて一緒に作業していました。私は最近退職しました。これはフィンバールの AI2 での最後の日の一つです。すでに発表済みなので、ここではネタバレにはなりませんね。OLMO のためのポストトレーニングレシピを構築する際のいくつかの点を振り返りましょう。その後、少しスライドデッキとノートを用意しています。これらは、時を経て進化するフロンティア・ポストトレーニングレシピの現状と進化に関するものです。非常に興味深い内容で、これまで一貫して存在してきた「正統な」レシピが 2 つから 4 つほどあるからです。
新しい分野に皆が集まる様子は面白いですね。現在、マルチティーチャーによるポリシー蒸留(policy distillation)においてその傾向が見られます。なぜかこの用語は少し言いにくいものです。長い略語でもあります。そして最後に、ポストトレーニングに関するさまざまな議論のポイントと、私たちが取り組んでいることについて触れて終わりたいと思います。もし皆さんが、人々を惹きつけるような鋭い見解をお持ちであれば、お言葉をお待ちしています。そうでなければ、私は最近多くの論文を読み込み、この分野の基礎を築く準備を進めてきたことを振り返ることに興奮を覚えています。
00:01:43 Finbarr Timbers: はい、その通りです。実は今日が AI2 での最後の勤務日なので、私を AI2 に招聘してくれたあなたと話すのは非常にふさわしいと感じています。また、初めてのリピートゲストとしてお招きいただき光栄に思います。ご招待ありがとうございます。
00:02:03 Nathan Lambert: はい、OLMO から始めましょうか?
00:02:05 Finbarr Timbers: もちろんです
00:02:06 ネイサン・ランバート:…人々…、これは慎重に行う必要があると思いますが、私は OLMO-3 のポストトレーニングについて何度も多くの人にお話ししてきました。しかし、このポッドキャストでこれほど直接的に話したのは初めてです。OLMO-3 を推論モデルとしてポストトレーニングしたことは、多くの個人にとって大きな成果だったと言えます。同時に、私たちが取り組んでいたことの複雑さは、AI2 の組織的なキャパシティの限界に押し当てていました。また、現代のポストトレーニングの多くは、計算リソースやデータをワークストリームに組み込む能力にかかっています。
それを複雑な方法で行うためには、実質的に組織図を操る必要があります。そのため、OLMO-3 が推論モデルとして比較的遅れた時期に登場した理由の一つでもあります。それは非常に硬直的な推論モデルであり、そのことはレシピが比較的シンプルであることにも部分的に反映されています。しかし、ツール使用やマルチティーチャー蒸留などを含むこれらの新しいレシピと比較すると、まるで分岐点のようです。非常にシンプルなアプローチで強力なレシピを作成することは可能ですが、それがすべてのフロンティア研究所が行っていることを代表するものではありません。
そして、物事が類似していると言えるような分岐点が生じたのは、Tulou-3 の後だったと思います。Tulou-3 は、この 3 つの段階からなる SFT-DPO RL レシピにおいて、実ははるかにシンプルでした。しかし、そのシンプルなレシピは、おそらく各研究所が現在行っている成果に近いものだったでしょう。ただし、推論モデル、特にツール使用やエージェントモデルに対して、そのような 3 段階のレシピを適用することは、実際にはあまり適切ではありません。それがまさにポイントです。このポッドキャストの目的は、真のフロンティアモデルを作るために彼らがどのような方法を採用しているのか、そしてそれがよりオープンな学術的なアプローチとどう対照的であるかを明らかにすることにあります。
00:03:56 Finbarr Timbers: 実際、それは興味深いですね。プロセスについてですが、私は OLMO-3 の時期に参加しただけで、それ以前のバージョンには関与していませんでした。Tulou-3 から OLMO-2 へ移行するプロセスはどのようなものだったのでしょうか?アーカイブを眺めていると、Tulou-3 は 2024 年 11 月にリリースされ、OLMO-2 は同年 12 月にリリースされたようです。
00:04:22 Nathan Lambert: 私たちは単にレシピを適用しただけです。
00:04:24 Finbarr Timbers: はい。つまり、DeepSeeker-1 は 2025 年 1 月末にリリースされ、その後 OLMO-3 が 2025 年の 10 月か 11 月にリリースされましたね。どちらだったと思いますか?
00:04:39 Nathan Lambert: 11 月だと思います。
00:04:41 フィンバ・ティンバーズ:はい、11 月ですね。ええ、その通りです。11 月のことでしたから。
00:04:43 ネイサン・ランバート:感謝祭を前にした、まさに死活問題のような状況でしたね。
00:04:45 フィンバ・ティンバーズ:そのことは覚えています。ええ、カナダの感謝祭はすでに終わっていたので—
00:04:50 ネイサン・ランバート:はい
00:04:50 フィンバ・ティンバーズ:…それは、ええ、嬉しかったですね。でも、ええと、確かに遅かったかもしれませんが、数ヶ月遅れだったに過ぎないと思います。私の過去のモデルのターンアラウンド時間(開発から公開までの期間)を振り返ると、R1 の発表から 9 ヶ月でモデルが完成したとしても、決して悪いことではありません。6 ヶ月くらいの方が望ましいでしょうが—
00:05:12 ネイサン・ランバート:遅いと感じるのは、R1 のレシピを再構築しなかったからです。もし再構築していれば速かったはずです。私たちが行ったのは、既存のレシピに推論(reasoning)機能を移植することでした。
00:05:21 フィンバ・ティンバーズ:はい。なるほど。
00:05:22 ネイサン・ランバート:…これはより単純なタスクですが、私の意見では上限が低いのです。これに対して、DeepSeek や新しいスタイルのレシピ(後で話します)は、ヒルクライミング(局所最適化手法)を継続して適用できる範囲がはるかに広いと考えられます。あるいは、フロンティア(最先端技術)が何をしているのかについて、より教育的な指針を示しているともいえます。OLMO のようなサイズ(7B〜30B 程度)のモデルにおいて、この DeepSeek スタイルの RL(強化学習)ファーストのレシピを実際に有用だと考えるのは難しいです。
00:05:52 Finbarr Timbers: うーん、そうですね。その点は非常に的を射ていると思います。実際、私たちが研究で目にするところにもそれが強く反映されていますね。R1 が発表されたときなどに見られるような劇的な飛躍や、技術がどれほど急速に向上しているかという点もご存知の通りです。つまり、非常に重要なご指摘だと思いますし、計算リソースに対して飽和する、いや、飽和しないというのが正しい表現でしょうか、計算リソースに対しては飽和していないように思えます。
00:06:11 Nathan Lambert: はい。それではスライドデッキを進めましょうか?レシピの名称について話している最中ですが…
00:06:15 Finbarr Timbers: 承知しました。ぜひ進めましょう。
00:06:16 Nathan Lambert: …名称ですね。やはり、多くの人が追いかけてはいるが、具体的にどうすればいいか分からないという方が多いと思うので、スライドを進めておいたほうが有益かもしれません。画面共有をさせていただきますので、聴講中の皆様には、スマートフォンでこのスライドデッキを開いてクリックしながらご覧いただくか、あるいは YouTube でそのまま視聴していただいても結構です。すべてリンクとして共有されます。
一般的に、これはフロンティアのレシピがどのように進化してきたかについての簡単な調査のようなものです。歴史を簡単に振り返り、現在何が起きているかについて話し、以前行っていた古いモードの議論も織り交ぜながら進めていきます。ええと、はい。いくつかの代表的なレシピについて話します。ここで「2 から 4」という数字が出てきた理由です。私が考えているのは、InstructGPT のようなレシピで、これが初期の RLHF をこの 3 ステージというアイデアと共に生み出したものです。これは SFT(教師あり微調整)、報酬モデル、そして強化学習(RL)へと人々が移行するまで少し時間がかかりました。
Llama 3 や 2.3 は、その実践的な実装であり、他の業界のトリックも組み合わせていると見ています。そのため、これら 2 つは将来的に統合される可能性があります。これはちょうど ChatGPT の登場前と後のような分岐点です。そして、今回取り上げる最も最近の代表的なレシピとしては、DeepSeek-R1 が挙げられます。これは以前の SFT 中心から、推論に焦点を当てたより大きな RL ステージへの転換を示しています。さらに、NeMo Flash や 2026 年の新モデルの一部には、この知識蒸留(distillation)の要素が追加されています。
00:07:42 Finbarr Timbers: はい、そして NeMo Flash だけでなく、これは一貫したテーマだったと指摘しておく価値があります。DeepSeek でもこれが見られました。彼らは V3 の論文でこれを言及しており、Qemi K 2.5 や GLM 5 も同様です。これらの論文はすべて、この専門特化型の RL ステージについて話し始めています。
⟦CODE_0⟧
00:08:03 ネイサン・ランバート:はい。その境界線をどう引くか、そして蒸留が...という点については議論があると思います。もし蒸留を手法の一つとして、あるいは重要なマイルストーンとして位置づけるなら、彼らは、シャオミが最初でしたが、これは時間とともに進化するもので、変化していく様子が伺えます。これについては後で詳しく見ていきましょう。私が中断する必要はありません。
00:08:23 フィンバリー・ティンバーズ:蒸留とおっしゃる際、私は、いわゆるトップクラスのクローズドモデルからの単純な蒸留と、これらのドメイン特化型モデルからの蒸留を区別することが重要だと考えています。中国のラボは両方とも行っていると推測しています。
00:08:41 ネイサン・ランバート:はい。
00:08:41 フィンバリー・ティンバーズ:しかし、彼らが主にやっているのは、数学モデルやコーディングモデル、ロジックモデルといったドメイン特化型モデルをトレーニングし、それらを再度蒸留することです。単にトップクラスのクローズドモデルからのみ蒸留するわけではありません。つまり、私たちが蒸留について語る際、それはトップクラスのクローズドモデルからの蒸留だけを指すわけではないのです。
00:09:01 ネイサン・ランバート:はい、それは面倒な問題ですね。同意します。蒸留項(distillation term)はひどく過負荷になっています。レビュー用のスライドがありますか?ポリシー蒸留におけるマルチティーチャーについて再検討する必要がありますか?それには複雑すぎるかもしれません。後で戻ってくることもできます。私は実際の実装モデルを一通り見て、必要に応じて補足スライドを使う方がよいと思います。あの有名な InstructGPT の 3 ステップというものは、多くの人が聞いたことがあるでしょうが、これは ChatGPT が登場した当時のポストトレーニング(post-training)の構成要素でした。つまり、人間による監督付き SFT データを基盤とし、主に人間の監督付き選好ランキングを用いて報酬モデル(reward model)を作成し、その上で強化学習(RL)を行うことでモデルが改善されるというものです。
これらの手法がどのように段階的に廃れてきたかは非常に興味深いです。少なくとも公開されている情報においては、SFT における人間によるデモンストレーションデータはあまり使われていません。ループ内にはまだ人間の選好データが存在する可能性がありますが、合成データ(synthetic)の役割の方がはるかに大きくなっていると推測されます。報酬モデルも存在しますが、かつてのような強化学習の主要な目標(key RL target)ではなくなっています。つまり、4 年という期間で、ほぼすべての正統的な構成要素が更新され、進化を遂げてきたのです。InstructGPT の後の初期モデル、例えば Llama 2 や Llama 3 は非常に似ており、このレシピの各要素を分解し始めたと考えられます。
原文を表示
As I’ve been recapping fundamentals of post-training to wrap up my RLHF / Post-training book I knew I needed to get Finbarr Timbers back on the podcast to talk about the state of play. Over the last few months we’ve had many discussions on what we’d need to do to take an Olmo-style recipe to the frontier, supported by Finbarr’s extensive reading of recent model technical reports.
To prepare for this, I put together a summary slide deck on the key post-training recipes historically — the path from InstructGPT to today — and today — the key open frontier models. This deck is summarized below as the technical summary, but we do spend 20-35 minutes on it in the podcast, so watching on YouTube is likely the best experience for this one.
I previously interviewed Finbarr in December of 2024, shortly after the release of o1 and Tülu 3 (and before he joined Ai2) on the “We are so back” era of RL.
Chapters:
00:00 Introduction & Olmo reflections
06:28 Post-train recipes review (history)
23:00 2026’s model recipes (MiMo Flash, DeepSeek V4, GLM 5, Kimi K2.6, etc.)
39:05 Open-ended post-training discussions
48:22 Career advice in the LLM race
Share
Listen on Apple Podcasts, Spotify, and where ever you get your podcasts. For other Interconnects interviews, go here.
For more educational post-training videos, see the course I’m putting together.
Technical Summary
These are notes cleaned up from a slide-deck created with AI assistance — mostly useful as a discussion topic and reference.
The shape of a post-training recipe has changed more in the last year than in the prior three.
2022–2023 (InstructGPT): one pipeline — SFT → reward model → RL.
2024 (Llama 3, Tülu 3, etc.): open recipes formalize SFT → DPO → RL with verifiable rewards. Closed recipes use many stages of RLHF.
2025 (DeepSeek R1): reasoning RL (R1) makes large-scale RL the centerpiece.
2026 (MiMo Flash V2): recipes fragment into many specialist models that are merged back into one.
The new thing: MOPD
Multi-teacher On-Policy Distillation (MOPD) is the pattern showing up across the 2026 frontier.
Train N domain-specialist teachers (each: SFT, then RL on the relevant domains).
Train one general student by sampling its own trajectories (this is the final post-trained model).
On each rollout, minimize reverse-KL to the relevant teacher’s output distribution, token by token.
Lineage: MiMo Flash v2 introduced it → DeepSeek V4 & Nemotron 3 Ultra scale it to >10 teachers.
Why did MOPD emerge?
RL got expensive and conflict-prone. Mixing math, code, and agentic RL in one run eventually trades capabilities off against each other.
Specialists are cheap to make / organizationally scalable. SFT-then-RL on a single domain is well understood and parallelizable. As post-training becomes more complex, scaling it across organizations is a big win.
On-policy distillation matured. Literature and know-how continued to emerge through the RLVR renaissance.
Sources: DeepSeek V4 §5.1, MiMo-V2-Flash
Key historical recipes
InstructGPT (Mar. 2022) — the canonical 3 steps · paper

SFT on human demonstrations
Reward model trained on human comparisons
PPO against the reward model
Llama 2 (Jul. 2023) — multi-stage RLHF · paper · interconnects recap

SFT, then iterative RLHF over multiple rounds
Each round: rejection sampling → PPO
Two reward models — separate helpfulness and safety
Llama 3 (Jul. 2024) — a complex multi-stage recipe with simpler optimizers · paper · interconnects recap

Per round: reward model → sample K per prompt → rejection sampling → SFT → DPO
No online RL — the RM only filters; run over 6 rounds, best models seed the next
Tülu 3 (Nov. 2024) — simple three-stage post-training · paper · interconnects recap

Curated prompts → SFT → DPO → RLVR (RL with verifiable rewards — the acronym was coined in this paper).
OLMo 3 (Dec. 2025) — a reasoning update to the Tülu 3 recipe · paper · interconnects recap

DeepSeek R1 (Jan. 2025) — RL as the centerpiece · paper · interconnects recap

The recipe:
R1-Zero — pure RL (GRPO) on the base, no SFT; used to seed reasoning behaviors for the full run, not a separate product
R1 — cold-start SFT → reasoning RL → rejection-sampling SFT → final RL → distill to dense
A big change in recipes: Large-scale RLVR as the primary driver, SFT to distill and refine RL behaviors
DeepSeek evolution after V3
V3 · Dec ‘24 — SFT + GRPO RL.
R1 · Jan ‘25 — multi-stage RL; reasoning emerges.
V3.1 · Aug ‘25 — hybrid think / non-think in one model.
V3.2 · Dec ‘25 — 6 specialists via RL → SFT distillation → one mixed GRPO.
V4 · Apr ‘26 — 10+ domain experts → MOPD.
2026 style recipes!
MiMo Flash v2 (Jan. 2026) — where MOPD started · paper

Stages: Stage 1 SFT → Stage 2 train ~6 domain-specialist teachers (with older style post-training recipes) → Stage 3 MOPD into a single student.
First clean articulation of multi-teacher on-policy distillation as the consolidation step — replaces a single monolithic RL stage with distill-from-specialists.
Nemotron 3 Ultra (Jun. 2026) — two rounds, many teachers · paper

Stages: SFT → multi-teacher on-policy distillation, run over two iterations, with >10 teachers spanning reasoning, code, math, and agentic domains.
Novel: multi-round MOPD across different domains — distill, then re-distill from refreshed teachers.
MAI-Thinking-1 (Jun. 2026) — closer to R1 than V4 · announcement

Stages: mid-trained base → 3 specialist RL “climbs” (e.g. STEM) → trace-distillation SFT to consolidate the climbs → a final RL climb → MAI-Thinking-1.
Closer to DeepSeek R1 than to V4 — multi-stage RL with trace-distillation SFT to consolidate, not on-policy MOPD. Not the only lab without MOPD!
Kimi K2.5 (Jan. 2026) — agentic, multimodal · paper · blog

Stages: text-only SFT → joint text–vision RL across coding, vision, reasoning, agentic tasks. (No mention of MOPD.)
GLM-5 (Feb. 2026) — staged RL by capability · paper

Stages: Base → SFT → Reasoning RL → Agentic RL → General RL.
Transcript
00:00:00 Nathan Lambert: Hello, we are back on a Interconnects conversation. I don’t really say I do interviews. People criticize me ‘cause I interrupt the guests too much. ‘Cause I’m not a good interviewer, but I’m here to entertain people. Um, this is also fun for me because I’m trying to make, like, a post-training course, and it kind of fits as, uh, in the advanced end of this.
So it’s kind of a crossover between Interconnects content and other stuff that I’ve been spending my time on this summer. So I’m happy to welcome Finbarr back. I think... Are you the first return guest? I haven’t checked.
00:00:37 Finbarr Timbers: Oh, wow.
00:00:37 Nathan Lambert: Um, Finbarr and I worked on this sort of post-training recipe stuff for a while at AI2. Um, I left recently. This is one of Finbarr’s last days at AI2. It’s already been announced. It’s not a spoiler here. So we’re gonna kind of reflect on some things on building post-training recipes for OLMO. Um, then we have a little, like, review slide deck and notes on the kind of state and evolution of frontier post-training recipes over time, which is pretty interesting because there’s, what is it, like two to four kind of canonical recipes that there has been.
So it’s kind of interesting when you see the field converge on something new, which it’s doing right now with multi-teacher on policy distillation. For some reason, that’s a bit of a mouthful. It is a long acronym. And then we’ll just kind of end with various discussion points on post-training and what we’re up to. So, happy to give you the floor if you have any hot takes you wanna start with to get people to, draw people in. Otherwise, I think, uh, I’m excited to kind of reflect on this, ‘cause I know you’ve been reading a ton of papers recently and kind of prep, laying some of this groundwork.
00:01:43 Finbarr Timbers: Well, yeah. I mean, today is my last day at AI2, so it- it’s ki- it feels very appropriate to be, to be talking to you as you’re the one who recruited me to AI2. So, uh, yeah, that’s pretty special, and it’s great to be, uh, yeah, the, the first repeat guest. I feel honored, uh, to be back on. So yeah, thanks, uh, for having me.
00:02:03 Nathan Lambert: Yeah. Do we wanna start with OLMO? I think that-
00:02:05 Finbarr Timbers: Sure
00:02:06 Nathan Lambert: ... people... I think I, uh, need to do this carefully, but I’ve talked about OLMO-3’s post-training many times to people. I haven’t done this in a very direct way on the podcast, but I would say that post-training OLMO-3 to make this reasoning model was a major accomplishment for many individuals to do this. But also, the complexity of what we were doing was pushing against the limits of AI2’s organizational capacity, and a lot of modern post-training is, like, your ability to wrangle compute data into a work stream.
And in order to do that in a complicated way, you really are wrangling an org chart. And that’s like part of why it’s like OLMO-3 was, by its nature, pretty late as a reasoning model. It was, like, a pretty rigid reasoning model, and that’s, like, partially reflected in the recipe being pretty simple. But then when you, like, compare it to all these new recipes with tool use and multi-teacher distillation and all of this, it’s just like a, a, a fork in the road where it’s like you could do this very simple thing and make a strong recipe, but it is not representative of what all the frontier labs are doing.
And I think that that kind of fork in being able to say that things are similar happened kind of after Tulou-3, where Tulou-3, I think, was also much simpler with this three-stage SFT-DPO RL recipe. But that simpler recipe was probably closer in outcome to what the labs are doing, but now doing that sort of three-stage recipe for a reasoning model, and especially a tool use, like, agent model, just doesn’t really apply. And that’s the point. That’s why I think the point of this podcast is to be like, what are the, what are the way, what are they doing to make these, like, true frontier models, and then shed some light on how it contrasts to the more a- like, open academic ones.
00:03:56 Finbarr Timbers: Well, actually, I think that’s interesting. What was the proce- so, you know, I, I only, um, came around for OLMO-3. I wasn’t around for the earlier, um, versions. What was the process like to go from Tulou-3 to OLMO-2? Because, like, y- just looking on, on Archive, um, I think Tulou-3 came out in November of ‘24, and then OLMO-2 came out in December of, of ‘24.
00:04:22 Nathan Lambert: We just applied the recipe.
00:04:24 Finbarr Timbers: Yeah. I, I mean, so, so I think that actually, like, yeah, and then, you know, um, DeepSeeker-1 came out in January, end of January ‘25, and, you know, OLMO-3 was then released in October. Was it October or November of ‘25? Like, I think-
00:04:39 Nathan Lambert: I think November.
00:04:41 Finbarr Timbers: Yeah, November. Yeah, right. It was November. So it’s-
00:04:43 Nathan Lambert: It was like do or die with Thanksgiving.
00:04:45 Finbarr Timbers: I remember that. Uh, yeah, ‘cause Canadian Thanksgiving had, had already happened-
00:04:50 Nathan Lambert: Yeah
00:04:50 Finbarr Timbers: ... which, yeah, I was happy. Um, but, uh, like, like I think it was, sure, maybe it was late, but I think it was only late by a few months. Like, it’s, it’s actually, like, you know, if I think of my past experience with model turnaround times, like a nine-month model turnaround, you know, from R1 coming out, like that’s actually, that’s not bad. I think, you know, something like six months would’ve been nicer, but-
00:05:12 Nathan Lambert: I, I think it’s slow ‘cause we didn’t re- it would be fast if we had rebuilt the R1 recipe. But what we did was we, like, ported reasoning into our existing recipe-
00:05:21 Finbarr Timbers: Yeah. Okay
00:05:22 Nathan Lambert: ... which is a simpler task, but has, like, a lower ceiling, in my opinion. Where it’s like the DeepSeek and the newer style recipes, which we’ll talk about, I think they just have a much higher ceiling in how much you can keep hill climbing them. Or they’re just, like, more prescri- more pedagogical of what the frontier is doing. Like, for the size models that OLMO was, which was like 7 to 30B, I’m not sure that doing this DeepSeek style RL first recipe is actually useful.
00:05:52 Finbarr Timbers: Uh, well, I, yeah, I think that’s a good point. And I mean, I think that’s really reflected in what we see in the research where you s- you know, you obviously you see the big, uh, the step change and you know how quickly things are improving When, you know, R1 comes out. So, like, I think that a great point, and it really does seem to saturate, or to, to not saturate, sorry, with, with compute. Um-
00:06:11 Nathan Lambert: Yeah. Um, shall we just do the slide deck? We’re throwing around, like, recipe-
00:06:15 Finbarr Timbers: Sure. Yeah, let’s do it
00:06:16 Nathan Lambert: ... names. Like, I feel like it might be useful to just do it because a lot of people probably want to follow but don’t exactly know. I’m, I’m gonna share, I’m gonna share a screen. So people listening, it might be useful to either, you can pull this slide deck up on your phone and click through it. It’s not super information dense, but you can also just watch it on YouTube. All of this will be linked.
Generally, this is just like a quick survey on how frontier recipes have evolved. We’ll go through the history quickly and then talk about what is currently happening and kind of probably interleave the old mode discussion we were having. Uh, okay. There’s a bunch of canonical recipes we’ll talk about. This is where I got the two to four number. I think the recipes are like InstructGPT, which is what coined the initial RLHF with this like three-stage idea, which took a while to get people to move on from, which was like SFT reward model and RL.
And I see as like Llama 3 and 2.3 as kind of practical implementations of that with, with other tricks of the trade. So those two could potentially be merged together. It’s just like kind of pre- and post-ChatGPT moment. And then the two most recent canonical recipes that we’ll cover in this I would say are like DeepSeek-R1, which is the shift to doing like reasoning focused and bigger RL stages than this kind of SFT focus from before, and then NeMo Flash and some of the new models from 2026 which add this distillation element.
00:07:42 Finbarr Timbers: Well, and, and I think it’s worth pointing out too that it’s not just NeMo Flash, like it was kind of a consistent theme. Like you saw this with DeepSeek, th-they referenced it in, uh, the V3 paper and then it’s, you know, it’s Qemi K 2.5, it’s GLM 5. Like it’s all of these papers, you know, start talking about this specialist, um, RL stage.
00:08:03 Nathan Lambert: Yeah. I think there’s a debate on how we draw it and whether or not distillation is... If you’re, if you have distillation as a technique, as a key milestone, then they were, the Xiaomi was the first and, but it’s kind of a march over time where you kind of see them change, and we’ll, we’ll go through this. I don’t, I don’t need to interrupt.
00:08:23 Finbarr Timbers: When you say distillation, I do think it’s important to distinguish between the straight up like, you know, distillation of the leading closed models and, you know, distillation of these domain specific models where, you know, I, I, I suspect that the, you know, the, the Chinese labs are doing both.
00:08:41 Nathan Lambert: Yeah.
00:08:41 Finbarr Timbers: But, you know, a lot of what they’re do, you know, but a, a lot of what they’re doing is this, um, training these domain specific models like, you know, a math model, a coding model, uh, you know, logic model, whatever, and then distilling those models back in and not just distilling from... So when we’re talking about distillation, it’s not just distilling from the leading closed models.
00:09:01 Nathan Lambert: Yeah. It’s a pain. I agree. The distillation term is horribly overloaded. Um, there’s a review slide. Do we need to review multi-teacher on policy distillation? It might be too complicated to need to do it. We could come back to it. I think I kind of want to just go through the actual models, and then we could use the supporting slides as needed. Um, this famous InstructGPT three-step thing, I think many people have heard of it, but this is what constituted post-training at the time of ChatGPT coming out, so it’s kind of important grounding of this human supervised SFT data, mostly human supervised preference rankings to make a reward model and then do RL on that, and the model gets better.
And it’s pretty interesting how all of these have been kind of phased out, at least in terms of what we know openly, where they’re, we don’t use that much human demonstration data for SFT. There’s likely some human preference data still in the loop, but I would guess that synthetic has a much bigger role, and there are reward models, but they’re like not the cl- key RL target anymore. So in four years, most, almost all the canonical pieces have been moved on. And like this evolution is kind of within there. I think the early models after InstructGPT, like Llama 2, um, even Llama 3, these are pretty similar, which is like you’re starting to break down this recipe with differe
関連記事
惑星サイズの脳:LLM は考えすぎなのか?(30 分読了)
TLDR AI が実施した研究では、Claude や GPT の最新モデルを多数組み合わせ、セキュリティ脆弱性の特定実験を行いました。その結果、推論努力を増やしたり新モデルを使ったりしても、必ずしもセキュリティ結果の選別が向上するわけではないことが示されました。
[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定
Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。
Salesforce CodeGen チュートリアル:ユニットテストと安全性チェック付きの Python 関数の生成・検証・再ランク付け
Salesforce は Hugging Face からモデルを読み込み、自然言語から Python 関数を生成するエンドツーエンドワークフローを公開した。この手法には構文チェックや静的解析、ユニットテストによる検証が含まれる。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み