プライム・インテレクト、トリリオンパラメータの MoE モデルをアジェンティック RL ワークロードで訓練する「prime-rl 0.6.0」をリリース
Prime Intellect は、アジェンティック RL ワークロード向けに最適化された「prime-rl 0.6.0」をリリースし、28 台の H200 ノードで 13 万トークンのシーケンス長を持つ兆パラメータ MoE モデルのトレーニングを実現した。
キーポイント
大規模 MoE モデルの効率的トレーニング
28 台の NVIDIA H200 ノードのみで GLM-5 を 131k シーケンス長でトレーニングし、ステップ時間を 5 分未満に抑えることに成功した。
非同期 RL アーキテクチャの実装
トレーニングと推論を分離する非同期 RL により、長時間かかるコーディングタスクの待ち時間を排除し、GPU のアイドル時間を最小化している。
高度な推論最適化技術
FP8 精度、広域 Expert Parallelism (Wide EP)、Prefill/Decode 分離、KV キャッシュオフローディングなどの技術を組み合わせてスループットを最大化している。
オープンソースフレームワークの拡張
既存の ZAI Labs GLM-5.1 や Moonshot AI Kimi-K2.7-Code などの大規模 MoE モデルへの適用例を示し、アジェンティック RL の民主化を推進している。
Prefill/Decode 分離と KV キャッシュ管理の最適化
トークン比率の偏りによるレイテンシ増大を防ぐため Prefill と Decode を分離し、Mooncake Store による中央集約型 KV キャッシュオフロードで高並行性を確保します。
Router Replay (R3) によるトレーニング精度の向上
推論時のルーティング決定をトレーナーで再現する R3 機能により、KL 不整合を約10分の1に削減し、大規模なラウトデータも非透過的ペイロードとして高速処理します。
3-D パラレルと FP8 によるメモリ効率化
FSDP、Expert Parallelism (EP)、Context Parallelism (CP) を組み合わせ大規模モデルを分散し、DeepGEMM による FP8 トレーニングで推論精度との整合性を保ちつつ KL 不整合を安定させます。
影響分析・編集コメントを表示
影響分析
このリリースは、アジェンティック AI の実用化において最大の障壁であった計算リソースとトレーニング時間のバランス問題を解決する画期的なアプローチを示しています。特に、限られた GPU クラスターで兆パラメータクラスの MoE モデルを効率的に学習させる手法は、大規模モデルの RL 微調整(SFT/RLHF)におけるコスト削減とスピード向上に直結し、業界全体の開発サイクルを加速させる可能性があります。
編集コメント
アジェンティック AI の実用化において、計算コストとトレーニング時間の両立を可能にする技術的ブレークスルーであり、次世代の自律型エージェント開発における標準的なアプローチになり得る重要なツールです。
Prime Intellect は、prime-rl バージョン 0.6.0 をリリースしました。このフレームワークは、トリリオンパラメータ規模の Mixture-of-Experts (MoE) モデルに対する強化学習を対象としています。特に、長期にわたるソフトウェアエンジニアリングタスクのような重負荷のアジェンティックなワークロードに焦点を当てています。
研究チームは、SWE(Software Engineering)タスクにおいて GLM-5 を最大 131k のシーケンス長でトレーニングしました。ステップ時間は 5 分未満に抑えられ、バッチサイズは 256 ロールアウトでした。この実行には H200 ノードがわずか 28 台のみ使用されました。
TL;DR(要約)
prime-rl 0.6.0 は、アジェンティックな強化学習ワークロード上でトリリオンパラメータ規模の MoE モデルをトレーニングします。
GLM-5 は SWE タスクで 131k のシーケンス長、5 分未満のステップ時間、28 台の H200 ノードでトレーニングされました。
非同期強化学習は、トレーナーと推論を分離し、独立した最適化を可能にします。
推論では FP8、Wide EP(Expert Parallelism)、P/D(Pipeline/Device)の分離、KV キャッシュオフローディング、およびルーターリプレイが使用されます。
トレーニングでは 3-D パラレルism(FSDP: Fully Sharded Data Parallel, EP: Expert Parallelism, CP: Context Parallelism)に加え、ブロックスケーリング FP8 が採用されています。
prime-rl 0.6.0 とは何か?
prime-rl は、非同期強化学習のためのオープンソースフレームワークです。これはアジェンティックなタスクに対して大規模なオープンソースモデルのポストトレーニングを行うものです。バージョン 0.6.0 では、この機能をトリリオンパラメータ規模の MoE モデルへと拡張しました。
発表で使用された例示モデルは zai-org/GLM-5.1 です。これらの最適化手法は、他の大規模な MoE モデルにも適用可能です。具体例としては、moonshotai/Kimi-K2.7-Code や nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 などが挙げられます。
GLM-5.1 の完全な実行は、Slurm クラスター上で単一のコマンドから開始されます。
uv run rl @ examples/glm5_llmd/rl.toml --output-dir /shared/outputs/glm5-llmd非同期強化学習の役割
エージェントタスクには長期のアウトライヤーが存在します。一部のコーディングロールアウトは数時間実行されます。ポリシー更新のたびにこれらを待機させると、GPU がアイドル状態になってしまいます。
非同期 RL はこれを回避します。トレーナーと推論システムは分離されています。それぞれが独立して実行・スケーリングされます。推論ポリシーは、オプティマイザステップが完了した直ちに更新されます。
同期点は一つだけあります:ポリシー更新です。prime-rl は新しい重みが存在する瞬間にそれをプッシュします。すでにディスパッチされたロールアウトは、アクティブなプレフィックスキャッシュを維持し続けます。そのため、単一のロールアウトでも複数のポリシーバージョンのトークンを混合することがあります。
新しいロールアウトは異なる挙動を示します。プレフィックスが一致していても、独自の KV キャッシュを再構築します。これには KV-キャッシュソルトが強制されます。古すぎるポリシーからのリクエストはドロップされます。この閾値を制御するのが max_off_policy_steps 値です。
推論最適化
推論は通常、RL システムにおけるスループットのボトルネックとなります。prime-rl はレイテンシを制限しつつ、スループットのために最適化されています。
FP8 推論:低精度によりプレフィルとデコードが高速化されます。prime-rl は DeepEP および DeepGEMM カーネルを使用して FP8 を採用しています。
ワイドエキスパート並列処理(Wide Expert Parallelism): Wide EP はエキスパートを 32 以上の GPU に分散します。これは、例えば 32 のような大きなデータ並列ランクと組み合わされます。各 GPU は独立したエキスパートを持ち、エンドポイントとして機能します。同期は、ディスパッチおよびコンバイン操作を通じてレイヤーごとに発生します。
Prefill と Decode の分離:一部のモデルと環境のペアでは、prefill と decode のトークン比率が 4:1 に達することがあります。共有ワーカーを使用するとエンドツーエンドのレイテンシが増大し、PipelineRL のメリットが損なわれます。P/D 分離により prefill ワーカーと decode ワーカーを切り離すことで、長いツール出力が decode ワーカーのスロットリングを引き起こさなくなります。
KV キャッシュ管理:高並行処理には大容量の KV キャッシュ領域が必要です。prime-rl は CPU およびディスクへの階層化オフロードをサポートしています。vLLM のネイティブなオフロード機能ではワーカーごとに 1 つのプールが作成されますが、Mooncake Store では全ノードにわたる RAM とディスクを中央集権的にプールします。
リクエストルーティング:prime-rl はデフォルトで vllm-router のフォーク版を搭載しています。また、NVIDIA Dynamo ルーターもドロップインとしてサポートしています。ルーターは KV キャッシュの再利用率、キュー深度、およびライブ負荷に基づいてワーカーをスコアリングします。
Router Replay (R3):トレーナーと推論の不一致が静かにトレーニングを破綻させることがあります。Router Replay は推論時のルーティング決定をキャプチャし、それをトレーナ上で直接再生します。これにより KL 不整合が約 10 分の 1 に削減されます。ルーティングされたエキスパートの形状は [num_layers, top_k, seq_len] です。このペイロードは数百 GB にまで膨れ上がる可能性があります。大規模スケールではデータレートは数十 Gbps に達します。そのため prime-rl はこれを非構造化ペイロードとして扱います。処理には最適化された PyTorch 演算が使用されます。
トレーニングの最適化
このトレーニングフレームワークは、PyTorch ネイティブのトレーニングコードベースである torchtitan を基盤に構築されています。3 次元並列化(FSDP、CP、EP)に依存しており、GLM-5 のケーススタディではこれらすべての手法が採用されています。
戦略 | 分割対象 | 主な用途 | 詳細ポイント
---|---|---|---
FSDP (FSDP2) | パラメータ、勾配、オプティマイザ状態 | メモリ使用量のベースライン低減 | fully_shard を経由してレイヤーごとに必要な重みをオンデマンドで収集
Expert Parallelism (EP) | レイヤー内のエキスパート | 活性化するレイヤーのメモリ削減 | all2all ディスパッチ/コンバイン; torch ネイティブまたは DeepEP
Context Parallelism (CP) | シーケンス次元 | 長文脈における活性化メモリの最適化 | Ulysses(デフォルト)または Ring Attention
FSDP を適用してもレイヤーが依然として巨大になるため、Expert Parallelism (EP) が存在します。float32 で 78 レイヤー、800B パラメータを持つ場合、1 つのレイヤーにおけるオールギャザーには約 40GB のメモリが必要です。1 つのレイヤーをオーバーラップさせると、これはほぼ 80GB に達してしまいます。EP=8 と設定することで、完全なエキスパートを集めるのではなくトークンをディスパッチします。単一ノード内では torch ネイティブの all2all がわずかに高速ですが、EP が複数のノードにまたがる場合は DeepEP が優位です。
シーケンス長が 131k を超える場合、Context Parallelism (CP) が重要になります。この領域ではパラメータよりも活性化がメモリを支配します。GLM-5 は DSA(Dynamic Sequence Attention)を使用しており、これは Ulysses や Ring Attention のいずれも直接並列化できません。そのため、prime-rl ではこれに対応するカスタムなコンテキスト並列実装を提供しています。
FP8 学習について。prime-rl は DeepSeek V3 で提案された DeepGEMM ブロックスケーリング FP8 を採用しています。これは量子化のオーバーヘッドによりスループットが大幅に向上することは稀ですが、その真価はトレーニングと推論の精度を一致させる点にあります。これにより KL 発散(KL divergence)の不整合を減らし、学習を安定させます。
インタラクティブ・エクスプローラー
(function(){
window.addEventListener("message", function(e){
if(e && e.data && e.data.type === "primerl-explorer-height"){
var f = document.getElementById("primerl-explorer");
if(f && e.data.height){ f.style.height = e.data.height + "px"; }
}
});
})();
使用例と具体例
長期スパンのソフトウェアエンジニアリングエージェント:実際のリポジトリ上の課題に対してモデルを訓練します。ロールアウトは100ターン以上に及び、ツール呼び出しも多数行われます。ここでP/D(推論/学習)の分離により、デコードレイテンシを予測可能に保ちます。
少数のノードでの1兆パラメータ規模のポストトレーニング:GLM-5の実行は28台のH200ノードで収まりました。広範なEP(エピック)とKVキャッシュオフロードにより、並列処理能力とスループットが向上します。
大規模における安定したアジェンティックRL:ルーターのリプレイとFP8トレーニングの両方が、トレーナーの推論KL不一致を低減します。不一致が小さいほど、訓練はより安定します。
技術詳細をご覧ください。また、Twitterでフォローしていただくことも歓迎です。15万人以上のMLコミュニティであるSubRedditに参加し、ニュースレターも購読してください。待ってください!Telegramをご利用ですか?今ならTelegramでも私たちに参加できます。
GitHubリポジトリやHugging Faceページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップを希望される場合は、ご連絡ください。
本記事「Prime Intellect がアジェンティック RL ワークロード上で兆パラメータ規模の MoE モデルを訓練するための prime-rl 0.6.0 をリリース」は、MarkTechPost で最初に公開されました。
原文を表示
Prime Intellect has released prime-rl version 0.6.0. The framework targets reinforcement learning on trillion-parameter Mixture-of-Experts (MoE) models. It focuses on heavy agentic workloads, like long-horizon software-engineering tasks.
The research team trained GLM-5 on SWE tasks at up to 131k sequence length. Step times stayed under five minutes. The batch size was 256 rollouts. The run used only 28 H200 nodes.
TL;DR
prime-rl 0.6.0 trains trillion-parameter MoE models on agentic RL workloads.
GLM-5 trained on SWE at 131k sequence length, sub-5-minute steps, 28 H200 nodes.
Asynchronous RL disaggregates trainer and inference for independent optimization.
Inference uses FP8, Wide EP, P/D disaggregation, KV offloading, and router replay.
Training uses 3-D parallelism (FSDP, EP, CP) plus block-scaled FP8.
What is prime-rl 0.6.0?
prime-rl is an open framework for asynchronous reinforcement learning. It post-trains large open-source models on agentic tasks. Version 0.6.0 extends this to trillion-parameter MoE scale.
The example model in the announcement is zai-org/GLM-5.1. The optimizations also apply to other large MoE models. Examples include moonshotai/Kimi-K2.7-Code and nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16.
A full GLM-5.1 run starts with one command on a Slurm cluster.
Copy CodeCopiedUse a different Browser
uv run rl @ examples/glm5_llmd/rl.toml --output-dir /shared/outputs/glm5-llmd
Role of asynchronous RL
Agentic tasks have long-tail outliers. Some coding rollouts run for hours. Waiting for them before each policy update would idle GPUs.
Asynchronous RL avoids this. The trainer and inference systems are disaggregated. They run and scale independently. The inference policy updates as soon as the optimizer step finishes.
There is one synchronization point: the policy update. prime-rl pushes new weights as soon as they exist. Already-dispatched rollouts keep their active prefix cache. So a single rollout may mix tokens from several policy versions.
New rollouts behave differently. They repopulate their own KV cache, even when prefixes match. A KV-cache salt forces this. Requests from too old a policy are dropped. The max_off_policy_steps value controls that threshold.
Inference optimizations
Inference is usually the throughput bottleneck in an RL system. prime-rl optimizes for throughput, while keeping latency bounded.
FP8 inference: Lower precision speeds up prefill and decode. prime-rl uses FP8 with DeepEP and DeepGEMM kernels.
Wide Expert Parallelism: Wide EP spreads experts across ≥32 GPUs. It pairs with a large data-parallel rank, for example 32. Each GPU holds separate experts and serves as an endpoint. Synchronization happens per-layer, through dispatch and combine operations.
Prefill and Decode Disaggregation: Some model
imageenv pairs hit a 4:1 prefill:decode token ratio. Shared workers would inflate end-to-end latency. That reduces the benefits of PipelineRL. P/D disaggregation separates prefill and decode workers. Long tool outputs then stop throttling decode workers.
KV cache management: High concurrency needs large KV cache space. prime-rl supports tiered offloading to CPU and disk. vLLM native offloading creates one pool per worker. Mooncake Store instead pools RAM and disk across all nodes centrally.
Request routing: prime-rl ships a fork of vllm-router by default. It also supports the NVIDIA Dynamo router as a drop-in. Routers score workers using KV cache reuse, queue depth, and live load.
Router replay (R3): Trainer
imageinference mismatch silently kills training. Router replay captures inference routing decisions. It replays them directly on the trainer. This cuts KL mismatch by roughly an order of magnitude. Routed experts have shape [num_layers, top_k, seq_len]. This payload can grow to hundreds of GB. At scale, the data rate reaches tens of Gbps. So prime-rl treats it as an opaque payload. Optimized PyTorch operations handle the processing.
Training optimizations
The trainer builds on torchtitan, a PyTorch-native training codebase. It relies on 3-D parallelism: FSDP, CP, and EP. The GLM-5 case study uses all three.
StrategyWhat it shardsPrimary useKey detail
FSDP (FSDP2)Parameters, gradients, optimizer statesBaseline memory amortizationGathers weights on demand per layer via fully_shard
Expert Parallelism (EP)Experts within a layerShrinks active layer memoryall2all dispatch/combine; torch-native or DeepEP
Context Parallelism (CP)The sequence dimensionLong-context activation memoryUlysses (default) or Ring Attention
EP exists because layers stay huge after FSDP. With 78 layers and 800B params in float32, one layer’s all-gather needs roughly 40GB. Overlapping one layer pushes that near 80GB. Setting EP=8 dispatches tokens instead of gathering full experts. torch-native all2all is slightly faster within one node. DeepEP wins when EP spans multiple nodes.
CP matters at 131k+ sequence length. There, activations dominate memory, not parameters. GLM-5 uses DSA, which neither Ulysses nor Ring Attention parallelizes directly. So prime-rl ships a custom context-parallel implementation for it.
FP8 training. prime-rl uses DeepGEMM block-scaled FP8, as proposed by DeepSeek V3. This rarely raises throughput, due to quantization overhead. Its real value is matching trainer and inference precision. That reduces KL mismatch and stabilizes training.
Interactive Explainer
(function(){
window.addEventListener("message", function(e){
if(e && e.data && e.data.type === "primerl-explorer-height"){
var f = document.getElementById("primerl-explorer");
if(f && e.data.height){ f.style.height = e.data.height + "px"; }
}
});
})();
Use cases with examples
Long-horizon SWE agents: Train a model on real repository issues. Rollouts can span 100s of turns and tool calls. P/D disaggregation keeps decode latency predictable here.
1T-scale post-training on fewer nodes: The GLM-5 run fit on 28 H200 nodes. Wide EP and KV offloading raise concurrency and throughput.
Stable agentic RL at scale: Router replay and FP8 training both reduce trainer
imageinference KL mismatch. Lower mismatch means steadier training.
Check out the Technical details. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post Prime Intellect Releases prime-rl 0.6.0 to Train Trillion-Parameter MoE Models on Agentic RL Workloads appeared first on MarkTechPost.
関連記事
VibeThinker-3B:Qwen2.5-Coder-3Bを基盤にスペクトルから信号へのポストトレーニングパイプラインで構築された 30 億パラメータの密着型推論モデル
中国の新浪微博研究所が開発した「VibeThinker-3B」は、大規模なパラメータ数に依存しない効率的なアプローチを採用し、検証可能なタスクにおいて数百倍サイズのモデルと同等の性能を発揮する 30 億パラメータの推論モデルとして公開された。
リプレイバッファを用いた難問の再検討(8 分読了)
研究者がリプレイバッファという手法を再評価し、AI モデルの学習効率や複雑な問題解決能力を向上させる可能性について議論している。
Cohere が開発者向けコード生成モデル「North Mini Code」を発表:30B パラメータの MoE アーキテクチャで 3B アクティブ
Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家(MoE)アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み