混元世界モデルのさらなる進化:世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開
腾讯混元3D团队は、世界モデルの強化学習後訓練フレームワーク「WorldCompass」をオープンソース化し、複雑な動作指令への応答精度と長時系列の視覚的一貫性を大幅に向上させた。
キーポイント
業界初の世界モデル向けRL後訓練フレームワーク
腾讯混元が世界モデルの強化学習後訓練専用フレームワーク「WorldCompass」をオープンソース化し、従来の予測ベースの学習から、報酬に基づく行動最適化への移行を促進する。
複雑動作の実行精度を35%向上
WorldCompassの適用により、SOTAモデルWorldPlayの複合動作シーケンス実行精度が約20%から55%へと35ポイント向上し、長距離探索時の画質崩壊や経路逸脱の問題を軽減した。
3つの技術的革新:細粒度サンプリング・3D報酬関数・効率的最適化
クリップ単位の細粒度サンプリング、行動追従と画質評価を組み合わせた3D報酬関数、負例を活用した効率的な最適化アルゴリズムにより、RLの世界モデル適用における課題を解決した。
世界モデル開発の新時代「RL精密調整時代」の幕開け
従来の「事前学習時代」から、ユーザー指示に正確に従い長時系列の視覚的一貫性を保つ「強化学習精密調整時代」への転換点を示す技術的進展である。
影響分析・編集コメントを表示
影響分析
この技術は、ゲーム、シミュレーション、自動運転、ロボティクスなど、現実世界のインタラクションをモデル化する多くの応用分野で、より正確で信頼性の高い世界モデルの開発を可能にする。オープンソース化により、研究コミュニティ全体の進歩を促進し、AIエージェントや没入型体験の実現に寄与する可能性が高い。
編集コメント
世界モデルの実用化に向けた重要な一歩。RL後訓練のフレームワークがオープンソース化されたことで、業界全体のベンチマークと開発速度が向上する可能性が高い。
2026-03-10 11:54 広東
image
関連コードとモデル詳細はオープンソース化済み
世界モデルは「事前学習時代」から「強化学習による精密チューニング時代」へと移行しつつある。
3月10日、テンセント混元3Dチームは業界初となる世界モデル向け強化学習後訓練フレームワーク「WorldCompass」をオープンソース化した。これは以前にリリースされた混元世界モデル1.5の公式強化学習拡張モジュールであり、世界モデルのインタラクション精度と体験を向上させることができる。
混元世界モデル1.5は2025年12月に初めてリリースされ、業界初の体験可能なリアルタイム世界モデルである。
既存の生成型世界モデル(WorldPlayなど)は驚異的な可能性を示しているが、主に事前学習段階のピクセルレベル監視に依存している。この「見様見真似」の学習方法では、複雑な複合動作指示に対してモデルが「理解できない」、あるいは長距離移動中に画質が劣化したり経路が逸脱したりすることが多い。
この課題を解決するため、テンセント混元チームはWorldCompassを発表した。これは長時系列・インタラクティブな世界モデル向けに設計された強化学習(RL)後訓練フレームワークである。世界モデルをエンジンとすれば、WorldCompassは精密な「コンパス」であり、強化学習メカニズムを導入することで、モデルがユーザー指示により正確に従って世界を探索し、長時系列の視覚的一貫性を維持する方法を直接「導く」。
実験によると、WorldCompassはSOTAオープンソース世界モデル(WorldPlay)のインタラクション精度と視覚的忠実度を著しく向上させ、特に複雑な複合動作シナリオでは、インタラクション精度が約35%向上した。
核心的な課題:なぜ世界モデルはRL後訓練が必要なのか?
現在の主流の世界モデルは通常、自己回帰生成パラダイムを採用している。しかし、事前学習だけでは明らかな限界がある:
- 直接的なフィードバックの欠如:現在の世界モデルの学習目標は次のフレーム内容を予測することであり、「左に曲がる」という動作自体ではない。
- 複雑な指示の失敗:「前進しながら左に曲がる」のような複合動作では、組み合わせ形式が多様であるため、ビデオデータで完全にカバーすることは難しく、ピクセルレベルの模倣だけでは正確に実行できない。
WorldCompassの提案は、強化学習を通じて、明示的な動作追従報酬と視覚品質報酬を導入し、事前学習済みの世界モデルを「アラインメント」と「微調整」するためである。
WorldCompass 技術のハイライト
WorldCompassは、自己回帰的世界生成の特性に合わせて、従来のRLフレームワークを全面的に再構築し、3つの核心的革新を提案した:
1、クリップレベル・ロールアウト:自己回帰的世界生成向けの細粒度サンプリング戦略
従来の言語モデルRLでは通常、文全体をサンプリングして評価するが、長系列視覚生成ではこの方法は効率が極めて低く、フィードバックが疎である。WorldCompassは Clip-level Rollout(クリップレベル・ロールアウト) 戦略を提案した:n番目のビデオクリップを生成する際、n-1番目までのクリップの履歴情報を再利用し、現在のクリップのみを複数回並列サンプリング(ロールアウト)する。この改良により計算複雑度が大幅に低減されると同時に、各微小クリップに対して細粒度の報酬信号を提供でき、自己回帰的ビデオ生成過程において動作不一致や画質低下のクリップを正確に特定できる。
2、3D報酬関数:「報酬ハッキング」を防止
RL訓練では、モデルが「報酬ハッキング」現象を起こしやすい。例えば、動作指示を満たすために無意味なデータを生成したり、画質を良くするために動作指示を無視したりする。WorldCompassは相互に制約し合う2つの相補的な報酬関数を設計した:
● インタラクション追従スコア:先進的な3D基盤モデル(WorldMirror)を利用し、生成されたビデオからカメラ軌跡(並進と回転)を逆解析し、ユーザーの入力指示と比較する。
● 視覚品質スコア:画質評価モデルを用いて生成ビデオの美的品質と画像-テキスト一貫性を評価する。
両者は互いに正則化項として機能し、モデルが画質を保証しつつ動作を正確に実行することを強制し、一方に偏ることを回避する。
3、効率的なRL最適化アルゴリズム:訓練をより安定かつ迅速に
モデルパラメータ数が大きく訓練コストが高い問題に対し、WorldCompassは 負例認識微調整戦略(Negative-aware Fine-tuning) を採用し、複数の最適化を組み合わせた:
● Best-of-N サンプリング:サンプリングされた候補から最良と最悪を選び、対照学習を行う。
● カリキュラム学習:訓練の進行に伴い、ビデオ生成の長さを徐々に増加させ(短時系列から長時系列へ)、モデルが段階的に長距離移動能力を習得できるようにする。
評価結果:性能が全面的に飛躍
定量的指標評価
チームは最新のオープンソースSOTAモデル「WorldPlay」で包括的な検証を行った。結果は、WorldCompassによる後訓練を経て、モデル能力が質的に飛躍したことを示した。
最も困難な複合動作シナリオ(例えば移動と回転を同時に行う)では:ベースモデルは複雑な組み合わせ動作シーケンスの実行精度が約20%しかなかった。WorldCompassで訓練後、精度は約55%に向上し、向上幅は35%以上となった。基本動作でも精度は約10%向上した。
同時に、スタンフォード大学の世界モデルベンチマーク「WorldScore」において、WorldCompassはより良いスコアを獲得した:
可視化効果テスト
実測効果から、WorldCompass使用後、モデルが左、右、前、後など異なる視点の指示に対して、実行精度が明らかに向上したことがわかる。
元のモデル
+WorldCompass後
WorldCompassのリリースは、世界モデルが「事前学習時代」から「RL精密チューニング時代」へと進んだことを示している。長時系列・インタラクティブな世界モデル向け初のRLフレームワークとして、WorldCompassは動作制御の不正確さという課題を解決した。これは強化学習が世界モデル分野で巨大な潜在力を有することを証明するだけでなく、将来より知的で制御可能な「生成型世界シミュレーター」を構築するための新たな技術的経路を提供する。
この技術は既に混元WorldPlayモデルで検証済みであり、関連コードとモデル詳細はオープンソース化されている。詳細は以下のアドレスを参照:
ホームページ:https://3d-models.hunyuan.tencent.com/world/
技術レポート:https://arxiv.org/abs/2602.09022
コード(GitHub):https://github.com/Tencent-Hunyuan/HY-WorldPlay
原文を読む
WeChatで開く
原文を表示
2026-03-10 11:54 广东
image
相关代码和模型细节已开源
世界模型从“预训练时代”开始走向“强化学习精细化调优时代”。
3月10日,腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,这是此前发布的混元世界模型1.5 官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。
混元世界模型1.5于2025年12月首次发布,是业界首个可体验的实时世界模型。
现有的生成式世界模型(如WorldPlay等)虽然展现了惊人的潜力,但主要依赖于预训练阶段的像素级监督。这种“依样画瓢”的学习方式,往往导致模型在面对复杂的组合动作指令时“听不懂”,或者在长距离漫游中出现画质崩坏和路径漂移。
为了解决这一难题,腾讯混元团队推出了WorldCompass。这是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架。如果说世界模型是引擎,那么WorldCompass就是精准的“指南针”,通过引入强化学习机制,直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。
实验表明,WorldCompass能显著提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,特别是在复杂的组合动作场景下,交互准确率提升了近35%。
核心痛点:为什么世界模型需要RL后训练?
当前的主流世界模型通常采用自回归生成范式。然而,仅靠预训练(Pre-training)存在明显局限:
- 缺乏直接反馈:现在世界模型的训练目标是预测下一帧内容,而不是“向左转”这个动作本身。
- 复杂指令失效:对于“一边前进一边左转”这样的复合动作,由于组合形式多样,视频数据很难完全覆盖,因此仅靠像素模仿很难精准执行。
WorldCompass的提出,正是为了通过强化学习(RL),引入显式的动作跟随奖励和视觉质量奖励,对预训练好的世界模型进行“对齐”和“微调”。
WorldCompass 技术亮点
WorldCompass 针对自回归世界生成的特性,对传统 RL 框架进行了全方位的重构,提出了三大核心创新:
1、切片级采样:针对自回归世界生成的细粒度采样策略
传统的语言模型RL通常是对整句进行采样评分,但对于长序列视觉生成来说,这种方式效率极低且反馈稀疏。WorldCompass 提出了 Clip-level Rollout(切片级采样) 策略:在生成第 n 个视频片段时,复用前 n-1 个片段的历史信息,仅对当前片段进行多次并行采样(Rollout)。这个改进极大地降低了计算复杂度,同时能够针对每一个微小的片段提供细粒度的奖励信号,在自回归视频生成过程中精确定位出动作不符和画质下降的片段。
2、3D奖励函数:拒绝“奖励刷分”
在RL训练中,模型容易出现“奖励刷分(Reward Hacking)”现象。例如:为了满足动作指令而生成乱码,或者为了画质好而无视动作指令。WorldCompass 设计了两种互补的奖励函数来相互制约:
●交互跟随评分(Interaction Following Score):利用先进的3D基础模型(WorldMirror),从生成的视频中反解出相机轨迹(平移和旋转),并与用户的输入指令进行比对。
●视觉质量评分(Visual Quality Score):采用画质评分模型对生成视频的美学质量和图文一致性进行评分。两者互为正则项,迫使模型在保证画质的前提下精准执行动作,避免了顾此失彼。
3、高效 RL 优化算法:让训练更稳、更快
针对模型参数量大、训练昂贵的问题,WorldCompass 采用了一种基于负样本感知的微调策略(Negative-aware Fine-tuning),并结合了多项优化:
●Best-of-N 采样:从采样的样本中挑选最好的和最差的进行对比学习。
●课程学习(Curriculum Learning):随着训练进行,逐渐增加视频生成的长度(从短时序到长时序),让模型循序渐进地掌握长距离漫游能力。
评测结果:性能全面跃升
定量指标评测
团队在最新的开源SOTA模型 WorldPlay上进行了全面验证。结果显示,经过WorldCompass的后训练,模型能力实现了质的飞跃。
在最为困难的复合动作(Combined Action)场景下(例如同时进行移动和旋转):基座模型对于复杂组合式动作序列执行的准确率仅为 20% 左右。使用 WorldCompass 训练后,准确率提升至 55% 左右,提升幅度超过 35%。对于基础动作,准确率也提升了约10%。
同时,在斯坦福大学世界模型Benchmark WorldScore上,WorldCompass取得了更好的评分:
可视化效果测试
实测效果可以看出,使用 WorldCompass后,模型对于向左、向右、向前、向后等不同视角的指令,执行准确率明显提升。
原有模型
+WorldCompass后
WorldCompass 的发布,标志着世界模型从“预训练时代”迈向了“RL精细化调优时代”。作为首个针对长时序、交互式世界模型的RL框架,WorldCompass 成功解决了动作控制不精准的痛点。它不仅证明了强化学习在世界模型领域的巨大潜力,也为未来构建更加智能、可控的“生成式世界模拟器”提供了全新的技术路径。
该技术已在混元WorldPlay模型上得到验证,相关代码和模型细节已开源。访问以下地址了解更多:
主页:https://3d-models.hunyuan.tencent.com/world/
技术报告:https://arxiv.org/abs/2602.09022
代码(github):https://github.com/Tencent-Hunyuan/HY-WorldPlay
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み