MolmoBot:シミュレーションのみで学習するロボット操作モデル
Allen AIは、シミュレーション内のみのデータでロボット操作を学習する「MolmoBot」のコード、170万件以上のデータセット、および評価ベンチマークを公開し、実世界との乖離(Sim2Real Gap)克服への新たな道筋を示した。
キーポイント
完全なオープンソーススタックの公開
MolmoBotの学習・評価コード、高性能から軽量版までの全ポリシーアーキテクチャ、およびデータ生成パイプライン「MolmoBot-Engine」が公開され、研究者は独自のロボットやタスク向けに新しい訓練データを生成可能となった。
大規模かつ多様なデータセットの提供
1.7M件の専門家による操作軌道データ、1万種類以上のユニークな物体、9.4万種類の procedurally generated environments(手動生成環境)、2つのロボットプラットフォーム(Franka FR3, Rainbow Robotics RB-Y1)を対象とした8つのタスクタイプを含む「MolmoBot-Data」を公開。
シミュレーションのみでの学習というパラダイムシフト
従来の実世界データとシミュレーションデータを混合するアプローチとは異なり、シミュレーションデータを「唯一」の学習源とする試みを行い、Sim2Real Gapを克服できるという仮説を検証している。
厳格な評価ベンチマークの導入
系統的かつ制御された変動下でのロボットの汎化能力を評価するための「MolmoSpaces-Bench」ベンチマークを追加し、リーダーボードを更新して技術的進歩を可視化した。
影響分析・編集コメントを表示
影響分析
この発表は、ロボット学習における「データ収集のコストと時間」という最大の障壁を、高品質なシミュレーション生成によって解決する可能性を示唆しており、業界全体の実装コスト削減に寄与する。特に、シミュレーションのみで実世界性能を達成するという仮説が裏付けられれば、家庭用や産業用ロボットの普及加速に直結する重大な進展である。
編集コメント
シミュレーションのみで実世界適用を目指す試みは長年の課題だが、そのための大規模データ生成パイプラインの公開は、次世代ロボット学習の標準プロセスを定義するものとなるだろう。
*更新日 3/27: MolmoBot のコードとデータ公開*
MolmoBot の完全なトレーニングおよび評価スタックが利用可能になりました。今回のリリースには、高性能から軽量オプションまでを網羅するすべての MolmoBot ポリシーアーキテクチャ向けの トレーニングおよび評価コード が含まれています。また、11,000 種類以上のユニークなオブジェクト、94,000 以上の手動生成環境、2 つのロボットプラットフォーム(Franka FR3 および Rainbow Robotics RB-Y1)にわたる 8 つのタスクタイプをカバーする 170 万件の専門家による操作軌跡からなるデータセット MolmoBot-Data も公開します。
このデータとともに、MolmoBot-Data の背後にあるオープンな手動生成パイプラインであるMolmoBot-Engineも公開します。これは現在 MolmoSpaces リポジトリの一部となっています。MolmoBot-Engine は環境サンプリング、ドメインランダム化、専門家による軌跡生成を処理するため、研究者は自身のロボットやタスク向けに新しいトレーニングデータを生成できます。
また、MolmoBot を体系的かつ制御された変異下でのロボティックポリシーの一般化能力を評価するためのベンチマークである MolmoSpaces-Bench に追加し、リーダーボードを更新しました。さらに、MolmoBot の技術報告書には新しいベンチマーク数値と追加コンテンツが反映され、より多くの実世界デモンストレーション動画を含む MolmoBot 用の新たな技術ウェブサイトも公開されました。
*Original post follows.*
AI は知覚と推論の分野で急速に進化を遂げていますが、その次のフロンティアは「行動」にあります。主要なテクノロジー企業は、家庭、病院、倉庫、公共空間などにおいて信頼性高く動作するロボットを開発しようと競い合っています。中核的な課題は、これらのロボットを実世界と相互作用させる方法を訓練することであり、これまで研究者たちはこれを実現するために高価で手作業による収集データに大きく依存してきました。
今日、シミュレーションデータを利用するほとんどのアプローチでは、それを単なる補助的なデータソースとして扱い、ターゲットとなる実世界のデータと混合して利用しています。しかしもし、シミュレーションデータが単なる主要なデータソースではなく、唯一のデータソースとなったとしたらどうでしょうか?従来の常識では、シミュレーションから現実への転移(sim2real)におけるギャップは克服不可能だと考えられるでしょう。しかし私たちは、シミュレーション環境、物体、カメラ条件の多様性を劇的に拡大することで、このギャップを埋めることができると仮説しています。もし訓練が専有された手作業収集データに依存せず、スケーラブルなシミュレーションに基づいて行われるようになれば、ロボティクス研究はより再現性が高く、広くアクセス可能になります。
この仮説を検証するため、本日、シミュレーションデータのみを用いて訓練されたオープンロボティクス操作モデルスイート「MolmoBot」をリリースします。本スイートは、Rainbow Robotics RB-Y1 モバイルマニピュレータと Franka FR3 テーブルトップアームという 2 つのロボットプラットフォームにまたがり、能力と計算リソースのトレードオフが異なる複数のポリシーアーキテクチャを含んでいます。評価において、最良モデルは微調整を一切行わずに、未見の物体や環境における実世界の静的およびモバイル操作タスクへゼロショット転送を実現し、π0 や π0.5 を含む既存手法と同等の競争力あるパフォーマンスを標準ベンチマークプロトコル下で達成しました。
MolmoBot には、訓練データ、データ生成パイプライン、訓練コード、および技術レポートというフルスタックが含まれており、他者が当社の手法を再現・拡張・負荷テストできるようになっています。シミュレーションはロボット学習への障壁を下げ、大規模な遠隔操作セットアップを持たない学術研究室や、広範なデータ収集インフラを持たずに操作探索を行う組織でも、能力のあるマニピュレーションが実現可能になると信じています。
シミュレーションデータによる根拠
現在、最も能力の高いロボット操作システムは、多くの実世界データに基づいて構築されています。これらのデータはしばしばクローズドソースです。Open X-Embodiment や DROID といったプロジェクトはその規模を示しています:Open X-Embodiment は 21 の機関で収集された 22 の異なるロボットからの 100 万本以上の実世界ロボット軌道データを統合しており、DROID は 13 の機関で同じハードウェアセットアップを用いて収集された 564 シーンと 86 タスクにわたる 76,000 本のテレオペレーション軌道データ(約 350 時間)を含んでいます。これらのプロジェクトは進展を促してきましたが、構築には多額の費用がかかり、スケーリングも困難です。
私たちの以前の SPOC に関する研究は、別のアプローチを示唆しました。ナビゲーションに焦点を当てた SPOC は、安価なシミュレーションによる監督学習を十分な規模で実施することで、強化学習を用いず、RGB のみによるセンシングとし、人間の軌道データ収集を行わず、実世界での微調整も不要として、実世界への一般化が可能なシステムを生み出すことができることを示しました。
しかし、操作はより困難であり、最近リリースした MolmoSpaces などのプラットフォームを通じた、より精密な物理シミュレーションを要求します。
最近のいくつかの取り組みは操作のための合成データを探求していますが、ほとんどはまだ実世界のデモンストレーションから始まります。NVIDIA の GR00T プラットフォームは「データピラミッド」を使用しており、テレオペレーションされたロボットデータが頂点に位置します。合成パイプラインは人間のデモンストレーションを補完しますが、実データは依然として不可欠です。Google DeepMind の RT-1 は、人間によるテレオペレーターによって 17 ヶ月間にわたって収集された 130,000 エピソードを必要としました。Physical Intelligence のπシリーズもテレオペレーションデータでトレーニングされています。いくつかのプロジェクトがシミュレーションのみでのトレーニングに近づいていますが、GraspVLA は合成 grasping データのみで事前トレーニングを行いますが、単一の静的プラットフォーム上で固定カメラを使用し、データやエンジンについては公開していません。また InternVLA は sim-to-real 転移を実証していますが、これは実世界の評価設定と密接に一致するデジタルツイン上でファインチューニングされた場合に限られます。
MolmoBot はさらに一歩進み、接触が豊富なタスクにおいて完全にランダム化されたカメラを備えたシミュレーション内で完全にトレーニングを行い、モバイル操作を含む 2 つのプラットフォーム間でゼロショット転移を実現し、すべてのものをオープンにリリースします。
この研究の基盤となっているのは、MolmoSpaces です。これは私たちが開発したエンボディド AI 向けのオープンエコシステムであり、再現可能な軌道生成と、MolmoBot-Data の背後にある手動生成環境のためのインフラストラクチャを提供しています。MolmoBot-Data は、MuJoCo シミュレーション、積極的なドメインランダム化、および手続き型環境生成を組み合わせて作成された、数百万件の専門家による操作軌道からなる大規模データセットです。このプロセスでは、オブジェクト、配置、視点、照明、テクスチャ、ダイナミクスに多様な変化を持たせた訓練実行が行われます。また、オブジェクトのカバレッジを拡大するために、iTHOR と Objaverse から剛体アセットも取得しています。パイプラインはより豊富な信号(深度情報や特権的なシミュレータメタデータを含む)を生成可能ですが、私たちの訓練実行ではポリシー学習のために RGB 観測値のみを使用しており、これが転移結果の顕著さを際立たせています。
One suite, many tasks
MolmoBot は、MolmoBot-Data を用いて訓練された操作ポリシーのスイートであり、2 つのロボットプラットフォームにわたって評価された複数の主要タスクカテゴリを網羅しています:
- ピックアンドプレイス。Franka FR3 上で評価される、卓上での把持と精密なオブジェクト配置。
- 関節付きオブジェクトの操作。引き出し、キャビネット、電子レンジなど、いくつかのカテゴリにわたる引き出しや扉の開閉を含む関節付きオブジェクトの操作。RB-Y1 上で評価されます。
- ドア開け。RB-Y1 上で評価される、ドアへの接近、把持、および全運動範囲を通じたドアの引きまたは押し。
明確にするために、MolmoBot は操作と関節化に焦点を当てており、ナビゲーションは対象外です。
タスクは自然言語またはポイントベースの命令(例:「ピッキング」「配置」「クローズ」)によって指定できます。
1 つのデータセット、多数のアーキテクチャ
MolmoBot スイートには、同じ合成データを用いた行動学習(behavior cloning)を通じて訓練された 3 つの方策アーキテクチャが含まれています。
MolmoBotは、私たちの主要な VLM ベースのマニピュレーション方策です。Molmo2 ビジョン・ランゲージバックボーンを基盤としており、画像エンコーダ、言語エンコーダ、アクションデコーダを通じて複数のタイムステップの RGB 観測値と言語指示を処理します。MolmoBot は、私たちの評価において最高のパフォーマンスを発揮しました。
MolmoBot-SPOCは、元の SPOC ナビゲーションアーキテクチャから派生した軽量なトランスフォーマー方策です。競合する性能を持ちながらパラメータ数が大幅に少ないため、計算リソースが制約された環境に適しています。
MolmoBot-Pi0は、PaliGemma バックボーンとアクションヘッドを使用し、Physical Intelligence のπ0 で採用されているアーキテクチャと一致します。これらを特に含めたのは、合成データと実世界データの効果を分離し、統制的な「リンゴとリンゴ」の比較を可能にするためです。
How it performs
MolmoBot の性能について
シミュレーション内および実世界において MolmoBot を評価し、トレーニング時に遭遇しなかった評価時の摂動(カメラ変更、照明変更、代替レンダラーの使用など)に対する視覚的分布変化への頑健性をテストしました。これらの比較はタスク定義や成功基準の違いに敏感になり得るため、可能な限りプロトコルを一致させ、同一設定下での直接対決結果を報告します。
実世界における微調整を一切行わずとも、MolmoBot は RB-Y1 および Franka FR3 の両方でゼロショットのシミュレーションから実世界への転送(sim-to-real transfer)を実現しました。ピッキング&プレースメントベンチマークにおいて、MolmoBot は大規模な実世界のデモンストレーションデータでトレーニングされたπ0.5 を上回りました。これは、十分なスケールと多様性を備えた合成データによるトレーニングが、高価なデータ収集に依存する手法に匹敵するか、あるいはそれを超える可能性を示唆しています。
Why this matters
なぜこれが重要なのか
ロボティクスにおける最大の制約は、高コストで手動収集されたデータです。私たちの結果は、ロボットをシミュレーション内で完全にトレーニングできることを示唆しています。これにより、手動デモンストレーションの収集から、MolmoSpaces などのプラットフォームを用いた多様な仮想環境の生成へと優先順位が変化します。これにより参入障壁が低下し、実験スピードが向上し、より多くの研究室や組織が能力のある物理的 AI システムを構築することが可能になります。
見知らぬ物体をつかんだり、関節付き表面を操作したり、非構造化環境で信頼性高く動作したりするロボットをトレーニングすることが現実のものとなります。
私たちは、MolmoBot を完全合成トレーニングがマニピュレーションにおいて機能するかどうかの試金石と捉えています。私たちの結果は、高価な実世界データ収集、タスク固有のファインチューニング、フォトリアリスティックなレンダリング、あるいは複雑なドメイン適応を必要とせずに、それが可能であることを示唆しています。実用的な帰結として、ボトルネックは手動でのデータ収集から、より良い仮想世界の設計へと移ります。これは計算資源とオープンなインフラストラクチャによってスケーラブルに解決できる問題です。
もしあなたがマニピュレーション、sim-to-real 転送(シミュレーションから実世界への転送)、あるいは grounded instruction-following(文脈に基づいた指示の追従)に取り組んでいるなら、MolmoBot を試していただきたいと考えています。モデルをダウンロードし、あなたのロボットやベンチマークセットアップでテストを行い、MolmoSpaces で独自の合成トレーニングデータを生成し、私たちと共に構築してください。特に、どこで失敗するかを見たいと思っています。失敗事例が次なるステップを形作ることになるでしょう。
MolmoBot を実験する研究者が増えれば増えるほど、コミュニティは合成トレーニングが可能と不可能なことの範囲、そして残りのギャップを埋めるために何が必要かをより速く学ぶことになります。ロボット学習の未来はオープンであるべきであり、私たちはそのように構築しています。
最新の Ai2 ニュースに関する月次アップデートを受け取るには、購読してください。
原文を表示
*Update 3/27: MolmoBot code and data release*
MolmoBot's full training and evaluation stack is now available. This release includes training and eval code for all MolmoBot policy architectures, spanning high-performance to lightweight options. We're also releasing MolmoBot-Data, a dataset of 1.7M expert manipulation trajectories spanning 11K+ unique objects, 94K+ procedurally generated environments, and 8 task types across two robot platforms, Franka FR3 and Rainbow Robotics RB-Y1.
Alongside the data, we're releasing MolmoBot-Engine, the open procedural data generation pipeline behind MolmoBot-Data, now part of the MolmoSpaces repository. MolmoBot-Engine handles environment sampling, domain randomization, and expert trajectory generation, so researchers can generate new training data for their own robots and tasks.
We've also added MolmoBot to MolmoSpaces-Bench, our benchmark for evaluating how robotic policies generalize under systematic, controlled variation, and updated the leaderboard. Lastly, our MolmoBot technical report has been updated with new benchmark numbers and additional content, and a new technical website for MolmoBot with more real-world demonstration videos is live.
*Original post follows.*
AI has rapidly advanced in perception and reasoning, but its next frontier is action. Major technology players are racing to build robots that can operate reliably in homes, hospitals, warehouses, and public spaces. The core challenge lies in training these robots to interact with the real world—and until now, researchers have depended heavily on expensive, manually collected demonstrations to do it.
Most approaches today that use simulation data use it simply as an auxiliary data source, mixing it in with on-target real-world data for use. But what if simulation data became not just the primary data source, but the only data source? Conventional wisdom would suggest that the sim2real gap would prove insurmountable, but we hypothesize that we can close this gap by dramatically expanding the diversity of simulated environments, objects, and camera conditions. If training no longer depends on proprietary, manually collected data and is instead rooted in scalable simulation, robotics research becomes more reproducible and broadly accessible.
To test that thesis, today we're releasing MolmoBot, an open robotic manipulation model suite trained entirely on simulation data. The suite spans two robotic platforms – the Rainbow Robotics RB-Y1 mobile manipulator and the Franka FR3 tabletop arm – and includes multiple policy architectures at different capability and compute tradeoffs. In our evaluations, our best model achieves zero-shot transfer to real-world static and mobile manipulation tasks on unseen objects and environments without any fine-tuning, achieving competitive performance with prior methods including π0 and π0.5 under standard benchmarking protocols.
MolmoBot includes the full stack – training data, data generation pipelines, training code, and a technical report – so others can reproduce, extend, and stress-test our methodology. We believe that simulation can lower the obstacles and democratize access to robot learning, putting capable manipulation within reach of academic labs without access to large-scale teleoperation setups and organizations exploring manipulation without extensive data collection infrastructure.
The case for simulated data
The most capable robotic manipulation systems today are built on large amounts of real-world data—data that's often closed-source. Projects like Open X-Embodiment and DROID illustrate the scale involved: Open X-Embodiment combines over one million real robot trajectories from 22 embodiments collected across 21 institutions, while DROID includes 76,000 teleoperated trajectories – roughly 350 hours – across 564 scenes and 86 tasks, gathered with the same hardware setup at 13 institutions. These types of projects have driven progress, but they’re expensive to build and difficult to scale.
Our earlier work on SPOC suggested an alternative. Focused on navigation, SPOC showed that training at sufficient scale on cheap simulation supervision can produce systems that generalize to the real world—without reinforcement learning, with RGB-only sensing, without human trajectory collection, and without real-world fine-tuning.
Manipulation is harder, though, demanding more precise physics simulation through platforms like our recently released MolmoSpaces.
Several recent efforts have explored synthetic data for manipulation, but most still start with real-world demonstrations. NVIDIA's GR00T platform uses a "data pyramid" where teleoperated robot data sits at the top—synthetic pipelines augment human demonstrations, but real data remains essential. Google DeepMind's RT-1 required 130,000 episodes collected over 17 months with human teleoperators. Physical Intelligence's π series is trained on teleoperated data. A few projects have moved closer to sim-only training: GraspVLA pretrains entirely on synthetic grasping data, though on a single static platform with a fixed camera and without releasing their data or engine, and InternVLA demonstrates sim-to-real transfer but only when fine-tuned on a digital twin closely matching the real evaluation setup.
MolmoBot goes further, training entirely in simulation across contact-rich tasks with fully randomized cameras—transferring zero-shot to real robots across two platforms including mobile manipulation and releasing everything openly.
Underpinning this work is MolmoSpaces, our open ecosystem for embodied AI, which provides the infrastructure for reproducible trajectory generation and the procedurally generated environments behind MolmoBot-Data. MolmoBot-Data is a large-scale dataset of millions of expert manipulation trajectories produced by combining MuJoCo simulation, aggressive domain randomization, and procedural environment generation with variation in objects, placements, viewpoints, lighting, textures, and dynamics across training runs. We also source rigid assets from iTHOR and Objaverse to broaden object coverage. Although the pipeline can produce richer signals (including depth and privileged simulator metadata), our training runs use RGB observations for policy learning, which makes the transfer results more notable.
One suite, many tasks
MolmoBot is a suite of manipulation policies trained on MolmoBot-Data, spanning several core task categories evaluated across two robotic platforms:
- Pick-and-place. Tabletop grasping and precise object placement, evaluated on the Franka FR3.
- Articulated object manipulation. Opening and closing drawers, cabinets, microwaves, and other articulated objects across several categories, evaluated on the RB-Y1.
- Door opening. Approaching, grasping, and pulling or pushing doors through their full range of motion, evaluated on the RB-Y1.
For clarity, MolmoBot focuses on manipulation and articulation—navigation is out of scope.
You can specify tasks in natural language or through point-based commands (e.g., "pick," "place," and "close").
One dataset, many architectures
The MolmoBot suite includes three policy architectures, all trained via behavior cloning on the same synthetic data.
MolmoBot is our primary VLM-based manipulation policy. Built on the Molmo2 vision-language backbone, it processes multiple timesteps of RGB observations and language instructions through an image encoder, language encoder, and action decoder. MolmoBot achieves the highest performance across our evaluations.
MolmoBot-SPOC is a lightweight transformer policy adapted from the original SPOC navigation architecture. It offers competitive performance with significantly fewer parameters, making it well-suited for compute-constrained settings.
MolmoBot-Pi0 uses the PaliGemma backbone with an action head, matching the architecture used by Physical Intelligence's π0. We included these specifically to enable controlled, apples-to-apples comparisons—isolating the effect of synthetic vs. real-world data.
How it performs
We evaluated MolmoBot in simulation and in the real world, testing robustness to visual distribution shift with evaluation-time perturbations not seen during training—including camera changes, lighting changes, and an alternate renderer. Because these comparisons can be sensitive to differences in task definitions and success criteria, we matched protocols where possible and report head-to-head results under the same setup.
Without any real-world fine-tuning, MolmoBot achieves zero-shot sim-to-real transfer on both the RB-Y1 and Franka FR3. On pick-and-place benchmarks, MolmoBot outperforms π0.5 , a model trained on large-scale real-world demonstration data—suggesting that synthetic training with sufficient scale and diversity can approach or match methods that depend on expensive data collection.
Why this matters
Tthe biggest constraint in robotics is expensive manually collected data. Our results suggest that robots can be trained entirely in simulation. This changes our priorities from collecting manual demonstrations to generating diverse virtual environments with platforms such as MolmoSpaces. This lowers the barrier to entry, speeds up experimentation, and makes it possible for far more labs and organizations to build capable physical AI systems. It becomes possible to train robots that can grasp unfamiliar objects, manipulate articulated surfaces, and operate reliably in unstructured environments.
We see MolmoBot as a test of whether fully synthetic training can work for manipulation. Our results suggest it can, without expensive real-world data collection, task-specific fine-tuning, photorealistic rendering, or complex domain adaptation. The practical outcome is that the bottleneck moves from manually collecting data to designing better virtual worlds—a problem we can scale with compute and open infrastructure.
If you're working on manipulation, sim-to-real transfer, or grounded instruction-following, we'd love for you to try MolmoBot. Download the models and test on your robot or benchmark setup, generate your own synthetic training data with MolmoSpaces, and build with us. We're especially eager to see where it breaks—the failure cases will shape what comes next.
The more researchers experimenting with MolmoBot, the faster the community will learn what synthetic training can and can't do—and what it will take to close the remaining gaps. The future of robot learning should be open, and we're building it that way.
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
NVIDIA Cosmos 3 で物理 AI の推論・世界モデル・行動モデルを開発する
NVIDIA は、ロボットや自律走行車などが現実世界を理解して動作するために必要な物理 AI の推論、世界モデル、行動モデルを構築できる「Cosmos 3」を発表した。
Cohere が開発者向けコード生成モデル「North Mini Code」を発表:30B パラメータの MoE アーキテクチャで 3B アクティブ
Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家(MoE)アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。
DiffusionGemma:Google の高速テキスト生成モデルが再登場
Google は昨年実験的に公開した Gemini Diffusion モデルの研究を再開し、DiffusionGemma として再発表しました。このモデルは以前 1 秒間に 857 トークンの生成速度を記録しており、テキスト生成の高速化に寄与する技術です。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み