MolmoBot: Training robot manipulation entirely in simulation｜MolmoBot：シミュレーションのみで学習するロボット操作モデル | AIニュース最前線

***更新日 3/27: MolmoBot のコードとデータ公開*** MolmoBot の完全なトレーニングおよび評価スタックが利用可能になりました。今回のリリースには、高性能から軽量オプションまでを網羅するすべての MolmoBot ポリシーアーキテクチャ向けの [トレーニングおよび評価コード](https://github.com/allenai/MolmoBot/tree/main) が含まれています。また、11,000 種類以上のユニークなオブジェクト、94,000 以上の手動生成環境、2 つのロボットプラットフォーム（Franka FR3 および Rainbow Robotics RB-Y1）にわたる 8 つのタスクタイプをカバーする 170 万件の専門家による操作軌跡からなるデータセット [MolmoBot-Data](https://huggingface.co/collections/allenai/molmobot-data) も公開します。 このデータとともに、MolmoBot-Data の背後にあるオープンな手動生成パイプラインである**MolmoBot-Engine**も公開します。これは現在 [MolmoSpaces リポジトリ](https://github.com/allenai/molmospaces)の一部となっています。MolmoBot-Engine は環境サンプリング、ドメインランダム化、専門家による軌跡生成を処理するため、研究者は自身のロボットやタスク向けに新しいトレーニングデータを生成できます。 また、MolmoBot を体系的かつ制御された変異下でのロボティックポリシーの一般化能力を評価するためのベンチマークである [MolmoSpaces-Bench](https://molmospaces.allen.ai/leaderboard) に追加し、リーダーボードを更新しました。さらに、MolmoBot の[技術報告書](https://arxiv.org/abs/2603.16861)には新しいベンチマーク数値と追加コンテンツが反映され、より多くの実世界デモンストレーション動画を含む MolmoBot 用の新たな[技術ウェブサイト](https://allenai.github.io/MolmoBot)も公開されました。 *Original post follows.* AI は知覚と推論の分野で急速に進化を遂げていますが、その次のフロンティアは「行動」にあります。主要なテクノロジー企業は、家庭、病院、倉庫、公共空間などにおいて信頼性高く動作するロボットを開発しようと競い合っています。中核的な課題は、これらのロボットを実世界と相互作用させる方法を訓練することであり、これまで研究者たちはこれを実現するために高価で手作業による収集データに大きく依存してきました。 今日、シミュレーションデータを利用するほとんどのアプローチでは、それを単なる補助的なデータソースとして扱い、ターゲットとなる実世界のデータと混合して利用しています。しかしもし、シミュレーションデータが単なる主要なデータソースではなく、唯一のデータソースとなったとしたらどうでしょうか？従来の常識では、シミュレーションから現実への転移（sim2real）におけるギャップは克服不可能だと考えられるでしょう。しかし私たちは、シミュレーション環境、物体、カメラ条件の多様性を劇的に拡大することで、このギャップを埋めることができると仮説しています。もし訓練が専有された手作業収集データに依存せず、スケーラブルなシミュレーションに基づいて行われるようになれば、ロボティクス研究はより再現性が高く、広くアクセス可能になります。 この仮説を検証するため、本日、シミュレーションデータのみを用いて訓練されたオープンロボティクス操作モデルスイート「MolmoBot」をリリースします。本スイートは、Rainbow Robotics RB-Y1 モバイルマニピュレータと Franka FR3 テーブルトップアームという 2 つのロボットプラットフォームにまたがり、能力と計算リソースのトレードオフが異なる複数のポリシーアーキテクチャを含んでいます。評価において、最良モデルは微調整を一切行わずに、未見の物体や環境における実世界の静的およびモバイル操作タスクへゼロショット転送を実現し、π0 や π0.5 を含む既存手法と同等の競争力あるパフォーマンスを標準ベンチマークプロトコル下で達成しました。 MolmoBot には、訓練データ、データ生成パイプライン、訓練コード、および技術レポートというフルスタックが含まれており、他者が当社の手法を再現・拡張・負荷テストできるようになっています。シミュレーションはロボット学習への障壁を下げ、大規模な遠隔操作セットアップを持たない学術研究室や、広範なデータ収集インフラを持たずに操作探索を行う組織でも、能力のあるマニピュレーションが実現可能になると信じています。 ## シミュレーションデータによる根拠 現在、最も能力の高いロボット操作システムは、多くの実世界データに基づいて構築されています。これらのデータはしばしばクローズドソースです。Open X-Embodiment や DROID といったプロジェクトはその規模を示しています：Open X-Embodiment は 21 の機関で収集された 22 の異なるロボットからの 100 万本以上の実世界ロボット軌道データを統合しており、DROID は 13 の機関で同じハードウェアセットアップを用いて収集された 564 シーンと 86 タスクにわたる 76,000 本のテレオペレーション軌道データ（約 350 時間）を含んでいます。これらのプロジェクトは進展を促してきましたが、構築には多額の費用がかかり、スケーリングも困難です。 私たちの以前の [SPOC](https://spoc-robot.github.io/) に関する研究は、別のアプローチを示唆しました。ナビゲーションに焦点を当てた SPOC は、安価なシミュレーションによる監督学習を十分な規模で実施することで、強化学習を用いず、RGB のみによるセンシングとし、人間の軌道データ収集を行わず、実世界での微調整も不要として、実世界への一般化が可能なシステムを生み出すことができることを示しました。 しかし、操作はより困難であり、最近リリースした [MolmoSpaces](https://allenai.org/blog/molmospaces) などのプラットフォームを通じた、より精密な物理シミュレーションを要求します。 最近のいくつかの取り組みは操作のための合成データを探求していますが、ほとんどはまだ実世界のデモンストレーションから始まります。NVIDIA の GR00T プラットフォームは「データピラミッド」を使用しており、テレオペレーションされたロボットデータが頂点に位置します。合成パイプラインは人間のデモンストレーションを補完しますが、実データは依然として不可欠です。Google DeepMind の RT-1 は、人間によるテレオペレーターによって 17 ヶ月間にわたって収集された 130,000 エピソードを必要としました。Physical Intelligence のπシリーズもテレオペレーションデータでトレーニングされています。いくつかのプロジェクトがシミュレーションのみでのトレーニングに近づいていますが、GraspVLA は合成 grasping データのみで事前トレーニングを行いますが、単一の静的プラットフォーム上で固定カメラを使用し、データやエンジンについては公開していません。また InternVLA は sim-to-real 転移を実証していますが、これは実世界の評価設定と密接に一致するデジタルツイン上でファインチューニングされた場合に限られます。 MolmoBot はさらに一歩進み、接触が豊富なタスクにおいて完全にランダム化されたカメラを備えたシミュレーション内で完全にトレーニングを行い、モバイル操作を含む 2 つのプラットフォーム間でゼロショット転移を実現し、すべてのものをオープンにリリースします。 この研究の基盤となっているのは、MolmoSpaces です。これは私たちが開発したエンボディド AI 向けのオープンエコシステムであり、再現可能な軌道生成と、**MolmoBot-Data** の背後にある手動生成環境のためのインフラストラクチャを提供しています。MolmoBot-Data は、MuJoCo シミュレーション、積極的なドメインランダム化、および手続き型環境生成を組み合わせて作成された、数百万件の専門家による操作軌道からなる大規模データセットです。このプロセスでは、オブジェクト、配置、視点、照明、テクスチャ、ダイナミクスに多様な変化を持たせた訓練実行が行われます。また、オブジェクトのカバレッジを拡大するために、iTHOR と Objaverse から剛体アセットも取得しています。パイプラインはより豊富な信号（深度情報や特権的なシミュレータメタデータを含む）を生成可能ですが、私たちの訓練実行ではポリシー学習のために RGB 観測値のみを使用しており、これが転移結果の顕著さを際立たせています。 ## One suite, many tasks MolmoBot は、MolmoBot-Data を用いて訓練された操作ポリシーのスイートであり、2 つのロボットプラットフォームにわたって評価された複数の主要タスクカテゴリを網羅しています: - ピックアンドプレイス。Franka FR3 上で評価される、卓上での把持と精密なオブジェクト配置。 - 関節付きオブジェクトの操作。引き出し、キャビネット、電子レンジなど、いくつかのカテゴリにわたる引き出しや扉の開閉を含む関節付きオブジェクトの操作。RB-Y1 上で評価されます。 - ドア開け。RB-Y1 上で評価される、ドアへの接近、把持、および全運動範囲を通じたドアの引きまたは押し。 明確にするために、MolmoBot は操作と関節化に焦点を当てており、ナビゲーションは対象外です。 タスクは自然言語またはポイントベースの命令（例：「ピッキング」「配置」「クローズ」）によって指定できます。 ## 1 つのデータセット、多数のアーキテクチャ MolmoBot スイートには、同じ合成データを用いた行動学習（behavior cloning）を通じて訓練された 3 つの方策アーキテクチャが含まれています。 **MolmoBot**は、私たちの主要な VLM ベースのマニピュレーション方策です。Molmo2 ビジョン・ランゲージバックボーンを基盤としており、画像エンコーダ、言語エンコーダ、アクションデコーダを通じて複数のタイムステップの RGB 観測値と言語指示を処理します。MolmoBot は、私たちの評価において最高のパフォーマンスを発揮しました。 **MolmoBot-SPOC**は、元の SPOC ナビゲーションアーキテクチャから派生した軽量なトランスフォーマー方策です。競合する性能を持ちながらパラメータ数が大幅に少ないため、計算リソースが制約された環境に適しています。 **MolmoBot-Pi0**は、PaliGemma バックボーンとアクションヘッドを使用し、Physical Intelligence のπ0 で採用されているアーキテクチャと一致します。これらを特に含めたのは、合成データと実世界データの効果を分離し、統制的な「リンゴとリンゴ」の比較を可能にするためです。 ## How it performs MolmoBot の性能について シミュレーション内および実世界において MolmoBot を評価し、トレーニング時に遭遇しなかった評価時の摂動（カメラ変更、照明変更、代替レンダラーの使用など）に対する視覚的分布変化への頑健性をテストしました。これらの比較はタスク定義や成功基準の違いに敏感になり得るため、可能な限りプロトコルを一致させ、同一設定下での直接対決結果を報告します。 実世界における微調整を一切行わずとも、MolmoBot は RB-Y1 および Franka FR3 の両方でゼロショットのシミュレーションから実世界への転送（sim-to-real transfer）を実現しました。ピッキング＆プレースメントベンチマークにおいて、MolmoBot は大規模な実世界のデモンストレーションデータでトレーニングされたπ0.5 を上回りました。これは、十分なスケールと多様性を備えた合成データによるトレーニングが、高価なデータ収集に依存する手法に匹敵するか、あるいはそれを超える可能性を示唆しています。 ## Why this matters なぜこれが重要なのか ロボティクスにおける最大の制約は、高コストで手動収集されたデータです。私たちの結果は、ロボットをシミュレーション内で完全にトレーニングできることを示唆しています。これにより、手動デモンストレーションの収集から、MolmoSpaces などのプラットフォームを用いた多様な仮想環境の生成へと優先順位が変化します。これにより参入障壁が低下し、実験スピードが向上し、より多くの研究室や組織が能力のある物理的 AI システムを構築することが可能になります。 見知らぬ物体をつかんだり、関節付き表面を操作したり、非構造化環境で信頼性高く動作したりするロボットをトレーニングすることが現実のものとなります。 私たちは、MolmoBot を完全合成トレーニングがマニピュレーションにおいて機能するかどうかの試金石と捉えています。私たちの結果は、高価な実世界データ収集、タスク固有のファインチューニング、フォトリアリスティックなレンダリング、あるいは複雑なドメイン適応を必要とせずに、それが可能であることを示唆しています。実用的な帰結として、ボトルネックは手動でのデータ収集から、より良い仮想世界の設計へと移ります。これは計算資源とオープンなインフラストラクチャによってスケーラブルに解決できる問題です。 もしあなたがマニピュレーション、sim-to-real 転送（シミュレーションから実世界への転送）、あるいは grounded instruction-following（文脈に基づいた指示の追従）に取り組んでいるなら、MolmoBot を試していただきたいと考えています。モデルをダウンロードし、あなたのロボットやベンチマークセットアップでテストを行い、MolmoSpaces で独自の合成トレーニングデータを生成し、私たちと共に構築してください。特に、どこで失敗するかを見たいと思っています。失敗事例が次なるステップを形作ることになるでしょう。 MolmoBot を実験する研究者が増えれば増えるほど、コミュニティは合成トレーニングが可能と不可能なことの範囲、そして残りのギャップを埋めるために何が必要かをより速く学ぶことになります。ロボット学習の未来はオープンであるべきであり、私たちはそのように構築しています。 最新の Ai2 ニュースに関する月次アップデートを受け取るには、購読してください。

MolmoBot：シミュレーションのみで学習するロボット操作モデル

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト