Ai2: 仮想シミュレーションデータで物理AIを構築
Allen Institute for AI(Ai2)は、物理エンジンとドメインランダマイゼーションを用いて180万の軌跡を生成するMolmoBotを開発し、高コストな実世界データ収集に依存しない新しいロボティクス開発モデルを提案している。
キーポイント
従来手法の課題
物理AIの開発には、DROIDやGoogle DeepMindのRT-1のように大量の実世界データ(人間による遠隔操作)が必要で、コストが高く、リソースを持つ限られた組織に能力が集中していた。
Ai2の新たなアプローチ
Ai2はMolmoBotを開発し、MuJoCo物理エンジンと積極的なドメインランダマイゼーションを用いて合成データのみで学習することで、実世界データ収集への依存を排除した。
シミュレーションデータ生成の効率性
100台のNvidia A100 GPUを使用し、1GPU時間あたり約1,024エピソードを生成。これは実世界データ収集と比べて約4倍のスループットであり、開発サイクルの加速と投資対効果の向上をもたらす。
哲学的な転換
Ai2は「シミュレーションと現実のギャップを埋めるには、より多様な仮想環境を設計することこそが重要」という逆説的なアプローチを取っており、ロボティクスの制約を「実演データ収集」から「仮想世界設計」へとシフトさせた。
影響分析・編集コメントを表示
影響分析
この記事は、高コストで限定的だった物理AI開発を、合成データとシミュレーション技術によって民主化する可能性を示している。特に、実世界データ収集への依存から脱却し、仮想環境設計を主要課題とするパラダイムシフトは、学術研究から産業応用まで幅広い影響を与える可能性が高い。
編集コメント
実世界データ収集のコスト問題に正面から挑み、合成データによる解決策を大規模に実証した点が画期的。特に「多様性拡大でsim-to-realギャップを縮小する」という逆転の発想が、今後の研究方向性に影響を与える可能性が高い。
タイトル: Ai2: 仮想シミュレーションデータで物理AIを構築
仮想シミュレーションデータが、Ai2のMolmoBotのような取り組みを主導として、企業環境全体における物理AIの開発を推進しています。
ハードウェアに現実世界との相互作用を指示することは、これまで非常に高価で手動収集された実演データに依存してきました。汎用マニピュレーションエージェントを構築する技術プロバイダーは通常、大規模な実世界でのトレーニングをこれらのシステムの基礎として位置づけています。
参考までに、DROIDのようなプロジェクトでは、13機関で収集された76,000件の遠隔操作軌跡が含まれており、これは約350時間の人的労力に相当します。Google DeepMindのRT-1では、人間のオペレーターが17か月かけて収集した130,000エピソードが必要でした。この独自の手動データ収集への依存は、研究予算を膨張させ、能力を少数のリソース豊富な産業研究所に集中させています。
「私たちの使命は、科学を前進させ、人類が発見できる領域を広げるAIを構築することです」と、Ai2のCEOであるAli Farhadiは述べています。「ロボティクスは基礎的な科学ツールとなり、研究者がより速く動き、新たな問いを探求する手助けとなる可能性があります。そのためには、現実世界で汎化するシステムと、世界中の研究コミュニティが共同で構築できるツールが必要です。シミュレーションから現実への転移を実証することは、その方向への意味ある一歩です。」
Allen Institute for AI (Ai2) の研究者たちは、MolmoBotという、完全に合成情報でトレーニングされたオープンなロボットマニピュレーションモデルスイートにより、異なる経済モデルを提案しています。MolmoSpacesと呼ばれるシステム内で手続き的に軌跡を生成することで、チームは人間による遠隔操作の必要性を回避します。
付随するデータセット「MolmoBot-Data」は、180万件の熟練マニピュレーション軌跡を含んでいます。このデータは、MuJoCo物理エンジンと積極的なドメインランダマイゼーションを組み合わせ、物体、視点、照明、動的特性を変化させることで生成されました。
「ほとんどの手法は、より多くの実世界データを追加することで、シミュレーションと現実のギャップ(sim-to-real gap)を埋めようとします」と、Ai2のPRIORチームディレクターであるRanjay Krishnaは述べています。「私たちは逆の賭けをしました。シミュレートされた環境、物体、カメラ条件の多様性を劇的に拡大すれば、ギャップは縮小するというものです。私たちの最新の進展は、ロボティクスの制約を手動実演データの収集から、より優れた仮想世界の設計へと移行させます。これは私たちが解決できる問題です。」
物理AIのための仮想シミュレーションデータ生成
100台のNvidia A100 GPUを使用し、このパイプラインはGPU時間あたり約1,024エピソードを生成しました。これは実時間1時間ごとに、130時間以上のロボット経験に相当します。
実世界のデータ収集と比較して、これは約4倍のデータスループットに相当し、デプロイメントサイクルを加速させることで、プロジェクトの投資収益率(ROI)に直接影響を与えます。
MolmoBotスイートには、2つのプラットフォーム(Rainbow Robotics RB-Y1モバイルマニピュレータとFranka FR3テーブルトップアーム)で評価された、3つの異なるポリシークラスが含まれています。主要モデルはMolmo2ビジョン言語バックボーン上に構築され、複数タイムステップのRGB観測データと言語指示を処理して動作を決定します。
Ai2のMolmoBotによるハードウェア柔軟性
リソースが制約されるエッジコンピューティング環境向けに、研究者はパラメータ数を抑えた軽量なトランスフォーマーポリシー「MolmoBot-SPOC」を提供します。「MolmoBot-Pi0」は、Physical Intelligence社のπ0モデルのアーキテクチャに合わせてPaliGemmaバックボーンを使用し、直接的な性能比較を可能にします。
物理テストにおいて、これらのポリシーは、未見の物体や環境を含む実世界タスクに対して、一切の微調整なしでゼロショット転移を実証しました。
テーブルトップでのピックアンドプレース評価では、主要なMolmoBotモデルが79.2%の成功率を達成しました。これは、大規模な実世界実演データでトレーニングされたモデルπ0.5(成功率39.2%)を上回る結果です。モバイルマニピュレーションでは、ポリシーは接近、把持、ドアを全可動範囲にわたって引くなどのタスクを正常に実行しました。
これらの多様なアーキテクチャを提供することで、組織は単一の独自ベンダーエコシステムや大規模なデータ収集インフラに縛られることなく、高性能な物理AIシステムを統合できます。
トレーニングデータ、生成パイプライン、モデルアーキテクチャを含むMolmoBotスタック全体をオープンリリースすることで、内部監査や適応が可能になります。物理AIを探求する誰もが、コストを管理しつつ、高性能なシステムのシミュレーションと構築のためにこれらのオープンツールを活用できます。
「AIが真に科学を前進させるためには、進歩がクローズドなデータや孤立したシステムに依存してはなりません」と、Ai2のCEOであるAli Farhadiは続けます。「世界中の研究者が共同で構築し、テストし、改善できる共有インフラが必要です。これが、私たちが考える物理AIの前進の道です。」
関連記事: 危険な環境向けスマートロボット提供の新パートナーシップ

業界リーダーからAIとビッグデータについてもっと学びたいですか?アムステルダム、カリフォルニア、ロンドンで開催される「AI & Big Data Expo」をご覧ください。この包括的なイベントはTechExの一部であり、「Cyber Security & Cloud Expo」を含む他の主要テクノロジーイベントと同時開催されます。詳細はこちらをクリックしてください。
AI NewsはTechForge Mediaによって運営されています。今後のエンタープライズ向け技術イベントとウェビナーはこちらからご覧ください。
この投稿「Ai2: Building physical AI with virtual simulation data」は、最初にAI Newsに掲載されました。
原文を表示
Virtual simulation data is driving the development of physical AI across corporate environments, led by initiatives like Ai2’s MolmoBot.
Instructing hardware to interact with the real world has historically relied on highly expensive and manually-collected demonstrations. Technology providers building generalist manipulation agents typically frame extensive real-world training as the basis for these systems.
For some context, projects like DROID include 76,000 teleoperated trajectories gathered across 13 institutions, representing roughly 350 hours of human effort. Google DeepMind’s RT-1 required 130,000 episodes collected over 17 months by human operators. This reliance on proprietary, manual data collection inflates research budgets and concentrates capabilities within a small group of well-resourced industrial laboratories.
“Our mission is to build AI that advances science and expands what humanity can discover,” said Ali Farhadi, CEO of Ai2. “Robotics can become a foundational scientific instrument, helping researchers move faster and explore new questions. To get there, we need systems that generalise in the real world and tools the global research community can build on together. Demonstrating transfer from simulation to reality is a meaningful step in that direction.”
Researchers from the Allen Institute for AI (Ai2) offer a different economic model with MolmoBot, an open robotic manipulation model suite trained entirely on synthetic information. By generating trajectories procedurally within a system called MolmoSpaces, the team bypasses the need for human teleoperation.
The accompanying dataset, MolmoBot-Data, contains 1.8 million expert manipulation trajectories. This collection was produced by combining the MuJoCo physics engine with aggressive domain randomisation, varying objects, viewpoints, lighting, and dynamics.
“Most approaches try to close the sim-to-real gap by adding more real-world data,” said Ranjay Krishna, Director of the PRIOR team at Ai2. “We took the opposite bet: that the gap shrinks when you dramatically expand the diversity of simulated environments, objects, and camera conditions. Our latest advancement shifts the constraint in robotics from collecting manual demonstrations to designing better virtual worlds, and that’s a problem we can solve.”
Generating virtual simulation data for physical AI
Using 100 Nvidia A100 GPUs, the pipeline created roughly 1,024 episodes per GPU-hour, equating to over 130 hours of robot experience for every hour of wall-clock time.
Compared to real-world data collection, this represents nearly four times the data throughput, directly impacting project return on investment by accelerating deployment cycles.
The MolmoBot suite includes three distinct policy classes evaluated on two platforms: the Rainbow Robotics RB-Y1 mobile manipulator, and the Franka FR3 tabletop arm. The primary model, built on a Molmo2 vision-language backbone, processes multiple timesteps of RGB observations and language instructions to dictate actions.
Hardware flexibility with Ai2’s MolmoBot
For edge computing environments where resources are constrained, the researchers provide MolmoBot-SPOC, a lightweight transformer policy with fewer parameters. MolmoBot-Pi0 uses a PaliGemma backbone to match the architecture of Physical Intelligence’s π0 model, permitting direct performance comparisons.
During physical testing, these policies demonstrated zero-shot transfer to real-world tasks involving unseen objects and environments without any fine-tuning.
In tabletop pick-and-place evaluations, the primary MolmoBot model achieved a success rate of 79.2 percent. This outperformed π0.5, a model trained on extensive real-world demonstration data, which achieved a 39.2 percent success rate. For mobile manipulation, the policies successfully executed tasks such as approaching, grasping, and pulling doors through their full range of motion.
Providing these varied architectures allows organisations to integrate capable physical AI systems without being locked into a single proprietary vendor ecosystem or extensive data collection infrastructure.
The open release of the entire MolmoBot stack – including the training data, generation pipelines, and model architectures – permits internal auditing and adaptation. Anyone exploring physical AI can leverage these open tools for the simulation and building of capable systems while controlling costs.
“For AI to truly advance science, progress cannot depend on closed data or isolated systems,” continues Ali Farhadi, CEO of Ai2. “It requires shared infrastructure that researchers everywhere can build on, test, and improve together. This is how we believe physical AI will move forward.”
See also: New partnership to offer smart robots for dangerous environments

Want to learn more about AI and big data from industry leaders? Check out AI & Big Data Expo taking place in Amsterdam, California, and London. The comprehensive event is part of TechEx and is co-located with other leading technology events including the Cyber Security & Cloud Expo. Click here for more information.
AI News is powered by TechForge Media. Explore other upcoming enterprise technology events and webinars here.
The post Ai2: Building physical AI with virtual simulation data appeared first on AI News.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み