実世界で動作するロボットのためのオープン基盤「MolmoAct 2」の発表
Allen AI は、実世界でのロボットタスクにおける高速かつ強力な 3D 動作推論を実現するオープン基盤モデル「MolmoAct 2」と、研究・再現のための二足歩行操作データセットを公開した。
キーポイント
実世界対応の 3D 動作推論能力
MolmoAct 2 は、複雑な実世界のロボットタスクに対して、より高速かつ強力な 3D 空間での動作推論能力を提供する。
大規模二足歩行操作データセットの公開
研究者が研究、再現、および新技術構築に活用できるよう、主要な二足歩行操作(bimanual manipulation)データセットを同時に公開した。
完全オープンソース基盤モデル
この新しいモデルは完全にオープンであり、研究コミュニティ全体がアクセス・拡張可能な基盤として機能する。
影響分析・編集コメントを表示
影響分析
この発表は、ロボット工学における「推論能力」と「データ共有」の両面から研究環境を大きく変える可能性があります。特に実世界での複雑なタスクに対するモデルの性能向上と、オープンなデータセットの提供により、開発サイクルが短縮され、産業応用への道筋が明確になります。
編集コメント
実世界でのロボット動作を可能にするための「推論」という中核技術と、それを支える「データ」の両方をオープンに提供した点は、業界全体のパフォーマンス向上に直結する重要な一歩です。
AI は私たちのメール作成、コードのデバッグ、フライトの手配を代行しています。しかし物理の世界では、まだ苦戦を強いられています。食器洗い機への食器の信頼できる積み込みや、実験室での試験管サンプルの準備といった作業を、システムが数時間にわたって確実に実行できるようになるには、まだ多くの課題が残っています。しかし、これらの分野こそが、能力のある機械が最も価値を発揮する場所です。人員確保が最も困難な反復作業の処理や、科学発見の加速に貢献できるからです。
過去1年間、ロボット用ファウンデーションモデルにおいて実質的な進歩があり、完全自律型ロボットへの道が近づきました。しかし、その根底にあるレシピ(基盤技術)は依然として閉鎖されたままです。一部のチームは重み(ウェイト)を公開しますが、データを公開するチームはさらに少なく、研究者が作業を詳細に研究したり、意味ある改善を加えたりするのに十分な情報を公開しているケースはほとんどありません。
昨年8月、私たちは MolmoAct を発表しました。これは、行動する前に3D環境について推論を行う新しいモデルクラスである「Action Reasoning Model (ARM: 行動推論モデル)」の第一号です。本日、私たちは MolmoAct 2 をリリースします。これは、産業用ベンチマークにおいて有能な専用ロボットモデルを上回る性能を備え、タスクごとの微調整なしでさまざまな実世界のタスクをそのまま処理でき、前世代よりも最大37倍高速に動作する大幅なアップグレードです。これにより、対応可能な作業の範囲が劇的に拡大します。MolmoAct 2 と併せて、過去に発表された中で最大のオープンソース双腕テーブルトップマニピュレーションロボットデータセットである MolmoAct 2-Bimanual YAM dataset も公開します。このデータセットには、720時間を超えるトレーニングデモンストレーションが含まれています。
MolmoAct 2、MolmoAct 2-Bimanual YAM データセット、そして新しいアダプターアーキテクチャを備えた更新版の VLA (Vision-Language-Action: ビジョン・言語・行動) パイプラインは、研究者が研究や構築を行うために公開されています。これにはモデルの重み、データセット、および MolmoAct 2 が3D環境でより深く推論して性能と解釈可能性を向上させるための適応的推論アプローチが含まれています。
推論のための MolmoAct の再考:アーキテクチャからデータまで
MolmoAct は、3 ヶ月間にわたって作成された 22 時間の厳選された社内データ(約 10.6K の軌跡。各々は台所、浴室、寝室、リビングルーム、テーブルトップセットアップなど across でロボットアームが操作タスクを完了した成功記録)と、数十のロボティクス研究所から集められたコミュニティ統合型データセットである Open X-Embodiment(Open X-Embodiment)のフィルタリング済みサブセットを用いてトレーニングされました。MolmoAct は、オープンで推論ベースのアーキテクチャが業界標準ベンチマークにおいてより大規模なクローズドモデルを上回ることを証明する役割を果たしましたが、MolmoAct 2 は現実世界の環境での展開を目的として構築されています。
MolmoAct 2 を作成するために、私たちはアーキテクチャを再考しました。MolmoAct 2 は単に Molmo 2 から初期化されるのではなく、Molmo 2-ER(Molmo 2 の特殊な具身推論(embodied-reasoning)バリアント)から構築されています。私たちは、画像に基づくポインティング、物体検出、抽象的な空間推論、複数画像の推論、画像および動画に基づく空間質問応答をカバーする追加約 300 万の具身推論例を用いて Molmo 2 をさらにトレーニングすることで、Molmo 2-ER をトレーニングしました。
このより強力な推論バックボーンは、評価において直接的に現れます。ポインティング、複数画像の推論、自己・他者対応(ego-exo correspondence)、動画空間推論をカバーする 13 の具身推論ベンチマーク全体で、Molmo 2-ER は平均 63.8/100 を記録し、GPT-5、Gemini 2.5 Pro、Qwen3-VL-8B、GR-ER 1.5 などを含むシステムを上回っています。
MolmoAct 2 は、フローマッチングを通じてロボットの動作を生成する専用アクションエキスパートと Molmo 2-ER を組み合わせ、VLM(Vision-Language Model)とは KV キャッシュブリッジで接続されています。また、MolmoAct 2 にはオープンなアクショントークナイザーも備わっています。Physical Intelligence の FAST トークナイザーは分野における最も有用な最近の貢献の一つですが、その学習に使用されたデータは公開されていませんでした。そこで私たちは、自社のデータを用いて訓練した完全オープンソースの実装であるMolmoAct 2-FAST Tokenizerを構築し、MolmoAct 2 とともに公開しました。
これらの改善およびその他の改良の結果、MolmoAct 2 の推論速度は劇的に向上しました。ベースモデルでは単一のアクション呼び出しに約 180 ミリ秒、適応的深層推論を備えた MolmoAct 2 では 790 ミリ秒かかるのに対し、MolmoAct(LIBERO ベンチマーク環境で NVIDIA H100 を 1 台使用)では 6,700 ミリ秒かかります。これは、動作間に明確な一時停止が生じるロボットと、ほぼリアルタイムで環境に応答するロボットの差です。
また、3D 推論を必要とするタスクに対して深度知覚トークンを追加したMolmoAct 2-Thinkも紹介します。不要な計算を避けるため、適応型深度メカニズムは、タスク性能の向上が期待される場合のみ深度予測を実行します。これにより、MolmoAct 2 は効率的な推論を維持しつつ、3D 空間構造についてより深く推論することが可能になります。すべての画像パッチに対して深度トークンを予測するのではなく、モデルは動的なシーン変化が生じている領域に焦点を当てて深度予測を行うため、密度の高い深度トークン予測の遅延が削減され、フル深度トークン予測と比較して 17% の高速化を実現します。
MolmoAct 2 を訓練するために、私たちは MolmoAct 2-Bimanual YAM データセットを作成しました。これは、タオルの折りたたみ、商品のスキャン、スマートフォンの充電、テーブルの片付けといった協調タスクを含む、2 つのマシンアームが連携するロボットの実演を 700 時間分収集したものです。MolmoAct 2-Bimanual YAM データセットは、これまでに公開された中で最大規模のオープンソース双腕型ロボティクスデータセットであり、MolmoAct の訓練に使用されたロボットデータの 30 倍以上を含んでいます。このデータセットのキュレーションには Cortext AI の支援を受けました。
MolmoAct はタスクごとの微調整を通じて双腕操作が可能でしたが、MolmoAct 2 では双腕機能がベースモデルに組み込まれているため、ユーザーは箱から出したその場で利用できます。
MolmoAct 2-Bimanual YAM データセットには、異なるアーム、カメラ設定、制御方式、タスクスタイルを暴露するより広範なロボットデータセットの混合を追加しました。これには、低コストのオープンソースロボットアームからの大規模な SO-100/SO-101 データセットが含まれます。また、多様なシーンにおける実世界での片腕操作のためのフィルタリングされた DROID Franka データ、指示条件付きロボット操作の多くの例を追加する Open X-Embodiment 由来の Google Robot BC-Z および Fractal データ、さらに一般的に使用される別のロボット設定へのカバレッジを拡大する Bridge WidowX データが含まれます。さらに、MolmoAct の元のトレーニングデータを保持し、最初のモデルの基盤となった家庭および卓上での操作スキルを維持しました。
また、ロボットデータの言語側も改善しました。多くのロボットデータセットは反復的なタスクラベルを再利用するか、テスト実行文字列などの低品質な注釈を含んでいます。指示をより正確かつ多様にするため、オープンな VLM(Vision-Language Model:視覚・言語モデル)を用いてロボットの実演を再注釈し、データセット全体で一意のラベル数を約 71K から約 146K に増加させました。
シミュレーション、適応、実世界ロボットタスクにわたる評価
MolmoAct 2 を、これまでで最も厳格なロボティクス評価の一つにかけました。これにはシミュレーション、ゼロショット展開、および新しいロボット設定へのトレーニング後の適応が含まれます。
MolmoAct 2 はシミュレーションにおいて強力なパフォーマンスを発揮します。家庭用操作を評価するベンチマークである MolmoBot では、全タスクにわたって平均成功率が 20.6% に達し、これは Physical Intelligence のπ0.5(10.3%)の約倍のスコアです。(MolmoBot は難易度が高いことを意図しており、多くのベースラインモデルは単一の桁のスコアしか得られません。)また、単純な合格・不合格の結果だけでなく、より詳細な成果を捉えるように設計された両手操作ベンチマークである RoboEval では、MolmoAct 2 のスコアは 0.443 で、π0.5 の 0.405 を上回っています(数値が高いほど優れています)。
Franka アームを用いた実世界におけるゼロショットテストでは、MolmoAct 2 は評価したすべてのタスクにおいて、π0.5 および以前の MolmoBot モデルの両方を上回りました。これには、リンゴを皿に置くような単純なピッキング&プレイス作業から、ピペットをトレイに入れる、小さな赤い立方体をテープロールの中心に配置する、ナイフを箱に入れるといった精密なタスクまで含まれます。各タスクで 15 回の試行を行った結果、MolmoAct 2 はリンゴを皿に置くタスクで 100% の成功率を達成し、ピペットをトレイに入れるタスクで 86.7%、赤い立方体をテープロールの中心に配置するタスクで 93.3%、ナイフを箱に入れるタスクで 93.3%、複数の物体をボウルに移すというより長い時間軸を要するタスクでは 62% の成功率を記録しました。全体として、MolmoAct 2 の平均成功率は 87.1% で、これは MolmoBot の 48.4% やπ0.5 の 45.2% を大きく上回る結果です。
また、テーブルのセットや片付け、拭き取り、ボウルのシンクへの投入、トレイの持ち上げ、タオルの折りたたみといった単腕および両腕タスクに対するポストトレーニング後の MolmoAct 2 の評価も行いました。MolmoAct 2 は特にタオルの折りたたみ、ボウルの配置、テーブルの拭き取り、トレイの持ち上げにおいて顕著な成果を示し、モデルがポストトレーニングを通じて実用的な操作行動に適応できる可能性を示しています。
また、時間経過に伴い多くのスキルを習得・保持する能力を測定するベンチマークである LIBERO においては、MolmoAct 2 はポストトレーニング後に平均成功率 97.2% を達成し、MolmoAct 2-Think は 98.1% に達しました。これはそれぞれ MolmoAct よりも約 10.6 ポイントおよび 11.5 ポイントの向上です。
ここで紹介する実験室内評価の一部は、I2RT Robotics から寄贈された YAM アーム上で実施されました。I2RT は MolmoAct 2 の開発、評価設計、またはこれらの結果報告において一切関与していません。彼らの貢献に感謝いたします。
当社の社内評価を超えて MolmoAct 2 を検証するため、ロボットデータおよび評価会社である Cortex AI に委託し、MolmoAct 2 の実世界におけるファインチューニング性能に関する第三者ベンチマークを実施させました。Cortex AI は、体系的な多数試行セットアップを用いて、MolmoAct 2 を含む 5 つのロボットポリシーを複数の両腕タスクで評価しました。
MolmoAct 2 は平均スコア 0.51 で最高位を記録し、OpenVLA-OFT の 0.36、π0.5 の 0.32、Cosmos Policy の 0.16、X-VLA の 0.05 を上回りました。また、タスクレベルでの実績も最も強く、8 つのタスクのうち 7 つで 1 位を獲得しました。具体的には、試験管をトレイに戻す作業、お菓子の収納、工具の片付け、おもちゃの片付け、カップの収納、ピペットチップの準備、ポップコーンの作成などが含まれます。
実世界での展開
あらゆるロボットモデルにとって真の試練は、制御された環境外で機能するかどうかにあります。そこでは指示が変化し、小さなミスが時間とともに積み重なる可能性があります。MolmoAct 2 は、モデル全体を再学習することなく、そのような設定下でもより容易に誘導できるように設計されています。自然言語による指示に応答でき、ユーザーがロボットに経路を示す視覚的な軌跡を利用することで、MolmoAct 2 の動作の解釈と微調整が容易になります。
展開の障壁を低減するため、MolmoAct 2 用の参照用ロボットハードウェアセットアップも公開しました。これは、 overhead(上方)に設置した Intel RealSense D435 カメラ、近接撮影用の 2 つの D405 カメラ、伸縮式のマウント、そしてシンプルな卓上作業スペースを備えた 2 基の YAM アームを組み合わせたものです。これにより、研究者が卓上操作や両手協調操作の研究を開始するための簡単な出発点を提供します。
今年初めから、スタンフォード大学医学部のレ・コン教授率いる Cong Lab の研究者らを含む研究パートナーと、MolmoAct 2 のパイロット運用を開始しています。同ラボはゲノム工学を加速させる自律型ウェットラボの実現を目指しており、ロボットモデルに対する有用なストレステストの場となっています:環境は構造化されておらず、タスクには反復的な精密さが要求され、実験の過程で小さなエラーが蓄積する可能性があるからです。
これらのワークフローでは、MolmoAct 2 を駆動するアームが CRISPR 遺伝子編集実験におけるサンプル間の移動や卓上機器の操作といった日常的な操作手順を担います。ワークフローに微調整された各種一般化ロボットモデルのテスト後、スタンフォードチームは、MolmoAct 2 がウェットラボ運用の主要部分を効率化する強力な可能性を示し、結果として科学発見を加速させることを確認しました。
一方、私たちは内部でも、MolmoAct 2 が実際の導入環境を模した変化(指示文の言い換え、物体位置の変更、シーン内の妨害物、物体の置き換え)にどのように対応するかをテストしました。これらのストレステストは、トレーニング時の正確なシーンの状況と異なる場合でも、モデルが指示の意図を理解して実行できるかどうかを検証するものです。
これら一連のパイロット運用と評価を通じて、MolmoAct 2 が制御された環境下でタスクを完了できるかだけでなく、周囲の環境が頻繁に変化した場合にどの程度耐性を持つかについても理解を深めることができます。
研究と拡張のために設計された
MolmoAct 2 は非常に能力の高いモデルですが、依然として限界があります。他のロボットシステムと同様に、グリッパーがカメラの視界を遮る場合や、モデルの応答速度がロボットの制御システムに追いつかない場合、あるいはタスクが特に微細な操作を必要とする場合には苦労することがあります。また、そのビジュアル・トレースによる誘導機能はまだ初期段階であり、人間オペレーターからの 2D トレースには奥行き軸方向のエラーが生じる可能性があります。
これらはまさに、共有基盤が分野全体で取り組むべき課題の典型です。研究者が検証できるモデルや、それを土台として構築できるデータセット、そしてまもなく公開される新しい機械や状況に適応可能なトレーニングコードなどです。MolmoAct 2 は、昨年の MolmoAct で築いた基礎の上に立ち、以前の研究成果を実際の影響力へと変換することで、その基準を確立することを目的としています。
物理世界での行動は AI が直面する最も困難なフロンティアの一つであり、私たちはオープンな道が最善の前進方法だと考えています。技術アーティファクト をダウンロードし、それらを使って何を作り上げたか、またどこを改善できるかをぜひ教えてください。
最新の Ai2 ニュースに関する月次更新を受け取るには、購読してください。
原文を表示
AI writes our emails, debugs our code, and books flights for us. In the physical world, though, it still struggles. Getting a robot to reliably load a dishwasher or prep test tube samples in a lab is still far beyond what most systems can dependably do for hours on end. Yet these are the places where capable machines would matter most—handling the repetitive work that's toughest to staff and accelerating scientific discovery.
The past year has brought real progress in robotics foundation models, moving us closer to fully autonomous robots. But the underlying recipes remain largely closed. Some teams release weights, fewer release data, and almost none publish enough for researchers to closely study or meaningfully improve on the work.
Last August, we launched MolmoAct, the first Action Reasoning Model (ARM)—a new class of models that reason about their environment in 3D before they act. Today we're releasing MolmoAct 2, a substantial upgrade that outperforms capable proprietary robotics models on industry benchmarks, handles various real-world tasks out of the box without per-task fine-tuning, and runs up to 37x faster than its predecessor—vastly expanding the types of work it can do. Alongside MolmoAct 2, we're releasing the MolmoAct 2-Bimanual YAM dataset, the largest open-source bimanual tabletop manipulation robotics dataset ever published, with over 720 hours of training demonstrations.
MolmoAct 2, the MolmoAct 2-Bimanual YAM dataset, and our updated VLA pipeline with a novel adapter architecture are available for researchers to study and build on—including the model weights, datasets, and our adaptive reasoning approach that helps MolmoAct 2 reason more deeply in 3D to boost performance and interpretability.
Rethinking MolmoAct for reasoning, from architecture to data
MolmoAct was trained on 22 hours of curated in-house data generated over a period of 3 months – about 10.6K trajectories, each a successful recording of a robot arm completing a manipulation task across kitchens, bathrooms, bedrooms, living rooms, and tabletop setups – plus a filtered subset of Open X-Embodiment, a community-aggregated dataset pooled from dozens of robotics labs. While MolmoAct served to prove that an open, reasoning-based architecture could beat much larger closed models on industry-standard benchmarks, MolmoAct 2 is built to deploy in real-world environments.
To create MolmoAct 2, we reimagined the architecture. MolmoAct 2 isn’t simply initialized from Molmo 2, but Molmo 2-ER, a specialized embodied-reasoning variant of Molmo 2. We trained Molmo 2-ER by further training Molmo 2 on an additional ~3M embodied-reasoning examples covering image-based pointing, object detection, abstract spatial reasoning, multi-image reasoning, and image- and video-based spatial question answering.
That stronger reasoning backbone shows up directly in evaluation. Across 13 embodied-reasoning benchmarks covering pointing, multi-image reasoning, ego-exo correspondence, and video spatial reasoning, Molmo 2-ER scores an average of 63.8 out of 100—ahead of systems including GPT-5, Gemini 2.5 Pro, Qwen3-VL-8B, and GR-ER 1.5.
MolmoAct 2 pairs Molmo 2-ER with a dedicated action expert that generates robot actions through flow matching, connected to the VLM through a KV-cache bridge. MolmoAct 2 also has an open action tokenizer; Physical Intelligence's FAST tokenizer is one of the field's most useful recent contributions, but the data used to train it hasn’t been openly released. We've built MolmoAct 2-FAST Tokenizer, a fully open-source reimplementation trained on our data, and published it with MolmoAct 2.
As a result of these and other improvements, MolmoAct 2's inference is dramatically faster. A single action call takes about 180 ms in the base model and 790 ms in MolmoAct 2 with adaptive depth reasoning, versus 6,700 ms in MolmoAct (running in the LIBERO benchmark environment with 1 NVIDIA H100)—the difference between a robot that pauses visibly between movements and one that responds to its environment in near-real time.
We also introduce MolmoAct 2-Think, which augments MolmoAct 2 with depth perception tokens for tasks that benefit from explicit 3D reasoning. To avoid unnecessary computation, our adaptive-depth mechanism routes depth prediction only when it’s expected to improve task performance. This enables MolmoAct 2 to reason more deeply about 3D spatial structure while maintaining efficient inference. Instead of predicting depth tokens for all image patches, the model focuses depth prediction on regions with dynamic scene changes, reducing the latency of dense depth-token prediction and achieving a 17% speedup compared to full depth-token prediction.
To train MolmoAct 2, we created the MolmoAct 2-Bimanual YAM dataset, a 700-hour collection of robot demonstrations involving two machine arms working together, covering coordinated tasks such as folding a towel, scanning groceries, charging a smartphone, and table bussing. MolmoAct 2-Bimanual YAM dataset is the largest open-source bimanual robotics dataset ever released, and contains over 30x the robot data used for MolmoAct. We curated MolmoAct 2-Bimanual YAM dataset with support from Cortext AI.
MolmoAct was capable of bimanual manipulation via per-task fine-tuning; MolmoAct 2 has bimanual capabilities baked into the base model, so users get it out of the box.
We supplemented MolmoAct 2-Bimanual YAM dataset with a broader mix of robot datasets that expose MolmoAct 2 to different arms, camera setups, control schemes, and task styles. That includes large-scale SO-100/SO-101 datasets from low-cost open-source robot arms; filtered DROID Franka data for real-world single-arm manipulation across varied scenes; Google Robot BC-Z and Fractal data from Open X-Embodiment, which add many examples of instruction-conditioned robot manipulation; Bridge WidowX data, which broadens coverage to another commonly used robot setup; and MolmoAct’s original training data, preserving the household and tabletop manipulation skills that grounded the first model.
We also improved the language side of the robot data. Many robotics datasets reuse repetitive task labels or contain low-quality annotations such as test-run strings. To make instructions more accurate and diverse, we re-annotated robot demonstrations with an open VLM, increasing the number of unique labels from ~71K to ~146K across the dataset mixture.
Evaluating across simulation, adaptation, and real-world robot tasks
We put MolmoAct 2 through one of our most rigorous robotics evaluations to date, covering simulation, zero-shot deployment, and post-training adaptation to new robot settings.
MolmoAct 2 performs strongly in simulation. On MolmoBot, our household manipulation benchmark, it averages a 20.6% success rate across all tasks—roughly double the score of Physical Intelligence’s π0.5 (10.3%). (MolmoBot is intended to be difficult; many baselines score in the single digits.) On RoboEval, a bimanual manipulation benchmark designed to capture more than simple pass/fail outcomes, MolmoAct 2 scores 0.443 versus 0.405 for π0.5 (higher is better).
In real-world zero-shot tests on a Franka arm, MolmoAct 2 outperforms both π0.5 and our prior MolmoBot model across every task we evaluated, from straightforward pick-and-place tasks like moving an apple onto a plate to more precise tasks like putting a pipette into a tray, placing a small red cube into the center of a tape roll, or putting a knife into a box. Across 15 trials per task, MolmoAct 2 reaches 100% success on apple-on-plate, 86.7% on pipette-in-tray, 93.3% on red-cube-in-tape-roll, 93.3% on knife-in-box, and 62% on the longer-horizon task of moving several objects into a bowl. Overall, MolmoAct 2 averages 87.1% success, compared with 48.4% for MolmoBot and 45.2% for π0.5.
We also evaluated MolmoAct 2 after post-training on single-arm and bimanual tasks such as setting, bussing, and wiping a table; putting a bowl in a sink; lifting a tray; and folding a towel. MolmoAct 2 performs especially well on towel folding, bowl placement, table wiping, and tray lifting, showing how the model can be adapted to practical manipulation behaviors via post-training.
And on LIBERO, a benchmark measuring how well a model can acquire and retain many skills over time, MolmoAct 2 reaches a 97.2% average success rate after post-training while MolmoAct 2-Think reaches 98.1%. That improves over MolmoAct by roughly 10.6 and 11.5 points, respectively.
Some of the in-lab evaluations described here were conducted on YAM arms donated by I2RT Robotics. I2RT had no role in the development of MolmoAct 2, the design of the evaluations, or the reporting of these results. We’re grateful for their contributions.
To validate MolmoAct 2 beyond our own lab evaluations, we retained Cortex AI, a robotics data and evaluation company, to conduct a third-party benchmark of MolmoAct 2’s real-world fine-tuning performance. Cortex AI evaluated five robotics policies including MolmoAct 2 across multiple bimanual tasks using a systematic many-trial setup.
MolmoAct 2 achieved the highest average score at 0.51, ahead of OpenVLA-OFT at 0.36, π0.5 at 0.32, Cosmos Policy at 0.16, and X-VLA at 0.05. It also had the strongest task-level showing, ranking first on 7 of 8 tasks, including returning a test tube to a tray, storing candy, putting tools away, putting toys away, storing cups, preparing the pipette tip, and making popcorn.
Deploying in the real world
The real test for any robotics model is whether it works outside controlled environments, where instructions vary and small mistakes can compound over time. MolmoAct 2 is designed to be easier to guide in those settings without retraining the whole model. It can respond to natural-language instructions and use visual traces that show the path a user wants the robot to take, making MolmoAct 2’s behavior easier to interpret and fine-tune.
To lower the barrier to deployment, we've also published a reference robot hardware setup for MolmoAct 2 that pairs two YAM arms with an overhead Intel RealSense D435 camera, two D405 cameras for close-up views, an extendable mount, and a simple tabletop workspace—giving researchers a simple starting point for tabletop and bimanual manipulation work.
We’ve been piloting MolmoAct 2 with research partners since early this year, including researchers from the Cong Lab at Stanford School of Medicine, led by Professor Le Cong. The lab is working toward a self-driving wetlab that can accelerate genome engineering, making it a useful stress test for robotics models: the environment is unstructured, the tasks require repeated precision, and small errors can accumulate over the course of an experiment.
In these workflows, a MolmoAct 2-driven arm handles routine manipulation steps in CRISPR gene-editing experiments, such as moving samples between stations and operating benchtop equipment. After testing a range of generalist robotics models fine-tuned to their workflow, the Stanford team found that MolmoAct 2 shows strong potential to streamline key parts of wetlab operations and, in turn, accelerate scientific discovery.
Separately, we’ve also tested internally how MolmoAct 2 handles changes that mirror real deployment: rephrased instructions, shifted object positions, distractor objects in the scene, and object substitutions. These stress tests probe whether the model can follow the intent of an instruction even when the exact scene differs from training.
Together, these pilots and evaluations help us understand not just whether MolmoAct 2 can complete a task in a controlled setting, but how well it holds up when the environment changes frequently around it.
Built to be studied and extended
MolmoAct 2 is a highly capable model, but it still has limitations. Like other robot systems, it can struggle when its own gripper blocks the camera’s view, when the model can’t respond as quickly as the robot’s control system, or when a task requires especially fine-grained manipulation. And its visual-trace steering capability is still early—2D traces from human operators can introduce depth-axis errors.
These are exactly the kinds of challenges that shared foundations can help the field tackle—models researchers can inspect, datasets they can build on, and (coming soon) training code they can adapt to new machines and situations. MolmoAct 2 is meant to help set that standard, building on the groundwork we laid last year with MolmoAct and translating our earlier research into tangible impact.
Taking actions in the physical world is one of AI’s hardest frontiers, and we think the open path is the best way forward. Download the technical artifacts and let us know what you build with them—and where we can improve.
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み