AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Allen AI (AI2)·2026年6月17日 17:00·約15分で読める

MolmoMotion:言語指示に基づく 3D モーション予測モデルの公開

#3D Motion Forecasting#Robotics Planning#Video Generation#Allen AI#MolmoMotion
TL;DR

Allen AI は、言語指示に基づいて物体の未来の 3D 運動を予測する「MolmoMotion」モデルと大規模データセットを発表し、ロボティクスや動画生成の精度向上に寄与する。

AI深層分析2026年6月18日 02:02
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

言語誘導型 3D 運動予測の実現

既存の視覚認識が過去の事象を説明するのに対し、MolmoMotion は動画フレームとテキスト指示(例:「果物が入った木製ボウルを移動させる」)を入力として、未来の数秒間の物体の 3D 軌道を高精度に予測します。

2

大規模データセットとベンチマークの公開

116 万本の動画から抽出された 100 万件の 3D 点軌道とアクション記述をペアにした「MolmoMotion-1M」データセットと、人間検証済み評価基準「PointMotionBench」を同時に公開し、研究コミュニティへの貢献を図っています。

3

効率的な運動表現の採用

フル動画レンダリングのコストを回避しつつ汎用性を確保するため、世界座標系上の物体に付随する 3D 点として運動を表現し、クラス非依存(Class-agnostic)かつ計算効率の高いモデル構造を採用しています。

4

ロボティクスと動画生成への応用

予測された軌道は、ロボットのアーム計画や物理法則に則った制御可能な動画生成など、多様な下流タスクを直接駆動する基盤技術として機能します。

影響分析・編集コメントを表示

影響分析

この発表は、単なる動画生成の枠を超え、言語指令によって物理世界の物体挙動を事前に推論する能力を確立した点で画期的です。特に、大規模データセットと評価基準を同時にオープンソース化することで、ロボティクスやシミュレーション分野における「予測精度」のベンチマークを再定義し、実社会への実装スピードを加速させる可能性があります。

編集コメント

「予測」から「知覚」へのパラダイムシフトを促す、極めて実用的な技術発表です。特にオープンデータセットの規模が桁違いである点は、今後の研究開発の基盤として非常に重要です。

機械は運動を認識する能力において驚くほど優れています。動画を与えられれば、現代のモデルは物体や点がシーン内をどのように移動するかを極めて高い信頼度で追跡できます。しかし、知覚は本質的に回顧的なものです:それはすでに起こった運動を説明するに過ぎません。私たちが構築したい多くのシステムやアプリケーションは、 *未来* を見据える必要があります。コップに手を伸ばすロボットは、触れる前にそのコップがどのように動くかを予測しなければなりません。物理的に妥当なフレームを生成するためには、動画生成モデルは次にどのような現実的な運動が続くのかを知る必要があるのです。**

運動を予測することは、それを観察するよりも困難ですが、多くのシナリオにおいてさらに有用です。

この考え方が、本日公開する新しい運動予測モデル MolmoMotion の動機となりました。動画フレーム、物体上にマークされた 3D 点、そして意図する動作を記述した文章(例:「テーブルの上の果物が入った木製ボウルを移動させ、回転させる」)が与えられれば、MolmoMotion はこれらの点が未来の数秒間にわたって 3D 空間内でどこに移動するかを予測します。これは既存の予測手法よりも大幅に優れた性能を実現しています。

RGB の観測データ、物体上の一連のクエリ点、および動作記述が与えられれば、MolmoMotion は物体の未来の 3D 点軌道を予測します。これらの予測された軌道は、ロボット計画や軌道条件付き動画生成などの下流アプリケーションを駆動するために利用できます。

モデルとともに、116 万本の動画から抽出された、アクション記述とペアになった 3D ポイント軌跡の最大規模コレクションである MolmoMotion-1M を公開します。また、オブジェクト中心の 3D モーション予測精度を測定するために設計された人間検証済みベンチマークである PointMotionBench(2.7K の動画クリップを含む)も公開いたします。

MolmoMotion などのモーション予測器は、ロボット計画から制御可能なビデオ生成に至るまで、さまざまな下流タスクで有用であることがわかりました。コミュニティが研究し、改善し、カスタマイズできるよう、モデルの重み、MolmoMotion-1M データセット、および PointMotionBench ベンチマークをオープンに公開します。

MolmoMotion: 内部構造

MolmoMotion は、世界空間におけるオブジェクトに付随する 3D ポイントとして、意図的で非常に効率的な方法でモーションを表します。これは、フルビデオのレンダリングコストをかけずにモーションを捉えるためです。このアプローチを選んだのは、以下の 3 つの性質を持つ汎用的なモーション表現が必要だったからです:

  • クラス非依存:人間の体、手、剛体オブジェクト、またはその他の固定カテゴリに対するテンプレートに縛られない。
  • 視点安定性:同じ物理的運動は、カメラや視点が変わっても一貫して表現されるべきである。
  • 物理的運動について推論する必要がある下流システムで直接利用可能。

私たちが検討した表現の中で、これら3 つの条件をすべて満たしたのはこれだけだった。表面点のスパースなセットは、移動中のオブジェクトの種類を仮定することなく、剛体、関節付き、および(一定の範囲内で)変形する運動を記述できる。なぜなら、これらの点は共有された世界座標系に存在するため、カメラの動きや視点の変化に対してその軌道が安定したままになるからだ。また、これらは 3D 空間におけるコンパクトで明示的な軌道であるため、ロボットポリシーや動画生成モデルなどのシステムに直接渡すことができる。

これらの軌道を予測するために、MolmoMotion は Molmo 2 をバックボーンとして使用し、画像内の言語指示とオブジェクトおよび点を結びつけることを可能にする。短いビデオ履歴、アクションの説明、および初期の 3D 位置を持つ一連のクエリ点を入力として受け取ると、モデルはまず、参照されているオブジェクト、クエリ点、そして指示が記述する運動を特定する。その後、各点の将来の 3D 軌道を予測する。

MolmoMotion の 2 つの変種を訓練した:

  • 自己回帰型バリアント(MolmoMotion-AR)は、未来の座標を段階的に予測します。これは VLM が使用する座標スタイル予測に従い、3D 座標を構造化されたテキストとして表現し、時間順に未来の軌道を書き出します。各新しい座標がすでに生成された軌道に条件付けられるため、このアプローチは滑らかなロールアウトを促し、未来の経路が明確に定義されている場合に最も高い精度を発揮します。
  • フローマッチング型バリアント(MolmoMotion-FM)は、ノイズから運動へ変換することで連続的な 3D 空間上で軌道を予測するため、指示によって複数の妥当な未来が存在する場合の不確実性を表現するのに適しています。

MolmoMotion-1M と PointMotionBench の紹介

MolmoMotion を訓練するには、まだ存在しなかったデータが必要でした。すなわち、特定のオブジェクトに grounded された 3D ポイント軌道を持ち、アクション記述とペアになった大規模動画です。既存の 3D トラックデータセットは小規模でドメインが限定されており、インターネット上の動画には MolmoMotion のような予測器に必要なスケールと多様性がすべて含まれていますが、3D アノテーションが含まれていませんでした。そこで、制約のない動画からオブジェクト grounded な 3D 軌道を抽出する自動パイプラインを構築しました。

入力動画とその動作説明を元に、当社の注釈パイプラインは、メトリックな世界座標系における物体に紐付いた 3D ポイントの軌道データを生成します。(以下の図では各工程を示しています。)課題となるのは、制約のない動画から得られる生データがノイズを含み、奥行きや追跡エラーによりポイントがジッターしたりドリフトしたりすること、そして多くの場合、物体は動画の大部分で静止していることです。データの信頼性を高めるため、物体の他の部分と一貫して移動しないポイントを除外し、残りの軌道を平滑化し、各クリップを物体が実際に動き出すウィンドウにセグメント化します。

大規模にパイプラインを実行した結果、MolmoMotion-1M が生成されました。これは、動作説明付きで物体に紐付いた 3D ポイント軌道データとして、現時点までに収集された中で最大のコーパスであり、736 の運動タイプと 5.6K の異なる物体を網羅しています。

当社のデータ注釈パイプラインの概要。動作イベントとその説明を持つ動画に対して、まず移動する物体を特定し、その上にクエリポイントをサンプリングします。次に、物体上の高密度な 2D ポイントを追跡し、これらの軌道を共通のメトリックな 3D フレームに昇華させ、物体レベルの空間的・時間的一貫性事前知識を用いて信頼性の低い軌道をフィルタリングします。最後に、特定された物体が意味のある運動を行う区間を中心に動画をクリップします。

左側の指示:「テーブルの上で果物が入った木製のボウルを移動させて回転させなさい。」 右側の指示:「青い布の上でホコリ取りローラーを転がしなさい。」

左側の指示:「銀色の車が道路に沿って進み、ゆっくりと右に曲がる。」 右側の指示:「フラミンゴが右へ歩きながら嘴を水に浸す。」

MolmoMotion の予測性能を評価するために、私たちは PointMotionBench を構築しました。これは保持された 3D 軌道(trajectories)に基づく人間検証済みベンチマークです。このベンチマークは、屋内での操作、主観的視点における手と物体の相互作用、屋外の動的シーンを含む、111 の物体カテゴリと 61 の運動タイプにわたる 2.7K クリップを網羅しています。各クリップにおいて、モデルには現在の観測データ、物体クエリポイント(object query points)、および動作記述が与えられ、予測された 3D ポイント軌道が物体の実際の未来運動とどれだけ正確に一致するかという点で評価されます。これにより、生成されたポイントトラックが単に見た目が妥当かどうかを頼りにするのではなく、3D 運動予測に対する直接的な定量的テストが可能となります。

実験と性能

MolmoMotion の評価は 3 つの側面から行われます。第一に、既存の方法よりも未来の 3D 運動をより正確に予測できるかどうかを検証します。第二に、運動に関する学習がロボットによる操作タスクの実行を支援できるかどうかを試験します。第三に、同じ知識が生成された動画における運動を誘導する助けとなるかどうかを検証します。

3D 運動予測

PointMotionBench において、MolmoMotion はテストしたすべての既存の 3D 運動予測手法(ピクセル空間ビデオジェネレーター、パラメトリック 3D 手法、単純な等速度ベースラインを含む)を上回りました。これは多様な物体、シーン、動作にわたる結果です。

MolmoMotion は、ランナーが布の上を前後に動く様子や、ボウルがテーブル上で滑りながら回転する様子、フラミンゴが水たまりでくちばしを浸しながら右へ歩く様子、あるいは車がカーブしながら道路に沿って進む様子など、さまざまな物体やシーンの動きを予測することができます。どのケースにおいても、MolmoMotion が受け取った指示に従って予測された経路は、ベンチマークにおける実際の運動(グランドトゥルース)と極めて近い位置に収まります。

PointMotionBench ベンチマーク結果

棒グラフは、PointMotionBench における分割ごとの 3D 平均変位誤差(メートル単位)を示しています。数値が小さいほど優れています。

HOT3D

MolmoMotion-AR (3f)0.109

ObjectForesight0.129

MolmoMotion-FM (3f)0.135

MolmoMotion-AR (1f)0.157

Extrapolate baseline0.159

EgoScaler0.170

Static baseline0.180

MolmoMotion-FM (1f)0.183

Wan2.2-5B0.200

Robot4DGen0.212

Cosmos Predict0.225

Track2Act0.294

WorldTrack

MolmoMotion-AR (3f)0.143

MolmoMotion-AR (1f)0.148

MolmoMotion-FM (3f)0.158

MolmoMotion-FM (1f)0.165

Static baseline0.167

Extrapolate baseline0.184

Robot4DGen0.548

Cosmos Predict0.831

Wan2.2-5B0.852

Track2Act1.230

DAVIS

MolmoMotion-AR (1f)1.146

MolmoMotion-AR (3f)1.227

MolmoMotion-FM (1f)1.380

MolmoMotion-FM (3f)1.480

Robot4DGen2.120

Static baseline2.281

Extrapolate baseline2.683

Wan2.2-5B3.074

Cosmos Predict4.191

Track2Act4.853

出典:MolmoMotion 論文、表 1—PointMotionBench における 3D ポイント軌道予測。MolmoMotion (3f) および (1f) はそれぞれ 3 フレーム入力および単一フレーム入力の変種を示す。ObjectForesight と EgoScaler の結果は HOT3D データセットのみで報告されている(表 1 の他の箇所では報告されていない)。Static は各 3D ポイントを固定状態に保ち、Extrapolate は過去のフレームからの運動を線形に前方へ投影する手法である。

下流評価:ロボティクス計画

MolmoMotion が学習した運動に関する知見は、異なる設定間でも転移可能である—人間の手でコップを持ち上げるのと、ロボットグリッパーで持ち上げるのは非常に異なる動作だが、コップ自体が 3D 空間を通過する経路は類似している。この特性により、MolmoMotion はロボティクスにおいて自然な適合性を有する。なぜなら、ロボットは物体を移動させる前に、その物体がどのように動くべきかを計画する必要があるからである。

大規模なオープンデータセット DROID(実世界のロボット操作動画を含む)上でファインチューニングを行った結果、MolmoMotion は多様なロボティクス計画シナリオにおいて、異なる物体、カメラ視点、シーン、タスクにわたって妥当な物体経路を予測できることが確認された。

左側の指示:「容器から布を取り出してください。」 右側の指示:「鍋の蓋を動かしてください。」

シミュレーションにおいて、MolmoMotion を基盤とした制御ポリシーは、ピッキング&プレイスタスクの 76.3% で成功するのに対し、同じく Molmo 2 を基盤としたポリシーでは 56.0% です。また学習速度も速く、10K トレーニングステップ後に 51% に達しますが、Molmo 2 バージョンは最大でも 19% に留まります。

実機ロボット(ファインチューニング後)では、MolmoMotion は、Molmo 2 ベースラインが 12K トレーニングステップを要して到達するのと同じテスト L2 エラー値を、わずか約 2K ステップで達成します。

MolmoMotion はロボティクスプランニングを改善します

同じ MolmoBot ポリシーですが、バックボーンの初期化が異なります。クローズドループでの成功率が高いほど優れています。

MolmoMotion 初期化

Molmo 2 初期化

サンプル効率

10K ステップ時の成功率

最終的なクローズドループ成功率

既知のシーン・既知のオブジェクト85.0

70.0

既知のシーン・未知のオブジェクト74.5

51.2

未知のシーン・既知のオブジェクト72.0

50.0

未知のシーン・未知のオブジェクト74.2

48.7

平均76.3

56.0

出典:MolmoMotion 論文、図 5a およびセクション 5.2。両方の MolmoBot ポリシーは、同じフローマッチングアクションヘッドと 20K の公開エピソードを使用しており、バックボーンの初期化のみが異なります。

下流評価:動画生成

指示:「フラミンゴが右へ歩きながら嘴を水に浸す。」左から右へ:DaS + MolmoMotion、CogVideoX-5B、WAN-14B。

指示:「テーブルから丸い茶色の皿を取ってください。」左から右へ:DaS + MolmoMotion、CogVideoX-5B、WAN-14B。

MolmoMotion が予測した経路は、動画生成の誘導にも活用できます。テキスト指示のみから画像から動画への変換モデルが動きを推測させるのではなく、MolmoMotion の予測結果を入力として与えることで、プロンプトでは曖昧にしか記述できない小さな精密な動きにおいても、要求された動作により忠実に従った生成動画を創出できます。

この効果を裏付ける指標もあります。動画生成器の誘導に用いた場合、MolmoMotion は測定した 5 つの動き関連指標すべてにおいてベースモデルよりも運動品質を向上させ、さらに遥かに大規模な画像から動画への変換モデルに対しては 5 つのうち 4 つで上回っています。

MolmoMotion 誘導型動画生成の結果

DaS + MolmoMotion は CogVideoX-5B をすべての指標で上回り、より大規模な Wan2.2-I2V-A14B を 5 つのうち 4 つの指標で凌駕しています。数値が高いほど優れています。

時間的整合性

DaS + MolmoMotion: 0.968

Wan2.2-I2V-A14B: 0.965

CogVideoX-5B: 0.964

被写体整合性

DaS + MolmoMotion: 0.950

Wan2.2-I2V-A14B: 0.940

CogVideoX-5B: 0.939

運動の滑らかさ

DaS + MolmoMotion: 0.990

CogVideoX-5B: 0.988

Wan2.2-I2V-A14B: 0.983

動的度

Wan2.2-I2V-A14B: 0.908

DaS + MolmoMotion: 0.876

CogVideoX-5B: 0.861

背景整合性

DaS + MolmoMotion: 0.948

Wan2.2-I2V-A14B: 0.947

CogVideoX-5B: 0.941

出典:MolmoMotion 論文、Table 2。本セクションの棒グラフの長さは各指標行内で再スケーリングされており、微小な差異を視認しやすくするためのものであり、絶対的なスコア比率として解釈してはなりません。記載された数値は報告値です。

Limitations and what's next

MolmoMotion は能力のあるモデルですが、いくつかの制限に注意が必要です。トレーニング中はオブジェクトあたり 8 つのクエリポイントを使用しており、有用な軌道を予測するには十分ですが、表面幾何学を密に表現するには不十分です。これにより、複雑な変形運動に対するモデルの処理が制限されます。

私たちは、世界にある物体が動く「前に」その動きを予測する「予測(forecasting)」は、すでに存在するものを知覚することと同様に、機械知能にとって根本的な要素だと考えています。MolmoMotion はその一歩であり、カテゴリごとのテンプレートなしでオブジェクトカテゴリ全体に一般化し、通常の動画から学習され、PointMotionBench で測定した中で最も正確な 3D 運動予測器です。ロボット工学、ビデオ、そしてそれ以上の分野において、多くの応用が現れることを期待しています。

重みのダウンロード、トレーニングデータの閲覧、および PointMotionBench に対する当社の手法の評価 を通じて、MolmoMotion をぜひお試しください。

Join us

Ai2 では、透明性のあるオープンソース AI の未来を構築しています。これは公開された環境で構築され、科学の進展とこの世界を変える技術への根本的な理解を強化するためにあります。私たちは利益を得るためにここにいるのではなく、AI の恩恵が広く共有され、人類のために役立てられることを保証するためにここにあります。これがあなたに響くものであれば、ぜひオープンな求人情報をご覧ください。

Open roles

最新の Ai2 ニュースに関する月次更新を受け取るには、購読してください。

原文を表示

Machines have become remarkably good at perceiving motion. Given a video, modern models can track how objects and points move through a scene with exceptionally high confidence. But perception is inherently retrospective: it explains motion that has already happened. Many of the systems and applications we want to build need to *look forward* instead. A robot reaching for a cup has to anticipate how the cup will move before it touches it. A video generator has to know what realistic motion comes next if it's going to produce physically plausible frames.

Predicting motion is harder than observing it, but it's also far more useful in many scenarios.

This idea was the motivation behind MolmoMotion, a new motion forecasting model we're releasing today. Given a video frame, 3D points marked on an object, and written instructions describing the intended action (e.g., “Move and rotate the wooden bowl with fruit on the table”), MolmoMotion predicts where those points will move over the next few seconds in 3D space—achieving substantially stronger performance than existing forecasting methods.

Given an RGB observation, a set of query points on an object, and an action description, MolmoMotion predicts the object's future 3D point trajectory. These predicted trajectories can then drive downstream applications such as robotics planning and trajectory-conditioned video generation.

Alongside the model, we're publishing MolmoMotion-1M, the largest collection of 3D point trajectories paired with action descriptions, drawn from 1.16M videos. We're also releasing PointMotionBench, a human-validated benchmark designed to measure object-centric 3D motion forecasting accuracy, containing 2.7K video clips.

We find that motion forecasters like MolmoMotion can be useful across a range of downstream tasks, from robot planning to controllable video generation. We're releasing the model weights, the MolmoMotion-1M dataset, and our PointMotionBench benchmark openly for the community to study, improve, and customize.

MolmoMotion: Under the hood

MolmoMotion represents motion in a deliberate, highly efficient way: as object-attached 3D points in world space, which capture motion without the cost of rendering full video. We chose it because we needed a general motion representation with three properties:

  • Class-agnostic: not tied to templates for human bodies, hands, rigid objects, or any other fixed category.
  • View-stable: the same physical motion should be represented consistently across cameras and viewpoints.
  • Directly usable by downstream systems that need to reason about physical motion.

Among the representations we considered, it was the only one that satisfied all three. A sparse set of surface points can describe rigid, articulated, and (within limits) deformable motion without assuming the type of object being moved. Because the points live in a shared world frame, their trajectories remain stable across camera motion and viewpoint change. And because they're compact explicit trajectories in 3D space, they can be passed directly to systems such as robot policies or video generation models.

To forecast those trajectories, MolmoMotion uses Molmo 2 as its backbone, allowing it to connect language instructions to objects and points in an image. Given a short video history, an action description, and a set of query points with their initial 3D positions, the model first identifies the object being referred to, the query points, and the motion the instruction describes. It then predicts the future 3D trajectory of each point.

We train two variants of MolmoMotion:

  • The autoregressive variant (MolmoMotion-AR) predicts future coordinates step by step. It represents 3D coordinates as structured text, following the coordinate-style prediction used by VLMs, and writes out the future trajectory in temporal order. Because each new coordinate is conditioned on the trajectory already generated, this encourages smooth rollouts and gives the strongest accuracy when the future path is well-defined.
  • The flow-matching variant (MolmoMotion-FM) predicts trajectories in continuous 3D space by transforming noise into motion, which makes it better suited for representing uncertainty when an instruction admits multiple plausible futures.

Introducing MolmoMotion-1M and PointMotionBench

To train MolmoMotion, we needed data that didn’t yet exist: large-scale videos with 3D point trajectories grounded to specific objects and paired with action descriptions. Existing 3D-track datasets were small and domain-limited, and while internet videos have all the scale and diversity we wanted for a forecaster like MolmoMotion, they didn’t include 3D annotations. So we built an automatic pipeline that extracts object-grounded 3D trajectories from unconstrained video.

Given an input video and its action description, our annotation pipeline produces object-grounded 3D point trajectories in metric world coordinates. (The figure below shows each stage.) The challenging part is that raw tracks from unconstrained video are noisy – with depth and tracking errors that leave points jittering and drifting – and that objects often stay still for much of a video. To make the data more trustworthy, we filter out points that don't move coherently with the rest of the object, smooth the remaining trajectories, and segment each clip to the window where the object actually moves.

Running our pipeline at scale yielded MolmoMotion-1M—to our knowledge the largest corpus of action-described, object-grounded 3D point trajectories assembled to date, spanning 736 motion types and 5.6K distinct objects.

An overview of our data annotation pipeline. Given a video of an action event and its description, we first ground the moving object and sample query points on it. We then track dense 2D points on the object, lift these tracks into a shared metric 3D frame, and use object-level spatial and temporal consistency priors to filter unreliable trajectories. Finally, we clip the video around intervals where the grounded object undergoes meaningful motion.

Left instruction: "Move and rotate wooden bowl with fruits on the table." Right instruction: "Roll a lint roller on a blue cloth."

Left instruction: "A silver car follows the road and slowly turns to the right." Right instruction: "A flamingo dips its beak into the water while walking to the right."

To evaluate MolmoMotion’s forecasting performance, we also built PointMotionBench, a human-validated benchmark of held-out 3D trajectories. It covers 2.7K clips spanning 111 object categories and 61 motion types, including indoor manipulation, egocentric hand-object interaction, and outdoor dynamic scenes. For each clip, models are given the current observation, object query points, and an action description, and are evaluated on how accurately their predicted 3D point trajectories match the object’s actual future motion. This gives us a direct quantitative test of 3D motion forecasting rather than relying on whether a generated point track merely looks plausible.

Experiments and performance

We evaluate MolmoMotion in three ways. First, we test whether it forecasts future 3D motion more accurately than existing methods. Second, we test whether what it has learned about motion helps a robot carry out manipulation tasks. Third, we test whether that same knowledge can help guide the motion in generated video.

3D motion forecasting

On PointMotionBench, MolmoMotion outperforms all existing 3D motion forecasting methods we tested – including pixel-space video generators, parametric 3D methods, and a simple constant-velocity baseline – across a range of objects, scenes, and actions.

MolmoMotion can forecast many kinds of object and scene motions, like how a lint roller will move back and forth on cloth, how a bowl will slide and rotate on a table, how a flamingo will walk to the right while dipping its beak in a body of water, or how a car will follow a road as it turns. In each case, the predicted path follows the instruction MolmoMotion was given and stays extremely close to the ground truth motion in our benchmark.

PointMotionBench benchmark results

Bars show per-split 3D average displacement error in meters on PointMotionBench. Lower is better.

HOT3D

MolmoMotion-AR (3f)0.109

ObjectForesight0.129

MolmoMotion-FM (3f)0.135

MolmoMotion-AR (1f)0.157

Extrapolate baseline0.159

EgoScaler0.170

Static baseline0.180

MolmoMotion-FM (1f)0.183

Wan2.2-5B0.200

Robot4DGen0.212

Cosmos Predict0.225

Track2Act0.294

WorldTrack

MolmoMotion-AR (3f)0.143

MolmoMotion-AR (1f)0.148

MolmoMotion-FM (3f)0.158

MolmoMotion-FM (1f)0.165

Static baseline0.167

Extrapolate baseline0.184

Robot4DGen0.548

Cosmos Predict0.831

Wan2.2-5B0.852

Track2Act1.230

DAVIS

MolmoMotion-AR (1f)1.146

MolmoMotion-AR (3f)1.227

MolmoMotion-FM (1f)1.380

MolmoMotion-FM (3f)1.480

Robot4DGen2.120

Static baseline2.281

Extrapolate baseline2.683

Wan2.2-5B3.074

Cosmos Predict4.191

Track2Act4.853

Source: MolmoMotion paper, Table 1—3D point trajectory prediction on PointMotionBench. MolmoMotion (3f) and (1f) denote the 3-frame and single-frame input variants. ObjectForesight and EgoScaler are reported on HOT3D only (elsewhere in Table 1). Static keeps each 3D point fixed; Extrapolate projects motion from prior frames forward linearly.

Downstream evaluation: robotics planning

What MolmoMotion learns about motion should carry over from one setting to another—lifting a cup with a human hand and lifting it with a robot gripper are very different actions, but the cup itself follows a similar path through 3D space. That makes MolmoMotion a natural fit for robotics, where a robot has to plan how objects should move before moving them.

After fine-tuning on DROID, a large open dataset of real-world robot manipulation videos, we find that MolmoMotion can predict sensible object paths across different objects, camera viewpoints, scenes, and tasks for a wide range of robot planning scenarios.

Left instruction: “Take cloth out of container." Right instruction: “Move lid on pot.”

In simulation, a control policy built on MolmoMotion succeeds on 76.3% of pick-and-place tasks versus 56.0% for the same policy built on Molmo 2—and it learns faster, reaching 51% after 10K training steps where the Molmo 2 version tops out at 19%. On real robots (after fine-tuning), MolmoMotion reaches the same test L2 error that the Molmo 2 baseline achieves after 12K training steps in only about 2K steps.

MolmoMotion improves robotics planning

Same MolmoBot policy, different backbone initialization. Higher closed-loop success is better.

MolmoMotion initialized

Molmo 2 initialized

Sample efficiency

Success at 10K steps

Final closed-loop success

Seen sceneseen object85.0

70.0

Seen sceneunseen object74.5

51.2

Unseen sceneseen object72.0

50.0

Unseen sceneunseen object74.2

48.7

Average76.3

56.0

Source: MolmoMotion paper, Figure 5a and Section 5.2. The two MolmoBot policies use the same flow-matching action head and 20K released episodes, differing only in backbone initialization.

Downstream evaluation: video generation

Instruction: “A flamingo dips its beak into the water while walking to the right.” From left to right: DaS + MolmoMotion, CogVideoX-5B, and WAN-14B.

Instruction: "Take the round light brown plate from the table.” From left to right: DaS + MolmoMotion, CogVideoX-5B, and WAN-14B.

MolmoMotion's predicted paths can also steer video generation. Instead of letting an image-to-video model guess motion from a text instruction alone, you can feed in MolmoMotion's predictions. The result is generated video that follows requested actions more closely, especially for small and precise movements a prompt can only describe vaguely.

The metrics back this up. Used to guide a video generator, MolmoMotion improves motion quality over the base model on all five motion-related metrics we measure, and beats a much larger image-to-video model on four of the five.

MolmoMotion-guided video generation results

DaS + MolmoMotion improves on CogVideoX-5B across all five metrics and beats the larger Wan2.2-I2V-A14B on four of five. Higher is better.

Temporal consistency

DaS + MolmoMotion0.968

Wan2.2-I2V-A14B0.965

CogVideoX-5B0.964

Subject consistency

DaS + MolmoMotion0.950

Wan2.2-I2V-A14B0.940

CogVideoX-5B0.939

Motion smoothness

DaS + MolmoMotion0.990

CogVideoX-5B0.988

Wan2.2-I2V-A14B0.983

Dynamic degree

Wan2.2-I2V-A14B0.908

DaS + MolmoMotion0.876

CogVideoX-5B0.861

Background consistency

DaS + MolmoMotion0.948

Wan2.2-I2V-A14B0.947

CogVideoX-5B0.941

Source: MolmoMotion paper, Table 2. Bar lengths in this section are rescaled within each metric row to make small differences visible and should not be interpreted as absolute score proportions; printed scores are the reported values.

Limitations and what's next

MolmoMotion is a capable model, but there are still some limitations to note. It uses eight query points per object during training—enough to forecast a useful trajectory but not enough to densely represent surface geometry. This limits the model's handling of complex deformable motion.

We think forecasting – anticipating how objects in the world will move *before* they move – is as fundamental to machine intelligence as perceiving what's already there. MolmoMotion is a step toward this—3D motion prediction that generalizes across object categories without per-category templates, learned from ordinary video, and the most accurate 3D motion forecaster we've measured on PointMotionBench. We expect many applications will follow in robotics, video, and beyond.

We encourage you to try MolmoMotion by downloading the weights, inspecting the training data, and evaluating our methods against PointMotionBench.

Join us

At Ai2 we’re building the future of transparent, open-source AI — built in the open to empower scientific progress and fundamental understanding of this world changing technology. We’re not here to make profits, we’re here to make sure benefits of AI are shared widely and for the benefit of humanity. If this appeals to you, please take a look at our open roles.

Open roles

Subscribe to receive monthly updates about the latest Ai2 news.

この記事をシェア

関連記事

TLDR AI★42026年6月18日 09:00

言語指示による 3D モーション予測モデル「MolmoMotion」を発表

新しいモーション予測モデル「MolmoMotion」は、言語指示と初期物体位置を用いて動画内の未来の 3D ポイント軌道を予測し、既存手法を上回る精度を達成しました。また、116 万本の動画からなる大規模データセット「MolmoMotion-1M」も公開されています。

Hugging Face Blog★42026年6月18日 00:26

MolmoMotion:言語指示に基づく 3D モーション予測技術の発表

Hugging Face が、言語による指示で 3D の動きを予測する新しいモデル「MolmoMotion」を発表しました。この技術は、テキスト入力から物体やキャラクターの未来の動作を推定する能力を持ちます。

The Verge AI★32026年6月13日 20:00

ハリウッドの未来は、バニラ型生成 AI モデルにプロンプトを入力するだけでは実現しない

The Verge は、生成 AI が映画業界を革命化するとの騒ぎにもかかわらず、実際に観客が支払って見る価値のある作品がほとんど生まれていないと指摘し、単純なプロンプト入力では不十分だと論じている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む