AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年6月15日 21:00·約22分で読める

想像に預けられ、行動のために微調整:ワールド・アクションモデルの台頭

#Robotics#World Models#Vision-Language-Action#NVIDIA#Generative AI
TL;DR

NVIDIA は、視覚・言語モデルを基盤とする従来のロボット制御アプローチから、未来の世界状態を予測する「世界行動モデル(WAM)」への転換を提唱し、ロボットの推論能力と動作精度の飛躍的向上を示唆している。

AI深層分析2026年6月15日 23:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

世界行動モデル(WAM)の定義と登場

既存の VLA モデルが視覚・言語入力から直接行動を生成するのに対し、WAM は事前学習された世界モデルやビデオバックボーンを活用し、時間経過に伴うシーン変化を予測・表現して行動を生成する新しいパラダイムである。

2

VLA と WAM の技術的対比

VLA は大規模 VLM 事前学習に依存し言語指示に基づくが、WAM は未来の世界状態を予測する能力に焦点を当てており、より複雑な環境下でのロボットの適応性を高めることを目指す。

3

ロボット制御におけるパラダイムシフト

「想像して(Imagining)」から「行動する(Acting)」への進化を促し、単なる反応型制御ではなく、未来の因果関係を理解した上で最適な行動を選択する能動的なロボティクスを実現する。

影響分析・編集コメントを表示

影響分析

この記事は、ロボティクス分野における AI アーキテクチャの主流を「反応型」から「予測・推論型」へと転換させる重要な指針を示しています。NVIDIA の提唱する WAM は、複雑で不確実な現実世界でのロボット動作の安全性と効率性を劇的に向上させる可能性があり、次世代自律ロボットの開発競争における新たな基準となるでしょう。

編集コメント

ロボティクス業界において、単なる「指示実行」から「未来予測に基づく意思決定」へパラダイムがシフトする兆候を捉えた重要な記事です。NVIDIA が主導するこの技術潮流は、実社会でのロボット導入におけるボトルネック解消の鍵となる可能性があります。

image
image

2026 年 6 月 15 日

VLA/WAM 用語に初めて触れる読者のための簡易 glossary

VLA(Vision-Language-Action モデル):事前学習済み VLM ベースラインから出発し、視覚的観察と言語指示に基づいて行動を生成するように適応させたロボットポリシー。大規模な VLM の事前学習は、このレシピの中核的な要素です。詳しくは Pi-0 および GR00T N1 を参照してください。

WAM(World-Action モデル):事前学習済みワールドモデルまたはビデオベースラインから出発し、シーンが時間とともにどのように変化するかを表現・予測し、対応する行動を発行するように適応させたポリシー。本稿では「WAM」という用語を一貫して使用します。

VLM(Vision-Language モデル):画像テキストデータや動画テキストデータで事前学習され、視覚的入力に基づいた言語出力を生成するモデルで、通常はロボット制御用に適応される前に用いられます。

Video backbone(ビデオベースライン):ロボットポリシー内で中心的な表現または生成器として再利用される事前学習済みビデオモデル。

World model(世界モデル) 言語、ロボット動作、または潜在変数などの何らかの行動抽象化を条件として、将来の世界状態を予測するモデル。予測される状態は、画像、動画、ポイントトラッキング、オブジェクトの状態、あるいは潜在特徴量として表現され得ます。古典的な World Models paper および NVIDIA の Cosmos world foundation model paper を参照してください。

Grounding(グラウンディング) 記号(例:言語指示内の単語)を、それらを満たす知覚的・運動学的な参照対象に結びつけること。特に*Language-to-action grounding(言語から動作へのグラウンディング)*とは、「赤いマグカップを持って」といった指示を、実際にそれを達成する視覚的知覚と運動命令に変換することを意味します。グラウンディングギャップは、モデルが言語について知っていることと、物理的世界で確実に起こり得ることに生じる持続的な不足の差を指します。

Inverse dynamics(逆ダイナミクス) 現在の観測 *o*t と将来の観測 *o*t+k が与えられたとき、その遷移を生み出す最も妥当な動作または動作シーケンスを推論すること。

Joint prediction(同時予測) *o*t と言語 *l*t を条件として、1 つの方策 π(*o*t, *l*t) を訓練し、将来の観測 *o*t+1:t+k と動作 *a*t:t+k の両方を予測させること。

アクションチャンク 短時間ホライズンの行動シーケンス *a*t:t+k、すなわち *k* 個の行動 *a*t, *a*t+1, …, *a*t+k−1(関節指令、エンドエフェクタの差分、グリッパ状態など)を、単一のポリシー呼び出しで予測するもの。ACT および Diffusion Policy を参照。

トランスフォーマーの混合 (MoT) 複数のモダリティ固有のトランスフォーマーまたはエキスパート(例:ビデオ用トランスフォーマーと行動用トランスフォーマー)を、共有アテンションを通じて接続しつつも重みは個別に保持するアーキテクチャ。関連する Transfusion paper を参照。

拡散トランスフォーマー (DiT) 拡散モデルまたはフローマッチングモデル内部で使用されるトランスフォーマーのバックボーンで、画像・動画・行動トークンを複数ステップにわたってノイズ除去する。DiT は通常、適応レイヤ正規化(adaLN)を用いて、タイムステップ条件をトランスフォーマーブロックに注入する。Peebles and Xie DiT paper を参照。

VAE 変分オートエンコーダー:本稿では主に、生成やポリシー学習の前に高解像度の画像や動画を潜在表現に圧縮する画像・動画用 VAE を指します。これによりトークン数が大幅に削減されます。例えば、Wan 2.1 の VAE は時間方向に 4 倍、空間方向に 8×8 の圧縮を使用しており、Wan 2.2-5B ではより高圧縮な時間方向 4 倍・空間方向 16×16 のインターフェースを採用しています。詳細はオリジナルの VAE paper、Rombach らによる潜在拡散モデル論文、Wan 論文、および Wan 2.2 リリース を参照してください。

Wan 最近の WAM(World-Action Models)において動画バックボーンとして頻繁に使用される、大規模事前学習済み動画生成モデルファミリーです。詳細は Wan 論文 を参照してください。

Cosmos NVIDIA が開発した物理 AI 向けの世界基盤モデルファミリーで、ロボットやポリシー学習に適応可能な動画予測モデルを含みます。詳細は Cosmos 論文 を参照してください。

DROID 分散型ロボットインタラクションデータセット:Franka Panda ロボットアームを使用して収集された、多様なタスクにわたる 5 万件以上の実世界マニピュレーションデモを含む大規模データセットです。詳細は DROID 論文 を参照してください。

RoboArena オープンエンドな言語条件付きタスクにおける一般化ロボットポリシーを評価するための、分散型実世界ベンチマークです。詳細は RoboArena 論文 を参照してください。

RoboLab 視覚的、関係的、手続的能力にわたるタスク一般化ロボットポリシーを分析するための高忠実度シミュレーションベンチマーク。RoboLab 論文をご覧ください。

CALVIN シミュレーションにおける長期ホライズンタスクシーケンスに焦点を当てた、言語条件付き操作ベンチマーク。CALVIN 論文をご覧ください。

LIBERO 操作における知識転移、生涯学習、一般化を研究するためのロボット学習ベンチマーク。LIBERO 論文をご覧ください。

RoboTwin ドメインランダム化下での堅牢な両手ロボット操作のためのシミュレーションデータ生成器およびベンチマーク。RoboTwin 2.0 論文をご覧ください。

FAST / BEAST 連続的なロボット動作をトークンシーケンスに変換し、アクション学習を VLM(Vision-Language Model: ビジョン・ランゲージモデル)スタイルのトレーニングとより互換性のあるものにする離散型アクショントークン化手法。FAST 論文および BEAST 論文をご覧ください。

VPP (Video Prediction Policy): WAM(World-Action Model)スタイルの手法で、ビデオモデルからの予測的視覚表現を用いてロボット動作を条件付けるもの。VPP 論文をご覧ください。

LAPA (Latent Action Pretraining from Videos): 真のロボットアクションラベルなしに、ビデオからアクション類似の潜在変数を学習するための手法。LAPA 論文をご覧ください。

OOD Out-of-distribution(分布外):トレーニングやデモンストレーションで使用された例の範囲外にあるタスク、オブジェクト、環境、または指示のこと。

FLOP / ZFLOP Floating-point operations(浮動小数点演算)は、トレーニング計算量を測定する単位です。1 ZFLOP は 10^21 FLOPs に相当します。

H100 / GPU-hour H100 は NVIDIA の高機能なトレーニング用 GPU です。GPU-hour(GPU 時間)とは、1 つの GPU が 1 時間稼働した状態を指し、トレーニングコストを比較するための概算単位として使われます。

BF16 Brain floating point 16-bit(脳浮動小数点 16 ビット):大規模ニューラルネットワークを効率的に訓練するために一般的に使用される、精度の低い数値形式です。

I2V Image-to-video(画像から動画へ):初期画像またはフレームを条件として行う動画生成の設定のこと。

背景:2 つの構成要素。 *Visuomotor policy*(視覚運動政策)は、現在の観測データと目標、あるいは指示を入力とし、ロボットの動作を出力するものです。一方、*World model*(世界モデル)は、現在の状態と行動または目標の抽象化を入力として、未来の視覚的または潜在状態を予測します。WAM はこの重なり合う領域に位置し、事前学習された動画/世界モデルのバックボーンを事前知識として活用しつつ、未来の状態とロボットの動作の両方を予測します。*Visuomotor policy:言語指示と現在の観測が入力となり、行動シーケンスが出力される。imageimageWorld model:現在の世界状態と行動の抽象化が入力となり、未来の画像または潜在変数が出力される。

イントロダクション

昨年は、私の Scholar Inbox のダイジェストがほぼ毎日新しい VLA(Vision-Language-Action)論文で埋め尽くされていました。しかしここ数ヶ月はその状況が変わり、今ではほぼ毎日異なるキーワードが現れています:WAM です。これは World-Action Model の略称です。2025 年 10 月には、私の State of VLA 記事において、WAM は VLA 研究における小さなサブフィールドであり、VLM(Vision-Language Model)から初期化された VLA に比べるとはるかに人気がないと記述しました [60]。しかし状況は急速に変化し、この方向へのさらなる研究を望んでいた私の願いはすでに現実のものとなっています。

では、何が変化し、なぜ今なのか。おそらく WAM が誰もが取り組む新しい注目技術だからか、あるいは VLA 著者らが自らの VLA に新たな名前を思いつき尽くしてしまったからだろう。実際、「X-VLA」や「Ego-VLA」といった「-VLA」付きの名称はすでに使い果たされているからだ。そこで今では WAM の分野でもこれらの名称を再利用できるのだ。しかし、より可能性が高いのは、VLM ベースの VLA が行き詰まっていることに関係しているのではないかという点だ。現代の VLA は大規模なビジョン・ランゲージ事前学習の恩恵を受けたが、それでも言語から行動へのグラウンディング(grounding)の壁にぶつかった。言語とピクセルを行動に変換する問題はまだロボットデータから学習しなければならない。WAM は異なる出発点を提供する。彼らは、言語条件付けの下でシーンダイナミクスがどのように変化するかをすでにモデル化している事前学習済みビデオまたはワールドモデルバックボーンを利用する。もしその事前知識が行動生成に転移可能であれば、残るビデオから行動へのギャップは、言語から行動へのグラウンディングを直接学習する場合よりも小さくなる可能性がある。

しかし、WAM の背後にあるアイデア自体は新しいものではない。UniPi [10] などの初期の WAM は、すでに 2023 年に本質的にこのアプローチを提案していた。ではなぜ、このパラダイムがロボット基盤モデルの主流に入るまでに数年を要したのか、そして今日実際にはどこまで進んでいるのか。本稿では、現代の WAM の状況に詳しく目を向け、中心的な問いに答える。

核心的な問い: これは研究と産業における真のパラダイムシフトなのか、それとも単なる短期的な hype cycle(過熱サイクル)に過ぎないのか。また、もしこのレシピが非常にうまく機能しているなら、なぜ UniPi などの初期論文発表から数年を経てようやく WAMs がこれほどまでに人気を集めるようになったのだろうか?

私の見解:WAMs は、VLM ベースの VLA と並ぶ、ロボット基盤モデルにおける第 2 の主要なレシピとなるだろう。残された未解決の問いは、どの定式化が勝利するか、そしてモデルアーキテクチャとパイプラインのどの部分が実際に重要なのかということだ。おそらく勝者となるのは純粋な VLA でも純粋な WAM でもなく、両者のハイブリッドである可能性が高い。

これは現代の WAM 空間における私の地図であり、WAMs をどのように分類・理解すべきか、初期モデル以降何が変化したのか、そして現在の結果が VLA とどう比較されるかを示すものである。より広範な調査については、シミュレーション、評価、ナビゲーション、自動運転にわたるロボット学習のための世界モデルをマッピングした最新の NTU サブベイ 「World Model for Robot Learning: A Comprehensive Survey」 [57] を参照のこと。

目次

  • 一般化ポリシーのための 2 つの表現への賭け
  • なぜ世界行動モデルなのか?私たちの仮説

グラウンディングギャップ

  • ポリシー表現としての WAMs の核心となる仮説
  • 簡易実験:Veo 3.1
  • 現代の WAMs の理解:核心的な定式化

パラダイム:モデルが予測するもの

逆力学(Inverse Dynamics)

  • 同時予測
  • 表現のみ
  • アクション統合:アクションがモデルに組み込まれる方法

デフォルトアクショントークン

  • アクションを画像として
  • 潜在空間のアクションとプラン
  • アーキテクチャ
  • なぜ今、WAM が急成長したのか
  • WAM の比較
  • 実用上の考慮点

ビデオ事前学習モデルのコスト

  • 推論速度
  • なぜ現代の VLA ベースラインは依然として重要なのか
  • この二つの表現アプローチは実は同じ道なのか?

第四の道:ロボットファーストな基盤モデル

  • 結びの言葉
  • 参考文献

一般化されたポリシーのための二つの表現への賭け

*図 1. 現在、一般化された操作ポリシーに対する二つの主要な賭け:VLM ベースの VLA とビデオバックボーン WAM。*

現在の研究および産業界では、ロボット基盤モデルにおける二つの主要な表現への賭けが存在します。多くのチームが、Pi-0 [2] によって確立され、後に Pi-0.5 [4] で洗練された従来の VLA(Vision-Language-Action)レシピに基づいて構築を進めています。これは、ポリシー学習の起点として VLM(Vision-Language Model)バックボーンを使用するアプローチです。この VLM バックボーンを用いたレシピは、NVIDIA GR00T [5]、Xiaomi Robotics [27]、Being-H0.5 [28] など、複数のチームによる公開論文にも見られます。

より最近では、事前学習済みビデオバックボーンを汎用マニピュレーションへの別の道筋として利用するという、異なるパラダイムが台頭しています。現在、公開されている事例には、NVIDIA の DreamZero [8] や Cosmos Policy [13]、Ant Group の LingBot-VA [9]、Rhoda AI の DVA [40]、Sereact の Cortex 2.0 [45]、そして Mimic Robotics の mimic-video [14] が含まれます。同時に、多くの大学研究室やオープンな研究グループも、Video Prediction Policy [24]、Unified Video Action Model [39]、Fast-WAM [23] といった新しいアイデアで最前線を押し広げています。これらについては後ほどより詳細に議論します。

バックボーンの選択は、トレーニングレシピやデータミックスから推論最適化に至るまで、完全なトレーニングおよび評価パイプラインに影響を及ぼします。これらのモデルを大規模に実行するコストを考慮すると、多くのチームは並行して両方を完全に追求するのではなく、まず一方の方向(VLA または WAM)に優先順位をつける必要があるでしょう。どちらの道筋が実証されるか、あるいは両者が収束するかはまだ未解決です。今日、あなたはどちらに賭けますか?以下のセクションでは、この意思決定の両側面についてさらに深く掘り下げていきます。

なぜワールドアクションモデルなのか?私たちの仮説

現在のモデルに深く立ち入る前に、まず WAM が VLM ベースの VLA に対する代替手段として魅力的である理由を振り返りましょう。また、WAM をロボティクスにおける世界モデルのより広範な文脈の中に位置づけることも役立ちます。

*図 2. ロボティクスにおける世界モデル。アクション条件付き世界モデル(DreamDojo, Genie, JEPA-WM)は、学習されたアクション抽象化から未来の状態を予測します。ビデオ世界モデル(Cosmos-3, WAN, Veo, LTX-Video)は、言語と参照フレームを条件として未来のビデオを予測します。World-Action Models (WAM) である DreamZero, LingBot-VA, UniPi, mimic-Video は、アクションを発するロボットポリシー内にビデオまたは世界モデルのバックボーンを再利用するという交差点に位置しています。

グラウンディングギャップ

なぜ WAM が魅力的なのかを理解するには、VLM バックボーン上に構築された「古典的」な VLA の核心的な課題を理解することが役立ちます。最初の VLA に求められた動機は、ロボティクスにおいて VLM のインターネットスケールの知識を活用することでした。VLM は膨大な量のビジョン・テキストデータでトレーニングされており、多くのビジョントasks で顕著なゼロショット性能を示します。VLA のレシピでは、これらの事前学習された表現をアクション生成のために適応させます。

しかし、VLM の事前学習と具身的操作の間には大きなドメインギャップが存在します。いくつかの VLA 論文では、事前学習された VLM の能力が劣化することを観察するか、あるいはその問題に対処する設計を採用しています。特に、行動学習の目的が元の VLM の目的から大きく逸脱する場合に顕著です。VLM2VLA は、この問題を VLM から VLA への移行における壊滅的な忘却として直接的に捉えています [55]。Knowledge Insulation も同様の知見を報告し、懸念をアーキテクチャの観点から提起しています。すなわち、フローマッチングに基づく行動専門家の勾配を VLM のバックボーンから分離することで、事前学習された言語・視覚知識を保持し、トレーニングの収束性、タスク性能、および言語指示への追従性を向上させています [20]。最近の解決策として、VLM の共同学習や離散行動トークナイザーなどが役立っていますが、中核的な課題は依然として、限られたロボットデータから言語を物理的行動へと grounded することです。これらの解決策については、以下の現代 VLA ベースラインセクションで詳述します。

これは自然と次の疑問を生み出します:もし、言語が世界の視覚的変化にどのようにマッピングされるかをすでに表現しているバックボーンから始めたらどうでしょうか?

WAM をポリシー表現として捉えるための核心的仮説

核心概念は単純です:VLM(視覚言語モデル)バックボーンを用いて模倣学習を開始するのではなく、事前学習済みビデオバックボーンを使用します。現在のビデオモデルは大規模なビデオコーパスで訓練されており、視覚シーンがどのように変化するかという時空間表現を学習しています。重要なのは、現在のビデオモデルは多くの場合「テキスト条件付き」であることです。つまり、正確な言語記述から動画を生成するように訓練されており、参照フレームがある場合もあれば、テキストのみから生成する場合もあります。これらの動画の多くには意図的な行動が含まれています:手が伸びる、道具が動く、物体が操作される、誰かまたは何かが行動したためにシーンが変わるといったものです。これにより、ビデオバックボーンは一般化された操作のためのモデル事前知識として魅力的なものになります。ロボット動作を一切見る前に、このバックボーンはすでに言語、視覚的変化、そして妥当な物体間の相互作用の間に有用な関連性を符号化しています。以下の Veo 3.1 のデモンストレーションはその簡単な例示です。

私は次の 3 つのポイントを結論ではなく仮説として扱うべきだと考えます。これらは論文間や同僚との議論、そして私の分野に対する独自の読みにおいて繰り返される主張であり、定性的な直感、シミュレーションによる証拠、およびいくつかの初期の実世界信号によって支持されていますが、まだ明確にマッチングされた比較実験による裏付けはありません:

  • 将来の世界の変化を予測することは、必要な行動を生成することと相関しています。逆ダイナミクス予測は、純粋な行動生成よりも一般的に容易です [26]。望ましい結果が既知である場合、それを生み出した行動を推論する方が、指示と現在の観測から直接行動を予測するよりも通常は単純です。Pi-0.7 の視覚的サブゴールの結果も同じ方向を示しています:ポリシーに望まれる未来の画像が与えられた場合、行動予測はより直接的になり、トレーニングの収束が速くなります [43]。
  • ビデオ事前学習は、言語と物理的な変化との間の接地(グラウンディング)を提供します。ビデオモデルは、テキスト記述を視覚的結果にマッピングすることを学びます。これがロボティクスへ転移すれば、ロボットの実演からのみ学習しなければならない接地の量を削減できる可能性があります。
  • ビデオデータはロボットポリシーを正則化します。ロボットデータセットはウェブスケールのビデオと比較して小規模です。まずビデオで事前学習を行うか、あるいはロボットデータとともにビデオでも併用トレーニングを行うことで、より広範な視覚的先行知識が過学習を軽減できます;その恩恵はデータセット、目的関数、およびアーキテクチャに依存します。DreamZero [8] と Fast-WAM [23] の両方で示されているように、ロボットのファインチューニング中、WAM(World-Action Models)は、行動学習がビデオ予測の目的関数と併用トレーニングされる場合に最も優れたパフォーマンスを発揮します。

簡単な実験:最先端のビデオモデルはすでにロボット操作についてどの程度「理解」しているか?

現代の動画モデルは、ロボット固有のアクションヘッドを追加する前に、すでにどの程度のことを捉えているのでしょうか?私たちは Google の Veo 3.1(最先端の動画生成モデル)を用いて簡単な実験を行いました。DROID セットアップにおけるトースター作業の元の RoboArena ロールアウトから単一のコンテキストフレームを与え、Veo にトースターのレバーを押すようプロンプトしました(これは*参照タスク*であり、元の DROID デモと一致します)。その後、左側に置かれたオレンジを掴むよう指示しました(これは*構成された拡張*であり、デモを超えたものです)。この動画が Veo の事前学習データの一部である可能性は極めて低いですが、トレーニングセットを直接検証することはできません。これはトレーニングセットへの所属に関する制御されたプローブではなく、事前知識の質的チェックとして扱ってください。ワンショット試行で、プロンプト最適化は一切行っていません。

使用したプロンプトは以下の通りです:

**

「この初期フレームを基に、ロボットアームがトースターのレバーを押す動画を作成してください。そのタスクが完了した後、ロボットはトースターの左側にあるオレンジを掴み、掴んだ後に停止してください。」

コンテキストフレームとグランドトゥルースロールアウト:**

imageimage*図 3. DROID セットアップにおける RoboArena のトースター作業からのコンテキストフレーム。*

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

<img src="https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever.webp" decoding="async" data-src="https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever.webp" alt="Figure 6. Ground-truth rollout: robot pushes the toaster lever." width="1585" height="392" data-srcset="https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever.webp 1585w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-179x44.png 179w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-300x74.png 300w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-768x190.png 768w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-625x155.png 625w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-1536x380.png 1536w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-645x160.png 645w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-500x124.png 500w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-160x40.png 160w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-500x124.png 500w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-160x40.png 160w" alt="図 6. グランドトゥルース(正解)ロールアウト:ロボットがトースターのレバーを押す。" width="1585" height="392" data-srcset="https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever.webp 1585w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-179x44.png 179w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-300x74.png 300w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-768x190.png 768w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-625x155.png 625w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-1536x380.png 1536w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-645x160.png 645w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-500x124.png 500w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-160x40.png 160w" alt="図 6. グランドトゥルース(正解)ロールアウト:ロボットがトースターのレバーを押す。">

原文を表示

Jun 15, 2026

Quick glossary for readers new to VLA/WAM terminology

VLA Vision-Language-Action model: a robot policy that starts from a pretrained VLM backbone and adapts it to generate actions from visual observations and language instructions. Large-scale VLM pretraining is a core part of the recipe. See Pi-0 and GR00T N1.

WAM World-Action Model: a policy that starts from a pretrained world-model or video backbone and adapts it to represent or predict how the scene changes over time and emit corresponding actions. We use WAM as the term throughout this post.

VLM Vision-Language Model: a model pretrained on image-text or video-text data to produce language outputs grounded in visual inputs, usually before being adapted for robot control.

Video backbone A pretrained video model reused as the central representation or generator inside a robot policy.

World model A model that predicts a future world state, conditioned on some action abstraction such as language, robot actions, or latent actions. The predicted state may be represented as images, video, point tracks, object states, or latent features. See the classic World Models paper and NVIDIA’s Cosmos world foundation model paper.

Grounding Connecting symbols (e.g. words in a language instruction) to the perceptual and motor referents that satisfy them. *Language-to-action grounding* in particular means turning an instruction like “pick up the red mug” into the visual percepts and motor commands that actually accomplish it. The grounding gap is the persistent shortfall between what a model knows about language and what it can reliably cause to happen in the physical world.

Inverse dynamics Given a current observation *o*t and a future observation *o*t+k, infer the most plausible action or action sequence that would produce the transition.

Joint prediction Given *o*t and language *l*t, train one policy π(*o*t, *l*t) to predict both future observations *o*t+1:t+k and actions *a*t:t+k.

Action chunk A short horizon action sequence *a*t:t+k — i.e. the *k* actions *a*t, *a*t+1, …, *a*t+k−1 — such as joint commands, end-effector deltas, and gripper states, predicted in one policy call. See ACT and Diffusion Policy.

Mixture-of-Transformers (MoT) Several modality-specific transformers or experts, such as a video transformer and an action transformer, connected through shared attention while keeping separate weights. See the related Transfusion paper.

Diffusion Transformer (DiT) A transformer backbone used inside diffusion or flow-matching models to denoise image, video, or action tokens over multiple steps. DiT commonly uses adaptive layer normalization (adaLN) to inject timestep conditioning into transformer blocks. See the Peebles and Xie DiT paper.

VAE Variational Autoencoder: in this post, mainly image and video VAEs that compress high-resolution images or videos into latent representations before generation or policy learning. This reduces token count substantially; for example, Wan 2.1’s VAE uses 4× temporal and 8×8 spatial compression, while Wan 2.2-5B uses a higher-compression 4× temporal and 16×16 spatial interface. See the original VAE paper, Rombach et al.’s latent diffusion paper, the Wan paper, and the Wan 2.2 release.

Wan A family of large pretrained video-generation models often used as the video backbone in recent WAMs. See the Wan paper.

Cosmos NVIDIA’s world foundation model family for physical AI, including video prediction models that can be adapted for robotics and policy learning. See the Cosmos paper.

DROID Distributed Robot Interaction Dataset: a large real-world manipulation dataset with more than 50k demonstrations across varied tasks, collected using Franka Panda robot arms. See the DROID paper.

RoboArena A distributed real-world benchmark for evaluating generalist robot policies on open-ended language-conditioned tasks. See the RoboArena paper.

RoboLab A high-fidelity simulation benchmark for analyzing task-generalist robot policies across visual, relational, and procedural competencies. See the RoboLab paper.

CALVIN A language-conditioned manipulation benchmark focused on long-horizon task sequences in simulation. See the CALVIN paper.

LIBERO A robot-learning benchmark for studying knowledge transfer, lifelong learning, and generalization in manipulation. See the LIBERO paper.

RoboTwin A simulation data generator and benchmark for robust bimanual robotic manipulation under domain randomization. See the RoboTwin 2.0 paper.

FAST / BEAST Discrete action-tokenization methods that turn continuous robot actions into token sequences, making action learning more compatible with VLM-style training. See the FAST paper and BEAST paper.

VPP Video Prediction Policy: a WAM-style method that uses predictive visual representations from a video model to condition robot actions. See the VPP paper.

LAPA Latent Action Pretraining from Videos: a method for learning action-like latent variables from videos without ground-truth robot action labels. See the LAPA paper.

OOD Out-of-distribution: a task, object, environment, or instruction outside the examples used during training or demonstration.

FLOP / ZFLOP Floating-point operations measure training compute. 1 ZFLOP equals 1021 FLOPs.

H100 / GPU-hour H100 is a high-end NVIDIA training GPU. A GPU-hour means one GPU running for one hour, a rough unit for comparing training cost.

BF16 Brain floating point 16-bit: a lower-precision number format commonly used to train large neural networks efficiently.

I2V Image-to-video: a video-generation setup conditioned on an initial image or frame.

Background: two building blocks. A *visuomotor policy* maps current observations plus a goal or instruction to robot actions. A *world model* predicts future visual or latent states from the current state plus an action or goal abstraction. A WAM sits at the overlap: it leverages a pretrained video/world-model backbone as a prior and predicts both future states and robot actions.*Visuomotor policy: language instruction and current observation in, action sequence out.

World model: current world state plus an action abstraction in, future image or latent out.
World model: current world state plus an action abstraction in, future image or latent out.

World model: current world state plus an action abstraction in, future image or latent out.*

Introduction

Last year, my Scholar Inbox digest was dominated almost every day by new VLA papers. This changed in the last months, and a different keyword is coming up almost daily now too: WAM, short for World-Action Model. In October 2025, I wrote in my State of VLA post that WAMs were a small subfield within VLA research and far less popular than VLAs initialized from VLMs [60]. That has changed fast, and my wish to see more work in this direction has already become reality.

So what changed, and why now? Maybe it is because WAMs are the shiny new thing everyone wants to work on, or VLA authors ran out of new names for their own VLAs, since basically all “-VLA” names like “X-VLA” and “Ego-VLA” are already used. So now we can recycle them for the WAM area. But more likely it has something to do with VLM-based VLAs getting stuck. Modern VLAs benefited from massive vision-language pretraining, but they still hit a language-to-action grounding wall. The problem of mapping language and pixels into behavior still has to be learned from robot data. WAMs offer a different starting point. They use pretrained video or world-model backbones that already model how scene dynamics change under language conditioning. If that prior transfers to behavior generation, the remaining video-to-action gap may be smaller than learning language-to-action grounding directly.

But the ideas behind WAMs are not new. Early WAMs like UniPi [10] proposed essentially this approach back in 2023. So why did it take several years for the paradigm to enter the robot foundation model mainstream, and where does it actually stand today? This post takes a closer look at the modern WAM landscape to answer the central question:

Central question: Is this a real paradigm shift in research and industry, or just a short hype cycle? And if the recipe works so well, why did it take several years after early papers like UniPi for WAMs to become so popular?

My take: WAMs will become the second major recipe for robot foundation models, alongside VLM-based VLAs. The open questions are which formulation of them wins, and which parts of the model architecture and pipeline actually matter. It is likely that the winner is neither pure VLA nor pure WAM, but a hybrid of both.

This is my map of the modern WAM space: how to categorize and understand WAMs, what changed since the early models, and how current results compare to VLAs. For a broader survey, see the recent NTU survey “World Model for Robot Learning: A Comprehensive Survey” [57], which maps world models for robot learning across simulation, evaluation, navigation, and autonomous driving.

Table of contents

  • The Two Representation Bets for Generalist Policies
  • Why World-Action Models? Our Hypotheses

The Grounding Gap

  • Core Hypotheses for WAMs as Policy Representations
  • A Quick Experiment: Veo 3.1
  • Understanding Modern WAMs: Core Formulations

Paradigm: What the Model Predicts

Inverse Dynamics

  • Joint Prediction
  • Representation-Only
  • Action Integration: How Actions Enter the Model

Default Action Tokens

  • Action as Image
  • Latent Actions and Plans
  • Architecture
  • Why WAM Took Off Now
  • WAM Comparison
  • Practical Considerations

The Cost of the Video Prior

  • Inference Speed
  • Why the Modern VLA Baseline Still Matters
  • Are the Two Representation Roads Actually One?

A Fourth Path: Robotics-First Foundation Models

  • Closing Thoughts
  • Sources

The two representation bets for generalist policies

*Figure 1. The two current bets for generalist manipulation policies: VLM-based VLAs vs video-backbone WAMs.*

The field currently has two major representation bets for robot foundation models in both research and industry. Many teams are building on the traditional VLA recipe established by Pi-0 [2] and later refined by Pi-0.5 [4], using VLM backbones as the starting point for policy learning. This VLM-backbone recipe appears in public work from teams including NVIDIA GR00T [5], Xiaomi Robotics [27], Being-H0.5 [28], and others.

More recently, a different paradigm has emerged: using pretrained video backbones as an alternative path toward generalist manipulation. Public examples now span NVIDIA’s DreamZero [8] and Cosmos Policy [13], Ant Group’s LingBot-VA [9], Rhoda AI’s DVA [40], Sereact’s Cortex 2.0 [45], and Mimic Robotics with mimic-video [14]. At the same time, many university labs and open research groups are also pushing the frontier with new ideas, including Video Prediction Policy [24], Unified Video Action Model [39], and Fast-WAM [23]. We discuss these in more detail below.

The choice of backbone impacts the full training and evaluation pipeline, from training recipe and data mixture to inference optimizations. Given the cost of running these models at scale, most teams will likely have to prioritize one direction (VLA or WAM) first rather than fully pursuing both in parallel. Which path proves out, or whether the two converge, is still open. Which one would you bet on today? In the following sections, we dive deeper into both sides of this decision.

Why World-Action Models? Our hypotheses

Before we dive deeper into current models, let’s first review why WAMs are attractive as an alternative to VLM-based VLAs. It also helps to first place WAMs inside the broader landscape of world models in robotics.

The grounding gap

To understand why WAMs are attractive, it helps to understand the core challenge of “classical” VLAs built on VLM backbones. The motivation for the first VLAs was to leverage the internet-scale knowledge of VLMs for robotics. VLMs are trained on massive amounts of vision-text data and show notable zero-shot performance on many vision tasks. The VLA recipe then adapts these pretrained representations for action generation.

However, there is a major domain gap between VLM pretraining and embodied manipulation. Several VLA papers either observe degradation of pretrained VLM capabilities or design around it, particularly when the action-learning objective diverges sharply from the original VLM objective. VLM2VLA frames this directly as catastrophic forgetting during the VLM-to-VLA transition [55]. Knowledge Insulation reports similar findings and makes the concern architectural: it isolates the gradients of the flow-matching action expert from the VLM backbone to preserve pretrained language/vision knowledge, improving training convergence, task performance, and language following [20]. Recent solutions like VLM co-training and discrete action tokenizers have helped, but the core challenge remains: grounding language into physical action from limited robot data. We cover these solutions in the modern VLA baseline section below.

This naturally raises the question: what if we started from a backbone that already represents how language maps to visual change in the world?

Core hypotheses for WAMs as policy representations

The core idea is simple: instead of using a VLM backbone to jump-start imitation learning, use a pretrained video backbone. Current video models are trained on large video corpora and learn spatiotemporal representations of how visual scenes evolve. Crucially, current video models are often *text-conditioned*: they are trained to generate videos from precise language descriptions, sometimes with a reference frame and sometimes from text alone. Many of these videos contain intentional behavior: hands reaching, tools moving, objects being manipulated, and scenes changing because someone or something acted. That makes video backbones attractive as a model prior for generalist manipulation. Before seeing any robot actions, the backbone already encodes useful links between language, visual change, and plausible object interactions. The Veo 3.1 demonstration below is a quick illustration.

I would treat the next three points as hypotheses, not conclusions. They are recurring claims across papers, discussions with peers, and my own read of the field, supported by qualitative intuition, simulation evidence, and a few early real-world signals, but not by clean matched comparisons yet:

  • Predicting future world changes correlates with generating the necessary actions. Inverse dynamics prediction is often easier than pure action generation [26]. If the desired outcome is known, inferring the action that produced it is usually simpler than predicting the action directly from the instruction and current observation. Pi-0.7’s visual-subgoal results point in the same direction: when the policy is given a desired future image, action prediction becomes more direct and training converges faster [43].
  • Video pretraining provides grounding between language and physical change. Video models learn to map text descriptions to visual outcomes. If this transfers to robotics, it could reduce the amount of grounding that has to be learned from robot demonstrations alone.
  • Video data regularizes robot policies. Robot datasets are small relative to web-scale video. Either through pretraining on video first or through co-training on video alongside robot data, the broader visual prior can reduce overfitting; the benefit depends on the dataset, objective, and architecture. DreamZero [8] and Fast-WAM [23] both show that, during robot fine-tuning, WAMs perform best when action learning is co-trained with a video-prediction objective.

A quick experiment: how much does a frontier video model already “understand” about robot manipulation?

How much do modern video models already capture before any robotics-specific action head is added? We ran a simple experiment with Google’s Veo 3.1, a frontier video generation model. Given a single context frame from an original RoboArena rollout of a toaster task in the DROID setup, we prompted Veo to push the toaster lever (the *reference task*, matching the original DROID demonstration) and then pick up an orange sitting to the left (the *composed extension*, beyond the demonstration). This video is very unlikely to be part of Veo’s pretraining data, but we cannot verify the training set directly; treat this as a qualitative check of the prior, not a controlled probe of training-set membership. One-shot attempt, no prompt optimization.

The prompt used was:

“Given this initial frame, generate a video of the robot arm pushing the toaster lever. After finishing that task, the robot should pick up the orange on the left side of the toaster and stop after it has picked it up.”

Context frame and ground-truth rollout:

Figure 3. Context frame from a RoboArena toaster task in the DROID setup.
Figure 3. Context frame from a RoboArena toaster task in the DROID setup.

<img src="https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever.webp" decoding="async" data-src="https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever.webp" alt="Figure 6. Ground-truth rollout: robot pushes the toaster lever." width="1585" height="392" data-srcset="https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever.webp 1585w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-179x44.png 179w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-300x74.png 300w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-768x190.png 768w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-625x155.png 625w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-1536x380.png 1536w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-645x160.png 645w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-500x124.png 500w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-toaster-lever-160x40.png 160w, https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/Figure-6.-Ground-truth-rollout-robot-pushes-the-

この記事をシェア

関連記事

TLDR AI★42026年5月29日 09:00

マルチエージェント・ワールドモデル(3 分で読める)

TLDR AI が、複数のエージェントが協調して環境をシミュレーションする「マルチエージェント・ワールドモデル」に関する解説記事を公開しました。

MarkTechPost★42026年6月17日 01:51

Qwen ロボットスイートの紹介:VLA 操作、動画世界モデル、ナビゲーションの 3 つの身体型 AI モデル

Qwen チームは、Qwen3.5-4B を基盤とする操作モデル「Qwen-RobotManip」、60 レイヤーの MMDiT を備えた動画世界モデル「Qwen-RobotWorld」、および Qwen3-VL に基づくナビゲーションモデル「Qwen-RobotNav」からなる 3 つの身体型 AI モデルをリリースした。

Ars Technica AI★42026年6月13日 03:45

ジェフ・ベゾスの新スタートアップ「プロメテウス」の事業内容

ジェフ・ベゾスが共同 CEO を務める新スタートアップ「プロメテウス」は、大規模言語モデルなどの深層学習技術をロボットや製造業に応用する「物理 AI」に注力しており、新たな資金調達によりその詳細が明らかになった。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む