AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月17日 01:51·約20分で読める

Qwen ロボットスイートの紹介:VLA 操作、動画世界モデル、ナビゲーションの 3 つの身体型 AI モデル

#Vision-Language-Action#Embodied AI#World Model#Qwen#Robotics
TL;DR

Qwen チームは、マニピュレーション、世界モデル化、ナビゲーションの 3 つの課題に対応する「Qwen-RobotSuite」と呼ばれる 3 つの新しいエンボディド AI モデルを公開し、ロボットデータの断片化問題を解決する画期的なアプローチを示した。

AI深層分析2026年6月17日 02:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

3 つの専用モデルによる包括的ソリューション

Qwen-RobotManip(操作)、Qwen-RobotWorld(世界モデル)、Qwen-RobotNav(ナビゲーション)の 3 モデルからなるスイートが公開され、各タスクに特化したバックボーンと出力形式を採用している。

2

ロボット操作データの断片化問題への対応

異なるロボットの動作データ形式を統一する「統一アライメントフレームワーク」を導入し、80 次元の標準ベクトル表現とカメラ座標系での差分パラメータ化により、スケーラビリティを確保している。

3

言語による統一インターフェースの実現

Qwen-RobotWorld は言語条件付きの動画世界モデルとして機能し、複雑な操作を言語で記述するだけで未来の動画を予測・生成できる統合されたアクションインターフェースを提供する。

4

コンテキスト学習による適応的ポリシー

Qwen-RobotManip は実行履歴を読み込むことで、パラメータ更新なしにデプロイ時にロボットの種類や環境に適応する「in-context policy adaptation」機構を搭載している。

5

言語による汎用的な操作インターフェース

Qwen-RobotWorld は自然言語を統一されたアクションインターフェースとして使用し、Franka やヒューマノイドなど異なるロボット形態に依存しない汎用性を実現します。

6

双ストリーム MMDiT アーキテクチャ

このモデルは現在の観測と自然言語指示に基づいて視覚的な未来軌道を予測する、世界モデルとして機能する双ストリームの MMDiT 構造を採用しています。

7

OoD ベンチマークでの圧倒的パフォーマンス

RobotManip は既存の SOTA を大幅に上回る OOD(分布外)設定で高い性能を発揮し、特にクロスエンボディメント転送において 3.2 倍の向上を達成しました。

影響分析・編集コメントを表示

影響分析

この発表は、ロボティクス分野における「データ断片化」という長年の課題に対し、Qwen の強力なビジョン・言語バックボーンを活用して体系的に解決策を提示した点で極めて重要です。特に、異なるハードウェア間でのポリシー転送を容易にするアライメント手法と、言語による統一インターフェースの実現は、汎用ロボットの開発スピードを加速させる可能性を秘めています。

編集コメント

単一の万能モデルではなく、タスクごとに最適化されたスイートとして公開した戦略は、実用性を高める上で非常に賢明なアプローチです。特にデータ形式の統一に関する技術的詳細は、実世界でのロボット導入における最大の障壁である「スケーラビリティ」への直接的な回答と言えます。

Qwen チームは、Qwen-Robot-Suite と名付けられた 3 つの具身 AI モデルをリリースしました。これらは Qwen-RobotManip、Qwen-RobotWorld、Qwen-RobotNav の 3 つです。それぞれが Qwen ビジョン言語バックボーンの上に構築され、異なるロボット工学の問題を対象としています。

Qwen-RobotManip は、Qwen3.5-4B を基盤とした操作のためのビジョン・ランゲージ・アクション(Vision-Language-Action: VLA)モデルです。Qwen-RobotWorld は、60 層の MMDiT と凍結された Qwen2.5-VL エンコーダーを備えた言語条件付きビデオ世界モデルです。Qwen-RobotNav は Qwen3-VL を基盤としたナビゲーションモデルで、2B、4B、8B のサイズが利用可能です。

Qwen-Robot-Suite

Qwen-Robot-Suite は単一のモデルではありません。これは 3 つの独立したファウンデーションモデルからなるスイートです。そのうち RobotManip と RobotNav の 2 つは、公開されている GitHub リポジトリを備えています。

ロボット工学データはハードウェアやタスク間で断片化されています。異なるロボットが互換性のない観測およびアクション形式を使用しています。あるアームで訓練されたポリシーが、別のアームに転用されることは稀です。

3 つの研究報告書は、この断片化に対してそれぞれ異なる方法で取り組んでいます。RobotManip はアクション表現を整合させることで操作データのスケールアップを図ります。RobotWorld は言語をビデオ予測のための統一されたアクションインターフェースとして使用します。RobotNav はナビゲーションタスクのために制御可能な観測インターフェースを公開しています。

3 つのリリースにおける核心的な違いは以下の通りです:

モデル 問題 バックボーン 出力

Qwen-RobotManip ロボット操作 Qwen3.5-4B (Qwen-VL) 連続的なロボットアクション

Qwen-RobotWorld 具身世界モデリング 凍結された Qwen2.5-VL 予測された未来のビデオ

Qwen-RobotNav モバイルナビゲーション Qwen3-VL (2B/4B/8B) 航路点軌道

Qwen-RobotManip: アライメントがスケーラビリティを解放する

Qwen-RobotManip は、Vision-Language-Action(VLA)[視覚・言語・行動] のファウンデーションモデルです。これは Qwen-VL を基盤としており、連続的なロボットの動作を予測します。

VLA モデルはカメラ映像と言語指示を入力とし、低レベルのロボット動作を出力します。課題となるのは、マニピュレーションデータが本質的に異種混合である点です。

異なるロボットは、互換性のない形式で状態と動作を記録しています。デモが不一致した表現形式で到着した場合、データをスケールすると干渉が生じます。RobotManip は、統一されたアライメントフレームワークによってこれを解決します。

統一アライメント・フレームワーク

このフレームワークには 3 つの補完的なメカニズムがあります。第一に、標準化された状態・動作表現です。これは、次元ごとのバイナリマスクを持つ 80 次元ベクトルです。

このベクトルは、2 つの 29 次元のアーム別ブロックと、22 の予約済み次元で構成されています。各ブロックには、関節位置、エンドエフェクタの姿勢、グリッパの状態、そして器用な手の関節が格納されます。ロボットは、自身が持つ次元のみを埋めます。

第二に、カメラ座標系におけるデルタポーズパラメータ化です。エンドエフェクタの動作は、カメラ座標系における差分として表現されます。これにより、視覚的に類似した運動が、異なる実装体間でも数値的に近接したものとなります。

第三に、コンテキスト内でのポリシー適応メカニズムです。これは、直近の実行履歴を読み取り、暗黙的な実装体の識別子として機能させます。このポリシーは、パラメータの更新なしにデプロイ時に動作を調整します。

これと並行して、双ストリーム共同トレーニング戦略が実行されます。これは操作データとビジョン言語ストリームを同時に最適化し、バックボーンの知覚や推論能力の劣化を防ぎます。

データエンジン

RobotManip は約 38,100 時間の操作データを構築しています。使用されているのはオープンソースのデータセットと人間の動画のみで、独自データの収集は行われていません。

この規模の大部分は、人間からロボットへの合成パイプラインによって生成されます。これは主観視点の手の実演をロボットの軌道に変換するものです。このパイプラインは 15 のロボットプラットフォーム全体でレンダリングされます。

この合成プロセスだけで約 24,808 時間のデモンストレーションが得られます。主観視点のソースデータは約 1,933 時間です。オープンソースのロボットデータセットからは 11,000 時間以上が貢献されています。

パイプラインでは、アライメント(整合)を動作面と視覚面に分離しています。動作アライメントは手のキーポイントをグリッパー姿勢へリターゲットします。一方、視覚アライメントには SAM3 マスキング、ProPainter インペインティング、および MuJoCo 逆運動学が使用されます。

その後、5 つの段階からなるキュレーションパイプラインが統合されたコーパスをフィルタリングします。これにより、急激な変化、時間的な不整合、極端な値を検出します。あるチェックでは、サブセット内のエピソードの 81% が状態と動作のアライメントに失敗していることが判明しました。

ベンチマーク結果

研究報告書は、標準的なベンチマークが一般化能力を測定できないと主張しています。ロボット事前学習を行わないモデルでも、分布内テストでは事前学習済みモデルと同等の性能を示します。そのため RobotManip は、分布外(OOD: Out-of-Distribution)設定に焦点を当てています。

ベンチマーク (OOD) 前 SOTA (π0.5) Qwen-RobotManip

LIBERO-Plus 84.4 91.4

RoboTwin-C2R Hard 47.9 69.4

EBench27.145.6

RoboCasa36516.935.9

RoboTwin-IF49.672.2

報告されている最大のギャップは、異なる実装体間での転移(cross-embodiment transfer)におけるものです。RobotManip はカメラフレームベースの EEF 動作を用いて 23.9% を達成しました。これは、π0.5 が達成した 7.5% の 3.2 倍に相当します。

このモデルはまた、RoboChallenge Table30-v1 の一般化トラックにおいて第 1 位を獲得しました。これは既存の最良結果に対して相対的に 20% の改善を示すものです。実ロボットによる検証には、AgileX ALOHA、Franka、UR、および ARX プラットフォームが含まれています。

(function(){

var frame=document.getElementById("qwen-robotmanip-canonical-vector-frame");

window.addEventListener("message",function(e){

if(e&&e.data&&e.data.type==="rmcv-resize"&&typeof e.data.height==="number"){

frame.style.height=Math.max(200,Math.min(4000,e.data.height))+"px";

}

});

})();

Qwen-RobotWorld: 言語を万能な動作インターフェースとして

Qwen-RobotWorld は、言語条件付きのビデオ世界モデルです。これは現在の観測から将来の視覚的軌道を予測します。自然言語は統一された動作インターフェースとして機能します。

世界モデルは環境のダイナミクスを学習します。現在の状態と動作が与えられた場合、次の状態を予測します。RobotWorld は状態をビデオフレームとして、動作をテキストとして表現します。

これは重要です。なぜなら言語は実装体に依存しない(embodiment-agnostic)からです。一つの指示には、動作シーケンス、ゴール、および制約がエンコードされています。これは Franka グリッパー、Aloha 二腕システム、あるいはヒューマノイドなど、あらゆるプラットフォームで機能します。

ダブルストリーム MMDiT アーキテクチャ(MMDiT: Multi-Modal Diffusion Transformer)

このモデルは、60層のダブルストリーム・マルチモーダル拡散トランスフォーマー(Multimodal Diffusion Transformer)を採用しています。理解ストリームは、凍結された Qwen2.5-VL エンコーダーの特徴量を処理します。一方、生成ストリームはビデオ VAE の潜在変数(video-VAE latents)を処理します。

両ストリームは、各層における結合アテンション(joint attention)を通じて相互作用します。MLLM をアクションエンコーダーとして用いることには 2 つの利点があります。それは、構成的な指示を解析し、物理的に妥当な遷移に制約を加えることです。

MMDiT は 200 億パラメータを持ちます。VAE には Wan-VAE アーキテクチャが採用されています。コンテキスト長は最大 48,360 のビデオトークンをサポートします。

Scene2Robot メカニズムはこのバックボーンを再利用し、異種エンボディメント間の合成を実現します。これは、シーン、ロボット参照、生成セグメントを同時に処理する仕組みです。これにより、ロボット固有のプロンプトなしで人間からロボットへの動画転送が可能になります。

エンボディド・ワールド・ナレッジ・データセット(Embodied World Knowledge Dataset)

トレーニングには、エンボディド・ワールド・ナレッジ(EWK)データセットが使用されます。このデータセットには約 860 万のビデオ・テキストペアが含まれており、2 億 8,600 万フレーム以上の観測フレームにわたります。

コーパスは、4 つのエンボディド領域と一般的な動画を含んでいます。マニピュレーション(Manipulation)分野では、20 種類以上の形態(morphologies)にまたがる約 590 万サンプルが提供されています。残りは、運転、ナビゲーション、人間からロボットへの転送で構成されます。

アクション・言語マッピングフレームワークがすべての標準化を行います。これは、20 種類以上のエンボディメントタイプと 500 種類以上のアクションカテゴリを言語に変換するものです。階層的な 5 レイヤーのアノテーションパイプラインによってキャプションが生成されます。

ベンチマーク結果

RobotWorld は 4 つの確立されたベンチマークで評価されました。そのうち 2 つで総合 1 位を獲得しています:

ベンチマーク結果ランキング

EWMBench4.601 総合 1 位

DreamGen Bench4.9521 総合 1 位

WorldModelBench8.99 オープンソース 1 位(総合 3 位)

PBench0.804 オープンソース 1 位

EWMBench では、HSD が 0.566 と運動忠実度で首位に立ちます。これは次点との比較で 33% の向上です。シーン一貫性は 0.914 に達しています。

WorldModelBench では、ニュートンの法則、質量保存の法則、流体力学、重力という 4 つの物理遵守カテゴリにおいてすべて 1.00 のスコアを記録しました。貫通スコアは 0.94、指示従順性は 3.0 中 2.33 です。

(function(){

var frame=document.getElementById("qwen-robotworld-language-interface-frame");

window.addEventListener("message",function(e){

if(e&&e.data&&e.data.type==="rww-resize"&&typeof e.data.height==="number"){

frame.style.height=Math.max(200,Math.min(4000,e.data.height))+"px";

}

});

})();

Qwen-RobotNav: ナビゲーションのための制御可能インターフェース

Qwen-RobotNav は、Qwen3-VL を基盤としたスケーラブルなナビゲーションモデルです。このモデルは、マルチタスクナビゲーションを観察文脈モデリングとして再定義しています。外部制御用のパラメータ化されたインターフェースを公開しています。

ナビゲーションには多くのタスクファミリーが含まれます。指示の従順性、ポイントゴールナビゲーション、物体検索、ターゲット追跡、運転などはすべて異なります。それぞれが視覚ストリームを消費するための異なる戦略を必要とします。

指示の従順性は、ランドマークを再参照するために長い記憶を必要とします。一方、ターゲット追跡には最新のフレームのみが必要です。すべてのタスクにうまく機能する固定された文脈戦略は存在しません。

パラメータ化されたインターフェース

RobotNav はすべてのタスクをウェイポイント軌道予測として定式化します。8 つのウェイポイントを予測し、それぞれに 2D 位置と進行方向を含めます。これらは軽量な 4 レイヤーの MLP(多層パーセプトロン)ヘッドによってバックボーンから生成されます。

このインターフェースには 2 つの設定次元があります。タスクモードは VLN(バーチャル・リアリティ・ナビゲーション)、PointNav、ObjNav、Tracking にわたるナビゲーション行動を選択します。観測パラメータは視覚履歴がどのように符号化されるかを制御します。

これらの観測制御には、ビジュアルトークンの予算と時間的減衰が含まれます。また、カメラごとの重要度重みも含まれています。すべてのパラメータに対するトレーニング時のランダム化により、堅牢性が確保されます。

カメラの識別子と時間的順序は自然言語タグを使用します。これにより、Qwen3-VL に対してアーキテクチャの変更をゼロで行うことが可能になります。新しいプラットフォームをサポートするには、新しいプロンプトテンプレートを用意するだけで十分です。

エージェントシステム

このインターフェースにより、RobotNav はエージェントシステムの構築ブロックとなります。上位層のプランナーは長期目標をサブゴールに分解します。Qwen3.6-Plus がこのシステムにおけるプランナーとして機能します。

プランナーはエピソード中盤で RobotNav のタスクモードを再構成します。RobotNav は反応的な実行ユニットとして機能します。2 つの階層は自然言語を通じてのみ通信します。

2 段階のメモリが長期推論をサポートします。単一エピソードのメモリは各ロールアウトを要約し、クロスエピソードのメモリは探索領域などの永続的な結論を蓄積します。

ベンチマーク結果

RobotNav は 1560 万サンプルでトレーニングされました。ナビゲーション軌道データはこの 85% を占め、視覚言語推論データが残り 15% を埋めています。

ベンチマークメトリック結果

VLN-CE RxR (Val-Unseen) 成功率 76.5%

VLN-CE R2R (Val-Unseen) 成功率 72.1%

EVT-Bench 追跡率 90.0%

HM3Dv2 (ObjectNav) 成功率 75.6%

NAVSIM PDM 91.4

このエージェントシステムは、具身型質問応答(Embodied Question Answering)において新たな最先端を達成しました。HM-EQA では既存の最良手法よりも 10.8% 向上し、EXPRESS-Bench でも 15.4% の改善を達成しながら、必要なナビゲーションステップ数は 77% 削減されています。

このレポートは、パラメータ数が 2B から 8B に増加するにつれて性能が向上することを示しています。統合的なマルチタスク学習により、共有された空間計画の基盤(spatial-planning substrate)が開発されました。レポートでは、これがタスクファミリー間でも転移可能であると述べています。

⟦CODE_0⟧

使用例

各モデルは具体的な展開シナリオに対応しています。以下の例は、レポートで支持された結果と説明のための枠組みを組み合わせたものです。

RobotManip を用いた新ハードウェアへの少数ショット展開:あるチームが Franka アームと数件のデモンストレーションデータを持っています。彼らは自社の作業環境向けに RobotManip をファインチューニングします。レポートによると、事前学習済みモデルはゼロから訓練する場合よりも、雑多な状況や未見の状態においてより大きな効果を示すことがわかります。

⟦CODE_1⟧

RobotManip はクロスエンボディメントのスキル転送を目的としています:ポリシーは 6K の CobotMagic デモと 130 の ARX デモで共同ファインチューニングされます。その後、ターゲットタスクのデモをゼロとして、4 つの新しい ARX タスクでテストされます。この研究では成功率が 55.0% と報告されており、これは最も優れたアブレーション変体の 4 倍以上です。

RobotWorld は合成データエンジンとして機能します:VLA(Vision-Language-Action)ポリシーには、物理的な収集では対応しきれないほどのトレーニングデータが必要です。研究チームは、合成データの生成を 3 つの応用方向の一つとして挙げています。RobotWorld は、新しい言語指示に対して動画データを生成できます。

RobotWorld はポリシー評価環境としても機能します:研究では、ポリシー評価が 2 つ目の応用方向として挙げられています。実際のハードウェアを使用する前に、生成された軌道に対してポリシーを実行することが可能です。これはベンチマーク済みの結果というよりも、一つの方向性として提示されています。

エージェントシステム内における RobotNav:上位層のプランナーは、長期ホライズンの目標をサブゴールに分解します。そして、異なるタスクモードとコンテキスト設定を持つナビゲーション呼び出しをディスパッチします。研究チームのエージェントシステムは、HM-EQA において最良の先行 EQA メソッドよりも 10.8% 向上しています。

自動運転のための RobotNav:同じモデルがポイントゴール駆動を一つのタスクモードとして処理します。NAVSIM において 91.4 の PDMS を達成しました。デフォルトでは、前方カメラが最も高いトークン重みを受け取ります。

比較表:3 つのモデル

以下の表は技術的な詳細を統合したものです。適切なモデルを選択するためのリファレンスとなります。

属性 RobotManip RobotWorld RobotNav

タスクタイプ マニピュレーション (VLA) 動画世界モデル ナビゲーション

バックボーン Qwen3.5-4B、凍結された Qwen2.5-VL、Qwen3-VL

アクションインターフェース カメラフレーム、EEF/ジョイント、自然言語、ウェイポイント軌道

トレーニングデータ 約 38,100 時間、860 万のビデオ・テキストペア、1,560 万件のサンプル

主要アーキテクチャ DiT フローマッチングヘッド、60 レイヤーのダブルストリーム MMDiT、MLP アクションヘッド

ヘッドライン結果 RoboChallenge Table30-v1 で第 1 位、EWMBench と DreamGen で第 1 位、VLN-CE RxR で 76.5% の SR(成功率)

出力 連続アクション、予測ビデオ、8 つのウェイポイント (x, y, θ)

公開リポジトリ はい (GitHub)、ブログのみ、はい (GitHub)

3 つの研究報告書は統合されたシステムを提示するものではありません。これらを併せて読むと、補完的なレイヤーを網羅しています。RobotWorld はシミュレーションとデータ生成を担当し、RobotManip はマニピュレーション(操作)を、RobotNav はモビリティ(移動)を担当します。

実装ノート:キャノニカルアクションベクトル

RobotManip のアクション表現は、コードの観点から理解する価値があります。これは異なるロボットが 1 つのモデルを共有可能にするメカニズムです。以下に、マスキングのアイデアを示す簡略化された図解を示します。

コピー コード コピー済み ブラウザを変更してください

RobotManip の 80 次元キャノニカルベクトルの概念的スケッチ。

アームあたり 2 つの 29 次元ブロック + 22 の予約済み次元 = 80。

これは図解であり、公式の実装ではありません。

CANONICAL_DIM = 80

レポートに基づくアームごとのセマンティックグループ:

ARM_GROUPS = {

"joints": 7, # ジョイント位置

"eef_pose": 9, # 3D 位置 + 6D 回転

"gripper": 1, # パラレルグリッパー幅

"hand": 12, # デキストラスハンドジョイント

}

ARM_BLOCK = sum(ARM_GROUPS.values()) # 29

def build_masked_action(populated_groups, arms):

"""アクションベクトルと次元ごとのバイナリマスクを構築する。

populated_groups: このロボットが使用するグループ名のセット。

arms: 1 はシングルアーム、2 はデュアルアーム。

活性化された次元のみが監督信号を受け取り、残りはマスクされる。

"""

action = [0.0] * CANONICAL_DIM

mask = [0] * CANONICAL_DIM

idx = 0

for _ in range(arms):

for group, size in ARM_GROUPS.items():

if group in populated_groups:

for d in range(idx, idx + size):

mask[d] = 1 # グラデーションはここでのみ流れる

idx += size

if arms == 1:

idx = ARM_BLOCK # 2 つ目のブロックへスキップ

return action, mask

7-DOF(自由度)のシングルアームグリッパーは、1 つのアームの関節、eef_pose(エンドエフェクタ姿勢)、およびグリッパーを埋める。

_, mask = build_masked_action({"joints", "eef_pose", "gripper"}, arms=1)

print(sum(mask)) # -> 17 の活性化次元;残りはゼロのままマスクされる

次元ごとのバイナリマスクが鍵となるアイデアです。これにより、グラデーションは意味的に活性化されたエントリのみを通過します。これによって、存在しない自由度に対する偽の監督信号を防ぎます。

同じマスキング原理はフローマッチング損失(flow-matching loss)にも現れます。各サンプルは、アクティブな次元の数に関わらず等しく寄与します。これにより、活性化されたスロットが多いロボットが最適化を支配することを防ぎます。

キーポイント

Qwen は 3 つのエンボディド AI モデル(RobotManip, RobotWorld, RobotNav)をリリースしました(Qwen-RobotSuite にグループ化されています)。

RobotManip はロボットデータを 1 つの 80 次元アクションベクトルに統合し、RoboChallenge Table30-v1 で第 1 位を獲得しました。

RobotWorld は自然言語をアクションインターフェースとして使用し、EWMBench および DreamGen Bench の総合で第 1 位となりました。

RobotNav は制御可能なトークン予算インターフェースを提供し、VLN-CE RxR で 76.5% の成功率(SR)を達成しました。

3 つのモデルのうち 2 つは公開された GitHub リポジトリとして提供されており、RobotWorld は研究論文として発表されています。

技術詳細と論文(Qwen-RobotManip, Qwen-RobotWorld, および Qwen-RobotNav)をご覧ください。また、Twitter でフォローすることもできますし、150 万人以上の ML サブレッドに参加することやニュースレターを購読することも忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加できます。

GitHub リポジトリの宣伝、Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご希望ですか?私たちに連絡してください。

「Meet Qwen-RobotSuite: Three Embodied AI Models for VLA Manipulation, Video World Modeling, and Navigation」という記事は、MarkTechPost で最初に公開されました。

原文を表示

The Qwen team has released three embodied AI models, grouped as Qwen-Robot-Suite. The three are Qwen-RobotManip, Qwen-RobotWorld, and Qwen-RobotNav. Each is built on a Qwen vision-language backbone and targets a different robotics problem.

Qwen-RobotManip is a Vision-Language-Action model for manipulation, built on Qwen3.5-4B. Qwen-RobotWorld is a language-conditioned video world model with a 60-layer MMDiT and a frozen Qwen2.5-VL encoder. Qwen-RobotNav is a navigation model built on Qwen3-VL, available at 2B, 4B, and 8B sizes.

Qwen-Robot-Suite

Qwen-Robot-Suite is not a single model. It is a suite of three independent foundation models. Two of them, RobotManip and RobotNav, ship with public GitHub repositories.

Robotics data is fragmented across hardware and tasks. Different robots use incompatible observation and action formats. A policy trained on one arm rarely transfers to another.

The three research reports address this fragmentation in different ways. RobotManip aligns action representations so manipulation data scales. RobotWorld uses language as a unified action interface for video prediction. RobotNav exposes a controllable observation interface for navigation tasks.

Here is the core split between the three releases:

ModelProblemBackboneOutput

Qwen-RobotManipRobotic manipulationQwen3.5-4B (Qwen-VL)Continuous robot actions

Qwen-RobotWorldEmbodied world modelingFrozen Qwen2.5-VLPredicted future video

Qwen-RobotNavMobile navigationQwen3-VL (2B/4B/8B)Waypoint trajectories

Qwen-RobotManip: Alignment Unlocks Scale for Manipulation

Qwen-RobotManip is a Vision-Language-Action (VLA) foundation model. It is built on Qwen-VL and predicts continuous robot actions.

A VLA model takes camera views and a language instruction. It then outputs low-level robot actions. The challenge is that manipulation data is heterogeneous by nature.

Different robots record states and actions in incompatible formats. When demonstrations arrive with mismatched representations, scaling data produces interference. RobotManip solves this with a unified alignment framework.

The Unified Alignment Framework

The framework has three complementary mechanisms. First is a canonical state-action representation. It is an 80-dimensional vector with per-dimension binary masking.

This vector holds two 29-dimensional per-arm blocks plus 22 reserved dimensions. Each block stores joint positions, end-effector pose, gripper state, and dexterous hand joints. Robots populate only the dimensions they have.

Second is a camera-frame delta pose parameterization. End-effector actions are expressed as deltas in the camera frame. This makes visually similar motions numerically proximate across embodiments.

Third is an in-context policy adaptation mechanism. It reads recent execution history as an implicit embodiment identifier. The policy adjusts behavior at deployment time without parameter updates.

A dual-stream co-training strategy runs alongside this. It jointly optimizes manipulation data and a vision-language stream. This prevents the backbone’s perception and reasoning from eroding.

The Data Engine

RobotManip assembles roughly 38,100 hours of manipulation data. It uses only open-source datasets and human videos. No proprietary data collection was used.

A human-to-robot synthesis pipeline produces most of this scale. It converts egocentric hand demonstrations into robot trajectories. The pipeline renders across 15 robot platforms.

This synthesis alone yields about 24,808 hours of demonstrations. The egocentric source data is about 1,933 hours. Open-source robot datasets contribute over 11,000 hours.

The pipeline separates action alignment from visual alignment. Action alignment retargets hand keypoints to gripper poses. Visual alignment uses SAM3 masking, ProPainter inpainting, and MuJoCo inverse kinematics.

A five-stage curation pipeline then filters the combined corpus. It catches sudden changes, temporal misalignment, and extreme values. One check found 81% of episodes in a subset failed state-action alignment.

Benchmark Results

The research report argues standard benchmarks fail to measure generalization. Models without robot pretraining match pretrained ones on in-distribution tests. RobotManip therefore focuses on out-of-distribution (OOD) settings.

Benchmark (OOD)Prev. SOTA (π0.5)Qwen-RobotManip

LIBERO-Plus84.491.4

RoboTwin-C2R Hard47.969.4

EBench27.145.6

RoboCasa36516.935.9

RoboTwin-IF49.672.2

The largest reported gap is on cross-embodiment transfer. RobotManip reaches 23.9% using camera-frame EEF actions. That is 3.2× the 7.5% achieved by π0.5.

The model also ranks 1st on the RoboChallenge Table30-v1 generalist track. It scores a 20% relative improvement over the prior best. Real-robot validation covers AgileX ALOHA, Franka, UR, and ARX platforms.

(function(){

var frame=document.getElementById("qwen-robotmanip-canonical-vector-frame");

window.addEventListener("message",function(e){

if(e&&e.data&&e.data.type==="rmcv-resize"&&typeof e.data.height==="number"){

frame.style.height=Math.max(200,Math.min(4000,e.data.height))+"px";

}

});

})();

Qwen-RobotWorld: Language as a Universal Action Interface

Qwen-RobotWorld is a language-conditioned video world model. It predicts future visual trajectories from a current observation. Natural language serves as the unified action interface.

A world model learns environment dynamics. Given a current state and an action, it predicts the next state. RobotWorld represents states as video frames and actions as text.

This is important because language is embodiment-agnostic. One instruction encodes the action sequence, goal, and constraints. It works across a Franka gripper, an Aloha dual-arm system, or a humanoid.

The Double-Stream MMDiT Architecture

The model uses a 60-layer double-stream Multimodal Diffusion Transformer. An understanding stream processes a frozen Qwen2.5-VL encoder’s features. A generation stream processes video-VAE latents.

The two streams interact via joint attention at every layer. Using an MLLM as the action encoder gives two advantages. It parses compositional instructions and constrains physically plausible transitions.

The MMDiT has 20B parameters. The VAE adopts the Wan-VAE architecture. The context length supports up to 48,360 video tokens.

A Scene2Robot mechanism reuses this backbone for cross-embodiment synthesis. It processes scene, robot reference, and generation segments together. This enables human-to-robot video transfer without robot-specific prompting.

The Embodied World Knowledge Dataset

Training uses the Embodied World Knowledge (EWK) dataset. It contains roughly 8.6M video-text pairs. That spans over 200M observation frames.

The corpus covers four embodied domains plus general video. Manipulation provides about 5.9M samples across 20+ morphologies. Driving, navigation, and human-to-robot transfer fill out the rest.

An action-language mapping framework standardizes everything. It converts 20+ embodiment types and 500+ action categories into language. A hierarchical five-layer annotation pipeline produces the captions.

Benchmark Results

RobotWorld was evaluated on four established benchmarks. It ranks 1st overall on two of them:

BenchmarkResultRanking

EWMBench4.601st overall

DreamGen Bench4.9521st overall

WorldModelBench8.991st open-source (3rd overall)

PBench0.8041st open-source

On EWMBench it leads motion fidelity with an HSD of 0.566. That is a 33% gain over the runner-up. Scene consistency reaches 0.914.

On WorldModelBench it scores 1.00 on four physics-adherence categories. These are Newton’s laws, mass conservation, fluid dynamics, and gravity. Penetration scores 0.94, and instruction following scores 2.33 out of 3.0.

(function(){

var frame=document.getElementById("qwen-robotworld-language-interface-frame");

window.addEventListener("message",function(e){

if(e&&e.data&&e.data.type==="rww-resize"&&typeof e.data.height==="number"){

frame.style.height=Math.max(200,Math.min(4000,e.data.height))+"px";

}

});

})();

Qwen-RobotNav: A Controllable Interface for Navigation

Qwen-RobotNav is a scalable navigation model built on Qwen3-VL. It reframes multi-task navigation as observation context modeling. The model exposes a parameterized interface for external control.

Navigation spans many task families. Instruction following, point-goal navigation, object search, target tracking, and driving all differ. Each demands a different strategy for consuming the visual stream.

Instruction following needs long memory to re-reference landmarks. Target tracking needs only the most recent frames. No fixed context strategy serves all tasks well.

The Parameterized Interface

RobotNav formulates all tasks as waypoint trajectory prediction. It predicts 8 waypoints, each with a 2D position and heading. A lightweight 4-layer MLP head produces these from the backbone.

The interface has two configuration dimensions. Task modes select navigation behavior across VLN, PointNav, ObjNav, and Tracking. Observation parameters govern how visual history is encoded.

These observation controls include a visual token budget and temporal decay. They also include per-camera importance weights. Training-time randomization over all parameters ensures robustness.

Camera identity and temporal order use natural-language tags. This requires zero architectural modification to Qwen3-VL. Supporting a new platform needs only a new prompt template.

The Agentic System

The interface makes RobotNav a building block for agentic systems. An upper-tier planner decomposes long-horizon goals into sub-goals. Qwen3.6-Plus serves as this planner in the system.

The planner reconfigures RobotNav’s task mode mid-episode. RobotNav serves as the reactive executor. The two tiers communicate exclusively through natural language.

A two-level memory supports long-horizon reasoning. Single-episode memory summarizes each rollout. Cross-episode memory accumulates durable conclusions like searched regions.

Benchmark Results

RobotNav was trained on 15.6M samples. Navigation trajectory data forms 85% of this. Vision-language reasoning data fills the remaining 15%.

BenchmarkMetricResult

VLN-CE RxR (Val-Unseen)Success Rate76.5%

VLN-CE R2R (Val-Unseen)Success Rate72.1%

EVT-BenchTracking Rate90.0%

HM3Dv2 (ObjectNav)Success Rate75.6%

NAVSIMPDMS91.4

The agentic system sets new state-of-the-art on Embodied Question Answering. It improves over the best prior method by 10.8% on HM-EQA. It also improves by 15.4% on EXPRESS-Bench while requiring 77% fewer navigation steps.

The report shows performance improving from 2B to 8B parameters. Joint multi-task training develops a shared spatial-planning substrate. The report states this transfers across task families.

(function(){

var frame=document.getElementById("qwen-robotnav-token-allocation-frame");

window.addEventListener("message",function(e){

if(e&&e.data&&e.data.type==="rnv-resize"&&typeof e.data.height==="number"){

frame.style.height=Math.max(200,Math.min(4000,e.data.height))+"px";

}

});

})();

Use Cases with Examples

Each model maps to concrete deployment scenarios. The examples below combine report-supported results with illustrative framing.

RobotManip for few-shot deployment on new hardware: A team has a Franka arm and a handful of demonstrations. They fine-tune RobotManip on their own workspace. The report shows the pretrained prior helps more on clutter and unseen states than training from scratch.

RobotManip for cross-embodiment skill transfer: A policy is jointly fine-tuned on 6K CobotMagic and 130 ARX demonstrations. It is then tested on four novel ARX tasks with zero target-task demonstrations. The research reports 55.0% success, over 4× the best ablated variant.

RobotWorld as a synthetic data engine: A VLA policy needs more training data than physical collection allows. The research team lists synthetic data generation as one of three application directions. RobotWorld can generate video for new language instructions.

RobotWorld as a policy evaluation environment: The research lists policy evaluation as a second application direction. A policy can be run against generated trajectories before real hardware. This is presented as a direction, not a benchmarked result.

RobotNav inside an agentic system: An upper-tier planner decomposes a long-horizon goal into sub-goals. It dispatches navigation calls with different task modes and context settings. The research team’s agentic system improves over the best prior EQA method by 10.8% on HM-EQA.

RobotNav for autonomous driving. The same model handles point-goal driving as one task mode. It reaches 91.4 PDMS on NAVSIM. The forward camera receives the highest token weight by default.

Comparison Table: The Three Models

The table below consolidates the technical details. It is a reference for picking the right model.

AttributeRobotManipRobotWorldRobotNav

Task typeManipulation (VLA)Video world modelNavigation

BackboneQwen3.5-4BFrozen Qwen2.5-VLQwen3-VL

Action interfaceCamera-frame EEF / jointNatural languageWaypoint trajectories

Training data~38,100 hours8.6M video-text pairs15.6M samples

Key architectureDiT flow-matching head60-layer double-stream MMDiTMLP action head

Headline result1st on RoboChallenge Table30-v11st on EWMBench, DreamGen76.5% SR on VLN-CE RxR

OutputContinuous actionsPredicted video8 waypoints (x, y, θ)

Public repoYes (GitHub)Blog onlyYes (GitHub)

The three research reports do not present a combined system. Read together, they cover complementary layers. RobotWorld handles simulation and data generation, RobotManip handles manipulation, and RobotNav handles mobility.

Implementation Note: The Canonical Action Vector

The RobotManip action representation is worth understanding in code terms. It is the mechanism that lets different robots share one model. Below is a simplified illustration of the masking idea.

Copy CodeCopiedUse a different Browser

Conceptual sketch of RobotManip's 80-dim canonical vector.

Two 29-dim per-arm blocks + 22 reserved dimensions = 80.

This is illustrative, not the official implementation.

CANONICAL_DIM = 80

Per-arm semantic groups, per the report:

ARM_GROUPS = {

"joints": 7, # joint positions

"eef_pose": 9, # 3D position + 6D rotation

"gripper": 1, # parallel gripper width

"hand": 12, # dexterous hand joints

}

ARM_BLOCK = sum(ARM_GROUPS.values()) # 29

def build_masked_action(populated_groups, arms):

"""Build the action vector and a per-dimension binary mask.

populated_groups: set of group names this robot uses.

arms: 1 for single-arm, 2 for dual-arm.

Only populated dimensions carry supervision; the rest are masked.

"""

action = [0.0] * CANONICAL_DIM

mask = [0] * CANONICAL_DIM

idx = 0

for _ in range(arms):

for group, size in ARM_GROUPS.items():

if group in populated_groups:

for d in range(idx, idx + size):

mask[d] = 1 # gradients flow only here

idx += size

if arms == 1:

idx = ARM_BLOCK # skip to the second block

return action, mask

A 7-DOF single-arm gripper fills joints, eef_pose, gripper of one arm.

_, mask = build_masked_action({"joints", "eef_pose", "gripper"}, arms=1)

print(sum(mask)) # -> 17 populated dims; the rest stay zero and masked

The per-dimension binary mask is the key idea. It ensures gradients flow only through semantically populated entries. This prevents spurious supervision on absent degrees of freedom.

The same masking principle appears in the flow-matching loss. Each sample contributes equally regardless of how many dimensions are active. This stops robots with more populated slots from dominating optimization.

Key Takeaways

Qwen released three embodied AI models: RobotManip, RobotWorld, and RobotNav (grouped as Qwen-RobotSuite)

RobotManip aligns robot data into one 80-dimensional action vector and ranks 1st on RoboChallenge Table30-v1.

RobotWorld uses natural language as the action interface and ranks 1st overall on EWMBench and DreamGen Bench.

RobotNav exposes a controllable token-budget interface and hits 76.5% SR on VLN-CE RxR.

Two of the three models ship with public GitHub repositories; RobotWorld is presented just as a research paper.

Check out the Technical details and Papers (Qwen-RobotManip, Qwen-RobotWorld, and Qwen-RobotNav). Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.

Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us

The post Meet Qwen-RobotSuite: Three Embodied AI Models for VLA Manipulation, Video World Modeling, and Navigation appeared first on MarkTechPost.

この記事をシェア

関連記事

TLDR AI★42026年6月17日 09:00

Qwen の具現化された世界モデル(28 分読了)

アリババ傘下の通義千問チームが、物理世界をシミュレートする新しい「具現化された世界モデル」を発表し、AI が現実環境を理解・予測する能力の向上を示した。

Ars Technica AI★42026年6月18日 04:25

AI コーディングエージェントがロボットに GPU 取り付けやジップタイ切断を教示

Ars Technica は、計算リソースとトークン予算を与えられた AI コーディングエージェントが、自律的にロボットアームの訓練プログラムを策定し、GPU の挿入やジップタイの切断といった物理作業を習得した事例を紹介している。

NVIDIA Developer Blog★42026年6月15日 21:00

想像に預けられ、行動のために微調整:ワールド・アクションモデルの台頭

NVIDIA は、事前学習されたビジョン言語モデルを基盤とし、ロボット制御に適応させた「ワールド・アクションモデル(WAM)」という新しい技術の登場を発表した。これは、視覚と言語を理解する能力を行動計画に転用するアプローチである。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む