NVIDIA Cosmos 3 で物理 AI の推論・世界モデル・行動モデルを開発する
NVIDIA は物理的 AI のための基盤モデル「Cosmos 3」をオープンソース化し、物理推論・世界生成・行動生成を単一モデルで統合する画期的なプラットフォームを提供した。
キーポイント
単一モデルによる物理 AI の統合
Cosmos 3 は物理的な推論、世界の生成(シミュレーション)、そして具体的な行動の生成を一つのオープンモデル内で完結させることを目指している。
開発環境の完全なオープン化
NVIDIA は Cosmos 3 のモデル weights、トレーニングスクリプト、デプロイメントツール、およびデータセットをすべて公開し、研究と開発の再現性を高めている。
多様な実世界応用への対応
ロボットの操作制御、自律走行車両の運転、倉庫管理など、異なる環境やエンボディメント(身体)を持つシステム向けの開発を支援する。
Cosmos 3 の自律走行ドメイン向け生成能力
NVIDIA Cosmos 3 は、交差点での他車の動きや自車の左折動作などを含む、現実的な自動運転シナリオの動画クリップを生成できる。
物理的リアリズムと環境描写の実現
生成された映像は家屋や樹木などの周囲環境を含み、物理法則に基づいた自然な動きを示すことで、現実世界との整合性を高めている。
Cosmos 3 モデルの公開
NVIDIA Cosmos 3 Nano および Super のモデルチェックポイントが Hugging Face で、コードは GitHub で公開されています。
物理 AI アプリケーション向けリソース
ロボット工学や自動運転などの物理 AIアプリケーションを対象としたオープンデータセットと、ドメイン適応用のポストトレーニングスクリプトが提供されます。
影響分析・編集コメントを表示
影響分析
この発表は、物理的 AI の開発における「ブラックボックス化」の壁を下げ、業界全体で標準的な基盤モデルを共有する土壌を作ります。特に、シミュレーションと実世界の統合が容易になることで、ロボット工学や自動運転の実用化スピードが加速し、研究から製品への転換コストが大幅に低下すると期待されます。
編集コメント
物理的 AI の分野において、NVIDIA が開発の民主化を加速させる重要な一手です。単一モデルで推論から行動までをカバーするアプローチは、今後のロボット工学や自動運転の実装基準となる可能性が高いでしょう。
Physical AI システムは、その中で行動を起こす前に現実世界を理解する必要があります。ロボット、自動運転車、スマートスペースは、自らの世界で何が起きているかを理解し、次に何が起こる可能性が高いかを予測し、特定の環境、実装形態、タスクに対して行動を生成する必要があります。
NVIDIA Cosmos 3 は、物理推論、世界生成、および行動生成を単一のオープンモデルに統合した、Physical AI 向けのフロンティア基盤モデルです。
NVIDIA は、Physical AI の開発をよりオープンで再現可能にするため、Cosmos 3 モデル、トレーニングスクリプト、デプロイメントツール、およびデータセットをオープンソース化しています。本ブログ記事では、Cosmos 3 の基本原則を解説し、技術報告書 から重要な概念を紹介するとともに、技術的なワークフローを案内し、チームがロボットマニピュレーションシステム、自動運転車、および倉庫監視ソリューションの構築を開始する方法を示します。
image*図 1. Cosmos 3 によって生成された自動運転ドメイン向けの動画クリップ*
image*図 2. Cosmos 3 を使用して生成された倉庫安全データ用の動画*
今回のリリースの主なハイライトは以下の通りです:
- NVIDIA Cosmos 3 Nano および NVIDIA Cosmos 3 Super モデルのチェックポイントは Hugging Face で、コードは GitHub に公開されています。
- ロボティクスや自動運転などの物理 AI アプリケーション向けのオープンデータセットです。
- Cosmos 3 をあなたのドメインに適応させるためのポストトレーニングスクリプトも公開しています。
- NVIDIA GPU 上で容易かつ最適化されたデプロイを実現するための Cosmos NIM マイクロサービスです。
Cosmos 3 の新機能
以前の Cosmos リリースでは、世界生成、物理的理解、制御されたシーン生成をそれぞれ異なるモデルとワークフローに分離していましたが、今回のリリースではこれらすべての機能を統合し、2 つのタワー(塔)を中心に構築された Mixture-of-Transformers (MoT) アーキテクチャを採用しました。
- Reasoner タワー:画像、動画、テキストなどの多様な観測データを解釈するビジョン・ランゲージモデル(VLM)です。このタワーは自己回帰型アーキテクチャを用いて入力を読み込み、運動や物体間の相互作用、その他の物理的文脈を理解します。これは生成が行われる前に世界について推論を行う『脳』の役割を果たします。
- Generator タワー:将来の観測データと行動シーケンスを生成します。このタワーは拡散ベースのプロセスを用いて、Reasoner タワーの理解に基づき条件付けられた、物理法則を意識した動画および行動出力を生成します。Reasoner は独立して呼び出すことも可能ですが、Generator はガイド付き生成のために常に両方のタワーを同時に起動します。
image*図 3. Cosmos 3 アーキテクチャ*
このアーキテクチャにより、単一のモデルで推論と生成タスクの両方を実行できるようになり、複数のモデルや推論パイプライン間のオーケストレーションを不要とすることで開発が簡素化されます。
適切なモデルサイズを選択する
現在、2 つの Cosmos 3 モデルが利用可能です:
- Cosmos 3 Nano は、8B パラメータを持つコンパクト版で、効率的な推論に最適化されています。リアルタイムロボティクス推論や物理 AI アプリケーション向けに、NVIDIA RTX PRO 6000 GPU などのワークステーショングレードの計算リソース上で動作するように設計されています。
- Cosmos 3 Super は、最大品質と能力を実現するための 32B パラメータモデルです。最高水準のベンチマークスコアを提供し、NVIDIA Hopper および NVIDIA Blackwell GPU 上のデータセンター展開をターゲットとしており、大規模な合成データ生成や高度な物理推論ワークロードに適しています。
サポートされるモダリティ
Cosmos 3 は、その統一アーキテクチャを通じて以下の入力および出力モダリティをサポートします:
Action-conditioned world modelOutputApplication
TextImagePhysically-plausible Image generation
Text | VideoVideoWorld model for rare edge case video data generation
Text | ImageVideoWorld model for prediction
Text | Image | VideoTextVLM for reasoning
Action | Video | TextVideoAction conditioned world model
動画 | テキスト動画 | アクションワールドアクションモデル、ビデオアクションモデル、ビジョンランゲージアクションモデル、ロボット学習用ポリシーモデル
*表 1. Cosmos 3 が異なるアプリケーションに対してサポートする入力および出力モダリティ*
物理 AI 用のオープンデータセット
Cosmos 3 のリリースに伴い、NVIDIA は Hugging Face 上で 6 つの合成データ生成(SDG)データセットをオープンソース化します。これらはロボット工学、物理学シミュレーション、空間推論、人間の動作、運転、倉庫環境をカバーしており、Cosmos 3 および他のモデルのポストトレーニングに使用できます。
物理 AI ワールドモデル用合成データセットには以下が含まれます:
- エンボディド(具現化)ロボットシーン
- 物理的相互作用シーン
- 空間推論
- デジタルヒューマンシーン
- 自律走行シナリオ
- 倉庫運用シーン
image*図 4. エンボディドロボットシーンデータセットからの操作例*
image*図 5. 物理的相互作用シーンデータセットからの例*
image*図 6. 空間推論データセットからの例*
image*図 7. デジタルヒューマンシーンデータセットからの例*
image*図 8. 自律走行シナリオデータセットからの例*!
image*図 9. ウェアハウスオペレーションシーンデータセットからの例*
NVIDIA Cosmos 人間評価ベンチマーク
NVIDIA Cosmos Human Evaluation(HUE)フレームワークは、代表的なドメインタスクにおける Cosmos 3 の生成器の品質を評価します。
SOTA(State-of-the-Art:最先端)動画生成モデルが既存の自動リーダーボードを飽和させる中、リリース間のスコア差は意味のある比較を行うにはしばしば狭すぎます。HUE は評価を主観的な採点から客観的事実検証へとシフトさせ、トップティアモデル間での微細な比較を可能にします。その結果、迅速な反復と、完全な人間評価によって裏付けられた厳格なリリース決定の両方に対して、より信頼性の高い品質指標が得られます。
HUE は原子論的な二値検証を用いて動画生成の品質を評価します。各生成された動画は、4 つの次元(意味的整合性、物理法則、幾何学的推論、視覚的完全性)にわたる単一事実の yes/no 質問へと分解されます。これらはロボット工学、自律車両、物理学を含む 7 つの Physical AI ドメインにまたがります。これらの質問は VLM(Vision-Language Model:ビジョン・ランゲージモデル)パイプラインによって生成され、人間の専門家によって精査された後、Hugging Face でオープンソースとして公開されています。
ベンチマーク結果
Cosmos 3 は、物理 AI の推論、生成の質、ドメイン固有のパフォーマンスをカバーする複数のベンチマークスイートで評価されました。
推論ベンチマーク**
Cosmos 3 Super と Cosmos 3 Nano は、それぞれ 32B タイアと 8B タイアにおいて VANTAGE-Bench で首位となっています:
- VANTAGE-Bench: ウェアハウス、交通、スマートスペースにおける実世界の固定カメラ映像を対象に、ビジョン言語モデルを評価するための初の公開ベンチマーク。
- 交通異常推論 (TAR): 交通映像における異常事象の検出と推論のための新たなリーダーボードであり、AI City Challenge 2026 のトラック 3 の公式リーダーボードです。
生成器ベンチマーク
Cosmos 3 は R-Bench および PAIBench-G、Physics-IQ、RoboLab においてオープンソースの SOTA(State-of-the-Art)であり、現在公開リーダーボードで首位を占めています:
- Artificial Analysis: テキスト、画像、動画生成における AI モデルをランク付けするベンチマークプラットフォーム。Cosmos 3 は「テキストから画像へ」および「画像から動画へ(音声なし)」の両リーダーボードで最上位のオープンソースモデルです。
- R-Bench: ロボットによる動画生成におけるビデオベースの世界モデルを評価するためのベンチマーク。構造的整合性、物理的妥当性、実行完全性などのサブメトリクスを通じて、タスク完了と視覚品質を評価します。
- PAI-Bench: ロボティクス、自動運転車、物理的な常識など多様な分野にまたがり、動画理解と動画生成における物理 AI を包括的に評価する統一ベンチマーク。
- Physics-IQ: 生成型動画モデルが単なる視覚的リアリズムを達成しているだけでなく、物理法則を真に理解しているかをテストするための実世界動画を用いたベンチマーク。
- RoboLab: タスク一般化ロボットポリシーを評価するためのシミュレーションベンチマーク。
トレーニングレシピ
Cosmos 3 のリリースにおける中核的な要素は、完全にオープンなトレーニングレシピのセットです。モデルチェックポイントを超え、このリリースでは Cosmos 3 を新たなドメイン、エンボディメント(身体性)、およびデータセットに適応させるためのコード、設定ファイル、ワークフローが提供されます。
教師あり微調整 (SFT) ポストトレーニング
教師あり微調整 (Supervised Fine-Tuning: SFT) により、開発者は Cosmos 3 モデルを独自のデータに適合させることが可能になります。公開されたレシピには、カスタム動画データセット向けのビジョン生成用ポストトレーニングに加え、ロボティクスおよび物理 AI ワークフロー向けのアクション指向のレシピが含まれています。開発者は、ロボティクス、自動運転、倉庫自動化におけるターゲットドメインに合わせて Cosmos 3 をカスタマイズできます。
ポストトレーニング用のコードと設定 は GitHub で利用可能です。
アクション用ポストトレーニング
Action post-training は、Cosmos 3 をアクション認識型 Physical AI アプリケーション向けに適応させるものであり、これにはフォワードダイナミクス(forward dynamics)、インバースダイナミクス(inverse dynamics)、およびポリシー生成が含まれます。開発者は、アクションラベル付きデータ上で Cosmos 3 のポストトレーニングを行うことができます。ロボット工学アプリケーションにおいては、これは主に以下の重要なワークフローを含みます:ロボットのアクションを条件として未来の観測値を生成する、観測されたデモンストレーションの背後にあるアクションを推論する、現在の観測値とタスクプロンプトからアクションシーケンスを予測する。これにより、Cosmos 3 は世界アクションモデリングおよびポリシー学習のための強力な基盤となります。
*Video 1. Tutorial video showing how to post-train Cosmos 3*
NVIDIA NIM マイクロサービスでデプロイ
Cosmos 3 モデルは、最適化された本番環境対応のデプロイを実現するために NVIDIA NIM マイクロサービス としても利用可能です。NIM マイクロサービスは、モデルを最適化された推論ランタイムと共にパッケージ化しており、サービングインフラストラクチャを手動で調整する必要なく高性能を提供します。ポストトレーニングワークフローには GitHub の Cosmos 3 リポジトリが推奨されるのに対し、推論ワークフローにおいては NIM マイクロサービスのほうが利用しやすいです。
Cosmos 3 Reasoner NIM は本日より提供を開始し、Cosmos 3 モデルの推論能力を実現しています。Cosmos 3 モデルの完全な生成機能を提供する Cosmos 3 Generator NIM については、今後の発表をお待ちください。
推論加速のための最適化
- Quantization(量子化):Cosmos 3 NIM は、BF16、FP8、または NVFP4 の量子化済みチェックポイントを選択して使用できます。NVFP4 量子化は、モデルの数値精度を BF16 から 4 ビット浮動小数点に低下させることで、推論速度を最大 2 倍向上させます。
- vLLM:これは、連続バッチ処理、ページドアテンション(paged attention)、テンソル並列化などの技術を活用して LLM を効率的に提供するためのオープンソースの推論エンジンです。Cosmos 3 Reasoner NIM のサービングスタックは、従来のサービング手法と比較してスループットを高めるために vLLM を基盤として構築されています。Cosmos 3 Nano は、最高パフォーマンスを発揮するために vLLM-omni と NVIDIA Dynamo で実行可能です。
- Efficient Video Sampling(EVS):この技術は、推論時に VLM に供給されるビデオトークンの数を削減し、Cosmos Reason NIM の速度を向上させます。EVS はチャンクレベルで動作し、各フレームの中で最もユニークなチャンクを保持して他を剪定します。小型の GPU ほど、この技術からの恩恵をより大きく受けます。
NIM の実行方法
コンテナのプルや NGC からの Cosmos 3 モデルのダウンロードには、NVIDIA NGC API キーが必要です。
Cosmos3 Nano Reasoner NIM をプルして実行するには、以下のコマンドを使用します。Cosmos3 Super Reasoner NIM の場合は、NIM_MODEL_SIZE=super を指定してください。
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
API の使用方法やその他の詳細については、ドキュメントをご覧ください。
*Video 2. Cosmos Reasoner NIM の使い方を示すチュートリアル動画*
始める
- Hugging Face で Cosmos 3 Nano および Super チェックポイントをダウンロードしてください。
- Cosmos 3 の GitHub で例やコードを見つけてください。
- Cosmos 3 Nano Reasoner モデルの体験版と、Cosmos 3 Nano モデルの体験版をお試しください。
- コミュニティに参加し、GitHub および Discord で問題提起を行い、Cosmos エコシステムへの貢献にご協力ください。
*謝辞*
*Cosmos 3 は、NVIDIA 内の多くのチームや人々との素晴らしい協力の成果です。これには、Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang が含まれます。*
原文を表示
Physical AI systems must understand the real world before they can act within it. Robots, autonomous vehicles, and smart spaces need to understand what’s happening in their world, predict what’s likely to happen next, and generate actions for specific environments, embodiments, and tasks.
NVIDIA Cosmos 3 is a frontier foundation model for physical AI that combines physical reasoning, world generation, and action generation within a single open model.
NVIDIA is open sourcing Cosmos 3 models, training scripts, deployment tools, and datasets to make physical AI development more open and reproducible. This blog post covers the fundamentals of Cosmos 3, highlights key concepts from the technical report, guides through technical workflows and shows how teamsrobotic manipulation systems, autonomous vehicles, and warehouse monitoring solutions can get started.


Key highlights of this release include:
- NVIDIA Cosmos 3 Nano and NVIDIA Cosmos 3 Super model checkpoints on Hugging Face with code on GitHub.
- Open datasets for physical AI applications like robotics and autonomous driving.
- Open post-training scripts for adapting Cosmos 3 to your domain.
- Cosmos NIM microservices for easy, optimized deployment on NVIDIA GPUs.
What’s new in Cosmos 3
Previous Cosmos releases separated world generation, physical understanding, and controlled scene generation into different models and workflows. This release unifies those capabilities with a Mixture-of-Transformers (MoT) architecture built around two towers.
- Reasoner tower: A vision-language model (VLM) that interprets multimodal observations like images, videos, and text. This tower uses an autoregressive architecture to interpret the input and understand motion, object interactions, and other physical context. This serves as the ‘brain’ that reasons about the world before any generation happens.
- Generator tower: Generates future observations and action sequences. This tower uses a diffusion-based process to generate physics-aware video and action outputs that are conditioned on the reasoner tower’s understanding. The reasoner can be called independently, but the generator always activates both towers for guided generation.

This architecture enables a single model to do reasoning and generation tasks, simplifying development by eliminating orchestration between multiple models and inference pipelines.
Choose the right model size
Two Cosmos 3 models are currently available:
- Cosmos 3 Nano is the compact version with 8B parameters and optimized for efficient inference. It’s designed to run on workstation-grade compute, like the NVIDIA RTX PRO 6000 GPU for real-time robotics inference and physical AI applications.
- Cosmos 3 Super is the 32B parameter model designed for maximum quality and capability. It delivers the highest benchmark scores and targets datacenter deployment on NVIDIA Hopper and NVIDIA Blackwell GPUs, making it suitable for large-scale synthetic data generation and advanced physical reasoning workloads.
Supported modalities
Cosmos 3 supports the following input and output modalities through its unified architecture:
Open datasets for physical AI
With the Cosmos 3 release, NVIDIA is open-sourcing six synthetic data generation (SDG) datasets on Hugging Face. These cover robotics, physics simulation, spatial reasoning, human motion, driving, and warehouse environments, and can be used for post-training Cosmos 3 and other models:
Physical AI World Model Synthetic Datasets include:
- Embodied robot scenes
- Physical interaction scenes
- Spatial reasoning
- Digital human scenes
- Autonomous driving scenarios
- Warehouse operations scenes






NVIDIA Cosmos Human Evaluation benchmark
The NVIDIA Cosmos Human Evaluation (HUE) framework assesses Cosmos 3 generator quality across representative domain tasks.
As SOTA video generation models saturate existing automated leaderboards, score differences between releases are often too narrow for meaningful comparison. HUE shifts evaluation from subjective grading to objective fact verification, enabling fine-grained comparison between top-tier models. The result is a more reliable quality signal for both rapid iteration and rigorous release decisions backed by full human evaluation.
HUE evaluates video generation quality using atomic binary verification. Each generated video is decomposed into single-fact yes/no questions across four dimensions—semantic alignment, physical laws, geometric reasoning, and visual integrity—spanning seven Physical AI domains, including robotics, autonomous vehicles, and physics. These questions are generated by a VLM pipeline, refined by human experts, and released as open source on Hugging Face.
Benchmark results
Cosmos 3 has been evaluated across multiple benchmark suites covering physical AI reasoning, generation quality, and domain-specific performance.
Reasoning benchmarks
Cosmos 3 Super and Cosmos 3 Nano lead on VANTAGE-Bench at the 32B tier and the 8B tier, respectively:
- VANTAGE-Bench: First public benchmark for evaluating vision-language models on real-world fixed-camera footage across warehouses, transportation, and smart spaces.
- Traffic Anomaly Reasoning (TAR): A new leaderboard for detecting and reasoning anomalous events in transportation footage and the official leaderboard for AI City Challenge 2026 Track 3.
Generator benchmarks
Cosmos 3 is the open-source SOTA on R-Bench and currently leads on PAIBench-G, Physics-IQ, and RoboLab across public leaderboards:
Cosmos 3 is the open-source SOTA and currently leads on PAI-Bench, R-Bench Physics-IQ, and RoboLab across public leaderboards:
- Artificial Analysis: A benchmarking platform that ranks AI models for text, image, and video generation. Cosmos 3 is the leading open source model on the Text to Image leaderboard and Image to Video (no audio) leaderboard.
- R-Bench: A benchmark for evaluating video-based world models in robotic video generation. It assesses task completion and visual quality through sub-metrics like structural consistency, physical plausibility, and execution completeness.
- PAI-Bench: A unified benchmark evaluating physical AI across video understanding and video generation, spanning domains like robotics, autonomous vehicles, and physics common sense.
- Physics-IQ: A benchmark of real-world videos that tests whether generative video models truly understand physical principles, rather than just achieving visual realism.
- RoboLab: A simulation benchmark for evaluating task-generalist robot policies.
Training recipes
A central component of the Cosmos 3 release is a fully open set of training recipes. Beyond model checkpoints, this release provides code, configs, and workflows for adapting Cosmos 3 to new domains, embodiments, and datasets.
Supervised Fine-Tuning post-training
Supervised Fine-Tuning (SFT) enables developers to adapt a Cosmos 3 model to their own data. The released recipes include vision generation post-training for custom video datasets, as well as action-oriented recipes for robotics and physical AI workflows. Developers can customize Cosmos 3 for their target domains across robotics, autonomous driving, and warehouse automation.
The post-training code and configs are available on GitHub.
Action post-training
Action post-training adapts Cosmos 3 for action-aware Physical AI applications, including forward dynamics, inverse dynamics, and policy generation. Developers can post-train Cosmos 3 on action-labeled data. For robotics applications, this includes several important workflows: generating future observations conditioned on robot actions, inferring the actions behind observed demonstrations, and predicting action sequences from current observations and task prompts. This makes Cosmos 3 a strong foundation for world action modeling and policy learning.
Deploy with NVIDIA NIM Microservices
Cosmos 3 models are also available as NVIDIA NIM microservices for optimized, production-ready deployment. NIM microservices package the model with optimized inference runtimes, delivering high performance without the need to manually tune serving infrastructure. NIM microservices are easier to use for inference workflows compared to the Cosmos 3 repo on GitHub, which is preferred for post-training workflows.
The Cosmos 3 Reasoner NIM is available today, delivering the reasoning capabilities of the Cosmos 3 model. Keep posted for the Cosmos 3 Generator NIM, which provides full generation capabilities of the Cosmos 3 model.
Optimizations made to accelerate inference
- Quantization: Cosmos 3 NIM supports selecting BF16, FP8, or NVFP4 quantized checkpoints. The NVFP4 quantization reduces the model’s numerical precision from BF16 to 4-bit floating point, achieving up to 2x inference speedup.
- vLLM: Is an open source inference engine that uses techniques like continuous batching, paged attention, and tensor parallelism to serve LLMs efficiently. The Cosmos 3 Reasoner NIM serving stack is built on vLLM for higher throughput compared to conventional serving approaches. Cosmos 3 Nano is ready to run with vLLM-omni and NVIDIA Dynamo for top performance.
- Efficient Video Sampling (EVS): This technique reduces the number of video tokens fed into the VLM during inference, speeding up the Cosmos Reason NIM. EVS works at the chunk level, keeping the most unique chunks of each frame and pruning the rest. Smaller GPUs tend to benefit more from this technique.
How to run the NIM
An NVIDIA NGC API key is required to pull the containers and download the Cosmos 3 models from NGC.
To pull and run the Cosmos3 Nano Reasoner NIM. For the Cosmos3 Super Reasoner NIM, specify NIM_MODEL_SIZE=super.
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
Find details on API usage and more in the documentation.
Get started
- Download the Cosmos 3 Nano and Super checkpoints on Hugging Face.
- Find examples and code on the Cosmos 3 GitHub.
- Try the Cosmos 3 Nano Reasoner model experience and the Cosmos 3 Nano model experience.
- Join the community, open issues, and contribute to the Cosmos ecosystem on GitHub and Discord.
*Acknowledgments*
*Cosmos 3 is the result of amazing collaboration between many teams and people across NVIDIA, including Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang.
*
関連記事
テック企業があなたの家事を撮影することに必死になっている理由
AI学習スタートアップのShiftは、ニューヨークやロンドンで無料で清掃サービスを提供する代わりに、利用者の自宅での様子を撮影してデータ収集を行う計画を発表した。
MicroPython と WASM を用いたサンドボックス環境での Python コード実行
Simon Willison は、コード実行のサンドボックス環境を実現する新アルファパッケージ「micropython-wasm」を公開し、Datasette Agent のプラグインとして利用を開始した。
スキル.sh API の提供開始
Vercel が、オープンソースエコシステムから 60 万種以上のスキル情報を検索・取得できる「skills.sh API」を正式に公開した。プロジェクトごとの OIDC トークンによる認証で利用可能となる。