AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年6月1日 13:44·約13分で読める

NVIDIA Cosmos 3 の登場:物理 AI の推論と行動のための初のオープンオムニモデル

#World Models#Physical AI#Robotics#Open Source#NVIDIA Cosmos
TL;DR

NVIDIA は Hugging Face で「物理 AI の推論と行動」を目的とした初のオープンオムニモデル「Cosmos 3」を発表し、世界モデル技術の民主化を加速させた。

AI深層分析2026年6月11日 22:13
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
4

キーポイント

1

物理 AI 向け初のオープンオムニモデルの登場

NVIDIA Cosmos 3 は、テキストや画像だけでなく、物理世界の推論と行動生成に特化した世界初のオープンオムニモデルとして位置づけられています。

2

Hugging Face を通じた完全な公開

本モデルは Hugging Face 上で公開され、開発者が誰でもアクセス・検証・活用できる環境が整えられ、クローズドな技術の壁を打破しました。

3

世界モデルによる物理法則の理解

Cosmos 3 は単なるデータ処理ではなく、物理法則や因果関係を学習し、ロボティクスやシミュレーションにおける高度な推論能力を発揮します。

4

物理的推論と行動の統合

Cosmos 3 は、長尾運転シナリオや倉庫安全データなど、現実世界の複雑な状況における物理法則に基づく推論と行動生成を可能にする初のオープンオムニモデルです。

5

思考連鎖(Chain-of-Thought)機能

自律走行アプリケーションにおいて、モデルが内部で論理的思考プロセスを経由して判断を下す「思考連鎖」機能を備えており、意思決定の透明性と信頼性が向上しています。

6

ユニファイドアーキテクチャと双機能処理

テキスト、画像、動画、音声、行動を単一の MoT ベースラインで処理し、自己回帰(AR)による推論と拡散モデル(DM)による生成を一つのモデル内でシームレスに切り替える。

7

用途に応じた2つのモデルサイズ

ワークステーション向け 8B パラメータの「Nano」と、大規模合成データ生成や研究向けの 32B パラメータ「Super」の 2 バージョンが提供されている。

影響分析・編集コメントを表示

影響分析

この発表は、物理 AI のための基盤モデルが大手企業によってクローズド化される傾向に対し、オープンソースによる透明性と協働の可能性を示す重要な転換点です。開発者が NVIDIA の高度な世界モデル技術を自社のアプリケーションや研究に即座に組み込むことが可能となり、ロボティクス分野のイノベーション速度が劇的に向上すると予想されます。

編集コメント

「物理 AI」という次世代領域におけるオープンソース化は、研究と実装のスピードを劇的に変える可能性を秘めています。特に Hugging Face での公開は、開発者コミュニティが即座に検証・改良を加えられる点で極めて戦略的かつ重要です。

記事一覧に戻る

NVIDIA Cosmos 3 が登場しました。本日、Hugging Face で利用可能です。Cosmos 3 は、物理的 AI(Physical AI)向けの 世界基盤モデル (WFMs: World Foundation Models) における大きな飛躍を象徴するものです。これは、世界の生成、物理的な推論、そして行動の生成を一つのモデルに統合した、単一の統一されたオムニモデルです。もはや異なるモデルや推論パイプラインの間を行き来する必要はありません。Cosmos 3 はすべてをこなします。

ロボット工学、自動運転車、あるいはスマートスペース向けに構築する際でも、Cosmos 3 は物理世界をシミュレーションし理解するための基盤を提供します。

今回のリリースに含まれる主な内容は以下の通りです:

  • Hugging Face で利用可能な Cosmos 3 Super および Cosmos 3 Nano(モデルカードとライセンス付き)
  • 生成パイプライン向けの Cosmos 3 Diffusers 統合
  • 独自データで Cosmos 3 をトレーニングするためのポストトレーニングスクリプト(GitHub 公開中)
  • 物理的 AI 向けのオープンな合成データ生成 (SDG: Synthetic Data Generation) データセット

目次

  • Cosmos 3 の新機能
  • Cosmos 3 の機能
  • Diffusers を用いた Cosmos 3 の活用
  • 物理的 AI 向けデータセット
  • Cosmos フレームワーク
  • リソース

セクション 1: Cosmos 3 の新機能

Cosmos 3 の前作との最大の違いは、Mixture-of-Transformers (MoT) アーキテクチャに基づいて構築されたオムニモデルである点です。以前は、世界生成(Cosmos Predict)、制御生成(Cosmos Transfer)、シーン理解(Cosmos Reason)、ポリシー生成(Cosmos Policy)など、異なる機能ごとに別々のモデルを扱う必要がありました。しかし Cosmos 3 では、これらすべてを単一のモデルで実現可能となり、1 つの統一された順方向パス内で推論を行いながらさまざまなモダリティを生成できるようになりました。

つまり、今では以下のすべてのことが単一のモデルから行えるようになります:

  • テキスト、画像、動画、またはアクション入力から、現実的で物理的に妥当なビデオ世界を生成する
  • 運動、因果関係、空間的関係といった物理的特性について推論する
  • 現在の状態に基づいて将来のビデオおよびアクションシーケンスを予測する

これが物理 AI にとってなぜ重要なのか

Cosmos 3 は、現実世界を理解できる物理 AI システムの構築を支援します。単なるピクセルやトークンではなく、運動、因果関係、物理学、そしてアクションそのものを理解するためのものです。洗濯物を畳むロボットの訓練を行う場合でも、自動運転シミュレーションを構築する場合でも、倉庫の安全シナリオ用の合成トレーニングデータを生成する場合でも、Cosmos 3 はまさにこれらのユースケースのために設計されたファウンデーションモデルです。

image
image

ロボットによるピッキング&プレイスユースケース向けに Cosmos 3 が生成した動画。

image
image

Cosmos 3 によって生成された、ロングテール(稀な事象)の運転シナリオにおける動画。

imageimage

Cosmos 3 を用いた倉庫安全データからの画像から動画への生成。

imageimage

自動運転アプリケーションにおける Cosmos 3 の思考連鎖推論。

アーキテクチャ

Cosmos 3 は、テキスト、画像、動画、音声、およびアクションというすべてのモダリティを単一の統合アーキテクチャ内で処理する、MoT(Mixture of Transformers)バックボーンの上に構築されています。各モダリティはまず専用のエンコーダーによって符号化されます(視覚理解には ViT(Vision Transformer)、視覚・音声生成には VAE(Variational Autoencoder)、アクションにはドメイン認識ベクトルを使用)。その後、これらは共有表現空間に投影されます。

入力シーケンスは 2 つのサブシーケンスに分割されます。1 つは次トークン予測を通じて推論と理解を担う自己回帰型(AR)サブシーケンス、もう 1 つは反復的なノイズ除去を通じて生成を担う拡散モデル(DM)サブシーケンスです。AR トークンと DM トークンは各トランスフォーマー層内で別々のパラメータセットを使用しますが、結合アテンションを通じて相互作用します。この仕組みにより、単一のモデルがアーキテクチャの変更なしに、VLM(Vision-Language Model)、動画生成器、順方向/逆方向ダイナミクスモデル、あるいはロボットポリシーとしてシームレスに切り替えることが可能になります。

モデルバージョン

今回の Cosmos 3 のリリースでは、異なる展開シナリオに最適化された 2 つのモデルサイズが含まれています:

  • Cosmos 3 Nano - これは 8B パラメータモデル(8B リゾナーと 8B ジェネレーター)で、効率的な推論のために最適化されています。Cosmos 3 Nano は RTX PRO 6000 GPU などのワークステーショングレードの計算リソース上で実行するように設計されており、Hugging Face の nvidia/Cosmos3-Nano で利用可能です。
  • Cosmos 3 Super - これは 32B パラメータモデル(32B リゾナーと 32B ジェネレーター)で、大規模な合成データ生成 (SDG) と研究のために設計されており、NVIDIA Hopper および Blackwell GPU で実行されます。Cosmos 3 Super は Hugging Face の nvidia/Cosmos3-Super で利用可能です。

SECTION 2: Cosmos 3 Capabilities

Cosmos 3 は、単一の統一モデルを通じて複数の入力および生成モダリティをサポートします:

Input Modality

Output Modality

Application

Text | Image | Video

Video

Video Model

Text | Video

Text

Vision Language Model (VLM)

Action | Image | Text

Video

Forward Dynamics Model

Text | Video

Action

Inverse Dynamics Model

Image | Text

Video & Action

Policy Model

Prompt Guide

動画生成においては、物語的な段落形式の詳細なプロンプトの使用を推奨します。例えば:

**

動画は、晴れた青空の下、多車線の高速道路を走行する車両の内部からの視点で始まります。道路の両側には濃い緑の木々が立ち並び、静かな環境を作り出しています。前方には目立つ白い大型トラックや様々な乗用車など複数の車両が見え、一定の速度を保っています。高速道路はコンクリート製のガードレールによって区切られた複数の車線からなり、明るい日差しがシーン全体を照らし、晴れた一日であることが示されています。動画が進むにつれて、前方の車線に突然大量の破片が現れます。回避する時間がほとんどない中、自車両は破片の上を走行して前進し続ける必要があります。散乱した物体の上を通過する際、自車両には明らかな衝撃が発生します。これは、前方の道路と周囲の環境を捉える車両内部からの視点ショットです。

アクション生成においては、プロンプトは簡潔であり、かつ空間的な参照を含めるべきです。例えば:

紫色のアイテムの左側に鍋を置きます。この動画は、その場を見下ろす一人称視点から撮影されています。

高品質なプロンプト作成のためのプロンプトアップサンプリングテンプレートとベストプラクティスは、GitHub のプロンプティングガイドで見つけることができます。

セクション 3: Diffusers を使用した Cosmos 3 の活用

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

Cosmos 3 は Hugging Face Diffusers ライブラリと統合されており、数行のコードだけで世界生成パイプラインを簡単に利用できます。Cosmos 3 は、お馴染みの DiffusionPipeline を通じて *Cosmos3OmniPipeline* (Cosmos3 オムニパイプライン) で実行可能です。これにより、Cosmos 3 の摩擦のない採用と、既存のパイプラインとの統合を実現することが目的です。

次に、Cosmos 3 Nano モデルを使用した単一フレーム生成の Text-to-Image(テキストから画像へ)例を見てみましょう:

import torch

from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(

"nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"

)

prompt = (

"A medium shot of a modern robotics research laboratory with white walls and a gray floor. "

"A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "

"above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "

"A large monitor on the wall behind displays a software interface. The scene is brightly lit by "

"overhead fluorescent lights."

)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)

result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

Cosmos 3 Nano モデルと上記のプロンプトによって生成された画像がこちらです:

image
image

ドキュメントには、テキストから動画へ、画像から動画への生成などの例も含まれています。詳細情報や API の使用方法については、Cosmos 3 Diffusers ドキュメント をご覧ください。

セクション 4: 物理 AI 用データセット

Cosmos 3 のローンチの一環として、NVIDIA は物理 AI コミュニティが世界基盤モデルの訓練と評価を行うのを支援するため、一連の合成データ生成(Synthetic Data Generation: SDG)データセットを公開します。これらのデータセットは NVIDIA の各チームによって生成され、Hugging Face で利用可能です。

データセット名ドメイン説明
Embodied-Robot-Scenesロボティクス合成ロボットシミュレーションデータ
Physical-Interaction-Scenes物理学Isaac Sim 物理シミュレーションデータ
Spatial-Reasoning推論具現化された空間推論データ
Digital-Human-Scenes人間の動作合成人間動作データ
Autonomous-Driving-Scenarios運転運転シミュレーションデータ
Warehouse-Operations-Scenesウェアハウス安全ウェアハウス環境データ

セクション 5: Cosmos フレームワーク

Cosmos Framework は、Cosmos 3 などの WFMs(World Foundation Models)のトレーニングとサービングのためのエンドツーエンドフレームワークです。ここでは推論スクリプトやポストトレーニングスクリプト、開発用のエージェントスキルを見つけることができます。

Post-training Cosmos 3

Cosmos 3 は、ロボット、自動運転車、スマートスペース向けの世界動画および動作を、そのままの状態で理解・生成できますが、特定のアプリケーションでは最適な結果を得るために、特定のデータセットに対する追加のポストトレーニングが必要となる場合があります。異なるロボット、環境、タスク向けに Cosmos 3 のポストトレーニングを行うことを推奨します。詳細はリポジトリ内のポストトレーニングガイドをご覧ください。

Agent Skills

本リポジトリには開発を迅速かつ容易にするためのエージェントスキルも用意されています。これらのスキルは要件の検証や依存関係を含む環境のセットアップを支援します。また、リポジトリ構造やサンプルの学習、適切なプロンプトの作成、推論およびポストトレーニングスクリプトの実行にも利用できます。

SECTION 6: Resources

Cosmos 3 の機能、パフォーマンス、ポストトレーニング、NIM マイクロサービスを用いたデプロイについては、Cosmos 3 技術ブログ をご覧ください。

  • Cosmos 3 GitHub
  • Cosmos 3 NIM マイクロサービス
  • Cosmos Cookbook
  • Cosmos Page
  • Cosmos 3 Technical Paper
  • Diffusers Cosmos Documentation

Acknowledgments

Cosmos 3 は、NVIDIA 内の多くのチームおよび人々との素晴らしい協力の成果です。以下にその一部を挙げます。

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等)は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang.

原文を表示

Back to Articles

NVIDIA Cosmos 3 is here - and it's available on Hugging Face today. Cosmos 3 represents a major leap forward in world foundation models (WFMs) for physical AI: a single, unified omni-model that combines world generation, physical reasoning, and action generation in one model. No more juggling between different models and inference pipelines - Cosmos 3 does it all.

Whether you're building for robotics, autonomous vehicles, or smart spaces, Cosmos 3 gives you the foundation to simulate and understand the physical world.

Here's what's shipping with this release:

  • Cosmos 3 Super and Cosmos 3 Nano on Hugging Face with model cards and licensing
  • Cosmos 3 Diffusers integration for generation pipelines
  • Post-training scripts for training Cosmos 3 on your own data (on GitHub)
  • Open synthetic data generation (SDG) datasets for physical AI

TABLE OF CONTENTS

  • What's new with Cosmos 3?
  • Cosmos 3 Capabilities
  • Using Cosmos 3 with Diffusers
  • Datasets for physical AI
  • Cosmos Framework
  • Resources

SECTION 1: What's new with Cosmos 3?

The biggest change in Cosmos 3 compared to previous Cosmos releases is that it's an omni-model, built on a Mixture-of-Transformers (MoT) architecture. Previously, developers had to work with separate models for different capabilities like world generation (Cosmos Predict), controlled generation (Cosmos Transfer), scene understanding (Cosmos Reason) and policy generation (Cosmos Policy). Cosmos 3 enables all of this in a single model that can reason and generate different modalities in one unified forward pass.

This means you can now do all this from one model:

  • Generate realistic and physically plausible video worlds from text, images, videos or action inputs
  • Reason about physical properties like motion, causality, and spatial relationships
  • Predict future video and action sequences based on the current state

Why this matters for physical AI

Cosmos 3 helps build physical AI systems capable of understanding the real world. Not just pixels and tokens, but motion, causality, physics, and action. If you're training a robot to fold laundry, building an autonomous driving simulation, or generating synthetic training data for warehouse safety scenarios, Cosmos 3 is the foundation model designed for exactly these use-cases.

Video generated by Cosmos 3 for robotics pick and place use-cases.

Video generated by Cosmos 3 for long tail driving scenarios.

Image-to-video generation using Cosmos 3 for warehouse safety data.

Cosmos 3 chain-of-thought reasoning in an autonomous driving application.

Architecture

Cosmos 3 is built on an MoT backbone that processes all modalities - text, image, video, audio, and action - within a single unified architecture. Each modality is first encoded by a dedicated encoder (a ViT for visual understanding, a VAE for visual/audio generation, and domain-aware vectors for actions), then projected into a shared representation space.

The input sequence is split into two subsequences: an autoregressive (AR) subsequence that handles reasoning and understanding via next-token prediction, and a diffusion (DM) subsequence that handles generation via iterative denoising. AR and DM tokens use separate parameter sets within each transformer layer but interact through joint attention - this is what lets a single model seamlessly switch between acting as a VLM, a video generator, a forward/inverse dynamics model, or a robot policy without any architectural changes.

Model Versions

This release of Cosmos 3 includes two model sizes, optimized for different deployment scenarios:

  • Cosmos 3 Nano - This is the 8B parameter model (8B reasoner and 8B generator), optimized for efficient inference. Cosmos 3 Nano is designed to run on workstation-grade compute like the RTX PRO 6000 GPU, and is available on Hugging Face at nvidia/Cosmos3-Nano.
  • Cosmos 3 Super - This is the 32B parameter model (32B reasoner and 32B generator) designed for large-scale synthetic data generation (SDG) and research, and runs on NVIDIA Hopper and Blackwell GPUs. Cosmos 3 Super is available on Hugging Face at nvidia/Cosmos3-Super.

SECTION 2: Cosmos 3 Capabilities

Cosmos 3 supports multiple input and generation modalities through a single unified model:

Input Modality

Output Modality

Application

Text | Image | Video

Video

Video Model

Text | Video

Text

Vision Language Model (VLM)

Action | Image | Text

Video

Forward Dynamics Model

Text | Video

Action

Inverse Dynamics Model

Image | Text

Video & Action

Policy Model

Prompt Guide

For video generation, we recommend using detailed prompts in the form of narrative paragraphs. For example:

The video begins with a view from inside a vehicle traveling on a multi-lane highway under a clear blue sky. The road is bordered by dense green trees on both sides, creating a tranquil environment. Several vehicles, including a prominent white semi-truck and various cars, are visible ahead, maintaining a steady pace. The highway features multiple lanes separated by concrete barriers, and the scene is bathed in bright sunlight, indicating a clear day. As the video progresses, a large amount of debris suddenly appears on the lane ahead. With little time to avoid it, the ego vehicle has to drive over the debris and continue moving forward. A noticeable jolt occurs as the ego vehicle passes over the scattered objects. A point-of-view shot from inside the vehicle, capturing the road ahead and the surrounding environment.

For action generation, prompts should be concise and provide spatial references. For example:

Put the pot to the left of the purple item. This video is captured from a first-person perspective looking at the scene.

Find the prompt upsampling template, and best practices for writing high-quality prompts in the prompting guide on GitHub.

SECTION 3: Using Cosmos 3 with Diffusers

Cosmos 3 is integrated with the Hugging Face Diffusers library, making it easy to use world generation pipelines with just a few lines of code. You can run Cosmos 3 through the familiar DiffusionPipeline via *Cosmos3OmniPipeline*. With this, the goal is enabling frictionless adoption of Cosmos 3 and integration with your existing pipelines.

Let's see a Text-to-Image example for single frame generation using the Cosmos 3 Nano model:

code
import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)

prompt = (
    "A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
    "A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
    "above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
    "A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
    "overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

Here's the image generated by the Cosmos 3 Nano model and given prompt:

The documentation also has examples on Text-to-Video, Image-to-Video and more. Find information and API usage in the Cosmos 3 Diffusers documentation.

SECTION 4: Datasets for physical AI

As part of the Cosmos 3 launch, NVIDIA is releasing a set of Synthetic Data Generation (SDG) datasets to help the physical AI community train and evaluate world foundation models. These datasets were generated by various NVIDIA teams and are available on Hugging Face.

Dataset

Domain

Description

Embodied-Robot-Scenes

Robotics

Synthetic robot simulation data

Physical-Interaction-Scenes

Physics

Isaac Sim physics simulation data

Spatial-Reasoning

Reasoning

Embodied spatial reasoning data

Digital-Human-Scenes

Human motion

Synthetic human motion data

Autonomous-Driving-Scenarios

Driving

Driving simulation data

Warehouse-Operations-Scenes

Warehouse safety

Warehouse environment data

Section 5: Cosmos Framework

Cosmos Framework is an end-to-end framework for training and serving WFMs like Cosmos 3. This is where you'll find inference and post-training scripts, and agent skills for development.

Post-training Cosmos 3

Cosmos 3 understands and generates world videos and actions for robotics, autonomous vehicles, and smart spaces out of the box, but some applications may require further post-training on specific datasets to get the best results. We encourage post-training Cosmos 3 for different robots, environments, and tasks - check out the post-training guide in the repo.

Agent Skills

The repo also comes with agent skills to make development fast and easy. These skills help validate requirements, and set up the environment with dependencies. You can also use them for learning about the repo structure and examples, drafting good prompts, or running the inference and post-training scripts.

SECTION 6: Resources

Read the Cosmos 3 technical blog to learn about Cosmos 3 capabilities, performance, post-training, and deployment with NIM microservices.

  • Cosmos 3 GitHub
  • Cosmos 3 NIM microservices
  • Cosmos Cookbook
  • Cosmos Page
  • Cosmos 3 Technical Paper
  • Diffusers Cosmos Documentation

Acknowledgments

Cosmos 3 is the result of amazing collaboration between many teams and people across NVIDIA, including -

Adeline Aubame, Aditya Mahajan, Aigul Dzhumamuratova, Akash Gokul, Akul Santhosh, Aleksandr Efitorov, Alex Sotelo, Alexander Schwarz, Alperen Degirmenci, Amol Fasale, Andrew Tham, Ankur Handa, Arihant Jain, Arslan Ali, Artur Zolkowski, Aryaman Gupta, Asawaree Bhide, Ashkan Mirzaei, Ashley Chow, Ashna Khetan, Atharva Joshi, Barnaby Simkin, Benedikt Falk, Brett Hamilton, Carlos Casanova, Chaeyeon Chung, Charles Zhou, Chen-Hsan Lin, Chen-Hsuan Lin, Chhavi Nijhawan, Chieh-Yun Chen, Chintan Shah, Chris Helvig, Chris Pruett, Cindy Zha, Cyrus Hogg, Dahjung Chung, Dan Blick, David Wehr, Dawid Majchrowski, DeLesley Hutchins, Delin Qu, Dennis Lynch, Diego Garzon, Dima Zhylko, Durra Mohsin, Egor Krivov, Ekram Mukbil, Eric Cameracci, Fangyin Wei, Fengzhe Zhou, Francesco Ferroni, Freya Li, George Kurian, Gwanghyun Kim, Haaland Hao Liang, Hai Loc Lu, Hans Yang, Hao Liang, Hao Wang, Hesam Rabeti, Hugo Hadfield, Hyejin Moon, Itai Zadok, Jayjun Lee, Jeana Choi, JF Lafleche, Jiangran Lyu, Jiaojiao Fan, Jiaxiang Tang, Jibin Varghese, Jim Fan, Jingyi Jin, Jinwei Gu, Jon Allen, Joshua Bapst, Joyjit Daw, Julia Kiczka, Julian Ouyang, Kaichun Mo, Kayley Ting, Ke Ding, Kedi Wu, Kevin Brady, Kirill Motkov, Kristen Rumley, Krzysztof Tomala, Liang Feng, Liangkai Zhang, Ling Li, Louis Marcoux, Maciej Bala, Madison Huang, Magdalena Dadela, Mahesh Patekar, Marco Di Lucca, Marilyn Reeb, Mark Carlson, Martin Antolini, Mateusz Sieniawski, Matt Cragun, Meredith Price, Michael Huang, Miguel Guerrero, Miguel Martin, Min Shi, Ming-Yu Liu, Mohammad Harrim, Morteza Ramezanali, Mukesh Beladiya, Nalin Dadhich, Naomi Eigbe, Nathan Hayes-Roth, Nicole Drumheller, Nikhilesh Joshi, Omar Laymoun, Paris Zhang, Paula Ramos, Pawel Morkisz, Peter Gambrill, Pooya Jannaty, Pooya Khaloo, Pranjali Joshi, Qi Wang, Qianli Ma, Qiao Wang, Qing Miao, Qizhi Chen, Rahul Heinrich Steiger, Raju Wagwani, Robert Denomme, Rodrigo Vieira Del Monte, Roy Anthony, Ruqing Xu, Ryan Bernard, Ryan Ji, Saeid Motiian, Sandip Bhaskar, Sandra Skaff, Santanu Dutta, Saurav Kumar, Sehwi Park, Sergiy Fefilatyev, Shangkun Sun, Shangru Li, Shilin Zhu, Shreyas Misra, Shun Zhang, Shuran Song, Simon Yuen, Simon Zhang, Slawek Kierat, Smita Ithape, Soha Pouya, Sophia Huang, Stefanie Manzinger, Steven Baughman, Suneel Indupuru, Sunil Srinivasa, Sunny Kim, Tavish Chen, Thabang Ngazimbi, Thomas Volk, Tianwei She, Tiffany Cai, Ting-Chun Wang, TJ Galda, Tolou Tavakkoli, Tomasz Kornuta, Trung Pham, Tsung-Yi Lin, Vanni Brighella, Varun Praveen, Wei-Cheng Tseng, Wenjie Luo, Wesley Li, Wojciech Kutak, Wojciech Rymer, Xiangyu Lu, Xiaodong Yang, Xiaotong Chen, Xin Kong, Xinquan Xu, Xiu Chia, Xuning Yang, Yan Chang, Yan Wang, Yanan Jian, Yao Xu, Yashraj Narang, Yeongho Seol, Yichu Yang, Yifan Ding, Yihuai Gao, Yilin Zhao, Yin Cui, Yogesh Balaji, Yu Wang, Yu-Wei Chao, Yue Tang, Yufan Huang, Yuke Zhu, Yuliya Zhautouskaya, Yurong You, Yuzhu Dong, Zaid Pervaiz Bhat, Zekun Hao, Zhaoshuo Li, Zhizheng Zhang.

この記事をシェア

関連記事

Latent Space★52026年6月2日 12:28

[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra、RTX Spark の発表

NVIDIA は今日、言語・画像・動画・音声・動作を統合する「Cosmos 3」を発表した。同モデルは推論と生成を組み合わせたアーキテクチャを採用し、Nano や Super など複数のサイズで提供される。

NVIDIA Developer Blog★42026年6月1日 13:43

NVIDIA Cosmos 3 で物理 AI の推論・世界モデル・行動モデルを開発する

NVIDIA は、ロボットや自律走行車などが現実世界を理解して動作するために必要な物理 AI の推論、世界モデル、行動モデルを構築できる「Cosmos 3」を発表した。

Hugging Face Blog★42026年6月17日 19:18

Hugging Face Hub からロボットハードウェアへ:Strands Agents と LeRobot の連携

Hugging Face が、同社のプラットフォーム上で開発された Strands Agents および LeRobot を活用し、AI モデルを直接ロボットハードウェアに展開する取り組みを発表した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む