NVIDIA のマルチモーダル AI モデル「Nemotron 3 Nano Omni」が Amazon SageMaker JumpStart で利用可能に
NVIDIAのマルチモーダル大規模言語モデルNemotron 3 Nano OmniがAWS SageMaker JumpStartで利用可能に、企業向けエージェントワークフローの統合と効率化を実現する。
キーポイント
マルチモーダル統合型モデルの登場
Nemotron 3 Nano Omniは画像、動画、音声、テキストを一つの推論パスで処理する300億パラメータのマルチモーダルLLMで、視覚・聴覚・言語の統合理解を実現する。
Mamba2 Transformer Hybrid MoEアーキテクチャ
Nemotron 3 Nano LLM、CRADIO v4-H、Parakeetの3つのモジュールを統合したハイブリッドMoE構造で、効率的かつ高精度な多モーダル処理を実現している。
企業向けエージェントワークフローの革新
複数のモデルを連携させる従来のアプローチに代わり、単一モデルで画面・文書・音声・動画の理解を一括処理可能となり、遅延・コスト・運用複雑性を大幅に削減する。
SageMaker JumpStartでの即時利用可能
AWSのSageMaker JumpStartでFP8精度で提供され、企業が迅速に本モデルを導入・推論実行できる環境が整っている。
商用利用可能なオープンモデルライセンス
NVIDIA Open Model Agreementに基づき、商業利用が可能で、企業のプロダクト開発に柔軟に活用できる。
影響分析・編集コメントを表示
影響分析
この発表は、AIエージェントの実用化を加速させる重要な一歩であり、企業の業務自動化やカスタマーサポート、監視・分析システムなど、複数モーダルを扱う現場での導入が飛躍的に進む可能性がある。
編集コメント
マルチモーダルLLMの実用化に向けた重要な進展。特にエージェントアーキテクチャにおける統合の進化は、AIビジネスの本格化を示唆している。
本日、Amazon SageMaker JumpStart 上で NVIDIA Nemotron 3 Nano Omni の「デイ・ゼロ」利用を開始できることを発表できることを嬉しく思います。この NVIDIA 製のマルチモーダルモデルは、動画、音声、画像、テキストの理解を単一の効率的なアーキテクチャに統合しており、エンタープライズ顧客が、1 つの推論パスで複数のモダリティにわたって「見て」「聞いて」「推論する」知能アプリケーションを構築することを可能にします。
本稿では、Nemotron 3 Nano Omni のモデルアーキテクチャと主要な機能を紹介し、それが開拓するエンタープライズユースケースを探求するとともに、Amazon SageMaker JumpStart を用いたデプロイ方法と推論実行手順をご案内します。
NVIDIA Nemotron 3 Nano Omni の概要
NVIDIA Nemotron 3 Nano Omni は、総パラメータ数 300 億(30B)、アクティブパラメータ数 30 億(3B)を有するオープンなマルチモーダル大規模言語モデルです。これは Mamba2 Transformer ハイブリッド混合専門家(MoE: Mixture of Experts)アーキテクチャに基づいて構築されており、以下の 3 つのコアコンポーネントを組み合わせています。
- 言語の基盤として Nemotron 3 Nano LLM
- 画像および動画理解のためのビジョンエンコーダーとして CRADIO v4-H
- 音声文字起こしおよび理解のための音声エンコーダーとして Parakeet
この統一アーキテクチャは、動画、音声、画像、テキストを入力として処理し、テキストを出力として生成します。131K トークンのコンテキスト長(context length)、思考の連鎖(chain of thought reasoning)、ツール呼び出し(tool calling)、JSON 出力、および文字起こしタスク用の単語レベルタイムスタンプをサポートしています。本モデルは SageMaker JumpStart で FP8 精度で利用可能であり、エンタープライズワークロードに対して精度と効率性の最適なバランスを提供します。商用利用については NVIDIA Open Model Agreement に基づいてライセンスされています。
エンタープライズエージェントのワークフローは本質的にマルチモーダルです。エージェントは画面、ドキュメント、音声、動画、テキストを解釈する必要があり、これらはしばしば同じ推論ループ内で処理されます。現在、ほとんどのアジェンティックシステムは、ビジョン、音声、言語のために個別のモデルをつなぎ合わせています。このアプローチは、反復的な推論パスを通じてレイテンシを増加させ、オーケストレーションとエラーハンドリングを複雑にし、コンテキストをモーダル間で断片化し、時間とともにコストと障害モードを増幅させるという課題を抱えています。
Nemotron 3 Nano Omni は、エージェントシステムにおける多知覚・文脈サブエージェントとして機能することでこの課題を解決します。これはエージェントシステムに「目」と「耳」を提供し、画面の読み取り、ドキュメントの解釈、音声の文字起こし、動画の分析を行いながら、推論ループ全体を通じて統合された多モーダルな文脈を維持します。Nano Omni は、単一の推論ループ内で画面、ドキュメント、オーディオ、ビデオを理解します。これにより、断片的なモデルスタックが置き換えられ、エージェントワークフロー設計が大幅に簡素化されます。アジェンティックアーキテクチャを構築する方にとって、これは推論ホップ(中継)、オーケストレーションロジック、およびクロスモデル同期のオーバーヘッドを単一のモデル呼び出しに集約するものです。
本モデルは以下の入力タイプを受け付けます:
入力タイプ サポート形式 制約条件
Video mp4 最大 2 分、最大 256 フレーム
Audio wav, mp3 最大 1 時間、8kHz 以上のサンプリングレート
Image JPEG, PNG (RGB) 標準解像度
Text String 最大 131K コンテキスト
エンタープライズユースケース
Nemotron 3 Nano Omni の多モーダル機能は、エンタープライズユースケースにおいて強力かつ柔軟なモデル選択となります。
コンピュータ使用エージェント
Nemotron 3 Nano Omni は、グラフィカルユーザーインターフェースをナビゲートするエージェントの知覚ループを駆動します。画面を読み取り、時間経過に伴う UI の状態を理解し、結果を検証します。一方、実行エージェントがアクションを担当します。これにより、ビジョンと推論が単一のループに統合され、分断された知覚パイプラインが必要なくなります。実用的な応用例としては、インシデント管理ダッシュボード、エージェント型検索、ブラウザ自動化、およびメールワークフローエージェントがあります。
ドキュメントインテリジェンス
本モデルはドキュメント、チャート、表、スクリーンショット、および混合メディア入力を解釈し、エージェントが視覚構造とテキストコンテンツを一貫して推論できるようにします。これは、契約書、業務範囲書(Statement of Work)、財務文書、科学文献などに関わる企業分析やコンプライアンスワークフローにおいて極めて重要です。
オーディオおよびビデオ理解エージェント
カスタマーサービス、リサーチ、監視ワークフローにおいては、Nemotron 3 Nano Omni がオーディオとビデオの文脈を継続的に維持します。発言内容、表示された情報、記録されたドキュメントを個別の要約として断片的に扱うのではなく、単一の推論ストリームとして結びつけます。これにより、会議録分析、メディア・エンターテインメント資産管理、ドライブスルー注文検証、およびカスタマーサービスビデオレビュー(例:OCR を用いて特定の住所への荷物配送を検証する)などのアプリケーションが可能になります。
SageMaker JumpStart の始め方
Nemotron 3 Nano Omni は、Amazon SageMaker JumpStart を介して数ステップでデプロイできます。SageMaker JumpStart は、最適化された推論コンテナを備えたファウンデーションモデルのワンクリックデプロイを提供し、インフラストラクチャの管理やサービングフレームワークの設定、モデルアーティファクトのダウンロード処理が不要になります。
事前準備
開始する前に、以下の事項を確認してください:
- AWS アカウント
- SageMaker JumpStart に対して適切にスコープ設定された権限
- GPU インスタンス(例:ml.p4d.24xlarge または ml.p5.48xlarge)に対する十分なサービスクォータ
SageMaker Studio を使用したデプロイ
- Amazon SageMaker Studio を開く
- 左側のナビゲーションペインで「JumpStart」を選択する
- 「Nemotron 3 Nano Omni」と検索する
- モデルカードを選択し、「Deploy(デプロイ)」をクリックする
- インスタンスタイプとデプロイ設定を構成する
SageMaker Python SDK を使用したデプロイ
SageMaker Python SDK を使用してプログラム的にデプロイすることもできます:
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
role="",
)
predictor = model.deploy(
accept_eula=True,
) 推論の実行:画像理解
デプロイ後、マルチモーダルリクエストをエンドポイントに送信できます。以下の例は、画像理解リクエストを送信する方法を示しています:
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = encode_image("example.jpg")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Describe this image in detail."},
{"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
## Run inference: Video understanding with reasoning
import base64
def encode_video(video_path):
with open(video_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
video_b64 = encode_video("meeting_recording.mp4")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "video_url",
"video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
{"type": "text",
"text": "Summarize the key discussion points."},
],
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
## Run inference: Audio transcription
import base64
def encode_audio(audio_path):
with open(audio_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
audio_b64 = encode_audio("customer_call.wav")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "audio_url",
"audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
{"type": "text",
"text": "Transcribe this audio and identify key action items."},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
## 結論
NVIDIA Nemotron 3 Nano Omni は、Amazon SageMaker JumpStart に新たなレベルの多モーダル知能をもたらします。動画、音声、画像、テキストの理解を単一の効率的なモデルに統合することで、エンタープライズ向けエージェントアプリケーションの開発を簡素化しつつ、代替となるオープンなオムニモデルと比較して最高クラスの精度を実現し、スループットは最大 9 倍向上させます。
GUI をナビゲートするコンピューター使用型エージェントの構築、コンプライアンスワークフロー向けのドキュメントインテリジェンスパイプラインの開発、あるいはカスタマーサービス用の音声・動画分析システムの構築など、どのような用途であっても、Nemotron 3 Nano Omni は単一のモデル呼び出しで、エージェントに必要な知覚層を提供します。
今日から Amazon SageMaker JumpStart から Nemotron 3 Nano Omni をデプロイして始めましょう。本モデルの詳細については、Hugging Face の [NVIDIA Nemotron モデルページ](https://huggingface.co/docs/transformers/en/model_doc/nemotron) をご覧ください。
## 著者について

Dan Ferguson は、米国ニューヨークを拠点とする AWS のソリューションアーキテクトです。機械学習サービス(Machine Learning Services)の専門家として、顧客が ML ワークフローを効率的かつ効果的、そして持続可能に統合するための旅をサポートしています。
**マラヴ・シャストリ**氏は、AWS のソフトウェア開発エンジニアであり、Amazon SageMaker JumpStart および Amazon Bedrock チームで活動しています。彼の役割は、顧客が最先端のオープンソースおよび独自基盤モデル、ならびに従来の機械学習アルゴリズムを活用できるよう支援することに焦点を当てています。マラヴ氏はコンピュータサイエンスの修士号を取得しています。
**ヴィヴェク・ガンガサニ**氏は、SageMaker Inference の世界規模ソリューションアーキテクチャリーダーです。彼は SageMaker Inference におけるソリューションアーキテクチャ、技術的市場投入(GTM)、およびアウトバウンド製品戦略を統括しています。また、企業やスタートアップが SageMaker と GPU を活用して生成 AI モデルの展開・最適化を行い、AI ワークフローを構築するのを支援しています。現在、彼はエージェントワークフロー、RAG などのユースケースにおける推論パフォーマンスの最適化に関する戦略とコンテンツの開発に注力しています。余暇にはハイキング、映画鑑賞、さまざまな料理を試すことを楽しんでいます。原文を表示
Today, we are excited to announce the day zero availability of NVIDIA Nemotron 3 Nano Omni on Amazon SageMaker JumpStart. This multimodal model from NVIDIA combines video, audio, image, and text understanding into a single, efficient architecture, enabling enterprise customers to build intelligent applications that can see, hear, and reason across modalities in one inference pass.
In this post, we walk through the model architecture and key capabilities of Nemotron 3 Nano Omni, explore the enterprise use cases it unlocks, and show you how to deploy and run inference using Amazon SageMaker JumpStart.
Overview of NVIDIA Nemotron 3 Nano Omni
NVIDIA Nemotron 3 Nano Omni is an open, multimodal large language model with 30 billion total parameters and 3 billion active parameters (30B A3B). It is built on a Mamba2 Transformer Hybrid Mixture of Experts (MoE) architecture, combining three core components:
- Nemotron 3 Nano LLM as the language backbone
- CRADIO v4-H as the vision encoder for image and video understanding
- Parakeet as the speech encoder for audio transcription and comprehension
This unified architecture processes video, audio, images, and text as input and generates text as output. It supports a 131K token context length, chain of thought reasoning, tool calling, JSON output, and word level timestamps for transcription tasks. The model is available in FP8 precision on SageMaker JumpStart, delivering an optimal balance of accuracy and efficiency for enterprise workloads. It is licensed under the NVIDIA Open Model Agreement for commercial use.Enterprise agent workflows are inherently multimodal. Agents must interpret screens, documents, audio, video, and text, often within the same reasoning loop. Today, most agentic systems stitch together separate models for vision, speech, and language. This approach increases latency through repeated inference passes, complicates orchestration and error handling, fragments context across modalities, and amplifies cost and failure modes over time.
Nemotron 3 Nano Omni solves this by functioning as the multimodal perception and context sub-agent in a system of agents. It provides the agent system with eyes and ears: reading screens, interpreting documents, transcribing speech, and analyzing video, all while maintaining a converged multimodal context across reasoning loops.Nano Omni understands screens, documents, audio, and video in a single reasoning loop. This replaces fragmented model stacks and simplifies agent workflow design significantly. For anyone building agentic architectures, this collapses inference hops, orchestration logic, and cross-model synchronization overhead into a single model call.The model accepts the following input types:
Input Type
Supported Formats
Constraints
Video
mp4
Up to 2 minutes, up to 256 frames
Audio
wav, mp3
Up to 1 hour, 8kHz+ sampling rate
Image
JPEG, PNG (RGB)
Standard resolution
Text
String
Up to 131K context
Enterprise use cases
The multimodal capabilities of Nemotron 3 Nano Omni make it a powerful, flexible model choice for enterprise use cases.
Computer use agents
Nemotron 3 Nano Omni powers the perception loop for agents navigating graphical user interfaces. It reads screens, understands UI state over time, and validates outcomes, while execution agents handle the actions. This collapses vision and reasoning into a single loop, eliminating the need for split perception pipelines. Practical applications include incident management dashboards, agentic search, browser automation, and email workflow agents.
Document intelligence
The model interprets documents, charts, tables, screenshots, and mixed media inputs, enabling agents to reason across visual structure and text content coherently. This is critical for enterprise analysis and compliance workflows involving contracts, statements of work, financial documents, and scientific literature.
Audio and video understanding agents
For customer service, research, and monitoring workflows, Nemotron 3 Nano Omni maintains continuous audio and video context. It ties together what was said, shown, and documented into a single reasoning stream instead of disconnected summaries. This enables applications such as meeting recording analysis, media and entertainment asset management, drive-thru order verification, and customer service video review (for example, verifying package delivery at a given address via OCR).
Getting started with SageMaker JumpStart
You can deploy Nemotron 3 Nano Omni through Amazon SageMaker JumpStart in a few steps. SageMaker JumpStart provides one-click deployment of foundation models with optimized inference containers, removing the need to manage infrastructure, configure serving frameworks, or handle model artifact downloads.
Prerequisites
Before you begin, make sure you have:
- An AWS account
- Appropriately scoped permissions for SageMaker JumpStart
- Sufficient service quota for GPU instances (for example, ml.p4d.24xlarge or ml.p5.48xlarge)
Deploy using SageMaker Studio
- Open Amazon SageMaker Studio
- In the left navigation pane, choose JumpStart
- Search for Nemotron 3 Nano Omni
- Select the model card and choose Deploy
- Configure your instance type and deployment settings
- Choose Deploy to create the endpoint
Deploy using the SageMaker Python SDK
You can also deploy programmatically using the SageMaker Python SDK:
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
role="",
)
predictor = model.deploy(
accept_eula=True,
)Run inference: Image understanding
Once deployed, you can send multimodal requests to the endpoint. The following example shows how to send an image understanding request:
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = encode_image("example.jpg")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Describe this image in detail."},
{"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])Run inference: Video understanding with reasoning
import base64
def encode_video(video_path):
with open(video_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
video_b64 = encode_video("meeting_recording.mp4")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "video_url",
"video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
{"type": "text",
"text": "Summarize the key discussion points."},
],
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])Run inference: Audio transcription
import base64
def encode_audio(audio_path):
with open(audio_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
audio_b64 = encode_audio("customer_call.wav")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "audio_url",
"audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
{"type": "text",
"text": "Transcribe this audio and identify key action items."},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])Recommended inference parameters
The following table contains the recommended hyperparameter values for Omni inference requests. The values change depending on the inference mode.
Mode
Temperature
top_p
max_tokens
Use Case
Thinking
0.6
0.95
20480
Complex reasoning
Instruct
0.2
N/A
1024
General tasks, ASR
For tasks that involve reasoning and complex understanding, we recommend enabling thinking mode. For transcription and straightforward tasks, instruct mode (with thinking disabled) provides faster responses.
Clean up
To avoid incurring unnecessary charges, delete the SageMaker endpoint when you are done:
predictor.delete_endpoint()Conclusion
NVIDIA Nemotron 3 Nano Omni brings a new level of multimodal intelligence to Amazon SageMaker JumpStart. By unifying video, audio, image, and text understanding into a single efficient model, it simplifies the development of enterprise agentic applications while delivering leading accuracy and up to 9x higher throughput compared to alternative open omni models.
Whether you are building computer use agents that navigate GUIs, document intelligence pipelines for compliance workflows, or audio and video analysis systems for customer service, Nemotron 3 Nano Omni provides the perception layer your agents need in a single model call.
Get started today by deploying Nemotron 3 Nano Omni from Amazon SageMaker JumpStart. For more information about the model, visit the NVIDIA Nemotron model page on Hugging Face.
About the authors

Dan Ferguson is a Solutions Architect at AWS, based in New York, USA. As a machine learning services expert, Dan works to support customers on their journey to integrating ML workflows efficiently, effectively, and sustainably.
Malav Shastri is a Software Development Engineer at AWS, where he works on the Amazon SageMaker JumpStart and Amazon Bedrock teams. His role focuses on enabling customers to take advantage of state-of-the-art open source and proprietary foundation models and traditional machine learning algorithms. Malav holds a Master’s degree in Computer Science.
Vivek Gangasani is a Worldwide Leader for Solutions Architecture, SageMaker Inference. He leads Solution Architecture, Technical Go-to-Market (GTM) and Outbound Product strategy for SageMaker Inference. He also helps enterprises and startups deploy and optimize a GenAI models and build AI workflows with SageMaker and GPUs. Currently, he is focused on developing strategies and content for optimizing inference performance and use-cases such as Agentic workflows, RAG etc. In his free time, Vivek enjoys hiking, watching movies, and trying different cuisines.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み