Nemotron 3 Nano 4B:効率的なローカルAIのためのコンパクトハイブリッドモデル
NVIDIAは、ハイブリッドMamba-Transformerアーキテクチャを採用し、わずか40億パラメータでエッジデバイス上での効率的な実行を可能にする軽量言語モデル「Nemotron 3 Nano 4B」をオープンソースで公開した。
キーポイント
コンパクトなハイブリッドアーキテクチャ
Mamba-Transformerハイブリッドアーキテクチャを採用し、40億パラメータという小型サイズでありながら、効率性と精度を両立させている。
エッジデバイス向け最適化
NVIDIA JetsonプラットフォームやRTX GPUなど、リソース制約のあるエッジデバイス上でのローカル実行に特化して設計・最適化されている。
優れた性能特性
命令追従、ツール使用、幻覚回避において、同サイズクラスで最先端の性能を達成し、VRAM使用量とレイテンシも最小化している。
オープンソースによるエコシステム強化
モデルがオープンソースとして公開されており、コミュニティによるカスタマイズ、ファインチューニング、ドメイン特化への最適化が可能となっている。
Nemotron Elasticによる効率的な圧縮手法
従来の段階的な圧縮手法とは異なり、ルーターを導入した構造化プルーニングと知識蒸留を組み合わせることで、9Bモデルから4Bモデルを低コストで生成する。
ルーターによる4つのプルーニング軸の選択
Mambaヘッド数、隠れ次元、FFNチャネル、層の深さの4つの軸から、アクティベーション重要度スコアとMSEベースの層重要度ランキングに基づいて最適なプルーニングを決定する。
二段階蒸留による精度回復プロセス
圧縮後のモデルを、8Kコンテキスト長での短コンテキスト蒸留(63Bトークン)と長コンテキスト蒸留の2段階で再訓練し、精度を回復させる。
影響分析・編集コメントを表示
影響分析
この発表は、大規模言語モデルのエッジデバイスへの実用的な展開を加速させる重要なマイルストーンである。高性能ながらリソース効率に優れたモデルがオープンソースで提供されることで、ローカルAIアプリケーションの開発ハードルが大幅に下がり、データプライバシーを重視するユースケースや、リアルタイム応答が求められる対話エージェントの普及に貢献する可能性が高い。
編集コメント
PR色はあるが、エッジAI実用化に向けた具体的な技術的進展とオープンソース化という戦略的意義は高く評価できる。軽量LLM競争の新たな段階を示すニュース。
記事に戻る Nemotron 3 Nano 4B: 効率的なローカルAIのためのコンパクトなハイブリッドモデル
Upvote 5 ![]()

私たちは、Nemotron 3ファミリーの最新かつ最もコンパクトなメンバーであるNemotron 3 Nano 4Bを紹介できることを嬉しく思います。ハイブリッドMamba-Transformerアーキテクチャを活用したこのモデルは、特定の能力セットにおける効率性と正確性のために設計されており、軽量な小型言語モデルの新たな基準を確立しています。このモデルは、あらゆるNVIDIA GPU対応プラットフォームで利用可能であり、最先端の指示追従と優れたツール使用を最小限のVRAM使用量で組み合わせています。
わずか40億パラメータのNemotron 3 Nano 4Bは、NVIDIA Jetsonプラットフォーム(Jetson Thor/Jetson Orin Nano)およびNVIDIA DGX SparkとNVIDIA RTX GPU上でエッジで実行するのに十分なコンパクトさを備えています。これにより、推論コストを低く保ちながら、より速い応答時間、強化されたデータプライバシー、柔軟なデプロイメントが可能になります。
Nemotron 3 Nano 4Bは、オンデバイスデプロイメントに特化して最適化された初めてのモデルであり、GeForce RTX、Jetson、Sparkの顧客ユースケース全体でローカルの会話エージェントとペルソナを駆動するために構築されています。このモデルは、エッジでの本番使用に重要ないくつかの次元で最先端の正確性と効率性を達成しています:
指示追従(IFBench、IFEval):そのサイズクラスで最先端
ゲームエージェンシー/インテリジェンス(Orak):そのサイズクラスで最先端
VRAM効率(ピークメモリ使用量):低および高ISL/OSL設定の両方で、そのサイズクラスで最低のVRAMフットプリント(*1)
レイテンシ:高ISL設定下で、そのサイズクラスで最低のTTFT(*1)
(*1)効率ベンチマークは、RTX 4070上でLlama.cppを使用し、両モデルのQ4_K_M量子化バージョンを用いて測定されました。
さらに、Nemotron 3 Nano 4Bは優れたツール使用性能を提供し、幻覚回避において非常に競争力があります。これらの能力を合わせて、このモデルがエッジユースケースに強く適していることを示しています。
Nemotron 3 Nano 4Bは、Nemotron Elasticフレームワークを使用してNemotron Nano 9B v2から枝刈りと蒸留が行われ、ハイブリッド推論モデルとして強力な推論能力を継承できるようになりました。さらに、Nemotron 3ポストトレーニングデータから派生した新しいレシピで追加トレーニングが行われ、明示的な思考なしでもタスク解決に優れるようになりました。
最後に、オープンソースモデルとして、エコシステムがドメイン固有のユースケース向けにカスタマイズ、ファインチューニング、最適化を行うことを可能にします。

Orakについては、Super Mario、Darkest Dungeon、Stardew Valleyなどの戦術ゲームでモデルを評価しました。
Nemotron 3 Nano 4Bのトレーニングレシピ

Nemotron Elasticによる9B→4Bへの圧縮
Nemotron 3 Nano 4Bは、Nemotron Elasticテクノロジーを使用してNemotron Nano 9B v2から派生しました。既存のLLM圧縮技術のように、ゼロから4Bモデルをトレーニングしたり、枝刈り、候補探索、蒸留の別々のステージを実行するのではなく、Nemotron Elasticはルーターによって導かれる構造化枝刈りを使用します。このルーターは、学生モデルのサイズに対処する補助損失と元の知識蒸留損失を使用してモデルと共同でトレーニングされます。このテクノロジーにより、ゼロからの事前トレーニングや従来の圧縮に比べてわずかなコストで最適な学生モデルを達成できます。
ルーターが何を枝刈りするかを決定する方法
Nemotron Elasticは、知識蒸留実行とともに複数の圧縮軸にわたるニューラルアーキテクチャ探索を実行するエンドツーエンドトレーニングされたルーターを導入します。Nano 4Bでは、このフレームワークはシングルバジェット構成で使用されました—4Bパラメータ数のみをターゲットとして—ルーターの役割は、どの軸をどれだけ枝刈りしてターゲットバジェットに到達するかを決定することです。
ルーターには、選択するための4つの枝刈り軸が与えられました:
Mambaヘッド—SSMヘッドの数を削減
隠れ次元(埋め込み次元)—モデル全体の表現幅を縮小
FFNチャネル—MLP層の中間ニューロンを枝刈り
深さ(層)—ネットワークから層全体を削除
各幅軸について、コンポーネントの重要性に関する事前知識が、活性化ベースの重要性スコアに従ってチャネル、ヘッド、ニューロンをソートすることによってルーターに提供されました。深さについては、正規化MSEベースの層重要性ランキングが使用されました:各層が反復的に削除され、完全モデルの出力ロジットへの影響が測定され、どの層が最も重要かの原則的な順序付けが行われました。詳細はNemotron Elastic論文で見つけることができます。4Bターゲットパラメータバジェットを考慮して、ルーターは以下の枝刈り決定に収束しました:
Nemotron Nano 9B v2(親)
Nemotron 3 Nano 4B
56層(27 Mamba、4 アテンション、25 MLP)
42層(21 Mamba、4 アテンション、17 MLP)
FFN中間次元
正確性回復のための2段階蒸留
ルーターが枝刈りされたアーキテクチャを決定した後、圧縮モデルは、凍結された9B親からの知識蒸留を使用して、Nano v2の事前トレーニングとポストトレーニングデータで再トレーニングされます。この正確性回復プロセスは2段階で実行されます:
ステージ1—短いコンテキスト蒸留(8Kシーケンス長):4Bモデルは、親Nano v2レシピからの約70%のポストトレーニングデータと30%の事前トレーニングデータからなるデータブレンドを使用して、8Kコンテキストウィンドウで63Bトークンについてトレーニングされます。このステージは、圧縮後のモデル正確性の初期回復に不可欠です。
ステージ2—長いコンテキスト拡張(49Kシーケンス長):拡張された推論連鎖を必要とするより困難なタスクでの性能を回復するために、コンテキストは49Kトークンに拡張されます。このステージでは、モデルは150Bトークンについてトレーニングされます。
教師ありファインチューニング
Megatron-LMを使用して、Nemotron-Post-Training-v3コレクションからの関連サブセットを用いて2段階のSFTを実施しました。最初のSFTステージでは、数学、コーディング、科学、チャット、指示追従、エージェンシックタスクなどの多様なドメインにわたる推論および非推論データの混合でモデルをトレーニングします。2番目のステージは、安全な行動を強化するための小規模な集中トレーニングです。
マルチ環境強化学習
モデルがSFTでブートストラップされた後、NeMo-RLを使用した3段階RLパイプラインに切り替えて、焦点領域である指示追従とツール呼び出し/エージェンシック行動をターゲットにします。最初の段階では、シングルターンの指示追従データを使用します。2番目の段階では、シングルターンおよびマルチターンの指示追従、および構造化出力(JSON、XML)のためにNeMo-Gym環境を使用します。最後に、3番目の段階では、マルチターンの会話的ツール呼び出しのためにNemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1の予備バージョンを使用します。3つのRLVR段階全体で、推論と非推論データのバランスの取れた50-50比率が使用され、KLペナルティが各段階で徐々に増加しました。
量子化による効率向上
エッジデバイスでは、効率を改善しVRAM使用量を削減するために、量子化を通じてモデルサイズをさらに削減することが不可欠です。Nemotron 3 Nano 4Bは、エッジデバイスで効率的であるようにFP8およびQ4_K_M GGUFでリリースされています。
FP8モデルについては、ModelOptライブラリを使用してポストトレーニング量子化(PTQ)を適用しました。PTQキャリブレーションデータセットには、ポストトレーニングSFTデータセットからの1Kサンプルの小さなサブセットを使用して、量子化に関連する正確性損失を最小限に抑えるために活性化統計を推定しました。効率を改善しながら正確性を維持するために、ネットワーク全体を量子化するのではなく、選択的量子化戦略も適用しました。一連の量子化構成を比較した結果、自己アテンション層(42層中4層)と自己アテンション層に先行する4つのMamba層をBF16に保持することが、正確性回復と効率向上のトレードオフにおいて最適点を提供することが示されました。モデル重み、活性化、KVキャッシュはFP8に量子化されます。すべてのMamba層内のConv1DはBF16に保持されます。FP8モデルは、BF16モデルと比較してターゲットベンチマーク全体で100%の中央値正確性回復を達成しました。FP8量子化バージョンは、DGX Spark & Jetson Thor上で元のBF16バージョンと比較して、レイテンシとスループットで最大1.8倍の改善を提供します。
Llama.cppサポートについては、広く採用されているGGUF量子化方法Q4_K_Mを使用します。これは、効率と正確性の優れたバランスを提供する4ビット方式です。Q4_K_M GGUFバージョンは、BF16モデルと比較してターゲットベンチマーク全体で100%の中央値正確性回復を達成しました。
このGGUFリリースは、Jetsonデプロイメントにも適しています。小型組み込みデバイス向けに設計されたJetson Orin Nano 8GBでは、Llama.cppで実行されるQ4_K_Mチェックポイントは18トークン/秒を提供し、Nemotron Nano 9B v2よりも最大2倍高いスループットを実現し、組み込みAIおよびロボティクスユースケースにおけるエッジ推論のためのNemotron 3 Nano 4Bの効率性を強調しています。
Nemotron 3 Nano 4Bは、Transformers、vLLM、TRT-LLM、Llama.cppを含む様々な推論エンジンで利用可能であり、幅広いエッジデプロイメントシナリオをサポートします。開始するには、以下のHugging Faceリポジトリを訪問してモデルチェックポイントをダウンロードしてください。Hugging Face Transformers、vLLM、TRT-LLM、Llama.cppの使用例はモデルカードで利用可能です。
https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16
https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-FP8
https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-GGUF
Jetsonについては、ステップバイステップの指示とすぐに実行できるコマンドがJetson AI Labモデルページで利用可能です。
また、重いグラフィックスワークロードと並行してモデルを実行する際の推論パフォーマンスを加速するために、NVIDIA In-Game Inferencing (NVIGI) SDKをチェックしてみてください。
















原文を表示
Back to Articles Nemotron 3 Nano 4B: A Compact Hybrid Model for Efficient Local AI
Upvote 5 ![]()

We are excited to introduce Nemotron 3 Nano 4B, the newest and most compact member of the Nemotron 3 family. Leveraging hybrid Mamba-Transformer architecture, this model is designed for efficiency and accuracy in a targeted set of capabilities, setting a new standard for lightweight small language models. The model is available across any NVIDIA GPU-enabled platforms and combines state-of-the-art instruction following and exceptional tool use with minimal VRAM footprint.
With just 4 billion parameters, Nemotron 3 Nano 4B is compact enough to run at the edge on NVIDIA Jetson platforms (Jetson Thor/Jetson Orin Nano) as well as NVIDIA DGX Spark and NVIDIA RTX GPUs. This enables faster response times, enhanced data privacy, and flexible deployment while keeping inference costs low.
Nemotron 3 Nano 4B is our first model specifically optimized for on-device deployment and purpose-built to power local conversational agents and personas across GeForce RTX, Jetson and Spark customer use cases. This model achieves state-of-the-art accuracy and efficiency in several dimensions key to production use on the edge:
Instruction following (IFBench, IFEval): state-of-the-art in its size class
Gaming agency/intelligence (Orak): state-of-the-art in its size class
VRAM efficiency (peak memory use): lowest VRAM footprint in its size class under both low and high ISL/OSL settings (*1)
Latency: lowest TTFT in its size class under high ISL settings (*1)
(*1) Efficiency benchmarks were measured on an RTX 4070 using Llama.cpp with Q4_K_M-quantized versions of both models.
Furthermore, Nemotron 3 Nano 4B delivers excellent tool-use performance and is highly competitive in hallucination avoidance. Together, these capabilities demonstrate the model’s strong suitability for edge use cases.
Nemotron 3 Nano 4B was pruned and distilled from Nemotron Nano 9B v2 using the Nemotron Elastic framework, allowing it to inherit the strong reasoning capabilities as a hybrid reasoning model. It was further post-trained with a new recipe derived from Nemotron 3 Post-training data, enabling the model to excel at task solving even without explicit thinking.
Finally, as an open-source model, it empowers the ecosystem to customize, fine-tune, and optimize it for domain-specific use cases.

For Orak, we evaluated the models in tactical games such as Super Mario, Darkest Dungeon and Stardew Valley.
Training Recipe for Nemotron 3 Nano 4B

Compressing 9B → 4B with Nemotron Elastic
Nemotron 3 Nano 4B was derived from Nemotron Nano 9B v2 using the Nemotron Elastic technology. Rather than training a 4B model from scratch, or performing separate stages of pruning, candidate search, and distillation, as in an existing LLM compression technique, Nemotron Elastic uses structured pruning guided by a router, which is jointly trained with the model using auxiliary loss addressing the student model size plus the original knowledge distillation loss. This technology enables achieving the optimal student model at a fraction of the cost of pretraining from scratch or conventional compression.
How the Router Decides What to Prune
Nemotron Elastic introduces an end-to-end trained router that performs neural architecture search over multiple compression axes, along with the knowledge distillation run. For Nano 4B, the framework was used in a single-budget configuration — targeting the 4B parameter count only — where the router's role is to determine which axes to prune and by how much to reach the target budget.
The router was given four pruning axes to choose from:
Mamba heads — reducing the number of SSM heads
Hidden dimension (embedding dimension) — shrinking the model-wide representation width
FFN channels — pruning intermediate neurons in MLP layers
Depth (layers) — removing entire layers from the network
For each width axis, prior knowledge about component importance was provided to the router by sorting channels, heads, and neurons according to activation-based importance scores. For depth, a normalized MSE-based layer importance ranking was used: each layer was iteratively removed, and the impact on the full model's output logits was measured, giving a principled ordering of which layers matter most. More details can be found in the Nemotron Elastic paper. Given the 4B target parameter budget, the router converged on the following pruning decisions:
Nemotron Nano 9B v2 (Parent)
Nemotron 3 Nano 4B
56 layers (27 Mamba, 4 attention, 25 MLP)
42 layers (21 Mamba, 4 Attention, 17 MLP)
FFN intermediate dim
Two-Stage Distillation for Accuracy Recovery
After the router determines the pruned architecture, the compressed model is retrained using knowledge distillation from the frozen 9B parent using Nano v2’s pre-training and post-training data. This accuracy recovery process runs in two stages:
Stage 1 — Short-context distillation (8K sequence length): The 4B model is trained on 63B tokens using an 8K context window using a data blend consisting of approximately 70% post-training data and 30% pretraining data from the parent Nano v2 recipe. This stage is essential for the initial recovery of model accuracy after compression.
Stage 2 — Long-context extension (49K sequence length): To restore performance on more challenging tasks that require extended reasoning chains, the context is extended to 49K tokens. In this stage, the model is trained for 150 B tokens.
Supervised Fine-Tuning
We conducted two stages of SFT with relevant subsets from the Nemotron-Post-Training-v3 collection using Megatron-LM. The first SFT stage trains the model on a mix of reasoning and non-reasoning data spanning across diverse domains like math, coding, science, chat, instruction following, and agentic tasks. The second stage is a smaller scale, focused training to reinforce safety behaviors.
Multi-environment Reinforcement Learning
Once the model is boot-strapped with SFT, we switch to a three-stage RL pipeline using NeMo-RL to target our focus areas, instruction following and tool-calling / agentic behavior. In the first stage, we use single-turn instruction-following data. In the second stage, we use NeMo-Gym environments for single-turn and multi-turn instruction following as well as for structured outputs (JSON, XML). Finally, in the third stage, we use a preliminary version of Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1 for multi-turn conversational tool-calling. A balanced 50-50 ratio of reasoning and non-reasoning data was used throughout the three RLVR stages, with the KL penalty progressively increased at each stage.
Boosting Efficiency with Quantization
For edge devices, it is essential to further reduce model size through quantization to improve efficiency and reduce VRAM usage. Nemotron 3 Nano 4B is released in FP8 and Q4_K_M GGUF to be efficient on the edge device.
For the FP8 model, we applied Post-Training Quantization (PTQ) using the ModelOpt library. For the PTQ calibration dataset, we used a small subset of 1K samples from the post-training SFT dataset to estimate activation statistics to minimize quantization related accuracy loss. To preserve accuracy while improving efficiency, we have also applied a selective quantization strategy rather than quantizing the entire network. Comparing a set of quant configurations showed that keeping self- attention layers (4 out of 42 layers) and the 4 Mamba layers that precede the self-attention layers at BF16 provided a sweet-spot for accuracy recovery and efficiency gain trade-off. The model weights, activations, and KV-Cache are quantized to FP8. Conv1D within all the Mamba layers are kept in BF16. FP8 model achieved 100% median accuracy recovery across target benchmarks compared to the BF16 model. The FP8 quantized version delivers up to 1.8X improvement in latency and throughput compared to the original BF16 version on DGX Spark & Jetson Thor.
For Llama.cpp support, we use the widely adopted GGUF quantization method Q4_K_M, a 4-bit scheme that provides an excellent balance between efficiency and accuracy. The Q4_K_M GGUF version achieved 100% median accuracy recovery across the target benchmarks compared to the BF16 model.
This GGUF release is also well suited for Jetson deployments. On Jetson Orin Nano 8GB designed for small embedded devices, the Q4_K_M checkpoint running with Llama.cpp delivers 18 tokens/s, up to 2× higher throughput than Nemotron Nano 9B v2, highlighting Nemotron 3 Nano 4B’s efficiency for edge inference in embedded AI and robotics use cases.
Nemotron 3 Nano 4B is available across a variety of inference engines, including Transformers, vLLM, TRT-LLM, and Llama.cpp, enabling support for a wide range of edge deployment scenarios. To get started, visit the Hugging Face repositories below to download the model checkpoints. Usage examples for Hugging Face Transformers, vLLM, TRT-LLM, and Llama.cpp are available in the Model Card.
https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16
https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-FP8
https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-GGUF
For Jetson, step-by-step instructions and ready-to-run commands are available on the Jetson AI Lab model page.
Also, check out the NVIDIA In-Game Inferencing (NVIGI) SDK to accelerate inference performance when running the model alongside heavy graphics workloads.
















関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み