Nemotron Labs の拡散言語モデルによる光速テキスト生成への道
NVIDIA が Hugging Face で発表した「Diffusion Language Models」は、従来のトークン生成モデルに代わり拡散プロセスを用いることでテキスト生成の速度を光速度レベルまで引き上げる画期的な技術的転換点である。
キーポイント
拡散言語モデルの登場
NVIDIA は、従来の autoregressive(自己回帰)方式ではなく、拡散モデルをテキスト生成に応用する「Diffusion Language Models」を発表し、Nemotron-Labs の一部として公開した。
生成速度の劇的向上
このアプローチにより、トークンが逐次生成される従来の方式と比較して、推論時間を大幅に短縮し、「光速度(speed-of-light)」と呼ばれるほどの高速なテキスト生成を実現する。
アーキテクチャの転換
モデルはノイズからデータを復元する拡散プロセスを採用することで、並列処理を可能にし、長文生成におけるボトルネックであった逐次依存性を打破している。
影響分析・編集コメントを表示
影響分析
この記事は、テキスト生成 AI の根本的なアーキテクチャが「自己回帰」から「拡散」へとシフトする可能性を示しており、業界全体のパフォーマンス基準を再定義する重大な転換点です。特に推論速度の向上は、リアルタイム対話や大規模データ処理における遅延問題を解決し、次世代 AI アプリケーションの開発スピードを加速させるでしょう。
編集コメント
従来の LLM の常識を覆す「拡散モデルによるテキスト生成」の実現は、推論速度の壁を破る決定的な一歩であり、今後の AI インフラ設計に大きな影響を与えるでしょう。
- モデル、トレーニングレシピ、技術レポートへのクイックリンク
- 1 つのモデルに搭載された 3 つの生成モード
- パフォーマンスのハイライト
- Nemotron-Labs Diffusion のトレーニング方法
- SGLang を通じたデプロイメントと推論
- 今日から始めよう
大規模言語モデル(LLM)は、コード生成、数学問題の解決、要約、ドキュメント理解、および多くの開発者ワークフローにおけるデフォルトインターフェースとなっています。しかし、その内部では、多くの LLM が依然として同じ方法でテキストを生成しています:1 トークンずつ生成し、各トークンはそれ以前に出現したトークンに依存します。そのため、これらのモデルは自身の出力を入力として消費するため「自己回帰的(autoregressive)」と呼ばれます。
この自己回帰的(AR)アプローチは非常に成功しました。トレーニングが安定しており、提供がシンプルで、現代の言語モデリングにおける進歩の多くを担ってきました。しかし、これには明確な限界もあります:新しいトークンごとにモデル全体のパスが必要となり、計算を開始する前にすべての重みをメモリから読み込む必要があります。レイテンシに敏感なアプリケーションを開発している開発者や、より小さなバッチサイズで実行している場合、あるいは現代の GPU をより効率的に活用しようとしている場合、トークンごとの生成ではパフォーマンスが十分に発揮されない可能性があります。これは、GPU の時間の大部分が計算ではなくメモリ操作に費やされてしまうためです。
さらに、自己回帰モデルによって一度生成されたトークンは確定され、過去のトークンを修正する本質的な能力を備えていません。その結果、生成の過程で誤りが連鎖的に伝播してしまう可能性があります。
Nemotron-Labs Diffusion は新たな道筋を示します:拡散言語モデル(Diffusion Language Models: DLM)は、複数のトークンを並列に生成し、その後、複数ステップにわたって生成されたトークンを反復的に精緻化することで動作します。これらのモデルは、現代の GPU の計算モデルをより効果的に活用し、実行時のパフォーマンスにおいて顕著な利点を提供できるだけでなく、生成されたトークンの修正も可能にするため、既存テキストの修正や中間埋め込み(fill-in-the-middle)タスクへの対応に特に適しています。この「生成と精緻化」のプロパティは、推論予算を制御するための組み込まれた手段も提供します。精緻化ステップ数を減らすことで、実行時のこれらのモデルに対する計算要件を削減できます。
モデル、トレーニングレシピ、技術報告書へのクイックリンク
Nemotron-Labs Diffusion ファミリーには、3B、8B、14B の規模を持つテキストモデルが含まれており、これらはすべて商業利用に友好的な NVIDIA Nemotron Open Model License の下で提供されています。また、NVIDIA Source Code License の下で提供される 8B 規模のビジョンランゲージモデル(VLM)も含まれており、広範な研究の柔軟性を保証しています。ラインナップ全体を通じて、NVIDIA はベースモデルと指令微調整されたチャット変種の両方をリリースしています。さらに、これらのモデルをトレーニングするためのコードも NVIDIA Megatron Bridge フレームワーク を通じて公開されています。
- HuggingFace 上の NVIDIA Nemotron-Labs Diffusion モデルコレクション
- GitHub 上のトレーニングレシピとコード
- 技術レポート
1 つのモデルにおける3つの生成モード
Nemotron-Labs Diffusion は、自己回帰型(autoregressive)と拡散型(diffusion)の生成は別々のモデルファミリーであるべきではないというシンプルなアイデアに基づいて設計されています。これらは同じモデルの機能であるべきです。このモデルは 3 つの生成モードをサポートしています。
自己回帰モード(Autoregressive mode) は、標準的な左から右への大規模言語モデル(LLM)のように動作します。これにより、開発者がすでに知っている生成ワークフローとの互換性が保たれます。
拡散モード(Diffusion mode) はブロックごとに生成を行い、複数のステップにわたって徐々にトークンを生成していきます。
自己推測モード(Self-speculation mode) では、拡散を用いて複数の候補トークンを下書きし、その後自己回帰型デコーディングによってそれらを検証します。これにより、拡散スタイルの下書きの速度ポテンシャルと、AR 検証の信頼性が組み合わされます。
この柔軟な設計は、速度と精度の両方が重要となる開発者向け機能の中核です。予測不可能なバッチサイズを持つワークロードや、単一クエリ(バッチサイズ=1)の場合でも同様です。所望の推論モードを選択するには、アプリケーションレベルでのほとんど変更を必要としません。これはデプロイ時の設定であるためです。したがって、開発者は現在使用しているモデルと、超高速生成を実現するさまざまな推論モードにおけるNemotron-Labs Diffusionの間で、シームレスに切り替えることができます。
パフォーマンスのハイライト
Nemotron-Labs Diffusion 8Bは、Qwen3 8Bと比較して平均精度が1.2%向上しています。1回のフォワードパスあたりのトークン数(TPF:ハードウェア非依存のトークンデコーディング効率測定手段)で測定した推論速度を比較すると、拡散モードはARモデルよりも2.6倍高いTPFを達成します。一方、自己予測(self-speculation)を採用することで、線形自己予測ではさらに6倍、二次自己予測では6.4倍に達し、評価されたタスク全体で同等の精度を維持しています。
Nemotron-Labs Diffusion のトレーニング方法について
拡散言語モデルは長年有望視されてきましたが、歴史的には実用的な障壁が存在しました。具体的には、強力なARモデルよりも精度が低いこと、トレーニングが困難であること、そしてKVキャッシュ(Key-Value Cache)との互換性が限定的であったことです。
最近の研究がこの方向性を変えました。Efficient-DLM は、事前学習済み AR モデルを継続的な事前学習と、アテンション機構をブロック単位のアプローチへ変更することで、拡散言語モデルに変換できることを示しました。この設計により、AR モデルの能力を維持しつつ、KV キャッシュに優しい並列デコードが可能になります。
Nemotron-Labs Diffusion は、同じ実用的な洞察に基づいています:既存の AR モデルに拡散機能を追加するのです。このモデルは、AR と拡散の両方の目的関数を用いてトレーニングされており、初期の AR トレーニングで学習した内容を保持しつつ、並列ドラフト作成能力を拡散によって付与しています。このモデルは NVIDIA Nemotron Pretraining datasets から 1.3T トークンで事前トレーニングされ、NVIDIA Nemotron Post-training datasets から 45B トークンを用いた追加の教師あり微調整フェーズを経ています。
SGLang を通じた展開と推論
Nemotron-Labs Diffusion モデルの展開は、まもなく SGLang のメインブランチでサポートされるようになります。執筆時点では、GitHub のこのイシュートラッカーリクエスト を通じて推論のサポートが利用可能です。
素晴らしい点は、統合により、アルゴリズム設定の単一行で切り替えられる 3 つの異なる方法で、同じチェックポイントを提供できることです。
- プレーン自己回帰 - ar_mode=true を設定すると、モデルは他の因果言語モデルと同様に動作します。正解の参照用として有用です。あるいは、純粋な自己回帰出力に対する単純な検証を行いたい場合にも役立ちます。
- 拡散モード (FastDiffuser) - 生スループットにおける主役です。モデルは反復的なノイズ除去によって一度に 32 トークンのブロックを埋めていきます。各ステップでどのトークンを「十分良い」として確定するかは、信頼度閾値によって決定されます。
- 自己推測 (LinearSpec) - これが私たちの大好きな機能です。同じモデルが双方向にブロックの下書きを行い、その後因果的に検証します。一致するプレフィックス部分はすべて確定されます。温度 0 の場合、出力は自己回帰に対してロスレスですが、B200 上で speedbench データセットを用いたテストでは約 865 トークン/秒を達成しました。これは同じハードウェア上の自己回帰ベースラインの約 4 倍です。
今日から始めよう
Nemotron-Labs Diffusion は、開発者が実際に使用できる形で拡散スタイルの生成をもたらします:オープンモデル、一般的な自己回帰との互換性、拡散デコーディング、そして自己推測による加速が一つのファミリーに統合されています。Nemotron-Labs Diffusion を用いれば、アプリケーションを変更する必要なく、テキスト生成の下書き、改良、検証、加速のための新しい方法が開発者に提供されます。
まずは、Nemotron-Labs Diffusion の モデルファミリー を探索し、技術報告書 を読み、利用可能な トレーニングレシピ を試してみてください。
原文を表示
- Quick Links to the Models, Training Recipe and Technical Report
- Three Generation Modes in One Model
- Performance Highlights
- How we trained Nemotron-Labs Diffusion
- Deployment and inference through SGLang
- Get Started Today
Large language models (LLMs) have become the default interface for code generation, math problem solving, summarization, document understanding, and many other developer workflows. Under the hood, though, many LLMs still generate text the same way: one token at a time, and each token depends on the tokens that appeared before it. As such, these models are called autoregressive, since they consume their own outputs.
That autoregressive (AR) approach has been remarkably successful. It is stable to train, simple to serve, and responsible for much of the progress in modern language modeling. But it also creates a hard limit: every new token requires a full model pass and every weight has to be loaded from the memory before computation can start. For developers building latency-sensitive applications, running smaller batch sizes, or trying to make better use of modern GPUs, token-by-token generation can leave performance on the table as most of the GPU’s time is spent on memory operations, rather than computation.
Additionally, once a token is generated by an autoregressive model, it is final and they do not inherently have the ability to revise previous tokens. Consequently, mistakes can propagate during the course of generation.
Nemotron-Labs Diffusion introduces a new path forward: diffusion language models (DLM) that work by generating multiple tokens in parallel, then iteratively refining the generated tokens in multiple steps. Not only can these models better leverage the computational model of the modern GPUs and offer significant runtime performance benefits, but they can also revise generated tokens, making them more suitable for revising existing text and addressing fill-in-the-middle objectives. This generate-and-refine property also offers a built-in way to control the inference budget. By reducing the number of refinement steps, one can reduce the compute requirements of these models at runtime.
Quick Links to the Models, Training Recipe and Technical Report
The Nemotron-Labs Diffusion family includes text models at 3B, 8B, and 14B scales, all available under the commercially-friendly NVIDIA Nemotron Open Model License,
as well as a 8B scale vision-language model (VLM), available under the NVIDIA Source Code License, granting broad research flexibility. Across the lineup, NVIDIA is releasing both base models and instruction-tuned chat variants. NVIDIA is also releasing the code for training these models through the NVIDIA Megatron Bridge framework.
- NVIDIA Nemotron-Labs Diffusion model collection on HuggingFace
- Training recipe and code on GitHub
- Technical report
Three Generation Modes in One Model
Nemotron-Labs Diffusion is designed around a simple idea: autoregressive and diffusion generation should not be separate model families. They should be capabilities of the same model. The model supports three generation modes:
Autoregressive mode runs like a standard left-to-right LLM. This keeps compatibility with the generation workflow developers already know.
Diffusion mode generates block by block, gradually generating tokens over multiple steps.
Self-speculation mode uses diffusion to draft multiple candidate tokens, then uses autoregressive decoding to verify them. This combines the speed potential of diffusion-style drafting with the reliability of AR verification.
This flexible design is the key developer-facing feature where speed and accuracy both matter, even at workloads with unpredictable batch sizes, or those with a single query (batch size=1). Selecting the desired inference mode requires almost no change at the application level, since this is a deployment-time setting. As such, developers can seamlessly switch between the model they use today, or Nemotron-Labs Diffusion in various inference modes for ultra-fast generation speeds.
Performance Highlights
Nemotron-Labs Diffusion 8B achieves an improved average accuracy of 1.2% compared with Qwen3 8B. Comparing the inference speed measured in tokens per forward pass (TPF for short, a hardware-agnostic means of measuring token decoding efficiency), the diffusion mode reaches 2.6× higher TPF than AR models, while self-speculation pushes that further to 6× for linear self-speculation and 6.4× for quadratic self-speculation, with comparable accuracy across the evaluated tasks.
How we trained Nemotron-Labs Diffusion
Diffusion language models have been promising for years, but they have historically had practical barriers: lower accuracy than strong AR models, more difficult training, and limited compatibility with KV caching.
Recent work changed that direction. Efficient-DLM showed that pretrained AR models can be converted into diffusion language models through continued pretraining and altering the attention mechanism to a block-wise approach. That design helps preserve AR model capabilities while enabling KV-cache-friendly parallel decoding.
Nemotron-Labs Diffusion builds on the same practical insight: add diffusion capabilities to an existing AR model. The model was trained with a joint AR and diffusion objective, allowing it to retain what it had learned during its initial AR training while diffusion added parallel drafting capability. The model was pre-trained on 1.3T tokens from the NVIDIA Nemotron Pretraining datasets and underwent an additional supervised fine-tuning phase using 45B tokens from the NVIDIA Nemotron Post-training datasets.
Deployment and inference through SGLang
Deployment of Nemotron-Labs Diffusion models will soon be supported in the main branch of SGLang. At the time of this writing, support for inference is available through this issue tracker request on GitHub.
What's neat is that the integration lets you serve the same checkpoint in three different ways, picked by a single line in your algorithm config:
- Plain autoregressive - set ar_mode=true and the model behaves like any other causal LM. Useful as the correctness reference, or if you just want a sanity check against pure AR output.
- Diffusion mode (FastDiffuser) - the headliner for raw throughput. The model fills in a 32-token block at a time by iteratively denoising it, and a confidence threshold decides which tokens are "good enough" to commit each step.
- Self-speculation (LinearSpec) - this one's our favorite. The same model drafts a block bidirectionally, then verifies it causally; whatever prefix matches gets committed. Output is lossless versus AR at temperature 0, but we hit ~865 tok/s on B200 on speedbench dataset - roughly 4× the autoregressive baseline on the same hardware.
Get Started Today
Nemotron-Labs Diffusion brings diffusion-style generation into a form developers can actually use: open models, familiar AR compatibility, diffusion decoding, and self-speculative acceleration in one family. With Nemotron-Labs Diffusion, developers get a new way to draft, refine, verify, and accelerate text generation, without needing to alter their applications.
To get started, explore the Nemotron-Labs Diffusion model family, read the technical report, and try the available training recipe.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み