NVIDIA、凍結された自己回帰バックボーンに基づくオープン重み拡散言語モデル「Nemotron-Labs-TwoTower」を公開
NVIDIA は、生成スループットを大幅に向上させるために、事前学習済み自己回帰モデルと拡散モデルの役割を分離した「TwoTower」アーキテクチャを採用したオープンウェイト言語モデル「Nemotron-Labs-TwoTower」を発表しました。
キーポイント
TwoTower アーキテクチャの革新性
拡散プロセスを「文脈理解用の凍結された自己回帰(AR)タワー」と「ノイズ除去用のトレーニング済みタワー」に分離し、層ごとのクロスアテンションで統合することで、既存の単一ネットワーク型拡散モデルの課題を解決しました。
生成スループットの劇的向上
トークンを並列に生成・反復的に洗練させる仕組みにより、壁時計ベースでの生成スループットが自己回帰モデル比で 2.42 倍向上し、品質は 98.7% を維持しています。
ハイブリッドバックボーンとパラメータ構成
Mamba-2、自己アテンション、MoE(Experts)を組み合わせる Nemotron-3-Nano-30B-A3B をベースに、約 60B の総パラメータを持つモデルが公開され、1 トークンあたりアクティブパラメータは約 3B です。
オープンウェイトとライセンス
NVIDIA Nemotron Open Model License に基づき weights が公開されており、拡散モード、モック AR モード、AR デコーディングモードを単一チェックポイントで実行可能です。
生成速度と品質のトレードオフ
閾値γを0.8に設定することで、わずかな品質低下(1.3%)で推論スループットを2.42倍に向上させることが可能であり、合成テキスト生成などのバッチ処理に適している。
拡散デコーディングの仕組み
従来の自己回帰モデルが1ステップで1トークンを生成するのに対し、TwoTowerは初期段階で1ステップあたり複数のトークンをコミット(確定)することで高速化を実現している。
推論モードとハードウェア要件
フル拡散モードでは2枚のH100 GPUを必要とするが、単一GPUでの自己回帰モードもサポートしており、γ値の変更により品質と速度のバランスを柔軟に調整できる。
影響分析・編集コメントを表示
影響分析
この発表は、LLM の生成速度に限界があるという従来の常識に挑戦する画期的なアプローチであり、特にリアルタイム性が求められるアプリケーションや大規模バッチ処理において、コストと遅延の両面で大きな改善をもたらす可能性があります。NVIDIA が主導するオープンウェイトモデルとしての公開により、業界全体で拡散言語モデルの実装と研究が加速し、次世代生成アーキテクチャの標準化を促す重要な転換点となるでしょう。
編集コメント
生成速度のボトルネック解消に向けた、アーキテクチャレベルでの大胆な実験が実用化された極めて重要なニュースです。特に「凍結タワー」と「学習タワー」を分離する設計は、計算リソースと品質のトレードオフを再定義する可能性を秘めています。
NVIDIA は、事前学習された自己回帰バックボーン上に構築された拡散言語モデル「Nemotron-Labs-TwoTower」をリリースしました。これは NVIDIA Nemotron オープンモデルライセンスの下でオープンウェイトとして提供されます。このリリースは、テキスト生成におけるスループットボトルネックの解消を目指しています。
自己回帰(AR)モデルは一度に 1 トークンをデコードします。この逐次的なプロセスが生成スループットの上限を決定します。一方、離散拡散言語モデルは別のアプローチを採用しています。これらはトークンを並列に生成し、反復的に精緻化を行います。
ほとんどの拡散言語モデルは、2 つのタスク(クリーンなトークンの表現と、各ステップでノイズを加えられたトークンの除去)を 1 つのネットワークで行います。TwoTower はこれらのタスクを 2 つのタワーに分離します。これにより、自己回帰ベースラインの集約ベンチマーク品質の 98.7% を維持しつつ、壁時計での生成スループットは 2.42 倍向上しました。
TL;DR
TwoTower は、拡散を「凍結された AR コンテキストタワー」と「訓練済みのノイズ除去タワー」に分割します。
自己回帰(AR)モデルの品質の 98.7% を維持しながら、スループットは 2.42 倍です(γ=0.8, S=16, 2×H100)。
ノイズ除去タワーは約 2.1 トリオントークンで訓練され、バックボーンには 25 トリオントークンが使用されました。
1 つのチェックポイントで、拡散モード、モック AR モード、および AR デコードモードを実行できます。
Nemotron-Labs-TwoTower
TwoTower はブロックごとの自己回帰拡散モデルです。これはオープンウェイトのハイブリッドバックボーンである「Nemotron-3-Nano-30B-A3B」上に実装されています。このバックボーンは、Mamba-2、自己アテンション(self-attention)、およびエキスパート混合(MoE)層をインターリーブさせています。
⟦CODE_0⟧
各タワーは52層から構成されており、その内訳はMamba-2が23層、自己注意機構(self-attention)が6層、そしてMoE(混合専門家モデル)が23層です。公開されたチェックポイントには両方のタワーが含まれており、合計で約60Bのパラメータを有しています。トークンあたりのアクティブパラメータ数は、各タワーあたり約3Bです。MoEは128のルーティング可能な専門家で構成され、そのうち6つが活性化し、さらに2つの共有専門家も備えています。
両方のタワーは同じバックボーンチェックポイントのコピーとして開始されます。訓練されるのはノイズ除去(denoiser)タワーのみです。自己回帰(AR)コンテキストタワーは凍結されたまま維持されます。ノイズ除去タワーは約2.1兆トークンで訓練されましたが、これはバックボーンの25兆トークンに及ぶ事前学習の一部に過ぎません。
二つのタワーの動作原理
ARコンテキストタワーは、プロンプトと確定済みトークンに対して因果的に処理を行います。各層ごとのKVキャッシュ(Key-Value Cache)と最終的なMamba-2の状態を生成します。これにより、バックボーンの自己回帰能力が維持されます。
拡散ノイズ除去タワーは、ノイズの多いブロックを精緻化します。ブロック内では双方向のブロック内注意機構を使用しますが、過去のクリーンなブロックに対しては因果性を保ちます。
両タワーは層ごとに接続されています。ノイズ除去タワーのi番目の層は、コンテキストタワーのi番目の層へクロスアテンションを行います。この層対応型クロスアテンションにより、バックボーンの表現に対するマルチスケールアクセスが可能になります。従来の手法では最後の隠れ状態のみがブロードキャストされるのが一般的でした。
ノイズ除去に関するさらに2つの改良点が重要です。Mamba-2層は、コンテキストタワーのMamba状態から初期状態をシードします。また、拡散タイムステップはadaLN-single時間条件付け(time conditioning)を通じて各層を制御します。このadaLNモジュールが追加するパラメータ数は約150万のみです。
生成はブロック単位で実行されます。各ブロックは S [MASK] トークンとして開始します。デノイザーは T ステップにわたってこれを洗練させ、その後コミットします。次にコンテキスト・タワーがコミットされたトークンを処理してキャッシュを更新します。
これが、複数のデノイジング・ステップが単一のトークンデコードよりも依然として優位性を示す理由です。自己回帰的デコードでは、1 ステップごとに正確に 1 トークンがコミットされます。一方、TwoTower では洗練の初期段階で 1 ステップあたり複数のトークンをコミットします。
ベンチマーク
評価は 2×H100 GPU 上で BF16(ブレンドド・フォーマット 16 ビット浮動小数点)にて実施されます。デフォルトの動作点は、信頼度に基づくアンマスキングで、閾値γ=0.8、ブロックサイズ S=16 です。以下の表は、自己回帰的(AR)ベースラインと TwoTower の拡散デコードを比較したものです。
タスク Nemotron-3-Nano-30B-A3B (AR) Nemotron-Labs-TwoTower (diffusion)
MMLU (5-shot, acc) 78.56 78.24
MMLU-Pro (5-shot, CoT EM) 62.59 60.93
ARC-Challenge (25-shot, acc_norm) 91.72 92.66
WinoGrande (5-shot, acc) 76.09 76.09
RACE (0-shot, acc) 88.90 88.90
HumanEval (0-shot) 79.27 75.58
MBPP-Sanitized (3-shot) 74.71 74.28
GSM8K (8-shot, acc) 92.49 90.14
MATH-500 (4-shot) 84.40 80.60
MMLU Global Lite (5-shot) 73.97 73.94
MGSM (8-shot, avg acc) 80.80 80.40
品質維持率 100% 98.7%
生成スループット(AR 倍) 1.0× 2.42×
一般知識は自己回帰的ベースラインから約 1 ポイントの範囲内に留まります。コードと数学では若干の性能低下が見られますが、常識推論や多言語スコアは回復し、あるいはわずかに向上しています。γを下げると 1 ステップあたりのコミットトークン数が増えスループットが向上しますが、その分品質は低下します。
実行方法:3 つの生成モード
チェックポイントは3つの推論パスを公開しています。完全な2塔型拡散では2台のGPUを使用し、BF16形式で各GPUあたり約59GBのメモリを消費します。AR(自己回帰)専用モードは、80GBの単一GPU上で動作します。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype=torch.bfloat16, trust_remote_code=True,
)
コンテキスト塔 -> GPU 0、ノイズ除去塔 -> GPU 1
model.place_towers_on_devices("cuda:0", "cuda:1")
model.eval()
prompt = "France is a country "
inputs = tokenizer(prompt, return_tensors="pt").to("cuda:0")
outputs = model.generate_mask_diffusion(
inputs["input_ids"], max_new_tokens=128,
block_size=16, steps_per_block=16, mask_token_id=3,
temperature=0.1, confidence_threshold=0.8,
eos_token_id=tokenizer.eos_token_id,
)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
上記の3つのモードは、generate_mask_diffusion()、generate_mock_ar()、および generate_ar() です。マスク拡散では、1ステップあたり最大 block_size 個のトークンをコミットします。一方、Mock-AR(疑似自己回帰)と AR は、1ステップあたり1トークンのみをコミットします。
どこに位置するか:ユースケース
最も直接的なユースケースは、バッチ生成の高速化です。合成テキストを生成するデータチームは、わずかな品質低下を引き換えにスループット向上を図ることができます。γ=0.8 の場合、そのトレードオフは1.3%の品質低下に対して2.42倍の速度向上となります。
2 つ目のユースケースは、品質とスループットのトレードオフを調整することです。NVIDIA の論文によると、γ を上げるとより多くの品質が保持され、γ を下げると 1 ステップあたりのトークン数が増え、速度が向上します。
3 つ目のユースケースは、そのままの形で適応させることです。コンテキスト塔(タワー)は、推測デコーディング、検証、または AR スコアリングのために LM ヘッドを保持したままです。チームは 1 つのチェックポイントから AR と拡散モデルの両方を実行できます。
強みと弱み
強み:
NVIDIA Nemotron オープンモデルライセンスの下でオープンウェイトであり、商用利用が可能です
デフォルト動作点において、2.42 倍のスループットで AR の品質の 98.7% を保持
1 つのチェックポイントで拡散、モック AR、および AR デコーディングをサポート
約 2.1T トークンでトレーニングされたディノイザーであり、完全な再事前学習ではない
シーケンス長のキャッシュメモリは、AR ベースラインと同様にスケーリングする
弱み:
完全な 2 タワー拡散には、BF16 で GPU が 2 基必要で、各 GPU あたり約 59GB のメモリを消費
コードと数学の性能は一般知識よりも低下しやすい(HumanEval: 79.27 → 75.58)
両方の塔を常駐させることで、固定モデルウェイトのメモリフットプリントが増加
公開されたチェックポイントはベースモデルであり、インストラクションチューニングやアライメントの前段階
スループットが 3 倍を超えると、品質の低下が大きくなる
インタラクティブな説明機能
(function(){
window.addEventListener("message",function(e){
var d=e&&e.data; if(d&&d.mtpTwoTowerHeight){
var f=document.getElementById("mtp-twotower-frame");
if(f){f.style.height=d.mtpTwoTowerHeight+"px";}
}
});
})();
⟦CODE_0⟧
論文と重みデータをご覧ください。また、Twitter でフォローしていただくこともお気軽にどうぞ。忘れずに 150k+ ML サブレッドに参加し、ニュースレターも購読してください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加いただけます。
GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションを当社と提携して行いたい場合は、ご連絡ください。
本記事「NVIDIA Releases Nemotron-Labs-TwoTower: an Open-Weight Diffusion Language Model Built on a Frozen Autoregressive Nemotron-3-Nano-30B-A3B Backbone」は、MarkTechPost で最初に公開されました。
原文を表示
NVIDIA has released Nemotron-Labs-TwoTower, a diffusion language model built on a pretrained autoregressive backbone. It ships as open weights under the NVIDIA Nemotron Open Model License. The release targets a throughput bottleneck in text generation.
Autoregressive (AR) models decode one token at a time. That serial process caps generation throughput. Discrete diffusion language models take another route. They generate tokens in parallel and refine them iteratively.
Most diffusion language models use one network for two jobs. It represents clean tokens and denoises corrupted ones at every step. TwoTower separates these jobs into two towers. It keeps 98.7% of the AR baseline’s aggregate benchmark quality. It also reports 2.42× higher wall-clock generation throughput.
TL;DR
TwoTower splits diffusion into a frozen AR context tower and a trained denoiser tower.
It retains 98.7% of AR quality at 2.42× throughput (γ=0.8, S=16, 2×H100).
The denoiser trained on ~2.1T tokens; the backbone used 25T.
One checkpoint runs diffusion, mock-AR, and AR decoding modes.
Nemotron-Labs-TwoTower
TwoTower is a block-wise autoregressive diffusion model. It is instantiated on Nemotron-3-Nano-30B-A3B, an open-weight hybrid backbone. That backbone interleaves Mamba-2, self-attention, and mixture-of-experts (MoE) layers.
Each tower has 52 layers: 23 Mamba-2, 6 self-attention, and 23 MoE. The released checkpoint ships both towers, roughly 60B total parameters. Active parameters per token are about 3B per tower. The MoE uses 128 routable experts, of which 6 activate, plus 2 shared experts.
Both towers start as copies of the same backbone checkpoint. Only the denoiser tower is trained. The AR context tower stays frozen. The denoiser was trained on ~2.1T tokens, a fraction of the backbone’s 25T-token pretraining.
How the Two Towers Work
The AR context tower runs causally over the prompt and committed tokens. It produces per-layer KV cache and final Mamba-2 states. It preserves the backbone’s autoregressive capability.
The diffusion denoiser tower refines noisy blocks. Within a block, it uses bidirectional in-block attention. It stays causal with respect to past clean blocks.
The towers connect layer-by-layer. Denoiser layer i cross-attends to context tower layer i. This layer-aligned cross-attention gives multi-scale access to the backbone’s representations. Prior approaches broadcast only the last hidden state.
Two more denoiser modifications matter. Mamba-2 layers seed their initial state from the context tower’s Mamba state. The diffusion timestep modulates each layer through adaLN-single time conditioning. That adaLN module adds only ~1.5M parameters.
Generation runs block by block. Each block starts as S [MASK] tokens. The denoiser refines it over T steps, then commits it. The context tower then processes committed tokens to update its caches.
This explains why multiple denoising steps can still beat one-token decoding. Autoregressive decoding commits exactly one token per step. TwoTower commits multiple tokens per step early in refinement.
Benchmarks
Evaluations use BF16 on 2×H100 GPUs. The default operating point is confidence unmasking, threshold γ=0.8, block size S=16. The table compares the AR baseline against TwoTower diffusion decoding.
TaskNemotron-3-Nano-30B-A3B (AR)Nemotron-Labs-TwoTower (diffusion)
MMLU (5-shot, acc)78.5678.24
MMLU-Pro (5-shot, CoT EM)62.5960.93
ARC-Challenge (25-shot, acc_norm)91.7292.66
WinoGrande (5-shot, acc)76.0976.09
RACE (0-shot, acc)88.9088.90
HumanEval (0-shot)79.2775.58
MBPP-Sanitized (3-shot)74.7174.28
GSM8K (8-shot, acc)92.4990.14
MATH-500 (4-shot)84.4080.60
MMLU Global Lite (5-shot)73.9773.94
MGSM (8-shot, avg acc)80.8080.40
Quality retained100%98.7%
Generation throughput (× AR)1.0×2.42×
General knowledge stays within about one point of the AR baseline. Code and math show modest degradation. Commonsense and multilingual scores are recovered or slightly improved. Lowering γ commits more tokens per step and raises throughput, with reduced quality.
Running It: Three Generation Modes
The checkpoint exposes three inference paths. Full two-tower diffusion uses 2 GPUs, about 59GB per GPU in BF16. AR-only mode runs on a single 80GB GPU.
Copy CodeCopiedUse a different Browser
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype=torch.bfloat16, trust_remote_code=True,
)
context tower -> GPU 0, denoiser tower -> GPU 1
model.place_towers_on_devices("cuda:0", "cuda:1")
model.eval()
prompt = "France is a country "
inputs = tokenizer(prompt, return_tensors="pt").to("cuda:0")
outputs = model.generate_mask_diffusion(
inputs["input_ids"], max_new_tokens=128,
block_size=16, steps_per_block=16, mask_token_id=3,
temperature=0.1, confidence_threshold=0.8,
eos_token_id=tokenizer.eos_token_id,
)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
The three modes are generate_mask_diffusion(), generate_mock_ar(), and generate_ar(). Mask diffusion commits up to block_size tokens per step. Mock-AR and AR commit one token per step.
Where It Fits: Use Cases
The most direct use case is faster batch generation. A data team producing synthetic text can trade a small quality drop for throughput. At γ=0.8, that trade is 1.3% quality for 2.42× speed.
A second use case is tuning the quality–throughput trade-off. Raising γ preserves more quality, as per the NVIDIA’s paper. Lowering γ commits more tokens per step for speed.
A third use case is drop-in adaptation. The context tower keeps its LM head for speculative decoding, verification, or AR scoring. Teams can run AR and diffusion from one checkpoint.
Strengths and Weaknesses
Strengths:
Open weights under the NVIDIA Nemotron Open Model License; ready for commercial use
98.7% of AR quality retained at 2.42× throughput at the default operating point
One checkpoint supports diffusion, mock-AR, and AR decoding
Denoiser trained on ~2.1T tokens, not a full re-pretrain
Sequence-length cache memory scales like the AR baseline
Weaknesses:
Full two-tower diffusion needs 2 GPUs and ~59GB per GPU in BF16
Code and math degrade more than general knowledge (HumanEval 79.27 → 75.58)
Keeping both towers resident raises the fixed model-weight memory footprint
Released checkpoint is a base model, before instruction tuning or alignment
Throughput past 3× comes with larger quality loss
Interactive Explainer
(function(){
window.addEventListener("message",function(e){
var d=e&&e.data; if(d&&d.mtpTwoTowerHeight){
var f=document.getElementById("mtp-twotower-frame");
if(f){f.style.height=d.mtpTwoTowerHeight+"px";}
}
});
})();
Check out the Paper and Weights. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post NVIDIA Releases Nemotron-Labs-TwoTower: an Open-Weight Diffusion Language Model Built on a Frozen Autoregressive Nemotron-3-Nano-30B-A3B Backbone appeared first on MarkTechPost.
関連記事
WebBrain の紹介:Chrome と Firefox で動作するオープンソースのローカルファースト AI ブラウザエージェント
Interfaze が拡散型 ASR モデル「diffusion-gemma-asr-small」を公開、6 か国語の並列ノイズ除去デコーダーで音声認識を実現
RAG-Anything チュートリアル:Colab でテキスト、表、数式、画像を扱うマルチモーダル検索パイプラインの構築方法
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み