AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年6月9日 03:18·約10分で読める

NVIDIA Blackwell で NVFP4 を使用し、JAX と MaxText でモデルの学習を高速化

#LLM#NVIDIA Blackwell#Low-Precision Training#MaxText#JAX
TL;DR

NVIDIA は、Blackwell アーキテクチャ上で JAX と MaxText を活用した NVFP4 形式のトレーニングレシピを発表し、精度を損なわずに FP8 よりも大幅に高速な 4 ビット混合精度事前学習を実現しました。

AI深層分析2026年6月9日 05:21
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

NVFP4 形式と性能向上

2 レベルのマイクロスケーリングを採用した NVFP4 形式により、NVIDIA GB300 Grace Blackwell Ultra Superchip で FP8 よりも 7 倍の GEMM スループットを達成し、トレーニングステップ時間を大幅に短縮します。

2

MaxText と TransformerEngine の活用

TransformerEngine の NVFP4 トレーニングレシピと MaxText フレームワークを組み合わせることで、JAX 環境下でサブバイト精度の事前学習が可能になり、実装のハードルが下がります。

3

精度維持のための技術的工夫

マイクロブロックスケーリングなどの 5 つの主要な要素を組み合わせることで、4 ビットという超低ビット幅でのトレーニングにおいても、FP8 ベースラインと比較して測定可能な精度損失なしに収束を実現します。

4

Micro block scaling の効果

16要素のブロックサイズを採用することで、MXFP4(32要素)に比べ単一の外れ値が共有スケールに与える影響を半減させます。

5

E4M3 スケールファクターと学習効率

指数部ビットを用いた E4M3 方式により、8B モデル・1T トークンの実験で MXFP4 よりも約 36% 少ないトークン数で同等の最終損失を達成できます。

6

NVFP4 の適用範囲と理由

MLP 層のみ NVFP4 に量子化し、アテンションブロックは高精度を維持します。これはアテンションのソフトマックスが量子化ノイズを増幅するためですが、MLP が計算量の大部分を占めるため高速化効果を得られます。

7

NVFP4 量子化の計算フロー

図1に示されるように、NVFP4 量子化線形層ではすべての GEMM(行列乗算)演算が NVFP4 形式の入力として処理され、計算効率を最大化します。

影響分析・編集コメントを表示

影響分析

この発表は、LLM トレーニングにおける計算効率の限界を突破する重要な転換点となります。特に Blackwell アーキテクチャの性能を最大限に引き出す NVFP4 の実用化により、企業や研究機関が膨大な計算リソースを必要とせずとも大規模モデルの開発を加速できるため、AI 開発の民主化とコスト削減に大きく寄与します。

編集コメント

FP8 が主流となる中で、さらに低ビット化しつつ精度を維持する NVFP4 の実装は、次世代 AI インフラの標準となり得る画期的な技術です。特に MaxText との連携により、研究者やエンジニアがすぐに実験・適用できる点が高く評価されます。

フロンティア LLM の事前学習は、スループットに帰着します。数千のアクセラレータにわたって兆単位のトークンをトレーニングする際、ステップ時間のわずかなパーセントポイントの差が、数日間のトレーニング時間と膨大な計算コストの増大につながります。数値精度は利用可能な最も効果的な調整項目の一つですが、低ビット混合精度事前学習を正しく実装するのは困難です。

これに対処するため、TransformerEngine の NVFP4 トレーニングレシピでは、JAX 事前学習にサブバイト精度(subbyte precision)を採用しています。エンドツーエンドの例については、高性能でスケーラブルな LLM フレームワークライブラリである MaxText のレシピをご覧ください。その結果、NVIDIA Blackwell 上で FP8 ベースラインと比較して測定可能な精度損失なしに、高スループットかつ 4 ビットの混合精度事前学習を実現しています。

本記事では、NVFP4 形式とその超低精度において高性能と高精度を達成するためにどのように設計されているかを解説します。また、MaxText の NVFP4 事前学習レシピの適用方法と、パフォーマンス向上を示す性能データの収集方法についても紹介します。手法の詳細については、NVFP4 事前学習論文 を参照してください。

NVFP4 形式とその利点

この NVFP4 入門記事 は、そのフォーマットと、2 レベルのマイクロスケーリングが他のマイクロスケーリング形式よりも少ない誤差で高い信号を符号化する方法について説明しています。また、NVIDIA GB300 Grace Blackwell Ultra Superchip における NVFP4 のネイティブハードウェアサポートが、NVIDIA Hopper 上のネイティブ FP8 精度と比較して GEMM(行列乗算)スループットを 7 倍に向上させる方法についても解説しています。この高いスループットと NVFP4 プリトレーニングレシピにより、精度の低下を無視できるレベルでトレーニングステップ時間を短縮できます。これにより、AI ファクトリーは同じ時間予算内でより多くの、より大規模なモデルをトレーニングしたり、より短い時間予算でモデルを高速にトレーニングしたりすることが可能になります。

NVFP4 プリトレーニングレシピ

NVFP4 レシピは、収束性を維持しつつ NVIDIA Blackwell および NVIDIA Rubin プラットフォームの NVFP4 スループットを引き出すために組み合わされた複数の要素から成り立っています。効率的な狭帯域幅精度でのトレーニングを可能にするため、このプリトレーニングレシピでは、パフォーマンスと精度に基づいて選択されたいくつかの主要な技術を採用しています。

4 ビットプリトレーニングに必要な精度を維持しながら、5 つの主要な要素が連携して機能します:

  • マイクロブロックスケーリングは 16 要素ブロックを使用し、MXFP4 の 32 要素ブロックの半分サイズです。これにより、単一の外れ値が共有スケールに与える影響が小さくなります。
  • E4M3 ブロックスケールファクターは、MXFP4 の累乗 2 進数である E8M0 スケーリングではなく、マントissa ビットを使用し、その下にテンソルごとの FP32 スケールが層状に配置されています。8B パラメータ、1T トークンの実験において、MXFP4 は NVFP4 の最終損失と同等の性能を出すために約 36% 多くのトークンを必要とします。
  • ランダム・ハドマード変換は、外れ値をガウス分布化するために WGRAD GEMM の入力に対してのみ適用されます。FPROP と DGRAD のパスでは変換が不要です。なぜなら、これらのパスを変換すると重みも変換する必要が生じ、2D スケールの一貫性が損なわれるからです。
  • 2D 重みスケーリングは、16×16 の重みブロックごとに FP8 スケールを 1 つ使用するため、FPROP とその転置である DGRAD は同じスケールを使用します。一方、活性化関数と勾配は、オーバーヘッドの低い 1×16 スケーリングを維持します。
  • 確率的丸め(Stochastic Rounding)は、バイアスのない丸めを用いて微小な更新値がゼロに潰れてしまうのを防ぎます。重みと活性化関数は「偶数への丸め」方式を維持しており、ここで確率的丸めを使用すると誤差が増幅されてしまいます。両方のモードは Blackwell の FP4 変換命令でネイティブにサポートされています。

図 1 は、1 つの線形層内部における NVFP4 のデータフローを示しています。

3 つの GEMM(FPROP:順伝播、DGRAD:活性化関数の勾配、WGRAD:重みの勾配)は、Transformer の MLP(フィードフォワード)層に対してのみ NVFP4 に量子化されます。アテンションブロック内部の GEMM(QKV 投影、アテンション出力投影、およびスコア/コンテキスト行列積)は、より高い精度を維持します。

NVFP4 はまず MLP レイヤーに適用されます。これは、アテンションのソフトマックス関数が QK^T スコアにおける量子化ノイズを指数関数的に増幅するためです。また、アテンション活性化値には 4 ビット精度では適切に表現できない集中した外れ値も含まれています。MLP はトレーニング FLOPs の大部分を占めるため、このアプローチにより収束のリスクを冒すことなく、速度向上の大半を実現できます。

imageimage*図 1. NVFP4 で量子化された線形層の計算フローの概要。すべての GEMM(General Matrix Multiply)演算は入力を NVFP4 に量子化します(出典:https://arxiv.org/abs/2509.25149)*

3 つの MLP GEMM はすべて NVFP4 入力を消費し、BF16 出力を生成します。これらは最終的にオプティマイザステップで FP32 のマスターウェイトに統合されます。同じパスにより、レシピが収束性を維持するための選択が明確になります:重みに対する 2D ブロック量子化(転置Acrossして FPROP/DGRAD 値の一貫性を保つ)、WGRAD 入力に対するランダム・アダマール変換(4 ビット量子化の前に外れ値を平坦化する)、および勾配量子化器における確率的丸め(小さな更新値の不偏性を維持する)。

MaxText での NVFP4 の有効化

MaxText NVFP4 レシピ は、JAX-Toolbox GitHub リポジトリで利用可能です。この起動スクリプトは、Blackwell 上で Llama 3 8B を NVFP4 でトレーニングします。有効化するには、MaxText の量子化フラグを設定して NVFP4 パスに切り替えます。2 つのモードが用意されています:

  • quantization=te_nvfp4: ランダムアダマール変換を伴う NVFP4。te_nvfp4_no_rht での収束が満足できない場合に推奨されます。
  • quantization=te_nvfp4_no_rht: RHT を伴わない NVFP4。オーバーヘッドは最小限ですが、収束の質が低下する可能性があります。

JAX、NVIDIA Transformer Engine、および必要な NVIDIA CUDA/cuDNN ライブラリがインストールされたコンテナ内で、MaxText リポジトリのルートから例のスクリプトを実行してください。パブリックな NVIDIA MaxText コンテナ ghcr.io/nvidia/jax:maxtext の使用を推奨します。

以下は、Transformer Engine を介して nvfp4 引数を宣言する Llama3 8B MaxText NVFP4 学習スクリプトの部分的な例です:

RUN_SETTINGS="-m maxtext.trainers.pre_train.train maxtext/configs/base.yml run_name=debug_run base_output_directory=./debug_logs hardware=gpu dataset_type=synthetic model_name=llama3-8b remat_policy='minimal_with_context_and_quantization' scan_layers=False attention='cudnn_flash_te' steps=50 dtype=bfloat16 max_target_length=8192 per_device_batch_size=4 ici_data_parallelism=${ici_DP} dcn_data_parallelism=${dcn_DP} ici_fsdp_parallelism=${ici_FSDP} dcn_fsdp_parallelism=${dcn_FSDP} profiler=nsys enable_checkpointing=false override_model_config=True gradient_accumulation_steps=1 quantization=te_nvfp4_no_rht max_segments_per_seq=32"

起動後、MaxText はステップ時間、デバイスあたりの TFLOP/s、およびデバイスあたりのトークン数を出力します。検証用の NVIDIA Nsight Systems トレースは、base_output_directory に書き込まれます。

以下に示す比較で用いた FP8 ベースラインを生成するには、quantization=te_fp8_delayedscaling を指定して同じスクリプトを実行してください。

パフォーマンス結果

本ベンチマークでは、MaxText による Llama 3 8B の事前トレーニングを FSDP=4 で実行し、シーケンス長は 8,192、デバイスあたりのバッチサイズ(MBS: per-device batch size)は 4 と設定しました。また、評価は public ghcr.io/nvidia/jax:maxtext コンテナ内で 50 ステップ分行われました。

表 1 は、Llama 3 8B および Llama 3.1 405B モデルにおける NVIDIA GB200 Grace Blackwell Superchip と NVIDIA GB300 Grace Blackwell Ultra Superchip 上での MaxText 事前トレーニング性能を要約したものです。これは、同じハードウェア、並列化設定、およびグローバルバッチサイズ(GBS: global batch size)条件下で NVFP4 レシピと FP8 ベースラインを比較した結果です。数値はシーケンス長 8,192 で測定されたものです。

モデルハードウェアGPU 数FSDPMBSGBSSeq len

Llama3 8BGB200444168,192

Llama3 8BGB300444168,192

Llama 3.1 405BGB20012812811288,192

Llama 3.1 405BGB30012812811288,192

*表 1. GB200 および GB300 における Llama3 8B と Llama3.1 405B モデルの NVFP4 vs FP8 事前トレーニングレシピ構成*

モデルハードウェアGPU あたりの FP8 TFLOPsGPU あたりの NVFP4 TFLOPsFP8 に対する速度向上比

Llama 3 8BGB200149720171.35×

Llama 3 8BGB300175923011.31×

Llama 3.1 405BGB200155722411.44×

Llama 3.1 405BGB300210336331.73×

*表2. GB200 および GB300 で測定された、Llama3 8B および Llama3.1 405B モデルにおける NVFP4 と FP8 の事前学習パフォーマンスベースライン構成の比較*

図2は、4 つのベースライン構成全体にわたる GPU 単位の持続 TFLOP/s を示しています。NVFP4 はすべての構成において、GPU あたり追加で 500〜700 TF/s を達成します。FP8 ベースラインに対する 1.31〜1.73 倍の高速化は、モデル、ハイパーパラメータ、並列処理、およびグローバルバッチサイズを同一に保ちつつ、GEMM(行列乗算)の精度を変更した結果によるものです。

最も大きな相対的な向上が見られるのは 405B 構成です(GB200 で 1.44 倍、GB300 で 1.73 倍)。ここではステップあたりの GEMM の負荷が FSDP(Fully Sharded Data Parallel)の集合通信オーバーヘッドを支配しており、精度レベルでの高速化がそのまま壁時計時間の短縮に直結します。

imageimage*図2. GB200 および GB300 における NVFP4 と FP8 ベースラインの事前学習スループット*

図3は、他のハイパーパラメータを同一に保ちつつ、10,000 ステップの事前学習全体にわたる FP8 ベースラインと NVFP4 の Llama 3 8B のトレーニング損失を重ねて示しています。両方の実行は、約 12.2 nats から約 3.9 nats へと同じ曲線を描いて低下し、収束領域における平均ギャップはわずか +0.026 nats で、これはステップ間のノイズの範囲内に収まっています。図2で示される NVFP4 の高速化には、測定可能な精度の低下を伴いません。

imageimage*図3. Llama3 8B 事前学習。NVFP4 は FP8 ベースラインの損失曲線を追跡(C4 データセット、約10k ステップ)*

始め方

MaxText コンテナ をプルし、Blackwell 上で nvfp4_example.sh を実行して開始してください。

謝辞

*JAX、XLA、TE における NVFP4 の有効化への貢献に対し、Jaroslav Sevcik、Ilia Sergachev、Johannes Reifferscheid、Phuong Nguyen、Jeremy Berchtold の皆様に特別なお礼を申し上げます。*

原文を表示

Pre-training frontier LLMs comes down to throughput. When training spans trillions of tokens across thousands of accelerators, every percentage point of step time can add up to days of training and substantial compute costs. Numerical precision is one of the highest-leverage knobs available, but low- bit mixed-precision pretraining is hard to get right.

To address this, the NVFP4 training recipe in TransformerEngine uses subbyte precision for JAX pretraining. For an end-to-end example, see the recipe in MaxText, a high-performance, scalable LLM framework library. The result is high-throughput, 4-bit mixed-precision pre-training on NVIDIA Blackwell with no measurable accuracy loss compared to the FP8 baseline.

This post explains the NVFP4 format and how it’s built to achieve high performance and accuracy at ultra-low precision. It also shows how to apply a MaxText NVFP4 pretraining recipe and collect performance data showing performance gains. For methodology details, see the NVFP4 pretraining paper.

NVFP4 format and benefits

This NVFP4 introductory post explains its format and how two-level microscaling encodes higher signals with less error than other microscaling formats. It also explains how native hardware support of NVFP4 on the NVIDIA GB300 Grace Blackwell Ultra Superchip delivers 7x GEMM throughput compared to native FP8 precision on the NVIDIA Hopper. That higher throughput, along with the NVFP4 pretraining recipe, shortens training step time with negligible accuracy loss. This enables AI factories to train more and larger models within the same time budget, or train models faster with a shorter time budget.

NVFP4 pretraining recipe

The NVFP4 recipe combines several ingredients that together preserve convergence while unlocking NVIDIA Blackwell and the NVIDIA Rubin platform NVFP4 throughput. To enable efficient narrow-precision training, the pretraining recipe uses several key techniques that have been chosen based on their performance and accuracy.

Five key ingredients work together while maintaining the accuracy required in 4-bit pretraining:

  • Micro block scaling uses 16-element blocks, half the size of MXFP4‘s 32-element blocks, so a single outlier has less influence on the shared scale.
  • E4M3 block scale factors uses mantissa bits instead of MXFP4’s power-of-two E8M0 scaling, layered under a per-tensor FP32 scale. In an 8B-parameter, 1T token experiment, MXFP4 requires ~36% more tokens to match NVFP4’s final loss.
  • Random Hadamard Transform applies only to WGRAD GEMM inputs to Gaussianize outliers. The recipe skips on FPROP and DGRAD because transforming those paths would also require transforming the weight, breaking 2D-scale consistency.
  • 2D weight scaling uses one FP8 scale per 16×16 weight block, so FPROP and its transposed DGRAD use the same scale. Activation and gradients keep lower-overhead 1×16 scaling.
  • Stochastic rounding uses unbiased rounding to keep tiny updates from being crushed to zero. Weights and activations stay on round-to-nearest-even, where SR would amplify error instead. Both modes are native to Blackwell FP4 conversion instructions.

Figure 1 shows the NVFP4 data flow inside one linear layer.

The three GEMMs: FPROP (forward), DGRAD (activation gradient), and WGRAD (weight gradient) are quantized to NVFP4 only for the MLP (feed-forward) layers of the transformer; the GEMMs inside the attention block (QKV projection, attention output projection, and the score/context matmuls) remain in higher precision.

NVFP4 is applied first to MLP layers because attention’s softmax exponentially amplifies quantization noise on QK^T scores. Attention activations also carry concentrated outliers that 4-bit precision can’t represent well. Because MLPs account for most training FLOPs, this captures most of the speedup without risking convergence.

Figure 1. Illustration of compute flow for an NVFP4 quantized linear layer. All GEMM operations quantize their inputs to NVFP4 (source: [https://arxiv.org/abs/2509.25149Figure 1. Illustration of compute flow for an NVFP4 quantized linear layer. All GEMM operations quantize their inputs to NVFP4 (source: [https://arxiv.org/abs/2509.25149)](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/NVFP4-Flow.webp)

All three MLP GEMMs consume NVFP4 inputs and emit BF16 outputs, which are eventually folded into an FP32 master weight at the optimizer step. The same path makes the recipe’s convergence‑preserving choices visible: 2D block quantization on the weights (consistent FPROP/DGRAD values across the transpose), a Random Hadamard Transform on the WGRAD inputs (flattens outliers before 4-bit quantization), and stochastic rounding on the gradient quantizers (keeps small updates unbiased).

Enabling NVFP4 in MaxText

The MaxText NVFP4 recipe is available in the JAX-Toolbox GitHub repository. The launch script trains Llama 3 8B with NVFP4 on Blackwell. To enable it, set the quantization flag in MaxText to switch into the NVFP4 path. Two modes are exposed:

  • quantization=te_nvfp4: NVFP4 with Random Hadamard Transform. Recommended when the convergence under te_nvfp4_no_rht is not satisfactory.
  • quantization=te_nvfp4_no_rht: NVFP4 without RHT. Lowest overhead, but may degrade convergence quality.

Run the example script from the MaxText repository root inside a container that has JAX, NVIDIA Transformer Engine, and the required NVIDIA CUDA/cuDNN libraries installed. The public NVIDIA MaxText container ghcr.io/nvidia/jax:maxtext is recommended.

The following is a partial example of the Llama3 8B MaxText NVFP4 training script, which declares the nvfp4 argument through Transformer Engine:

RUN_SETTINGS="-m maxtext.trainers.pre_train.train maxtext/configs/base.yml run_name=debug_run base_output_directory=./debug_logs hardware=gpu dataset_type=synthetic model_name=llama3-8b remat_policy='minimal_with_context_and_quantization' scan_layers=False attention='cudnn_flash_te' steps=50 dtype=bfloat16 max_target_length=8192 per_device_batch_size=4 ici_data_parallelism=${ici_DP} dcn_data_parallelism=${dcn_DP} ici_fsdp_parallelism=${ici_FSDP} dcn_fsdp_parallelism=${dcn_FSDP} profiler=nsys enable_checkpointing=false override_model_config=True gradient_accumulation_steps=1 quantization=te_nvfp4_no_rht max_segments_per_seq=32"

After launch, MaxText prints step time, TFLOP/s/device, and tokens/s/device. An NVIDIA Nsight Systems trace is written to base_output_directory for inspection. To produce the FP8 baseline used in the comparison below, run the same script with quantization=te_fp8_delayedscaling.

Performance results

The benchmark uses MaxText pre-training on Llama 3 8B with FSDP=4 with a sequence length of 8,192, a per-device batch size of 4, and 50 steps inside the public ghcr.io/nvidia/jax:maxtext container.

Table 1 summarizes MaxText pretraining performance on the NVIDIA GB200 Grace Blackwell Superchip and NVIDIA GB300 Grace Blackwell Ultra Superchip for Llama 3 8B and Llama 3.1 405B, comparing the NVFP4 recipe against an FP8 baseline on the same hardware, parallelism, and global batch size. Numbers are measured at sequence length 8,192.

Figure 2 shows per‑GPU sustained TFLOP/s across the four baseline configurations. NVFP4 delivers an additional 500–700 TF/s per GPU on every configuration. The 1.31–1.73x speedup over the FP8 baseline is from changing the GEMM precision while holding the model, hyperparameters, parallelism, and global batch size identical.

The largest relative gains are with the 405B configurations (1.44x on GB200, 1.73x on GB300), where the per‑step GEMM mass dominates FSDP collective overhead and a precision‑level speedup translates directly into wall‑clock savings.

Figure 2. Pretraining throughput NVFP4 vs FP8 baseline on GB200 and GB300
Figure 2. Pretraining throughput NVFP4 vs FP8 baseline on GB200 and GB300

Figure 3 overlays Llama 3 8B training loss for the FP8 baseline and NVFP4 across 10,000 pretraining steps with otherwise identical hyperparameters. Both runs descend the same curve from ≈12.2 nats to ≈3.9 nats, with a converged‑regime mean gap of just +0.026 nats, well inside step‑to‑step noise. The NVFP4 speedups in Figure 2 come with no measurable accuracy cost.

Figure 3. Llama3 8B pretraining, NVFP4 tracks FP8 baseline loss curve (C4 dataset, ~10k steps)
Figure 3. Llama3 8B pretraining, NVFP4 tracks FP8 baseline loss curve (C4 dataset, ~10k steps)

Get started

Pull the MaxText container, run nvfp4_example.sh on Blackwell to get started.

Acknowledgments

*For their contributions to NVFP4 enablement in JAX, XLA, and TE, special thanks to Jaroslav Sevcik, Ilia Sergachev, Johannes Reifferscheid, Phuong Nguyen, and Jeremy Berchtold.*

この記事をシェア

関連記事

TechCrunch AI★42026年6月9日 06:15

WWDC でアップルが追いつきを図る

アップルは WWDC の基調講演で、修正やパフォーマンス向上、長年要望されていた機能の紹介に時間を費やし、その後 AI 搭載の Siri を発表しました。同社は AI をソフトウェア全体の改善の一部として位置づけようとしています。

Ars Technica AI★42026年6月9日 04:30

「Siri AI」登場、Apple がより対話型の音声アシスタントを発表

Apple は開発者会議で、遅れていた「Apple Intelligence」の一部として、より対話的な新音声アシスタント「Siri AI」を正式発表した。この機能は今年秋のOSアップデートで提供され、Google 製のオンデバイスモデルと統合される。

Ars Technica AI★42026年6月9日 04:00

Google NotebookLM に Gemini 3.5 と Antigravity が登場

Google は生成 AI ツール「NotebookLM」を大幅に更新し、最新モデル「Gemini 3.5」への移行、対応ファイル形式の拡大、Web ソース統合の簡素化を実施した。また、クエリ処理能力向上のため「Antigravity」機能を組み込んだと発表した。

ニュース一覧に戻る元記事を読む