NVIDIA Developer Blog·2026年2月24日 03:00·約2分

NVFP4低精度モデルトレーニングによる精度を損なわない高スループットの実現

#低精度訓練 #大規模言語モデル #NVIDIA NeMo #計算効率化 #Transformer #Blackwellアーキテクチャ

TL;DR

NVIDIAのNVFP4低精度トレーニング技術は、モデルの精度を維持しながら計算スループットを向上させ、AI開発の効率化とコスト削減に貢献する。

AI深層分析2026年2月25日 22:41

重要/ 5段階

キーポイント

大規模AIモデル訓練の課題（スループット、メモリ、コスト）に対し、低精度訓練（FP8、MXFP8、NVFP4）が有効な解決策となることを実証

NVFP4（4ビット）訓練により、BF16精度と同等のモデル品質を維持しながら、最大約1.6倍のスループット向上と大幅なメモリ節約を実現

NVIDIA NeMo Megatron Bridgeを通じた実用的な低精度訓練レシピが公開され、即時導入が可能な状態にある

影響分析・編集コメントを表示

影響分析

この技術は大規模言語モデル訓練の経済性と効率性を劇的に改善し、AI研究開発の民主化を加速させる可能性がある。特に4ビット精度での実用的な訓練が実証されたことは、AIハードウェアとソフトウェアの進化における重要なマイルストーンと言える。

編集コメント

4ビット精度での実用的な訓練実証は画期的。大規模モデル開発のコスト障壁を下げ、より多くの組織が最先端AI研究に参入できる環境を整備する重要な一歩。

AIモデルとデータセットの規模が拡大し続ける中、高精度なBF16トレーニングだけに依存するのはもはや不十分です。トレーニングスループットの期待値、メモリ制限、コスト上昇といった主要な課題は、トランスフォーマーモデルのスケーリングにおける主要な障壁となりつつあります。

低精度トレーニングを採用することで、これらの課題に対処できます。計算時に使用する数値精度を下げることで、GPUはサイクルごとに多くの演算を処理できるようになり、トレーニング効率が向上し、コストが削減されます。

本記事では、以下の3つの低精度トレーニングフォーマットを、数百億トークン規模の事前学習実行と下流タスクのベンチマークにおいて、確立されたBF16精度トレーニングと直接比較します。

8ビット浮動小数点テンソル単位現在のスケーリング (FP8-CS)

FP8を用いた混合精度トレーニング (MXFP8)

NVIDIA NeMoフレームワークの一部であるオープンソースライブラリ、NVIDIA NeMo Megatron Bridgeを使用したNVFP4精度トレーニング

私たちは、実用的で大規模な結果を示し、低精度トレーニングが、今日から採用可能な本番対応のレシピを用いて、最大約1.6倍の高いスループット、大幅なメモリ節約、そしてほぼ同等のモデル品質をどのように実現するかを提示します。

低精度トレーニングとは？

低精度トレーニングは、モデルトレーニング中に重みと活性化を表現するために、より少ないビット数の数値フォーマットを使用します。これによりメモリ帯域幅と計算要求が削減され、GPUがサイクルごとに多くの演算を処理できるようになり、トレーニングスループットが大幅に向上します。

低精度フォーマット

FP8-CSは、現在のトレーニングステップにおける各テンソルの統計的特性から導出されたスケーリング係数を用いて、線形層にFP8を適用します。MXFP8は、NVIDIA Blackwellアーキテクチャ向けに最適化されたブロックレベル（各ブロックは32テンソル要素をカバー）のスケーリングにより、FP8アプローチを拡張したものです。NVFP4は、階層的な2レベルスケーリング戦略でテンソル値に4ビットフォーマットを使用することで、メモリ効率とスループットをさらに向上させます。

図1. FP8、MXFP8、NVFP4低精度フォーマットの比較。数値表現において、Eは指数部、Mは仮数部を表す

原文を表示

As the sizes of AI models and datasets continue to increase, relying only on higher-precision BF16 training is no longer sufficient. Key challenges such as training throughput expectations, memory limits, and rising costs are becoming the primary barriers to scaling transformer models.

Using lower-precision training can address these challenges. By reducing the numeric precision used during computation, GPUs can process more operations per cycle, enhancing training efficiency and lowering costs.

This post compares the following three low-precision training formats directly against established BF16 precision training across multi-hundred-billion token pretraining runs and downstream benchmarks:

8-bit floating point per-tensor current scaling (FP8-CS)

Mixed precision training with FP8 (MXFP8)

NVFP4 precision training using NVIDIA NeMo Megatron Bridge, an open source library that is part of NVIDIA NeMo framework

We present practical, large-scale results showing how low-precision training delivers up to ~1.6x higher throughput, substantial memory savings, and near-identical model quality using production-ready recipes you can adopt today.

What is low-precision training?

Low-precision training uses numerical formats with fewer bits to represent weights and activations during model training. This reduces memory bandwidth and computational demand, enabling GPUs to process more operations per cycle and significantly increase training throughput.

Low-precision formats

FP8-CS applies FP8 to linear layers using scaling factors derived from the statistical properties of each tensor at the current training step. MXFP8 extends the FP8 approach with block-level scaling optimized for the NVIDIA Blackwell architecture, with each block covering 32 tensor elements. NVFP4 further improves memory efficiency and throughput by using the 4-bit format for tensor values with a hierarchical two-level scaling strategy.

この記事をシェア

Apple Machine Learning重要度42026年7月2日 09:00

MemoryLLM：トランスフォーマー向けのプラグ・アンド・プレイ型解釈可能なフィードフォワードメモリ

NVIDIA Developer Blog重要度42026年7月3日 06:25

速度を落とさないハードウェア基盤の AI セキュリティ

NVIDIA Developer Blog重要度42026年7月2日 02:04

エージェント技術の習得：AI エージェント強化学習

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む