AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年6月17日 01:00·約13分で読める

低精度トレーニングにおけるトランスフォーマーベースモデルの最適化手法

#LLM#低精度推論#NVIDIA#Transformer#混合精度トレーニング
TL;DR

NVIDIA は、トランスフォーマーモデルの低精度トレーニングにおける計算効率とメモリ使用量を劇的に改善するための具体的な最適化手法を公開した。

AI深層分析2026年6月17日 02:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

混合精度トレーニングの高度化

FP16 や BF16 を活用しつつ、特定の層や演算において INT8/INT4 への動的な切り替えにより、精度劣化を最小限に抑えながら計算速度を向上させる手法。

2

メモリ帯域幅の最適化

低精度データ型の採用と、GPU メモリ内でのデータ転送パターンを見直すことで、ボトルネックとなりやすいメモリ帯域幅の制約を緩和するアプローチ。

3

NVIDIA 独自ライブラリの活用

cuDNN や TensorRT-LLM などの最適化されたライブラリを組み合わせて使用することで、ハードウェアの性能を最大限に引き出す実装ガイド。

影響分析・編集コメントを表示

影響分析

この記事は、大規模言語モデル(LLM)の学習コストが高騰する中で、企業や研究機関がリソース制約下でも効率的にモデルを訓練するための具体的な道筋を示すものである。特に、精度維持と計算効率の両立を図る手法は、次世代の高性能 AI システム開発における標準的なプラクティスとして定着する可能性が高い。

編集コメント

大規模モデルの学習コスト削減が急務となる中、ハードウェア性能を最大限に引き出すための実践的な指針として非常に価値が高い。技術者にとって即座に適用可能な具体的な手法が含まれている点が決定的である。

Transformer アーキテクチャは、多くの現代の大規模言語モデルや生成 AI モデルの基盤となっています。これらのモデルが大きくなるにつれて、トレーニングにはより多くの GPU 時間とエンジニアリングの反復作業が必要になります。したがって、Transformer の高速化は単なるパフォーマンス最適化ではなく、チームが実験を迅速に行えるかどうかや、どの程度のサイズのモデルを訓練できるかに直接影響します。NVIDIA Hopper および NVIDIA Blackwell GPU は、FP8 や NVFP4 を含む低精度演算子サポートを導入することで、この問題の解決に貢献しています。

Transformer のトレーニング時間の多くは GEMM(一般行列乗算)に費やされており、低精度フォーマットは主にこれらの行列乗算を高速化し、コストを下げることでトレーニングを加速します。ただし、Transformer の設定情報だけでは、モデル内で実際に実行されている GEMM がどれであるかはわかりません。トレーニング時間の内訳を理解したい場合は、Transformer の設定とバッチサイズを変換して、モデルが実行する正確な M×K×N 行列形状を特定し、異なる精度間でそれらの形状をベンチマークする必要があります。これにより、より高コストなトレーニングを実行する前に、アーキテクチャに最適な精度を決定することができます。

NVIDIA Transformer Engine (TE) は、量子化とカーネルディスパッチを処理し、低精度フォーマットを解放します。この投稿では、高レベルのモデル設定から具体的な GEMM(行列乗算)ワークロードへ移行する方法、マイクロベンチマークでプロファイルする方法、そしてどこで低精度が実際の速度向上につながるかを見積もる方法について解説し、Transformer ベースのモデルの加速を支援します。このユースケースでは、RNA に焦点を当てた生物学向けの言語モデルである CodonFM を特徴としています。

モデル設定とトレーニング入力

CodonFM 5B のような 50 億パラメータのモデルを扱っていると仮定します。このモデルには以下のような構成があります:

hidden_size: 4096

intermediate_size: 16384

num_attention_heads: 32

num_hidden_layers: 24

トレーニング設定は以下の通りです:

micro_batch_size: 31

sequence_length: 512

ベンチマークツールはこれらのハイパーパラメータを直接受け取り、単一のコマンドで GEMM の形状を導出し、各種精度間でベンチマークを実行して、完全な速度向上分析を計算できます:

python benchmark.py \

--hidden_size 4096 \

--intermediate_size 16384 \

--num_attention_heads 32 \

--num_hidden_layers 24 \

--micro_batch_size 31 \

--sequence_length 512 \

-o ./images/b300_model_config_speedup.png

注:Blackwell 固有のフラグを無効にするには、--no-fp8 --no-fp4 を追加してください。--no-fp8 --no-fp4 は、Hopper で動作する BF16 と 3 つのテンソル単位の FP8 レシピを提供します。

  • --no-fp8 は MXFP8 を無効にします
  • --no-fp4 は NVFP4 を無効にします

autocast モードの使用と事前量子化の比較

デフォルトでは、このツールは autocast モードで動作します。これは TE(Tensor Engine)がトレーニング中に実行する方式です:各 GEMM(General Matrix Multiply)の前に入力が動的にターゲット精度へ量子化されるため、測定された時間には量子化のコストと GEMM カーネル自体の両方が含まれます。これにより、トレーニングステップ中の現実的な 1 GEMM あたりのパフォーマンス像を提供します。

このツールは M = 31 × 512 = 15,872 トークンを計算し、すべての 12 種類の GEMM 形状を導出し、有効な精度ごとに各形状をベンチマークして完全な結果を出力します。Fprop(順伝播)、Dgrad(誤差逆伝播の勾配)、Wgrad(重み更新用勾配)の形状はすべて個別にベンチマークされ、異なる行列のアスペクト比がカーネル選択に与える影響を捉えます。

デフォルトでは、このツールは autocast モードで動作します。これは TE(Tensor Engine)がトレーニング中に実行する方式です:各 GEMM(General Matrix Multiply)の前に入力が動的にターゲット精度へ量子化されるため、測定された時間には量子化のコストと GEMM カーネル自体の両方が含まれます。これにより、トレーニングステップ中の現実的な 1 GEMM あたりのパフォーマンス像を提供します。

このツールは M = 31 × 512 = 15,872 トークンを計算し、すべての 12 種類の GEMM 形状を導出し、有効な精度ごとに各形状をベンチマークして完全な結果を出力します。Fprop(順伝播)、Dgrad(誤差逆伝播の勾配)、Wgrad(重み更新用勾配)の形状はすべて個別にベンチマークされ、異なる行列のアスペクト比がカーネル選択に与える影響を捉えます。

imageimage*図 1. NVIDIA B300 SXM6 AC におけるオートキャストモードのレイヤー別 GEMM(行列乗算)時間。精度(BF16、FP8 Current、FP8 Delayed、MXFP8、NVFP4)およびステージ(順伝播+逆伝播勾配計算と重み勾配計算)別に内訳した結果*

純粋な GEMM カーネルの性能を評価するためには、--pre-quantize オプションを追加してください。このオプションは、計測ループの実行前にすべての入力を一度前処理で量子化します。これにより、測定される時間は GEMM カーネルの実行時間のみを反映し、計測領域内での動的な量子化やブロックごとのスケーリング計算、フォーマット変換は一切含まれません。

なお、FP8 DelayedScaling は --pre-quantize を指定した場合でも常にオートキャストモードで実行されます。これは、動的な量子化を必要とする amax(最大絶対値)の履歴データに依存しているためです。したがって、その計測時間は前処理量子化モードにおける他の精度の時間とは直接比較できません。

python benchmark.py \

--hidden_size 4096 \

--intermediate_size 16384 \

--num_attention_heads 32 \

--num_hidden_layers 24 \

--micro_batch_size 31 \

--sequence_length 512 \

--pre-quantize \

-o ./images/b300_model_config_speedup_prequant.png

imageimage*図 2. NVIDIA B300 SXM6 AC における前処理量子化モードのレイヤー別 GEMM 時間。動的な量子化オーバーヘッドを排除し、純粋なカーネルのスループットのみを抽出した結果*

autocast と事前量子化による速度向上を比較することで、量子化のオーバーヘッドが実際にどの程度のコストを発生させるかが明確になります:NVFP4 から BF16 への移行は、autocast では 1.98 倍ですが、カーネルのみでは 3.48 倍に達します。この 2 つの数値間の差は、各トレーニングステップで発生する動的量子化、アダマール変換、およびブロックスケーリングによるオーバーヘッドを表しています。

実際のトレーニング速度向上を予測するには autocast の結果を使用してください。これが TE(Tensor Engine)がトレーニング中に実際に実行する方法です。一方、事前量子化の結果は、量子化のオーバーヘッドがボトルネックとなっているかどうかを理解するため、あるいは量子化の実装に依存しない精度間の生テンソルコアスループットを比較するために使用します。

実モデルにおける結果の解釈

このセクションでは、実モデルに対してこれらの結果をどのように解釈するかを解説します。同じ CodonFM 5B の設定を用いて、NVIDIA B300 上でフルモデル構成ベンチマークを実行しました。Fprop(順伝播)の結果から得られる形状ごとの NVFP4 と MXFP8 の速度向上比は以下の通りです:

QKV proj: 0.579 / 0.392 = 1.48x

Attn out: 0.269 / 0.256 = 1.05x (わずかに高速 — オーバーヘッドが GEMM の利得とほぼ同程度)

MLP up: 0.924 / 0.635 = 1.46x

MLP down: 1.076 / 0.649 = 1.66x

以下の点に注意してください:

  • アテンション出力の GEMM は、低精度化による恩恵をほとんど受けません。MXFP8 ベースラインと比較すると、速度向上はわずか 1.05 倍です。これはレイヤー内でも最も小さな重み行列(4096×4096)であり、低精度がオーバーヘッドを上回るには barely 十分な大きさではありません。一方、はるかに大きな MLP Down GEMM では、同じハードウェア上で MXFP8 に対して NVFP4 が 1.66 倍の速度向上を実現しています。MLP Down GEMM は量子化のオーバーヘッドを相殺するのに十分な大きさですが、アテンション出力ではそれができません。
  • 大規模な GEMM では、理論値には届かないが実用的な性能向上が見られます。FP4 テンサーコアは、大規模な GEMM において MXFP8 よりも 1.46 倍から 1.66 倍の速度を示します。これはハードウェア仕様で示される理論的な 2 倍から 3 倍という値には遠く及びません。アテンション出力の GEMM も含めると、混合された順伝播(Fprop)の速度向上は 1.47 倍に低下します。Wgrad の計算時間、非 GEMM オーバーヘッド、および NVFP4 に固有な量子化コストを加味すると、トレーニングにおける NVFP4 と MXFP8 のエンドツーエンドでの差は、これらのカーネルレベルの数値と整合しています。
  • FP8 DelayedScaling は、NVIDIA Blackwell において驚くほど競争力があります。autocast モードではレイヤーあたり 7.80 ms で、FP8 CurrentScaling(9.15 ms)および MXFP8(8.98 ms)の両方を上回ります。一方、事前量子化モードでは FP8 CurrentScaling が先行し(6.81 ms 対 8.12 ms)、DelayedScaling の amax-ヒストリアプローチは量子化オーバーヘッドが小さいものの、生カーネルのスループットは同程度であることを示唆しています。これは、量子化税を含めるか含めないかで勝者が異なることを浮き彫りにする、autocast と事前量子化の比較における良い例です。
  • 事前量子化の結果は、真のカーネルポテンシャルを明らかにします。--pre-quantize オプションを実行すると量子化オーバーヘッドが完全に除去され、NVFP4 と BF16 の比較では、autocast モードでの 1.98 倍から、カーネルのみでの 3.48 倍へと跳ね上がります。これは FP4 テンサーコアが実際の速度向上を実現していることを示しています。autocast モードにおける量子化オーバーヘッドこそが、この差を縮めている要因です。
  • Fprop(順伝播)と Dgrad(逆伝播勾配計算)の比較から、2 倍近似は量子化フォーマットにおいては不正確であることがわかります。BF16 の Dgrad は Fprop と比べて 2% 以内ですが、量子化フォーマットでは Dgrad の合計が 5–13% 遅くなります。特に QKV プロジェクションの Dgrad は著しく非対称で、FP8/FP4 では Fprop よりも 33–51% 遅くなります。これは K(4096)と N(12288)を交換することで行列のアスペクト比が劇的に変化し、カーネルの選択が変わるためです。まさにこの理由から、ツールは Fprop の時間を単に 2 倍カウントするのではなく、Fprop と Dgrad を別々にベンチマークします。

推定された GEMM(行列乗算)のみでの速度向上率が得られたら、それを観測されたエンドツーエンドのトレーニング速度向上率と比較してください:

  • GEMM の速度向上 ≈ トレーニングの速度向上:GEMM がステップを支配しており、すべてが期待通り動作している
  • GEMM の速度向上 >> トレーニングの速度向上:GEMM 以外のオーバーヘッドが利益を食いつぶしています。特に NVFP4 の場合、このオーバーヘッドには Wgrad 入力に対するランダム・ハダマード変換、勾配に対する確率的丸め、重みに対する 2D ブロックスケーリング、およびテンソルごとの amax(最大絶対値)計算のための追加メモリパスが含まれます。これらはすべて MXFP8 では不要な追加演算であり、生身の FP4 GEMM がはるかに高速であっても、これらのオーバーヘッドが差を大幅に縮める可能性があります
  • GEMM の高速化率はマイクロベンチマークでも約 1.0 です。FP4 カーネルはこれらの形状において実際には高速ではなく、あるいは FP8 に静かにフォールバックしている可能性があります。

最後のケースは特に確認する価値があります。NVTE_LOG_LEVEL=1 を設定するか、NVIDIA Nsight Systems で検査して、TE(Transformer Engine)が実際に FP4 カーネルをディスパッチしているかを確認してください。TE はまだ FP4 をサポートしていないレイヤーや演算に対して、FP8 や BF16 に静かにフォールバックすることがあり、これが他の症状なしに同等のパフォーマンスを示す理由となります。また、MXFP8 と NVFP4 の実行時の GPU メモリ使用量を比較することもできます。メモリ使用量がほぼ同一である場合、それは FP4 重みが実際に保存されていないという強力なシグナルです。

モデルの低精度トレーニング向けベンチマークを開始する

低精度トレーニングによる高速化は、モデルが実行する実際の GEMM(行列乗算)形状に大きく依存しており、低精度で実行することが自動的にエンドツーエンドのトレーニング性能向上につながるわけではありません。特に量子化オーバーヘッド、カーネル選択、および非 GEMM 演算が含まれる場合です。Transformer 設定を具体的な M×K×N のワークロードに変換することで、フルトレーニングを実行する前に、モデルにとって重要な形状上で BF16、MXFP8、NVFP4 をベンチマークすることができます。

GEMM をベンチマークして、ご自身にとって最適な精度を確認してください。まずは ベンチマークスクリプト をご覧ください。完全なドキュメントやこれらの形状がどのように導き出されるかについては、Transformer Engine のドキュメントにある GEMM プロファイリングチュートリアル を参照してください。

このベンチマークは以下の目的で使用できます:

  • 自動キャストの結果を確認し、現実的なトレーニングの高速化効果を予測する
  • 事前量子化の結果を確認し、ボトルネックがカーネルにあるのか量子化にあるのかを把握する
  • トレーニング実行に着手する前に候補となるモデル構成をツールで検証する。このツールはアーキテクチャ共設計のための有用な手段です
原文を表示

Transformer architectures are the backbone of many modern large language and generative AI models. As these models grow in size, training runs consume more GPU hours and more engineering iteration time. Accelerating transformers is therefore not just a performance optimization, but directly affects how quickly teams can experiment and how large a model they can afford to train. NVIDIA Hopper and NVIDIA Blackwell GPUs help solve this problem by introducing low-precision operator support including FP8 and NVFP4.

Transformers spend much of their training time in GEMMs, and low-precision formats speed up training mainly by making those matrix multiplications faster and cheaper. However, your transformer config does not tell you which GEMMs are actually running in your model. If you want to understand where training time goes, you need to turn your transformer config and batch size into the exact M×K×N matrix shapes your model executes, then benchmark those shapes across precisions. This will help you determine the optimal precision for your architecture before committing to a more expensive training run.

NVIDIA Transformer Engine (TE) can handle quantization and kernel dispatch unlocking low precision formats. This post shows you how to move from high-level model settings to concrete GEMM workloads, profile them with a microbenchmark, and estimate where lower precision will actually translate into speedups to help you accelerate your transformer-based models. The use case features CodonFM, a language model for biology focused on RNA.

Model configuration and training inputs

Suppose you’re working with a 5B-parameter model such as CodonFM 5B. It will have a config such as:

hidden_size: 4096

intermediate_size: 16384

num_attention_heads: 32

num_hidden_layers: 24

Your training configuration is:

micro_batch_size: 31

sequence_length: 512

The benchmark tool can then take these hyperparameters directly and then use a single command to derive GEMM shapes, benchmark them across precisions, and compute the full speedup analysis:

python benchmark.py \

--hidden_size 4096 \

--intermediate_size 16384 \

--num_attention_heads 32 \

--num_hidden_layers 24 \

--micro_batch_size 31 \

--sequence_length 512 \

-o ./images/b300_model_config_speedup.png

Note: To disable Blackwell-specific flags, add --no-fp8 --no-fp4. --no-fp8 --no-fp4 provides BF16 plus the three tensor-wise FP8 recipes that work on Hopper.

  • --no-fp8 disables MXFP8
  • --no-fp4 disables NVFP4

Using autocast mode versus prequantizing

By default, the tool runs in autocast mode, which is what TE does during training: inputs are dynamically quantized to the target precision before each GEMM, so the measured time includes both the quantization cost and the GEMM kernel itself. This provides you with the realistic per-GEMM picture during a training step.

The tool computes M = 31 × 512 = 15,872 tokens, derives all 12 GEMM shapes, benchmarks each across enabled precisions, and prints the full results. Fprop, Dgrad, and Wgrad shapes are all benchmarked separately to capture the impact of different matrix aspect ratios on kernel selection.

By default, the tool runs in autocast mode, which is what TE does during training: inputs are dynamically quantized to the target precision before each GEMM, so the measured time includes both the quantization cost and the GEMM kernel itself. This provides you with the realistic per-GEMM picture during a training step.

The tool computes M = 31 × 512 = 15,872 tokens, derives all 12 GEMM shapes, benchmarks each across enabled precisions, and prints the full results. Fprop, Dgrad, and Wgrad shapes are all benchmarked separately to capture the impact of different matrix aspect ratios on kernel selection.

Figure 1. Per-layer GEMM time on NVIDIA B300 SXM6 AC in autocast mode, broken down by precision (BF16, FP8 Current, FP8 Delayed, MXFP8, NVFP4) and stage (Fprop+Dgrad and Wgrad)
Figure 1. Per-layer GEMM time on NVIDIA B300 SXM6 AC in autocast mode, broken down by precision (BF16, FP8 Current, FP8 Delayed, MXFP8, NVFP4) and stage (Fprop+Dgrad and Wgrad)

To isolate raw GEMM kernel performance, add --pre-quantize. This prequantizes all inputs once before the timed loop, so the measured time reflects only the GEMM kernel execution—no dynamic quantization, no block scaling computation, no format conversion during the timed region.

Note that FP8 DelayedScaling always runs in autocast mode, even with --pre-quantize because it relies on an amax history that requires dynamic quantization. Its times are therefore not directly comparable to other precisions in prequantized mode.

python benchmark.py \

--hidden_size 4096 \

--intermediate_size 16384 \

--num_attention_heads 32 \

--num_hidden_layers 24 \

--micro_batch_size 31 \

--sequence_length 512 \

--pre-quantize \

-o ./images/b300_model_config_speedup_prequant.png

Figure 2. Per-layer GEMM time on NVIDIA B300 SXM6 AC in prequantized mode, isolating raw kernel throughput without dynamic quantization overhead
Figure 2. Per-layer GEMM time on NVIDIA B300 SXM6 AC in prequantized mode, isolating raw kernel throughput without dynamic quantization overhead

Comparing the autocast and prequantized speedups tells you exactly how much quantization overhead costs: NVFP4 versus BF16 goes from 1.98x (autocast) to 3.48x (kernel-only). The gap between these two numbers is the overhead from dynamic quantization, Hadamard transforms, and block scaling that occurs in each training step.

Use autocast results for predicting real training speedups. This is what TE actually does during training. Use prequantized results to understand whether quantization overhead is the bottleneck, or to compare raw tensor core throughput across precisions independent of the quantization implementation.

Interpreting the results for a real model

This section walks through how to interpret these results for a real model. Using the same CodonFM 5B config, we ran the full model config benchmark on NVIDIA B300. The per-shape NVFP4 versus MXFP8 speedups from the Fprop results are as follows:

QKV proj: 0.579 / 0.392 = 1.48x

Attn out: 0.269 / 0.256 = 1.05x (barely faster — overhead nearly matches GEMM gain)

MLP up: 0.924 / 0.635 = 1.46x

MLP down: 1.076 / 0.649 = 1.66x

Take note of the following points:

  • The attention output GEMM receives minimal benefit from lower precision. Compared with the MXFP8 baseline, there is only a 1.05x speedup. This is the smallest weight matrix in the layer (4096×4096)—barely large enough for lower precision to overcome the overhead. By contrast, the much larger MLP Down GEMM delivers 1.66x NVFP4 over MXFP8 on the same hardware. The MLP down GEMM is big enough to amortize the quantization overhead, where attention output isn’t.
  • The big GEMMs show real but subtheoretical gains. The FP4 tensor cores deliver 1.46x to 1.66x over MXFP8 on the large GEMMs. This is well short of the theoretical 2x to 3x from the hardware spec. Once you include the attention output GEMM, the blended Fprop speedup drops to 1.47x. After adding Wgrad times, non-GEMM overhead and NVFP4-specific quantization costs, the end-to-end gap between NVFP4 and MXFP8 in training is consistent with these kernel-level numbers.
  • FP8 DelayedScaling is surprisingly competitive on NVIDIA Blackwell. At 7.80 ms/layer in autocast mode, it outperforms both FP8 CurrentScaling (9.15 ms) and MXFP8 (8.98 ms). In prequantized mode FP8 CurrentScaling pulls ahead (6.81 ms versus 8.12 ms), suggesting the DelayedScaling amax-history approach has lower quantization overhead but similar raw kernel throughput. This is a good example of the comparison between autocast and prequantized surfacing different winners depending on whether you measure with or without the quantization tax.
  • The prequantized results reveal the true kernel potential. Running with --pre-quantize removes quantization overhead entirely, and NVFP4 versus BF16 jumps from 1.98x (autocast) to 3.48x (kernel-only). This shows the FP4 tensor cores are delivering real speedups. It’s the quantization overhead in autocast mode that narrows the gap.
  • The Fprop versus Dgrad comparison reveals that the 2x approximation is imprecise for quantized formats. While BF16 Dgrad is within 2% of Fprop, quantized formats show 5–13% slower Dgrad sums. The QKV Proj Dgrad is especially asymmetric—33–51% slower than Fprop for FP8/FP4—because swapping K (4096) and N (12288) dramatically changes the matrix aspect ratio and kernel selection. This is exactly why the tool benchmarks Fprop and Dgrad separately rather than counting Fprop time twice.

Once you have the estimated GEMM-only speedup, compare it against your observed end-to-end training speedup:

  • GEMM speedup ≈ training speedup: GEMMs dominate the step, everything is working as expected
  • GEMM speedup >> training speedup: Overhead outside of GEMMs is eating the gains. For NVFP4 in particular, this overhead includes Random Hadamard transforms on Wgrad inputs, stochastic rounding on gradients, 2D block scaling for weights, and the extra memory pass for per-tensor amax computation. These are all additional ops that MXFP8 doesn’t need, and they can significantly narrow the gap even if the raw FP4 GEMMs are much faster
  • GEMM speedup ≈ 1.0 even in the microbenchmark. The FP4 kernels aren’t actually faster at these shapes, or they’re silently falling back to FP8

The last case is especially worth checking. Set NVTE_LOG_LEVEL=1 or inspect with NVIDIA Nsight Systems to confirm that TE is actually dispatching FP4 kernels. TE can silently fall back to FP8 or BF16 for layers or ops that don’t support FP4 yet, which would explain identical performance with no other symptoms. You can also compare GPU memory usage between MXFP8 and NVFP4 runs. If memory is nearly identical, that’s a strong signal that FP4 weights aren’t actually being stored.

Get started benchmarking your model for low-precision training

Low-precision training speedups are highly dependent on the actual GEMM shapes your model runs and running in low precision does not automatically translate into end-to-end training gains, especially when quantization overhead, kernel selection, and non-GEMM operations are included. By turning a transformer config into concrete M×K×N workloads, you can benchmark BF16, MXFP8, and NVFP4 on the shapes that matter for your model before committing to a full training run.

Benchmark your GEMMs to see which precision is right for you. To get started, check out the benchmark script. For the full documentation and to understand how these shapes are derived, see the GEMM profiling tutorial in the Transformer Engine documentation.

Use this benchmark to:

  • Autocast results to set realistic training-speedup expectations
  • Prequantize results to know whether you’re bottlenecked on kernels or on quantization
  • Run candidate model configs through the tool before committing to a training run, as the tool is a useful architecture co-design instrument
この記事をシェア

関連記事

Latent Space★42026年6月19日 14:53

[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定

Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。

MarkTechPost★32026年6月19日 11:44

Salesforce CodeGen チュートリアル:ユニットテストと安全性チェック付きの Python 関数の生成・検証・再ランク付け

Salesforce は Hugging Face からモデルを読み込み、自然言語から Python 関数を生成するエンドツーエンドワークフローを公開した。この手法には構文チェックや静的解析、ユニットテストによる検証が含まれる。

AWS Machine Learning Blog★42026年6月19日 08:31

CloudWatch の SageMaker メトリクスとインサイトダッシュボードを用いた生成 AI 推論の監視・デバッグ

AWS は、大規模な生成 AI 推論エンドポイントの P99 レイテンシ急上昇などのトラブルを GPU メモリ圧力や KV キャッシュ飽和などから特定できるよう、CloudWatch に SageMaker の詳細メトリクスとインサイトダッシュボードを追加した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む