NVIDIA Blackwell、MLPerf Training 6.0 で業界をリードするスケーラビリティとパフォーマンスを獲得し首位に
NVIDIA は最新 AI チップセット「Blackwell」が MLPerf Training 6.0 ベンチマークで業界最高水準のスケーラビリティとパフォーマンスを発揮し、首位を獲得したことを発表した。
キーポイント
MLPerf Training 6.0 での首位獲得
NVIDIA Blackwell チップセットが最新の MLPerf Training 6.0 ベンチマークで業界最高スコアを記録し、他社製品を圧倒した。
業界最高水準のスケーラビリティ
大規模な AI モデルのトレーニングにおいて、Blackwell は従来比で驚異的な拡張性と効率性を示すことを実証した。
次世代 AI インフラの確立
この結果は、Blackwell アーキテクチャが次世代の大規模言語モデル(LLM)や複雑な AI アプリケーションの実装に最適な基盤であることを示している。
影響分析・編集コメントを表示
影響分析
このニュースは、次世代 AI モデルの開発スピードとコスト効率において NVIDIA Blackwell が事実上のデファクトスタンダードとなることを示唆しています。企業や研究機関が大規模モデルを構築する際のハードウェア選定基準として、Blackell の性能データが重要な判断材料となることが予想されます。
編集コメント
ベンチマークでの首位獲得は、Blackwell の実用性がすでに確認されたことを意味し、AI ハードウェア市場における NVIDIA の支配力をさらに強める結果となりました。
MLCommons コンソーシアムが開発した業界標準の AI 学習ベンチマークである MLPerf Training v6.0 の最新版において、NVIDIA は完全優勝を果たしました。NVIDIA はスケールアウト時の学習完了までの最短時間を達成し、さらにアクセラレータあたりの性能で正規化した場合にも、すべてのベンチマークで最高パフォーマンスを記録しました。また、すべてのテストに結果を提出した唯一のプラットフォームでもありました。
MLCommons は今回のラウンドにおいて、AI モデルの最新動向を反映するように設計された新しい事前学習用ベンチマークを導入しました。これには、人気のある DeepSeek-R1 推論モデルの基盤としても機能する巨大な 671B パラメータの Mixture of Experts (MoE) モデルである DeepSeek-V3 と、小規模ながら高性能な MoE である GPT-OSS-20B が含まれています。
NVIDIA プラットフォームは、この新しいワークロードの両方で結果を提出した唯一のプラットフォームでした。NVIDIA GB300 NVL72 システムは、NVIDIA NVLink と NVIDIA NVLink Switch を用いて 72 個の NVIDIA Blackwell Ultra GPU と 36 個の NVIDIA Grace CPU を 1 つとして接続する設計と、最適化された NVIDIA ソフトウェアスタックによって、パフォーマンスの基準を大幅に引き上げました。
スケールアウトファブリック全体における前例のないスケールとスループット
最先端モデルのトレーニングには、大規模なインフラストラクチャと、数千もの相互接続されたプロセッサにわたってワークロードを効率的に実行する能力が必要です。今回のエントリーでは、NVIDIA クラウドサービスプロバイダーパートナーが、多様なクラウドデータセンター全体で協調して動作する 8,192 個の Blackwell GPU にまでスケールアップしました。これらの提出物は、生産環境におけるハイパースケールデータセンターファーム全体にわたる Blackwell プラットフォームの実世界での堅牢性を証明し、これらの多様なクラスター環境全体で強いスケーリング傾向を示しました。
この規模において各トレーニングイテレーションから最大限の効率を引き出すには、単一の NVLink ドメインの範囲を遥かに超え、NVIDIA Spectrum-X Ethernet や NVIDIA Quantum InfiniBand などのスケールアウトネットワークプラットフォームに依存する必要があります。MoE モデル内のエキスパート並列処理は、低エントロピーでバースト性の高いフローを生成しますが、これは大規模フローが共有リンク上で衝突することで、静的な等コストマルチパス(ECMP: Equal-Cost Multi-Path)ハッシュ化の下で有効帯域幅を低下させる典型的なパターンです。
これを解決するため、Spectrum-X Ethernet の高度適応型ルーティング(Advanced Adaptive Routing)は、リアルタイムのリンク負荷に応じてトラフィックパケットをすべての利用可能なパスにパケット単位で分散し、受信側の ConnectX SuperNIC が順序不同配送を処理する間も、ファブリックの理論上の容量に近い有効帯域幅を維持します。
さらに、人気のあるエキスパートが多数の送信者から同時にトラフィックを引き受ける場合、Spectrum-X 輻輳制御はリアルタイムテレメトリを使用して、発生するインキャストを早期に検出し、バッファが溢れる前に送信者をペーストします。これにより、テールレイテンシがバランスされ、すべての対向通信が計算処理の背後に隠れたままとなり、主要な実行パス上に現れることがなくなります。
このクラスターオーケストレーションとネットワークファブリック効率の組み合わせは、最も困難なベンチマークにおいて新しいトレーニング時間記録を可能にし、以下のように要約されます:
ベンチワークロード GPU プラットフォーム クラスター規模 トレーニング時間
DeepSeek-V3 671B (MoE) GB300 NVL72 8,192 GPUs 2.02 分
GPT-OSS 20B (MoE) GB300 NVL72 512 GPUs 7.43 分
Llama 3.1 405B GB200 NVL72 8,192 GPUs 7.07 分
Llama 3.1 8B GB200 NVL72 1,024 GPUs 4.46 分
Llama 2 70B LoRA GB300 NVL72 512 GPUs 0.4 分
FLUX.1 GB300 NVL72 512 GPUs 17.1 分
DLRM-dcnv2 GB300 NVL72 64 GPUs 0.67 分
*表 1. NVIDIA Blackwell が MLPerf Training 6.0 で達成したトレーニング時間での勝利***
*MLPerf Training v6.0 の結果は、2026 年 6 月 16 日に *www.mlcommons.org* から以下のエントリー(6.0-0005, 6.0-0102, 6.0-0001, 6.0-0015, 6.0-0102, 6.0-0101 および 6.0-0062)から取得されました。MLPerf の名称およびロゴは、米国およびその他の国における MLCommons Association の商標です。全著作権所有。無断使用は厳しく禁止されています。詳細については *www.mlcommons.org* をご覧ください。
ソフトウェア革新エンジン
ハードウェアの能力は、それを駆動するソフトウェア次第です。DeepSeek-V3 のような複雑な MoE モデルに対して最大限のパフォーマンスを引き出すために、NVIDIA は今回の MLPerf Training でいくつかの最先端のソフトウェア最適化を投入しました。
1. トークンドロップレス型 MoE 向けのフルイテレーション CUDA グラフ
歴史的に、トークンドロップレス型 MoE アーキテクチャは、動的なルーティング動作が継続的な CPU-GPU の同期を強制するため、CUDA グラフ内で完全に実行することが困難でした。MLPerf Training 6.0 では、NVIDIA は初めてこれらの MoE に対して フルイテレーション CUDA グラフ を実装しました。これを実現するために、2 つの主要な課題が克服されました。第一に、量子化器、グループ化された GEMM(行列乗算)、トークンディスパッチャなどのエキスパートモジュール演算子が、同期フリーモードへ移行されました。この構成では、入力形状は GPU 上の値から直接導出されるため、ホスト側での調整が不要になります。第二に、ページド・スタッシング を用いて、ホストの関与なしにデバイスメモリを管理しました。この技術により、事前に割り当てられた GPU メモリ上で微細な管理が可能となり、プロセスが CUDA グラフと完全に互換性を持つことを保証します。
クリティカルな実行パスを再構築して CPU と GPU の同期ポイントをすべて排除した結果、イテレーション全体のワークロードが完全に GPU へオフロードされました。これにより、CPU がクリティカルパスから外れ、ホスト実行のばらつきに起因するオーバーヘッドが解消されました。このオーバーヘッドは、2,000 基以上の GPU を持つクラスターにスケールする際に、連鎖的な遅延を引き起こす要因となり得ます。
2. CuTe DSL とカーネル融合
メモリー帯域幅制約のあるレイヤーとグループ化された GEMM(行列乗算)演算、および CUDA グラフが要求する同期フリーの実行を融合させるために、NVIDIA は高度なカーネル融合のために CuTe DSL を活用しました。これにより、開発者は数学演算とメモリー処理操作をハードウェア層で直接結合できるようになり、データをレジスタ内に保持して、グローバルメモリーへの高コストな往復通信を回避できます。さらに、動的タイルスケジューリングのサポートにより、GEMM 演算の背後に非融合された読み書きが隠蔽され、通信カーネルとの効率的なオーバーラップが可能になりました。
CuTe DSL を用いることで、別の GPU カーネルによって事前に計算された形状引数を直接 GPU メモリから取り込んで実行できるカーネルの実装が可能になりました。この機能により、ランタイム時まで不明な動的形状であっても CPU と GPU の同期が必要なくなり、トークンドロップレス MoE におけるクリティカルパスから CPU を完全に排除しました。CUDA グラフのサポートと併せて、これらの 高度な融合 (advanced fusions) は Deepseek-v3 でエンドツーエンドで 8% 以上の性能向上をもたらし、GPT-OSS では 93% のエンドツーエンドの高速化を実現しています。
3. MXFP8 アテンションブロック
従来、MoE 学習ワークロードではアテンション計算に 16 ビット精度が用いられていました。今回は、モデル品質を損なうことなく性能を向上させるための MXFP8 アテンションレシピが開発されました。これにより、DeepSeekv3 ベンチマークでエンドツーエンドの高速化が達成されつつも、アテンション演算に必要な標準的な数学的処理は維持されています。このレシピでは、アテンションブロック内のバッチ行列乗算演算の入力テンソルすべてを 8 ビット精度に保ち、ハードウェア上の FP8 数学実行が 16 ビット浮動小数点データパスよりも高速である点を活用しています。このカーネルは cuDNN を通じて Transformer Engine ライブラリから利用可能です。
4. ルーターおよびハイブリッド EP の最適化
MoE ルーターは、トークンを専門的なエキスパート層に動的に割り当てるために使用され、その性能はクラスター全体のトレーニングにおけるボトルネックの重要な要因となります。ルーター内では複数の要素ごとのカーネルが融合されており、これにはパフォーマンス向上のための top-k およびスコア計算が含まれます。ハードウェア利用率を最大化するため、これらのカーネルは FP64 から FP32 演算へ移行されました。この最適化により、カーネルの速度が 5 倍向上しました。さらに、HybridEP 内ではいくつかの要素ごとのメタデータ処理カーネルが融合され、主要な置換/非置換カーネルの専用パフォーマンスチューニングによって補完されています。全体として、これらの最適化によりエンドツーエンドのパフォーマンスが 5% 向上しました。
5. 1F1B all-to-all オーバーラップ最適化
1F1B(One Forward, One Backward)の全対全(A2A)オーバーラップ方式は、バッチレベルでの計算の背後に MoE 通信を隠すために 以前 Megatron-Core に導入されました。今回の MLPerf ラウンドでは、この方式の実行効率が大幅に向上しました。1F1B スケジューリングは当初、顕著な CPU オーバーヘッドをもたらしていましたが、CUDA Graph 内で完全なイテレーションをキャプチャすることで、ホスト側のボトルネックが完全に解消されました。さらに、通信ストリームの優先順位付け、動的スケジューリングされた CuTe DSL カーネルの採用、および新しい cuteDSL GEMM に対する遅延重み勾配(wgrad)サポートの有効化により、パフォーマンスはさらに向上しました。定常状態では、これらの調整により A2A 通信のオーバーラップ率がほぼ 100% に達し、全体として 8% の性能向上を実現しました。
6. パイプラインステージ間の不均衡の最小化
個々の計算カーネルが高速化するにつれて、パイプライン並列ステージ間の潜在的な不均衡がより顕著になります。NVIDIA はこれらのパイプライン並列ステージのレイアウトとバランスを最適化し、構造的なアイドル状態("バブル時間")を最小限に抑えました。
パイプライン不均衡は、パイプライン並列性(PP)の効率における主要なボトルネックです。DeepSeek-V3 の場合、モデルは先頭に 3 つの密結合層を持ち、末尾にマルチトークン予測(MTP)とクロスエントロピーを伴うロジット GEMM を備えたハイブリッドレイヤー設定を採用しています。この課題を解決するため、Megatron-Core の柔軟なパイプラインレイアウトサポートを活用してステージを慎重にバランスさせるとともに、クリティカルパス上の実行時間を短縮するために MXFP8 精度をロジット投影 GEMM に採用しました。MXFP8 をロジット投影 GEMM に使用しても、ベンチマークの数値安定性には影響しませんでした。これらの調整によりパイプライン不均衡が 1% 未満に削減され、結果としてエンドツーエンド(E2E)のパフォーマンスで 4% の節約を実現しました。
継続的なフルスタック共設計:すべての部分の総和
標準化されたベンチマークは特定の時点でのパフォーマンス指標を捉えますが、実際の開発者にとっての価値を生み出す主要な原動力は、ソフトウェア最適化の継続的な軌跡です。過去 3 ヶ月間にわたり、ハードウェアとソフトウェアエンジニアリングチーム間の緊密な協力により、NVIDIA プラットフォームにおいて重要な最適化マイルストーンが達成されました。
この急速なイノベーションのペースは、NVIDIA のソフトウェアスタック全体に及んでいます。単一の孤立した層における最適化に頼るのではなく、上記の革新は、cuDNN、Transformer Engine、CuTe DSL、Megatron Core、cuBLAS などを含む複数の基盤となる CUDA-X ライブラリ、フレームワーク、API にわたって並列的なパフォーマンス向上がどのように設計されたかを示しています。Megatron Bridge は、これらのスタック横断的な改善を統合する中央のパッケージ層として機能し、開発者が統一されたエコシステムですぐに利用できるようにします。
最新の NVIDIA NeMo コンテナ 26.06 リリースを用いてこれを実証すると、DeepSeek-V3 における NVIDIA Blackwell Ultra GB300 の トレーニングパフォーマンス は、1,298 TFLOPS/GPU から 1,648 TFLOPS/GPU(6,338 トークン/sec/GPU)へと 1.3 倍向上しました。このわずか 3 ヶ月でのパフォーマンス向上は、通信プロトコル、ルーティング層、計算カーネル全体にわたるマイクロボトルネックの体系的排除というフルスタック共設計の直接的な成果であり、基盤となるシリコンへの変更を必要としません。
この継続的な最適化の軌道は、システムオーバーヘッドを排除し、GPU が有用な作業に費やす時間の割合を最大化することで、NVIDIA Goodput を直接引き上げます。その結果、インフラ事業者は単に高い理論上のピーク能力を得るだけでなく、これらの生 FLOPS を継続的で生産的なトレーニングの進捗に変換する成熟したプラットフォームを獲得します。これにより、ソフトウェアエコシステムが成熟するにつれて、既存のインフラ展開ですぐにトレーニング効率の配当を享受することが可能になります。
image*図 1. DeepSeek-V3 671B における時間経過に伴う GB300 のトレーニングスループット改善*
プラットフォーム比較:Blackwell Ultra GB300 vs. GB200
ソフトウェアによる向上に加え、Blackwell ファミリー内の構成を比較することで、微妙なハードウェア調整がフルスタック最適化をどのように補完するかを示すことができます。図 2 に示す通り、Blackwell Ultra GB300 は、密な基盤モデルと複雑な MoE(Mixture of Experts)システムの両方において、ベースラインとなる Blackwell GB200 と比較して顕著なトレーニング性能の向上を提供します。
image*図 2. GB200 に対する NVIDIA Blackwell Ultra GB300 のトレーニング性能増加*
*MLPerf Training v5.1 および v6.0、クローズド部門。結果エントリー:6.0-0022, 6.0-0102, 6.0-0017, 6.0-0078, 5.1-0072, 6.0-0013, 5.1-0067、および 6.0-0031。MLPerf の名称およびロゴは、米国およびその他の国における MLCommons Association の登録商標および未登録商標です。全著作権所有。無断使用は厳に禁止されています。詳細については *www.mlcommons.org* をご覧ください。
この高速化は、主に 2 つの利点によるものです:より大きなメモリ容量と、より広い電力予算です。大規模トレーニングにおいて Deep MoE アーキテクチャ(Mixture of Experts)は非常にメモリーバウンドとなります。
GB300 の拡張されたメモリは、最適ではない構成や層の再計算を必要とせずに、フルイテレーション CUDA グラフによって導入される追加のメモリオーバーヘッドを受け入れます。さらに、増大したメモリ容量により、開発者はより小さなモデル並列通信グループを利用できるようになります。モデルの大部分をチップローカルに保持することで、システムはクロス GPU 間の通信待ち時間を短縮し、直接的に運用スループットの向上につながります。
MLPerf Training 6.0 におけるフルスタックイノベーションとスケール
MLPerf Training 6.0 の結果は、業界全体にわたる複雑な生成 AI ワークロードの加速において、NVIDIA のフルスタックアプローチが決定的な標準であることを明確に示しました。このラウンドですべてのベンチマークを完全制覇し、あらゆる項目で勝利したことで、本プラットフォームはトレーニング完了までの時間(time-to-train)指標において比類なき実行速度を実証しました。超高密度の基盤モデルのトレーニングを行う場合でも、大規模な MoE アーキテクチャ(Mixture of Experts: エキスパート混合モデル)の複雑なトークンルーティング機構を扱う場合でも、NVIDIA はあらゆる面で比類のないパフォーマンスを提供します。
これらのベンチマークでの成功は、ソフトウェア革新の急速な推進力、継続的な極限共設計(co-design)、および NVIDIA のグッドプット(Goodput: 実効スループット)の最大化された効率によって支えられています。Megatron Bridge、cuDNN、Transformer Engine にわたって実施されたエンジニアリング上のブレークスルーには、フルイテレーション CUDA グラフ(全反復 CUDA グラフ)、CuTe DSL カーネル融合、通信およびパイプライン最適化が含まれており、これらにより NVIDIA の顧客はソフトウェアレイヤーから直接的に巨大なパフォーマンス向上を享受しています。この急速な最適化ペースにより、開発者はソフトウェアエコシステムが成熟するにつれて、既存のインフラ投資に対して即座にトレーニング効率の恩恵を得ることができます。
究極的に、エンタープライズとしての準備完了を測る真の指標は、最大規模での展開時に発揮されるパフォーマンスです。NVIDIA プラットフォームは、本番環境対応のクラウドアーキテクチャ上で同時に動作する 8,192 個のアクティブな GPU(グラフィック処理装置)まで強固なスケーリングを実証しました。この大規模なトレーニングクラスターをオーケストレーションする実証済みの能力により、企業は標準的な数ヶ月にわたるトレーニングサイクルを数分または数時間に圧縮し、次世代の AI ブレイクスルーの市場投入までの時間を劇的に短縮することが可能になります。
原文を表示
NVIDIA delivered a clean sweep in MLPerf Training v6.0, the latest edition of industry-standard AI training benchmarks developed by the MLCommons consortium. NVIDIA achieved the fastest time to train at scale, and also delivered the highest performance when normalized on a per-accelerator basis on every benchmark. It was also the only platform to submit on every test.
MLCommons introduced new pretraining benchmarks in this round designed to reflect the latest trends in AI models, including DeepSeek-V3, a massive 671B-parameter Mixture of Experts (MoE) model that also serves as the base for the popular DeepSeek-R1 reasoning model, and GPT-OSS-20B, a small-but-capable MoE.
The NVIDIA platform was the only one to submit results on both new workloads, with the NVIDIA GB300 NVL72 system setting the performance bar through optimized NVIDIA software stacks and a design that connects 72 NVIDIA Blackwell Ultra GPUs and 36 NVIDIA Grace CPUs as one using NVIDIA NVLink and NVIDIA NVLink Switch.
Unprecedented scale and throughput across the scale-out fabric
Training state-of-the-art models requires large-scale infrastructure and the ability to efficiently execute workloads across thousands of interconnected processors. In several entries this round, NVIDIA cloud service provider partners scaled up to 8,192 Blackwell GPUs working in unison across diverse cloud data centers. These submissions proved the real-world robustness of the Blackwell platform across production hyperscale data center fleets, demonstrating strong scaling trends across these varied cluster environments.
Extracting maximum efficiency from each training iteration at this magnitude requires moving far beyond the reach of a single NVLink domain, relying on scale-out networking platforms such as NVIDIA Spectrum-X Ethernet and NVIDIA Quantum InfiniBand. Expert parallelism within MoE models generates low-entropy, bursty flows—a pattern that typically reduces effective bandwidth under static Equal-Cost Multi-Path (ECMP) hashing as large flows collide on shared links.
To resolve this, Spectrum-X Ethernet’s Advanced Adaptive Routing distributes traffic packet-by-packet across all available paths according to real-time link load, sustaining effective bandwidth near the fabric’s theoretical capacity while the receiving ConnectX SuperNIC handles out-of-order delivery.
Additionally, when a popular expert draws simultaneous traffic from many senders, Spectrum-X Congestion Control uses real-time telemetry to detect the resulting incast early and pace senders before buffers overflow. This balances tail latency so all-to-all communication stays hidden behind compute rather than surfacing on the main execution path.
This combination of cluster orchestration and network fabric efficiency enabled new time-to-train records across the most challenging benchmarks, as summarized below:
*MLPerf Training v6.0 results retrieved from *www.mlcommons.org* on June 16, 2026, from the following entries: 6.0-0005, 6.0-0102, 6.0-0001, 6.0-0015, 6.0-0102, 6.0-0101 and 6.0-0062. The MLPerf name and logo are trademarks of MLCommons Association in the United States and other countries. All rights reserved. Unauthorized use is strictly prohibited. See *www.mlcommons.org* for more information. *
The software innovation engine
Hardware capabilities are only as good as the software driving them. To extract maximum performance for complex MoE models like DeepSeek-V3, NVIDIA deployed several cutting-edge software optimizations in this round of MLPerf Training:
1. Full-iteration CUDA graphs for token-dropless MoEs
Historically, token-dropless MoE architectures struggled to run fully within CUDA graphs due to dynamic routing behaviors that forced continuous CPU-GPU synchronizations. For MLPerf Training 6.0, NVIDIA implemented full-iteration CUDA graphs for the first time for these MoEs. Two primary hurdles were addressed in order to enable this. First, expert module operators, such as the quantizer, grouped GEMM, and token dispatcher, were transitioned to a synchronization-free mode. In this configuration, input shapes are derived directly from GPU values, removing the necessity for host-side coordination. Second, device memory was managed without host involvement via paged stashing. This technique enables fine-grained management on pre-allocated GPU memory, ensuring the process is fully compatible with CUDA graphs.
By rewriting critical execution paths to eliminate all CPU-GPU sync touchpoints, the entire iteration workload was offloaded completely to the GPU. This removed the CPU from the critical path and eliminated the overhead stemming from the variation of host execution, which can otherwise create cascading overhead delays when scaling to clusters of 2,000+ GPUs.
2. CuTe DSL and kernel fusions
To achieve the fusion of memory-bandwidth bound layers with grouped GEMM operations and the synchronization-free execution required by CUDA graphs, NVIDIA leveraged CuTe DSL for advanced kernel fusions. This enabled developers to combine math and memory-handling operations directly at the hardware layer, keeping data local to the registers and avoid expensive round-trips to global memory. Additionally, support for dynamic tile scheduling hid unfused reads and writes behind GEMM operations, enabling an efficient overlap with communication kernels.
CuTe DSL also enabled the implementation of kernels that can consume shape arguments directly from GPU memory that are computed by another GPU kernel beforehand. This ability removed the need for CPU-GPU synchronization even for dynamic shapes that are not known until runtime, completely removing the CPU from the critical path for token-dropless MoEs. Together with the enablement of CUDA graphs, these advanced fusions provide more than 8% end-to-end benefit on Deepseek-v3 and a 93% end-to-end speedup on GPT-OSS.
3. MXFP8 attention block
Traditionally, MoE training workloads have used 16-bit precision for attention computation. This round, an MXFP8 attention recipe was developed for improved performance without impacting model quality. This provided an end-to-end speedup for DeepSeekv3 benchmark while preserving the standard math required for attention operations. This recipe keeps the input tensors of all batched-matrix-multiply operations in the attention block in 8-bit precision, taking advantage of faster FP8 math execution on the hardware compared to 16-bit floating point datapath. This kernel is available in cuDNN through the Transformer Engine library.
4. Router and hybrid EP optimizations
The MoE router is used to dynamically assign tokens to specialized expert layers, making its performance an important factor in cluster-wide training bottlenecks. Multiple elementwise kernels were fused in the router, including top-k and score computations to enhance performance. To maximize hardware utilization, these kernels were transitioned from FP64 to FP32 math operations. This optimization delivered a kernel speedup of 5x. Additionally, several elementwise metadata processing kernels were fused within HybridEP, complemented by dedicated performance tuning of the key permute/unpermute kernels. Overall, these optimizations yielded a performance gain of 5% end-to-end.
5. 1F1B all-to-all overlap optimizations
A dedicated 1F1B (One Forward, One Backward) all-to-all (A2A) overlap scheme was previously introduced into Megatron-Core to hide MoE communication behind computation at the batch level. For this MLPerf round, the execution efficiency of this scheme has been significantly improved. While 1F1B scheduling initially introduced notable CPU overhead, capturing the full iteration within a CUDA Graph successfully eliminated this host-side bottleneck. Performance was further enhanced by prioritizing the communication stream, employing dynamically scheduled CuTe DSL kernels, and enabling delayed weight gradient (wgrad) support for new cuteDSL GEMMs. In the steady state, these adjustments achieved nearly 100% A2A communication overlap, resulting in an overall 8% performance benefit.
6. Minimizing imbalance between pipeline stages
As individual computational kernels get faster, underlying imbalances between pipeline parallel stages become more pronounced. NVIDIA optimized the layout and balance of these pipeline parallel stages, minimizing structural idling (“bubble time”).
Pipeline imbalance is a major bottleneck in pipeline parallelism (PP) efficiency. For DeepSeek-V3, the model uses a hybrid layer setting with three dense layers at the front and Multi-Token Prediction (MTP) plus logits GEMM with crossentropy at the end. To resolve this issue, Megatron-Core’s flexible pipeline layout support was leveraged to carefully balance the stages, while MXFP8 precision was adopted for the logit projection GEMM to reduce its execution time on the critical path. Using MXFP8 for the logit projection GEMM didn’t impact numerical stability of the benchmark. These adjustments successfully reduced pipeline imbalance to less than 1%, translating to a 4% E2E performance savings.
Continuous full-stack co-design: Sum of all the parts
While standardized benchmarks capture point-in-time performance metrics, a major driver of actual developer value is the continuous trajectory of software optimization. Over the last three months, close collaboration between hardware and software engineering teams has unlocked significant optimization milestones for NVIDIA platforms.
This rapid pace of innovation spans the entire NVIDIA software stack. Rather than relying on optimizations in a single isolated layer, the above-mentioned innovations illustrate how parallel performance enhancements were engineered across multiple foundational CUDA-X libraries, frameworks and APIs including cuDNN, Transformer Engine, CuTe DSL, Megatron Core, and cuBLAS. Megatron Bridge serves as the central packaging layer that integrates these cross-stack improvements, making them immediately available to developers in a unified ecosystem.
To demonstrate this using the latest NVIDIA NeMo container 26.06 release, the training performance of the NVIDIA Blackwell Ultra GB300 on DeepSeek-V3 improved 1.3x going from 1,298 TFLOPS/GPU to 1,648 TFLOPS/GPU (6,338 tokens/sec/GPU). This performance uplift in three short months is the direct product of full-stack co-design, the systematic elimination of micro-bottlenecks across communication protocols, routing layers, and compute kernels all without requiring changes to the underlying silicon.
This continuous optimization trajectory directly elevates NVIDIA Goodput by squeezing out system overhead and maximizing the percentage of time GPUs spend doing useful work. Consequently, infrastructure operators do not just get high theoretical peak capabilities, they get a mature platform that converts those raw FLOPS into continuous, productive training progress. This enables existing infrastructure deployments to capture immediate training efficiency dividends as the software ecosystem matures.

Platform comparison: Blackwell Ultra GB300 vs. GB200
Beyond software gains, comparing configurations within the Blackwell family illustrates how subtle hardware adjustments complement full-stack optimization. As shown in Figure 2 below, Blackwell Ultra GB300 provides a significant training performance uplift over the baseline Blackwell GB200 across both dense foundational models and complex MoE systems.

*MLPerf Training v5.1 and v6.0, closed division. Results from entries: 6.0-0022, 6.0-0102, 6.0-0017, 6.0-0078, 5.1-0072, 6.0-0013, 5.1-0067, and 6.0-0031. The MLPerf name and logo are registered and unregistered trademarks of MLCommons Association in the United States and other countries. All rights reserved. Unauthorized use strictly prohibited. See*www.mlcommons.org* for more information.*
This speedup stems from two primary advantages: higher memory capacity and a larger power budget. Deep MoE architectures are highly memory-bound during large-scale training.
The expanded memory of the GB300 accommodates the added memory overhead introduced by full-iteration CUDA graphs without requiring sub-optimal configurations or layer recomputation. Additionally, increased memory capacity enables developers to utilize smaller model-parallel communication groups. By keeping larger portions of the model local to the chip, the system spends less time waiting on cross-GPU communications, translating directly to higher operational throughput.
Full-stack innovation and scale in MLPerf Training 6.0
The MLPerf Training 6.0 results firmly establish NVIDIA’s full-stack approach as the definitive standard for accelerating complex generative AI workloads across the industry. By securing a clean sweep and winning every single benchmark in this round, the platform demonstrated unmatched execution speed in time-to-train metrics. Whether training ultra-dense foundational models or navigating the intricate token-routing mechanics of massive MoE architectures, NVIDIA delivers unrivaled performance across the board.
These benchmark successes are propelled forward by a rapid velocity of software innovation, continuous extreme co-design, and the maximized efficiency of NVIDIA’s Goodput. Through engineering breakthroughs implemented across Megatron Bridge, cuDNN, and the Transformer Engine, including full-iteration CUDA graphs, CuTe DSL kernel fusions, and communication and pipeline optimizations, NVIDIA customers regularly extract massive performance gains directly from the software layer. This rapid pace of optimization enables developers to capture immediate training efficiency dividends on their existing infrastructure investments as the software ecosystem matures.
Ultimately, the true metric of enterprise readiness is performance delivered at maximum deployment scale. The NVIDIA platform successfully demonstrated strong scaling up to 8,192 active GPUs running simultaneously on production-ready cloud architectures. This proven capability to orchestrate massive training clusters ensures that enterprises can reliably compress standard multi-month training cycles into a matter of minutes or hours, dramatically accelerating the time-to-market for the next generation of AI breakthroughs.
関連記事
[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定
Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。
Salesforce CodeGen チュートリアル:ユニットテストと安全性チェック付きの Python 関数の生成・検証・再ランク付け
Salesforce は Hugging Face からモデルを読み込み、自然言語から Python 関数を生成するエンドツーエンドワークフローを公開した。この手法には構文チェックや静的解析、ユニットテストによる検証が含まれる。
CloudWatch の SageMaker メトリクスとインサイトダッシュボードを用いた生成 AI 推論の監視・デバッグ
AWS は、大規模な生成 AI 推論エンドポイントの P99 レイテンシ急上昇などのトラブルを GPU メモリ圧力や KV キャッシュ飽和などから特定できるよう、CloudWatch に SageMaker の詳細メトリクスとインサイトダッシュボードを追加した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み