AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年6月24日 00:00·約11分で読める

NVIDIA Blackwell で DFlash 推測デコーディングを活用し、推論パフォーマンスを最大 15 倍に向上

#LLM#推論最適化#Blackwell#NVIDIA#スペキュレーティブ・デコーディング
TL;DR

NVIDIA は DFlash 推測デコーディング技術により、Blackwell アーキテクチャ上で LLM の推論パフォーマンスを最大 15 倍に向上させることに成功した。

AI深層分析2026年6月24日 01:03
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

DFlash 技術による性能飛躍

NVIDIA が発表した DFlash(Discrete Flash)推測デコーディング技術により、Blackwell GPU 上の推論スループットが最大 15 倍に向上した。

2

推測デコーディングの活用

LLM の生成プロセスにおいて、次トークンの予測精度を高めることで、無駄な計算を削減し、効率的な推論を実現する手法を採用している。

3

Blackwell アーキテクチャとの相性

Blackwell の高い帯域幅と演算能力を活かし、DFlash 技術の恩恵を最大限に受けることで、大規模モデルの実用化が加速する。

影響分析・編集コメントを表示

影響分析

この技術は、大規模 AI モデルの運用コストを劇的に下げ、より複雑な推論タスクをリアルタイムで処理する可能性を開く画期的な進展です。特にデータセンターレベルでのスケーラビリティ向上に寄与し、AI エンジニアリングの実践的な課題解決に直結します。

編集コメント

推論速度の向上は AI の普及において最も重要なボトルネックの一つを解消するものであり、Blackwell アーキテクチャの実力を示す決定的な証拠と言えます。

AI システムが単発の対話から協調的なマルチエージェントワークフローへと移行するにつれ、低遅延 推論 がますます重要になっています。自己回帰型大規模言語モデル(LLM)はトークンを逐次的に生成するため、GPU の利用率が制限され、遅延敏感な提供シナリオにおいてスループットが制約される可能性があります。

推測的デコーディング は、軽量モデルを使用して将来のトークンを下書きし、それをより大きなターゲットモデルが並列に検証することで、このボトルネックを緩和します。DFlash は、推測的デコーディング用に設計されたオープンソースの軽量ブロック拡散モデルであり、ブロック拡散ドラフターを用いてこのアプローチを拡張しています。このドラフターは、単一の順方向パスで候補トークンのブロック全体を生成し、ターゲットモデルの出力品質を検証を通じて維持しながら、逐次的な下書きをブロック並列の GPU 処理に変換します。

DFlash は、同じインタラクションレベルにおいて NVIDIA Blackwell 上の gpt-oss-120b の推論パフォーマンスを最大 15 倍向上させます。また、最先端の EAGLE-3 推測的デコーディングと比較して、同じ並行度で Llama 3.1 8B のインタラクションをほぼ倍増させます。

DFlash は研究段階から開発者ワークフローへの移行も急速に進んでいます。研究チームは、NVIDIA Blackwell および NVIDIA Hopper GPU 向けのレシピと共に、Hugging Face に 20 の DFlash チェックポイントを公開しました。

本稿では、TensorRT-LLM を使用して NVIDIA Blackwell Ultra システム上で動作する DFlash の、レイテンシーとスループットのパレート曲線について共有します。また、DFlash が SGLang や vLLM を含む NVIDIA GPU 推論スタック全体でより広く利用可能になりつつある点についても議論します。

NVIDIA Blackwell 上で DFlash は、同じ対話性を維持しながらどのようにして高いスループットを実現するのか?

図 1 は、SPEED-Bench コーディングデータセット を使用し、8 つの NVIDIA DGX B300 システム上で TensorRT-LLM により DFlash を実行した際の gpt-oss-120b のレイテンシーとスループットのパレート曲線を示しています。この曲線全体を通じて、DFlash は自己回帰的デコーディングと比較して、生産環境で関連するレイテンシー目標においてより高いスループットを提供します。この構成では、システム内の 8 つの NVIDIA Blackwell GPU すべてに gpt-oss-120b を提供し、コード生成などのエージェントユースケースに対して高い対話性目標を達成するために必要な GPU メモリ、計算能力、および相互接続帯域幅を実現しています。

imageimage*図 1. TensorRT-LLM を使用し、8 枚の NVIDIA DGX B300 GPU で gpt-oss-120b に DFlash を適用した場合のスループットと対話性のパレート曲線*

ユーザーあたり秒間 500〜600 トークンの高い対話性範囲において、DFlash は NVIDIA Blackwell 上で自己回帰型デコードと比較してスループットを 15 倍以上向上させ、EAGLE-3 の推測型デコードよりも 1.5 倍高い性能を示します。最も低い同時実行ポイント(バッチサイズ 1)では、DFlash は Blackwell 上の対話性を 2 倍以上に引き上げます。

さまざまな同時実行レベルにおけるパレート曲線を観察することは重要です。なぜなら、サービスチームは通常、特定の目標対話性レベルを最適化対象とするからです。インタラクティブなコーディング、推論、およびエージェントワークロードでは、同時実行をスケールさせつつも、ユーザーごとのトークン遅延を厳格に維持する必要があります。DFlash は、推測デコードパスに並列性を追加することでこのトレードオフを改善します。具体的には、ブロック拡散ドラフターが一度に複数の候補トークンを生成し、ターゲットモデルがそれらを並列で検証します。

NVIDIA Blackwell において、この並列性は特に価値があります。デコード制約領域では、LLM の推論は計算能力そのものよりも、メモリアクセスのボトルネックやトークン生成の逐次性によって制限されることが一般的です。DFlash は、この作業の一部を並列ブロックドラフトと検証に移行させることで、同じ対話性目標を維持しつつ、利用可能な計算リソースをより多く活用できるようにします。

各 NVIDIA Blackwell Ultra GPU は、10 TB/s の高帯域幅チップ間相互接続によって結合された 2 つのレチクルサイズのダイから構成され、160 の SM と 640 の第 5 世代 Tensor Cores を備えた統合された計算ドメインを形成しています。DFlash はこのアーキテクチャに完璧に適合しており、Blackwell の 15 PFLOPS の高密度 NVFP4 計算能力に対してより多くの並列ワークロードを露呈させることで、同じインタラクションレートで最大 15 倍のユーザーを同時に処理できます。

DFlash は、異なるデータセットにおいて EAGLE-3 の推測デコーディングと比較してインタラクション速度の向上も示しています。この効果は小規模モデルにも及び、Speed-Bench マルチリンガルデータセットにおける Llama 3.1 8B では、EAGLE-3 を上回る性能をほぼ倍増させています。

同じユーザー同時実行レベルでの速度向上

gpt-oss-120bLlama 3.1 8B Instruct

データセットEAGLE-3DFlash EAGLE-3DFlash

コーディング1.8x2.6x2.3x3.0x

RAG1.7x2.3x2.4x3.1x

推論1.8x2.3x2.5x2.8x

ライティング1.5x1.8x2.3x2.7x

マルチリンガル1.8x2.6x1.4x2.4x

要約1.6x2.0x2.3x2.6x

平均1.7x2.3x2.2x2.8x

*表 1. DFlash は、gpt-oss-120b および Llama 3.1 8B Instruct 上の異なる Speed-Bench データセットにおいて、一致したユーザー同時実行レベルで EAGLE-3 よりも高いインタラクション速度向上を提供します*

NVIDIA エコシステムにより、アプリケーションのリファクタリングなしに開発者に DFlash を提供

UC サンディエゴ大学の研究者らは、2026 年 2 月に NVIDIA Blackwell におけるより高速で効率的な大規模言語モデル(LLM)推論に関する継続的な取り組みの一環として、DFlash: Block Diffusion for Flash Speculative Decoding という論文を発表しました。PyTorch で構築されネイティブ CUDA サポートを備えた DFlash は、ブロック拡散型推測デコーディング(speculative decoding)を通じてデコード性能を向上させます。NVIDIA とオープンソースの推論コミュニティは、SGLang および vLLM の両方で堅牢なフレームワークサポートが確保されるよう協力し、開発者が選択したサービングスタック上の推論展開に DFlash を導入するための明確な道筋を提供しています。

論文発表以降、研究チームは Blackwell 向けおよび Hopper 向けのレシピと共に、Qwen、Kimi K2.6、Llama、Gemma、gpt-oss などを含むモデルファミリーをカバーする 20 の DFlash モデルチェックポイントを Hugging Face に公開しました。これらのレシピには、SGLang や vLLM といった人気のある推論フレームワークのサポートも含まれています。

vLLM では、開発者は設定ファイルの変更のみで EAGLE-3 を DFlash チェックポイントに置き換えることができます。この統合はオープンソースの Speculators ライブラリを通じて行われ、NVIDIA GPU 上の vLLM 推論パス内で DFlash ドラフターをターゲットモデルの隠れ状態(hidden states)に接続します。Blackwell Ultra GPU 1 基上で動作する Gemma 4 31B では、このパスにより、自己回帰的デコーディングと比較して同じ並行度で最大 5.8 倍のスループットを実現します(表 2)。

SGLang の場合、EAGLE から DFlash への移行には、推論アルゴリズムを DFlash に更新し、対応する DFlash ドラフトモデルのチェックポイントを提供するだけで十分です。Blackwell GPU 1 基上で動作する Qwen3 8-B では、このアプローチにより、自己回帰的デコーディングと比較して同じ並行度で最大 5.1 倍のスループットを実現します(表 3)。

NVIDIA GPU 上での広範な初期モデルおよびフレームワークのカバー範囲が重要なのは、アプリケーションのリファクタリングを一切行うことなく、開発者がすでに使用しているフレームワークを通じて新しい最適化を迅速に評価・展開できるためです。

並行度 1 における速度向上**

**Gemma-4 31B | vLLM | NVIDIA DGX B300 1 基

タスクDFlash と自己回帰的デコーディングの比較

Math5005.8 倍

GSM8K5.3 倍

HumanEval5.6 倍

MBPP4.4 倍

MT-Bench3.0 倍

*表 2. DFlash は、NVIDIA Blackwell Ultra GPU 1 基上の vLLM を使用した Gemma 4 31B において、自己回帰的デコーディングよりもスループットを向上させます。数学、コーディング、チャットの各ベンチマークで最大 5.8 倍の速度向上を実現します*

並行度 1 における速度向上**

**Qwen3 8-B | SGLang | 1x B200

タスク DFlash と自己回帰型推論の比較

Math500 5.1 倍

HumanEval 4.2 倍

*表 3. SGLang を用いた単一の NVIDIA B200 GPU 上で Qwen3-8B に DFlash を適用することで、自己回帰型推論(autoregressive decoding)に対するスループットが向上し、Math500 では最大 5.1 倍、HumanEval では 4.2 倍の速度向上を達成*。

DFlash の推測的デコーディングはどのように動作するのか?

推測的デコーディング(speculative decoding)には、ドラフト作成フェーズと検証フェーズの 2 つがあります。小さなドラフトモデルが将来のトークンを提案し、ターゲットモデルがそれらのトークンを並列に検証して、最も長い有効なプレフィックスを受け入れます。ドラフトが正しければ、システムはターゲットモデルの検証パスを 1 回行うだけで複数のトークンを生成できます。

従来の推測的デコーディング手法では、自己回帰型のドラフトモデルがよく用いられてきました。これらのドラフターも依然としてトークンを逐次的に生成するため、推測するトークン数が増えるほどドラフト作成のコストが増大します。これが、この手法でスループットをどこまで引き上げられるかを制限していました。

DFlash は、自己回帰型のドラフターを軽量なブロック拡散型(block-diffusion)のドラフターに置き換えます。トークンを 1 つずつ生成するのではなく、DFlash のドラフターは単一の順方向パスでマスクされた将来のトークンのブロック全体を予測します。

imageimage*図 2. EAGLE 3 スタイルの推測的デコーディングではトークンを自己回帰的にドラフト作成しますが、DFlash はブロック拡散型ドラフトを使用し、ターゲットモデルによる検証の前に複数のトークンを並列に提案します*。

DFlash は以下の 3 つの主要な技術を組み合わせています:

  • ブロック拡散ドラフティング:ドラフターは複数の未来トークンを並列に予測します。
  • ターゲット隠れ状態条件付け:ドラフターはターゲットモデルから抽出されたコンテキスト特徴を使用します。

-KV 注入:ターゲットのコンテキスト特徴が、層全体にわたるドラフトモデルのキー・バリュー射影に注入され、高い受容率を維持するのに役立ちます。

この設計により、ドラフターは高速かつ効果的になります。検証は依然としてターゲットモデルが行うため、DFlash は生成を加速しながらもターゲットモデルの出力分布を保持します。

DFlash を使用して推論パフォーマンスを向上させるためのスタートガイド

研究コミュニティは NVIDIA GPU 上で新たな推論最適化を開発し続けており、DFlash は NVIDIA エコシステムがこれらのアイデアを開発者に迅速に提供できる方法を示す強力な例です。

準備はできましたか?DFlash は現在、NVIDIA GPU 上の オープンモデルチェックポイント で利用可能であり、SGLang、vLLM、TensorRT-LLM でサポートされています。

原文を表示

As AI systems move from single-turn interactions to coordinated multiagent workflows, low-latency inference becomes increasingly important. Autoregressive LLMs generate tokens sequentially, which can limit GPU utilization and constrain throughput in latency-sensitive serving scenarios.

Speculative decoding helps mitigate this bottleneck by using a lightweight model to draft future tokens, which the larger target model then verifies in parallel. DFlash is an open source lightweight block diffusion model designed for speculative decoding that extends this approach with a block-diffusion drafter. This drafter generates an entire block of candidate tokens in a single forward pass, turning sequential drafting into block-parallel GPU work while preserving the target model’s output quality through verification.

DFlash increases inference performance for gpt-oss-120b on NVIDIA Blackwell by up to 15x at the same interactivity level. It nearly doubles interactivity for Llama 3.1 8B at the same concurrency compared with state-of-the-art EAGLE-3 speculative decoding.

DFlash is also moving quickly from research into developer workflows. The research team has released 20 DFlash checkpoints on Hugging Face with recipes for NVIDIA Blackwell and NVIDIA Hopper GPUs.

In this post, we share the latency-throughput Pareto curve for DFlash running on an NVIDIA Blackwell Ultra system using TensorRT-LLM. We also discuss how DFlash is becoming available more broadly across NVIDIA GPU inference stacks, including SGLang and vLLM.

How does DFlash deliver higher throughput at the same interactivity on NVIDIA Blackwell?

Figure 1 shows the latency-throughput Pareto curve for gpt-oss-120b running with DFlash in TensorRT-LLM on an eight NVIDIA DGX B300 system using the SPEED-Bench coding dataset. Across the curve, DFlash delivers higher throughput at production-relevant latency targets compared with autoregressive decoding. This configuration serves gpt-oss-120b across all eight NVIDIA Blackwell GPUs in the system, providing the GPU memory, compute, and interconnect bandwidth needed to reach high interactivity targets for agentic use cases such as code generation.

Figure 1. Throughput-interactivity Pareto curve for gpt-oss-120b with DFlash on eight NVIDIA DGX B300 GPUs using TensorRT-LLM
Figure 1. Throughput-interactivity Pareto curve for gpt-oss-120b with DFlash on eight NVIDIA DGX B300 GPUs using TensorRT-LLM

At the high interactivity range of 500-600 tokens/sec per user, DFlash increases throughput on NVIDIA Blackwell by more than 15x compared with autoregressive decoding, 1.5x higher than EAGLE-3 speculative decoding. At the lowest concurrency point, with batch size 1, DFlash more than doubles interactivity on Blackwell.

Observing the Pareto curve across a variety of concurrencies is important because serving teams typically optimize for a target interactivity level. Interactive coding, reasoning, and agent workloads often need to maintain strict per-user token latency while scaling concurrency. DFlash improves that tradeoff by adding parallelism to the speculative decode path: its block-diffusion drafter generates multiple candidate tokens at once, and the target model verifies them in parallel.

On NVIDIA Blackwell, this parallelism is especially valuable. In the decode-constrained region, LLM inference is often limited by memory movement and the sequential nature of token generation rather than raw compute. DFlash helps shift part of this work into parallel block drafting and verification, enabling the system to use more of the available compute while maintaining the same interactivity target.

Each NVIDIA Blackwell Ultra GPU combines two reticle-sized dies connected by 10 TB/s of high-bandwidth chip-to-chip interconnect, forming a unified compute domain with 160 SMs and 640 fifth-generation Tensor Cores. DFlash is well matched to this architecture because it exposes more parallel work to Blackwell’s 15 PFLOPS of dense NVFP4 compute, serving up to 15x more users concurrently at the same interactivity rate.

DFlash also shows interactivity speedups over EAGLE-3 speculative decoding across different datasets. The gains extend to smaller models as well, with DFlash nearly doubling performance over EAGLE-3 on Llama 3.1 8B for the Speed-Bench multilingual dataset.

NVIDIA ecosystem brings DFlash to developers without application refactoring

Researchers at UC San Diego released the paper DFlash: Block Diffusion for Flash Speculative Decoding in February 2026 as part of ongoing work on faster, more efficient LLM inference on NVIDIA Blackwell. Built in PyTorch with native CUDA support, DFlash improves decode performance through block-diffusion speculative decoding. NVIDIA and the open source inference community helped ensure strong framework support across both SGLang and vLLM, giving developers a clear path to introduce DFlash into inference deployments on their serving stack of choice.

Since the paper’s release, the research team has released 20 DFlash model checkpoints on Hugging Face with Blackwell and Hopper recipes, covering model families including Qwen, Kimi K2.6, Llama, Gemma, and gpt-oss. The recipes include support for popular inference frameworks such as SGLang and vLLM..

On vLLM, developers can swap EAGLE-3 with a DFlash checkpoint, with no code changes outside of the config. The integration runs through the open source Speculators library, which connects the DFlash drafter to the target model’s hidden states inside the vLLM inference path on NVIDIA GPUs. On Gemma 4 31B running on a single Blackwell Ultra GPU, this path delivers up to 5.8x higher throughput at the same concurrency over autoregressive decoding (Table 2).

For SGLang, migrating from EAGLE to DFlash only requires updating the speculative decoding algorithm to DFlash and providing the matching DFlash draft model checkpoint. On Qwen3 8-B running on a single Blackwell GPU, this path delivers up to 5.1x throughput at the same concurrency over autoregressive decoding (Table 3).

This broad early model and framework coverage on NVIDIA GPUs matters because it enables teams to quickly evaluate and deploy new optimizations through the frameworks developers already use, without any application refactoring.

How does DFlash speculative decoding work?

Speculative decoding has two phases: drafting and verification. A smaller draft model proposes future tokens. The target model verifies those tokens in parallel and accepts the longest valid prefix. If the draft is correct, the system generates multiple tokens with one target-model verification pass.

Traditional speculative decoding methods often use autoregressive draft models. These drafters still generate tokens sequentially, so drafting cost increases as the number of speculative tokens increases. This limits how far the method can push throughput.

DFlash replaces the autoregressive drafter with a lightweight block-diffusion drafter. Instead of generating tokens one by one, the DFlash drafter predicts a block of masked future tokens in a single forward pass.

Figure 2. EAGLE 3-style speculative decoding drafts tokens autoregressively, while DFlash uses block-diffusion drafting to propose multiple tokens in parallel before target-model verification
Figure 2. EAGLE 3-style speculative decoding drafts tokens autoregressively, while DFlash uses block-diffusion drafting to propose multiple tokens in parallel before target-model verification

DFlash combines three key techniques:

  • Block-diffusion drafting: The drafter predicts multiple future tokens in parallel.
  • Target hidden-state conditioning: The drafter uses context features extracted from the target model.
  • KV injection: Target context features are injected into the draft model’s key-value projections across layers, helping maintain high acceptance rates.

This design enables the drafter to be both fast and effective. The target model still performs verification, so DFlash preserves the target model’s output distribution while accelerating generation.

Get started boosting inference performance with DFlash

The research community continues to develop new inference optimizations on NVIDIA GPUs, and DFlash is a strong example of how the NVIDIA ecosystem can make these ideas available to developers quickly.

Ready to get started? DFlash is now available on NVIDIA GPUs across open model checkpoints and is supported in SGLang, vLLM, and TensorRT-LLM.

この記事をシェア

関連記事

OpenAI News★42026年6月24日 15:00

OpenAI と Broadcom が LLM 最適化推論チップを発表

OpenAI と Broadcom は、大規模言語モデルの推論処理に特化した新しい半導体チップを共同で発表しました。

TLDR AI★32026年6月24日 09:00

Engram の紹介:コンテキスト上で計算リソースをスケーリングする技術

TLDR AI は、コンテキスト内で計算リソースを拡張可能にする新技術「Engram」を発表した。この手法により、AI モデルの処理能力を文脈に応じて柔軟に拡大できることが示された。

404 Media★32026年6月24日 22:03

ポッドキャスト:AI に自我があるなら『帝国時代 II』にもあるという論文について

Matthew が、大規模言語モデルに自我があると仮定した場合、古典的ゲーム『帝国時代 II』も同様に自我を持つと主張する興味深い論文を紹介した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む