Google TPU上でLLM推論を高速化:拡散型予測デコーディングによる3倍の速度向上を実現
UCSD の研究者が Google TPUp上でブロック拡散推論手法「DFlash」を実装し、従来の自己回帰方式に比べて最大約 2 倍の速度向上を達成した。
キーポイント
ブロック拡散による並列化の実現
トークンを逐次予測するのではなく、候補トークンのブロック全体を単一の順方向パスで「ペイント」することで、従来の逐次ボトルネックを回避している。
TPU ハードウェアの最適化と速度向上
Google TPUp の並列検証能力を活用し、平均 3.13 倍の速度向上を実現、既存手法(EAGLE-3 など)のピーク性能をほぼ倍増させた。
vLLM エコシステムへの統合
このオープンソースの実装は vLLM に組み込まれており、複雑な推論タスクにおいて高品質なドラフト予測と並列検証を可能にする。
影響分析・編集コメントを表示
影響分析
この技術は、大規模言語モデルの推論コスト削減とレイテンシ短縮において決定的な進展をもたらすものであり、特に Google TPU ユーザーにとって即座に適用可能な高性能化の道筋を示しています。ブロック単位の推論アプローチが実用レベルで成功したことは、次世代の高速推論アーキテクチャにおける標準的な手法の一つとして確立される可能性が高いです。
編集コメント
TPU の並列性を最大限に活かした推論手法の確立は、クラウド環境での LLM 運用コスト削減に直結する画期的な成果です。特に vLLM への統合により、実装ハードルが下がり、即座に現場で活用できる点が評価できます。

UCSD の研究者たちは、従来の自己回帰的ドラフト生成の逐次的ボトルネックを回避するために、ブロック拡散型推測デコーディング手法である DFlash を Google TPUs 上で実装することに成功しました。トークンを一つずつ予測するのではなく、候補となるトークンのブロック全体を単一の順方向パスで「描画」することで、システムは平均して 3.13 倍の高速化を実現し、EAGLE-3 などの既存手法と比較してピーク性能はほぼ倍増しました。このオープンソースでの vLLM エコシステムへの統合により、複雑な推論タスクにおいて「無料」と言える並列検証と高品質なドラフト予測を活用することで、TPU ハードウェアの最適化が達成されています。
原文を表示

Researchers at UCSD have successfully implemented DFlash, a block-diffusion speculative decoding method, on Google TPUs to bypass the sequential bottlenecks of traditional autoregressive drafting. By "painting" entire blocks of candidate tokens in a single forward pass rather than predicting them one-by-one, the system achieved average speedups of 3.13x, with peak performance nearly doubling that of existing methods like EAGLE-3. This open-source integration into the vLLM ecosystem optimizes TPU hardware by leveraging "free" parallel verification and high-quality draft predictions for complex reasoning tasks.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み