#speculative decoding のAIニュース
9件の記事
DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案
研究チームが開発した DFlash は、推論のボトルネックである逐次生成を改善し、小規模モデルで未来のトークンを並列にドラフトして大規模モデルが検証する手法により、NVIDIA Blackwell 上で最大 15 倍のスループット向上を実現しました。
Amazon SageMaker AI で P-EAGLE を用いた推測的デコーディングの並列化
AWS は、大規模言語モデルの推論スループットを最大化し遅延を最小化する戦略として、軽量ドラフトモデルとターゲット LLM を組み合わせた「P-EAGLE」による推測的デコーディングの並列化技術を Amazon SageMaker AI で実装したと発表した。
シャオミのMiMoとTileRTが汎用GPU上で1兆パラメータモデルを秒間1000トークン超で推論
シャオミのMiMoチームとTileRTシステムグループは、汎用GPU上で1兆パラメータ規模のモデルを秒間1000トークン超(最大約1200)で推論する新技術「MiMo-V2.5-Pro-UltraSpeed」を発表した。
Google の Gemma 4 公開 AI モデルが「推測デコーディング」により最大 3 倍高速化
Google は、Gemma 4 公開モデルに実験的なマルチトークン予測ドラフターを実装し、未来のトークンを推測する「推測デコーディング」技術を採用することで、生成速度を最大 3 倍向上させたと発表した。
Gemma 4 の推論速度を加速:マルチトークン予測ドラフターによる高速化
Google が開発した Gemma 4 モデルは、専用のスペキュレーティブ・デコーディングアーキテクチャを採用し、出力品質や推論ロジックを損なうことなく最大3倍の速度向上を実現しました。これにより、開発者向けの遅延ボトルネックが解消され、応答性が大幅に改善されています。
Google TPU上でLLM推論を高速化:拡散型予測デコーディングによる3倍の速度向上を実現
UCSD(カリフォルニア大学サンディエゴ校)の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。
AWS TrainiumとvLLMを用いた推測的デコードによるデコード負荷の高いLLM推論の高速化
AWS TrainiumとvLLMを用いた推測的デコードにより、Qwen3モデルのトークン生成速度が最大3倍向上し、出力品質を維持したままトークンあたりのコスト削減とスループット向上が実現された。
Aurora:推論効率を向上させるオープンソース強化学習フレームワーク
Auroraは、推論効率を1.25倍向上させるオープンソースの強化学習フレームワークです。これは、推論を単なるオフライン設定から、リクエストごとに自己改善するシステムへと変革します。
SPEED-Benchの紹介:投機的デコーディングのための統一かつ多様なベンチマーク
研究者がSPEED-Benchを発表した。これは投機的デコーディングの性能を評価するための統一的なベンチマークであり、多様なタスクとモデルを網羅している。