#推測デコーディングのAIニュース

2件の記事

中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に

シャオミと推論パートナーの TileRT は、標準的な 8 GPU ノードで秒間 1,000 トークンの推論速度を実現する 1 兆パラメータモデル「MiMo-V2.5-Pro-UltraSpeed」を開発した。この高速化は FP4 量子化と DFlash 推測デコーディング技術によるもので、6 月 9 日から 23 日までの限定 API 試験で利用可能となる。

TLDR AI·6月9日·★★★★

P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論

研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。

AWS Machine Learning Blog·3月14日·★★★★

#推測デコーディング のAIニュース

中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に

P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論

#推測デコーディングのAIニュース