#推測デコーディング のAIニュース
2件の記事
中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に
シャオミと推論パートナーの TileRT は、標準的な 8 GPU ノードで秒間 1,000 トークンの推論速度を実現する 1 兆パラメータモデル「MiMo-V2.5-Pro-UltraSpeed」を開発した。この高速化は FP4 量子化と DFlash 推測デコーディング技術によるもので、6 月 9 日から 23 日までの限定 API 試験で利用可能となる。
TLDR AI·6月9日·★★★★
P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論
研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。
AWS Machine Learning Blog·3月14日·★★★★