1件の記事
研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。