#kv cache optimization のAIニュース
2件の記事
FlashMemory DeepSeek-V4 リトリーバー(GitHub リポジトリ)
FlashMemory は、DeepSeek-V4 の KV キャッシュのうち将来のトークンが参照する可能性が高い断片を予測し、GPU 上に最も関連性の高い断片のみを保持します。これにより、デバイスのメモリ使用量を約 10〜15% に抑えつつ、下流タスクのパフォーマンスを維持または向上させることが報告されています。
TLDR AI·6月10日·★★★★
確率的 KV ルーティング:適応型深層別キャッシュ共有を実現
研究者らは、トランスフォーマー言語モデルの推論コスト削減のため、時間軸以外の「深さ」次元に焦点を当てた新しい手法「確率的 KV ルーティング」を提案し、キーバリューキャッシュのメモリ使用量を大幅に削減できることを示した。
Apple Machine Learning·5月5日·★★★★