#kv cache optimization のAIニュース

2件の記事

FlashMemory DeepSeek-V4 リトリーバー（GitHub リポジトリ）

FlashMemory は、DeepSeek-V4 の KV キャッシュのうち将来のトークンが参照する可能性が高い断片を予測し、GPU 上に最も関連性の高い断片のみを保持します。これにより、デバイスのメモリ使用量を約 10〜15% に抑えつつ、下流タスクのパフォーマンスを維持または向上させることが報告されています。

TLDR AI·6月10日·★★★★

確率的 KV ルーティング：適応型深層別キャッシュ共有を実現

研究者らは、トランスフォーマー言語モデルの推論コスト削減のため、時間軸以外の「深さ」次元に焦点を当てた新しい手法「確率的 KV ルーティング」を提案し、キーバリューキャッシュのメモリ使用量を大幅に削減できることを示した。

Apple Machine Learning·5月5日·★★★★