#kv cache のAIニュース

5件の記事

リソース制約環境における長期会話のためのエピソード KV キャッシュ管理手法「EpiCache」の発表

Apple Machine Learning は、長文対話時のメモリ使用量増大問題を解決する新手法「EpiCache」を発表した。この技術は、デバイス限界を超えないよう KV キャッシュを効率的に管理し、長期会話の実現を目指す。

Apple Machine Learning·5月19日·★★★★

NSDI 2026におけるマイクロソフトの大規模ネットワークシステムに関する進展発表

マイクロソフトは、クラウドコンピューティングやAIを支える大規模ネットワークシステムの設計・運用に関する新研究と技術的進展を、USENIXシンポジウム「NSDI 2026」で発表した。

Microsoft Research·5月6日·★★★★

KV キャッシュの局所性：LLM サービングコストにおける見えない変数

GPU の割り当て次第でスループットやレイテンシが変動する KV キャッシュの局所性が、再計算コストに直結し、ロードバランサーの設計変更が必要となる。

TLDR AI·5月1日·★★★★

最大40%高速化を実現するキャッシュ対応プリフィル・デコード分離（CPD）

Together AIは、LLMの長文コンテキスト処理におけるCPDアーキテクチャを発表した。この手法は暖系と冷系の推論作業を分離し、スループットを40%向上させ、最初のトークン生成までの時間を大幅に短縮する。

Together AI Blog·3月4日·★★★★

大規模モデル推論コンテナ - 最新機能と性能向上

OpenAIが大規模言語モデルの推論コンテナを発表し、トークン数の増加に伴うコストと性能の課題に対応する最新機能と性能向上を実現した。

AWS Machine Learning Blog·2月27日·★★★★