Kimi API:90%のキャッシュヒット率で価格を25%に削減
月之暗面Kimiは、独自開発の推論アーキテクチャ「Mooncake」による90%という高いキャッシュ命中率を実現し、Kimi K2.5モデルの実際の入力コストを標準価格の約25%(1Mトークンあたり1.03元)まで引き下げたことを発表した。
キーポイント
キャッシュ命中率が実質コストを決定する
大模型APIの費用評価において「標準価格」だけでなく「キャッシュ命中率」を考慮する必要がある。Kimi K2.5の公式APIは85-95%のキャッシュ命中率を示し、これにより1Mトークンあたりの実質入力コストは4元から約1.03元に低下する。
高速化技術「Mooncake」の貢献
この高キャッシュ命中率は、清华大学と共同開発した大模型推論アーキテクチャ「Mooncake」によるもの。同技術はストレージ分野のトップ会議FAST 2025でベスト論文を受賞している。
技術のオープンソース化と業界への影響
MooncakeはGitHub上で公開されており、より効率的な推論プラットフォームへの業界の移行を促進する目的でオープンソース化されている。
影響分析・編集コメントを表示
影響分析
この発表は、大規模言語モデル(LLM)の利用コスト構造において「キャッシュ技術」が標準価格と同等、あるいはそれ以上の重要度を持つことを示唆しています。月之暗面が技術的優位性をオープンソース化することで、業界全体のコスト競争を激化させ、特に高頻度・長文脈のアプリケーション開発において、インフラ選定の基準を「価格」から「アーキテクチャ効率性」へとシフトさせる可能性があります。
編集コメント
単なる価格引き下げではなく、背後にある推論アーキテクチャの革新とオープンソース化は、長期的な業界標準の変革を示す重要な指標です。開発者はAPI選定時に「キャッシュ戦略」を評価基準に組み込むべきでしょう。
月の暗面 Kimi 北京
大規模言語モデル(LLM)APIのコストを評価する際、「標準価格」だけを見るのはよくある誤りです。
なぜなら、課金ロジックの核心となる変数であるキャッシュヒット率(Cache Hit Rate)を見落としているからです。0%から90%までのキャッシュヒット率の差は、入力トークンの実質価格が3〜5倍も異なることを意味します。
Kimi K2.5マルチモーダルモデルを例にとると、OpenRouterがリアルタイムで統計したKimi公式APIのキャッシュヒット率は、通常85%〜95%の間で変動しています(図2)。
ここでは、キャッシュヒット率90%として、100万トークン(1M tokens)あたりの実質価格を計算してみましょう:
▶ キャッシュヒット部分(90%): キャッシュ価格 0.7元/100万トークン = 0.63元
▶ キャッシュミス部分(10%): 標準価格 4元/100万トークン = 0.4元
したがって、100万トークン入力の実質コストは 1.03元となります(図3)。
標準価格の4元と比較すると、Kimi K2.5の実質的な入力価格は2.5割引(75%オフ)に相当します。
Kimiはどのようにして超高キャッシュヒット率を実現しているのでしょうか?
その理由は、私たちが清華大学と共同開発した大規模言語モデル推論アーキテクチャ「Mooncake」にあります。Mooncakeは、コンピュータストレージ分野のトップカンファレンスFAST 2025において「最優秀論文賞」を受賞しました(詳細:*本日、MooncakeがFAST 2025「最優秀論文賞」を受賞*)。
私たちはこのMooncakeをオープンソース化し(github.com/kvcache-ai/Mooncake)、業界全体がより効率的な推論プラットフォームへと発展することを推進しています(詳細:*Kimiが清華大学などの機関と連携し、大規模言語モデル推論アーキテクチャMooncakeをオープンソースで共同構築*)。
4元の「標準価格」から1元の「実質価格」までの間には、基盤となるコンピューティングリソーススケジューリングの技術的隔たりが横たわっています。
次に大規模言語モデルの選定とコスト計算を行う際は、表示価格だけでなく一歩踏み込み、実際の「キャッシュヒット率」がどれだけコスト削減に寄与するかを計算してみてください。
——
今すぐKimi APIオープンプラットフォームにアクセス:https://platform.moonshot.cn/ 創造を始めましょう。
image
WeChatで開く
原文を表示
月之暗面 Kimi 北京
评估大模型 API 成本时,只看「标准定价」是常见的误区。
因为忽略了计费逻辑中的核心变量:缓存命中率(Cache Hit Rate)。从 0% 到 90% 的缓存命中率差异,意味着输入价格可以相差 3-5 倍。
以 Kimi K2.5 多模态模型为例,OpenRouter 实时统计的 Kimi 官方 API 缓存命中率,通常在 85%-95% 之间波动(图2)。
我们按 90% 来计算 1M token 的实际价格:
▶ 90% 命中缓存部分: 按缓存价 0.7 元/M tokens 计费 = 0.63 元
▶ 10% 未命中部分: 按标准价 4 元/M tokens 计费 = 0.4 元
1M token 输入的实际成本是 1.03 元。(图3)
与标准定价 4 元相比,Kimi K2.5 的实际输入价格相当于打了 25 折。
Kimi 是如何做到超高缓存命中率的?
得益于我们与清华大学合作研发的大模型推理架构 Mooncake。Mooncake 获得了计算机存储领域顶会 FAST 2025「最佳论文」(详见:今天,Mooncake 获得 FAST 2025「最佳论文」)。
我们也将 Mooncake 开源(github.com/kvcache-ai/Mooncake),以推动整个行业向更高效的推理平台方向发展(详见:Kimi 联合清华大学等机构,开源共建大模型推理架构 Mooncake)。
从 4 元的「标准定价」到 1 元的「实际价格」,中间隔着的是底层算力调度的技术鸿沟。
下次在做大模型选型与成本核算时,不妨在标价之外多看一步,算算实际的「缓存命中率」能为你省下多少真金白银。
——
即刻访问 Kimi API 开放平台:https://platform.moonshot.cn/ 开始创造。
image
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み