#llm serving のAIニュース
4件の記事
DynoSim:パレートフロンティアのシミュレーション
NVIDIA は、現代の大規模言語モデル(LLM)の推論サービス設定が複雑である課題に対し、モデルバックエンドや並列形状などの相互作用する選択をシミュレーションする「DynoSim」を発表した。これにより、最適なパフォーマンスとコストのバランス(パレートフロンティア)を効率的に見つけることが可能になる。
NVIDIA Developer Blog·5月30日·★★★★
LLM サービングにおける CPU と GPU の分離の必要性:SMG の事例
Shepherd Model Gateway(SMG)は、大規模な大規模言語モデル(LLM)展開向けの高パフォーマンスなモデルルーティングゲートウェイです。同ツールは、ワーカーライフサイクル管理を一元化し、HTTP/gRPC/OpenAI 互換バックエンド間でトラフィックを分散させます。また、履歴保存や MCP ツール、プライバシー重視のワークフローに対する企業レベルの制御を提供します。
TLDR AI·5月1日·★★★★
KV キャッシュの局所性:LLM サービングコストにおける見えない変数
GPU の割り当て次第でスループットやレイテンシが変動する KV キャッシュの局所性が、再計算コストに直結し、ロードバランサーの設計変更が必要となる。
TLDR AI·5月1日·★★★★
最大40%高速化を実現するキャッシュ対応プリフィル・デコード分離(CPD)
Together AIは、LLMの長文コンテキスト処理におけるCPDアーキテクチャを発表した。この手法は暖系と冷系の推論作業を分離し、スループットを40%向上させ、最初のトークン生成までの時間を大幅に短縮する。
Together AI Blog·3月4日·★★★★