メインコンテンツへスキップ
N
AI
ニュース
最新ニュース
AI日報
Hacker日報
週報
動画
AIツール
AIモデル
トレンド
企業
#disaggregated serving のAIニュース
1件の記事
Kubernetes上での分散型LLM推論ワークロードのデプロイ
NVIDIAが、大規模言語モデル(LLM)推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。
NVIDIA Developer Blog
·
3月23日
·
★★★★