#disaggregated serving のAIニュース

1件の記事

Kubernetes上での分散型LLM推論ワークロードのデプロイ

NVIDIAが、大規模言語モデル（LLM）推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。