2件の記事
OpenAI が、音声応答の遅延を大幅に削減するために構築した独自のインフラ技術について詳細を解説している。
NVIDIAが、大規模言語モデル(LLM)推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。