#レイテンシ最適化 のAIニュース
2件の記事
Responses APIにおけるWebSockets活用によるエージェントワークフローの高速化
OpenAIはCodexエージェントループにおいてWebSocketsと接続スコープのキャッシュを活用し、APIオーバーヘッドを削減してモデル応答速度を向上させた。
OpenAI News·4月22日·★★★★
Amazon Bedrockの推論ワークロード向け新CloudWatchメトリクスでTTFTと推定クォータ消費量の可視性を向上
AWSはAmazon BedrockでTTFT(初回トークン時間)と推定クォータ消費量のCloudWatchメトリクスを追加し、生成AIワークロードの推論パフォーマンスとリソース消費の可視性を向上させた。
AWS Machine Learning Blog·3月13日