#llm-as-judge のAIニュース
2件の記事
マイク不要で Amazon Nova Sonic ボイスエージェントを大規模に評価可能に
AWS は、自然な音声対話を行うビジネス用ボイスエージェントのテスト課題に対し、マイクを使用せずに大規模な評価を実施できる新手法を発表した。
AWS Machine Learning Blog·6月9日·★★★★
DoorDash、大規模LLM会話シミュレーターを構築しカスタマーサポートチャットボットをテスト
DoorDashのエンジニアが、大規模言語モデル(LLM)を活用したカスタマーサポートチャットボットの大規模テスト向けに、会話シミュレーションと評価システムを構築した。本システムは、履歴データとバックエンドモックを用いて多段階の合成会話を生成し、LLMを評価者とする枠組みで結果を評価することで、本番導入前に迅速な反復改善を可能にする。
InfoQ·3月13日·★★★★