#llm-as-judge のAIニュース

2件の記事

マイク不要で Amazon Nova Sonic ボイスエージェントを大規模に評価可能に

AWS は、自然な音声対話を行うビジネス用ボイスエージェントのテスト課題に対し、マイクを使用せずに大規模な評価を実施できる新手法を発表した。

DoorDash、大規模LLM会話シミュレーターを構築しカスタマーサポートチャットボットをテスト

DoorDashのエンジニアが、大規模言語モデル（LLM）を活用したカスタマーサポートチャットボットの大規模テスト向けに、会話シミュレーションと評価システムを構築した。本システムは、履歴データとバックエンドモックを用いて多段階の合成会話を生成し、LLMを評価者とする枠組みで結果を評価することで、本番導入前に迅速な反復改善を可能にする。

InfoQ·3月13日·★★★★