1件の記事
Strands社が、多段階対話型AIエージェントを評価するために現実的なユーザーをシミュレートする評価手法を開発した。従来の単一ターン評価から進化し、より複雑な対話シナリオでのエージェント性能を測定できる。