#aiエージェント評価 のAIニュース
3件の記事
Strands Evalsで現実的なユーザーをシミュレートして多段階AIエージェントを評価
Strands社が、多段階対話型AIエージェントを評価するために現実的なユーザーをシミュレートする評価手法を開発した。従来の単一ターン評価から進化し、より複雑な対話シナリオでのエージェント性能を測定できる。
AWS Machine Learning Blog·4月3日·★★★★
AIエージェントキャッチアップ #67 - Harbor を開催
サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。
Generative Agents·2月18日
OpenEvals × Langfuseで始めるAIエージェントのマルチターン評価
AIエージェントの構築において、OpenEvalsとLangfuseを活用したマルチターン(複数回の対話)評価の重要性と始め方を紹介しています。
AI Shift Tech Blog·1月26日