1件の記事
マイクロソフトが、視覚的フィードバックに基づいて計画を修正できるAIエージェントを評価するベンチマーク「AsgardBench」を発表した。12種類のタスクで108の制御されたタスクインスタンスを対象とする。