AIエージェントの評価を解明する
AIエージェントの有用性を評価する難しさと、複雑なシステムに対応するための評価戦略について説明しています。
キーポイント
AIエージェントの評価は単一ターンのLLM評価より複雑で、自律性・知能・柔軟性が評価を困難にする
効果的な評価は開発段階で問題を可視化し、本番環境での連鎖的失敗を防ぐ
Anthropicはタスク・トライアル・採点者・トランスクリプト・結果という評価フレームワークを提案
静的評価の限界を超える創造的解決策を評価する難しさ(Opus 4.5の事例)
実世界での多様なエージェントアーキテクチャとユースケースで有効な評価手法
影響分析・編集コメントを表示
影響分析
この記事はAIエージェント開発の実用化において最も重要な課題である評価手法を体系化し、業界全体の開発プロセス改善に寄与する。Anthropicの実践知を公開することで、エージェント評価の標準化と信頼性向上を促進する可能性がある。
編集コメント
AIエージェントの実用化が進む中、評価手法の確立は開発サイクルを加速する重要な基盤技術。業界リーダーからの実践的知見は開発者コミュニティに大きな価値を提供。
AIエージェントの評価を解明する:信頼性ある開発のための手法
AIエージェントの有用性を支える自律性、知性、柔軟性といった能力は、同時にその評価を困難にする要因でもある。効果的な評価(eval)は、チームがAIエージェントをより確信を持ってリリースすることを助ける。評価が不十分だと、問題が本番環境でしか発覚せず、一つの不具合を修正すると別の問題を生むという悪循環に陥りやすい。適切な評価は、ユーザーに影響が出る前に問題や挙動の変化を可視化し、エージェントのライフサイクルを通じてその価値は累積していく。
従来の大規模言語モデル(LLM)では、単一のやり取り(シングルターン)による評価が主流だった。しかし、エージェントは複数のターンにわたってツールを呼び出し、環境の状態を変更し、中間結果に基づいて適応するため、評価はより複雑になる。エージェント評価では、ミスが伝播・増幅する可能性があり、また最先端モデルは静的評価の限界を超える創造的な解決策を見出すこともある。
効果的なエージェント評価を構築するためには、以下の構成要素を明確に定義する。
- タスク:定義された入力と成功基準を持つ単一のテスト(問題やテストケースとも呼ばれる)。
- トライアル:タスクへの1回の試行。モデルの出力は実行ごとに変動するため、一貫性のある結果を得るには複数回の試行が必要となる。
- グレーダー:エージェントのパフォーマンスの特定の側面を採点するロジック。一つのタスクに複数のグレーダーを設定でき、各グレーダーは複数のアサーション(チェック)を含む。
- トランスクリプト:トライアルの完全な記録。出力、ツール呼び出し、推論、中間結果、その他すべてのやり取りを含む(トレースや軌跡とも呼ばれる)。
- アウトカム:トライアル終了時の環境の最終状態。
実世界での多様なエージェントアーキテクチャとユースケースにおいて有効なアプローチは、これらの要素を組み合わせ、評価対象となるシステムの複雑さに対応する技術を適用することである。自動化された評価を開発中に実行することで、実際のユーザーを介さずに問題を早期に発見し、エージェントの信頼性と有用性を高めることができる。
原文を表示
Engineering at AnthropicDemystifying evals for AI agents
The capabilities that make agents useful also make them difficult to evaluate. The strategies that work across deployments combine techniques to match the complexity of the systems they measure.
Good evaluations help teams ship AI agents more confidently. Without them, it’s easy to get stuck in reactive loops—catching issues only in production, where fixing one failure creates others. Evals make problems and behavioral changes visible before they affect users, and their value compounds over the lifecycle of an agent.
As we described in Building effective agents, agents operate over many turns: calling tools, modifying state, and adapting based on intermediate results. These same capabilities that make AI agents useful—autonomy, intelligence, and flexibility—also make them harder to evaluate.
Through our internal work and with customers at the frontier of agent development, we’ve learned how to design more rigorous and useful evals for agents. Here's what's worked across a range of agent architectures and use cases in real-world deployment.
An evaluation (“eval”) is a test for an AI system: give an AI an input, then apply grading logic to its output to measure success. In this post, we focus on automated evals that can be run during development without real users.
Single-turn evaluations are straightforward: a prompt, a response, and grading logic. For earlier LLMs, single-turn, non-agentic evals were the main evaluation method. As AI capabilities have advanced, multi-turn evaluations have become increasingly common.
Agent evaluations are even more complex. Agents use tools across many turns, modifying state in the environment and adapting as they go—which means mistakes can propagate and compound. Frontier models can also find creative solutions that surpass the limits of static evals. For instance, Opus 4.5 solved a 𝜏2-bench problem about booking a flight by discovering a loophole in the policy. It “failed” the evaluation as written, but actually came up with a better solution for the user.
When building agent evaluations, we use the following definitions:
A task (a.k.a problem or test case) is a single test with defined inputs and success criteria.
Each attempt at a task is a trial. Because model outputs vary between runs, we run multiple trials to produce more consistent results.
A grader is logic that scores some aspect of the agent’s performance. A task can have multiple graders, each containing multiple assertions (sometimes called checks).
A transcript (also called a trace or trajectory) is the complete record of a trial, including outputs, tool calls, reasoning, intermediate results, and any other interactions. For the Anthropic API, this is the full messages array at the end of an eval run - containing all the calls to the API and all of the returned responses during the evaluation.
The outcome is the final state in the environment at the end of the trial. A flight-booking agent might say “Your flight has been booked” at the end of the transcript, but the outcome is whether a reservation exists in the environment’s SQL database.
An evaluation harness is the infrastructure that runs evals end-to-end. It provides instructions and tools, runs tasks concurrently, records all the steps, grades outputs, and aggregates results.
An agent harness (or scaffold) is the system that enables a model to act as an agent: it processes inputs, orchestrates tool calls, and returns results. When we evaluate “an agent,” we’re evaluating the harness and the model working together. For example, Claude Code is a flexible agent harness, and we used its core primitives through the Agent SDK to build our long-running agent harness.
An evaluation suite is a collection of tasks designed to measure specific capabilities or behaviors. Tasks in a suite typically share a broad goal. For instance, a customer support eval suite might test refunds, cancellations, and escalations.
When teams first start building agents, they can get surprisingly far through a combination of manual testing, dogfooding, and intuition. More rigorous evaluation may even seem like overhead that slows down shipping. But after the early prototyping stages, once an agent is in production and has started scaling, building without evals starts to break down.
The breaking point often comes when users report the agent feels worse after changes, and the team is “flying blind” with no way to verify except to guess and check. Absent evals, debugging is reactive: wait for complaints, reproduce manually, fix the bug, and hope nothing else regressed. Teams can't distinguish real regressions from noise, automatically test changes against hundreds of scenarios before shipping, or measure improvements.
We’ve seen this progression play out many times. For instance, Claude Code started with fast iteration based on feedback from Anthropic employees and external users. Later, we added
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み