A shared playbook for trustworthy third party evaluations｜信頼できる第三者評価のための共有プレイブック | AIニュース最前線

独立した信頼できる第三者による評価は、安全性エコシステムを強化する上で [重要な役割](https://openai.com/index/strengthening-safety-with-external-testing/) を果たしています。これらの評価は、最先端モデルに対して実施され、重要な機能や安全対策に関する主張に対する追加的な証拠を提供します。本稿では、これまでに得た教訓を共有し、最先端モデルを妥当に評価できる評価設計のアプローチを推奨します。これが、この分野で生まれつつある基準の策定に役立つことを願っています。 以前は多くの評価が、モデルをチャットボットのように扱っていました：評価者がユーザーとして質問を投げかけ、モデルが回答し、評価者がその出力を判断するという形式でした。今日の最先端モデルははるかに多くのことができます：ツールを使用したり、多数のステップにわたって情報を追跡したり、より大きなワークフロー内で行動したりします。これは、パフォーマンスがモデル自体だけでなく、タスクが行われる環境や、その行動を可能にするセットアップにも依存することを意味します。この周囲のセットアップ（私たちが「ハネス」と呼ぶもの）は、ツールの使用法、情報の追跡方法、ミスタイクからの回復方法など、システムの性能に関する重要な側面を変更する可能性があります。 これは、評価をどのように実施すべきか、また読者が評価報告書で何を重視すべきかを根本から変えるものです。私たちの見解では、最も有用な報告書は、結果そのもの以外に以下の2点を明確に記述しています：第一に、評価設定が何の主張を検証するために設計されたのかを特定すること、第二に、評価結果の有効性を裏付ける利用可能な証拠を共有することです。 評価で検証される主張は、通常、次の3つのカテゴリのいずれかに分類されます¹: - 能力の引き出し：モデルは、評価対象となっている能力を実際に生み出すことが可能か？ - セーフガードのパフォーマンス：評価されている行動や攻撃に対して、テストされたセーフガード（安全装置）はどの程度頑健か？ - 比較：異なるモデルは、同等の条件下でどのようにパフォーマンスを発揮するか？ 評価報告書にはまた、結果の有効性に影響を与える可能性のある効果について、評価者がどのように確認を行ったかを説明する必要があります。これらには以下が含まれます： - リワード・ハッキング：タスクや採点者のショートカットを悪用し、評価が測定すべき行動を実証せずにシステムに点数を与えること。 - 拒絶（リフューザル）：テストされている行動を隠蔽する形で拒絶すること。 - コンタミネーション：評価タスク、回答、またはその類似変種がトレーニングデータに含まれていた、あるいは評価中にブラウジングなどを通じて発見可能であったために、過剰にパフォーマンスを発揮すること。 - 破損した問題（ブローケン・プロブレム）：タスクが無効であるためパフォーマンスが低下すること。理由には不公平な採点（例：正解には明記されていない実装詳細が必要）、解決不可能な環境（例：重要なファイルの欠落、信頼性の低いツール）などが含まれる。 - サンドバッグ：評価されていることを認識した際に、意図的にパフォーマンスを低下させること。 適切なハネス（harness）を選択することは、最適な結果を得るために極めて重要である 我々は、ハネスの役割がより長い軌道で動作するシステムにおいて特に重要であることを観察してきた。モデルがツールを使用し、状態を維持し、多くのステップにわたってミスを回復できる場合、ハネスは観測されるパフォーマンスレベルを変化させ、さらには評価されている能力が評価自体に現れるかどうかさえ決定し得る。例えば、状態を保持し失敗したアクションを再試行するハネスは、単純なハネスでは同じモデルが完了できない多段階タスクを完了させることができる。 以下の表では、評価者が主張したいと考える3種類の主張と、各主張に必要だと我々が考えるハネスを分けて示す。 **評価が支援しようとしている主張を明確にする** **適切なハーン（評価枠組み）の選択** **報告すべき証拠** 強力な誘発条件下での能力：システム A は、その最も信頼性の高いパフォーマンスを引き出すように設計されたセットアップにおいて、タイプ X のタスクを完了できる。 システムに対して、有能なユーザーが合理的に使用するであろうハーン、ツール、足場（スキャフォールディング）、および予算を含む、最も強力かつ信頼性のある誘発セットアップを使用すること。 報告すべき内容には、ハーンとツールのセットアップ、誘導ガイダンス、許可された予算/努力、トークン数/コスト/時間、そしてなぜこのセットアップが主張される能力の信頼できる代理指標となるのかという理由が含まれる。異なる最適化セットアップ下でシステムを比較する場合は、「システム間比較」または「強力な誘発による比較」としてラベル付けすること。 統制された比較：システム A は、共有評価セットアップの下でシステム B よりも優れたパフォーマンスを発揮する。 タスク、スコアリング、および予算は固定状態に保つ。比較対象となるシステムに対して合理的な最大誘発を提供するために、共有ハーン/ツールセットアップを使用するか、事前に選択された標準化されたハーンの固定セットのいずれかを使用すること。 報告すべき内容には、共有タスクセット、ツール、スコアリング方法、ハーン、予算、トークン効率/コスト、および既知の制限が含まれる。コーディングエージェントの評価においては、Codex CLI などのオープンソースハーンが、システム間で固定されたエージェントループとツールインターフェースを提供できる。最大誘発のための理想的なアプローチは、各タスクとシステムのために個別に最適化された専用ハーンを構築することであるが、現状では実践的に実行することは困難である。 翻訳全文 誘発攻撃下での堅牢性の保護：システム A の防御策は、関連するモデルの振る舞いまたは誘発攻撃に対して十分である。 関連する敵対者モデルの下で最も強力な信頼できる攻撃を誘発するように設計された防御策テスト設定を使用すること。 評価者がどのように関連するモデルの振る舞いを特徴付け、どの防御策構成がテストされ、どのような誘発戦略が用いられ、それを実行するためにどのハーン（harness）が使われ、また許容された予算または努力量がどれほどであったかについて記述すること。 **能力主張は、それを支える誘発の強さと同じ程度にしか強力ではありません：評価者は、タスクと評価が測定しようとする能力に最も適合するハーンを選択する必要があります。** 標準化されたハーンは同一条件下でのシステム比較には適しているかもしれませんが、モデルがタスクを遂行するために役立つ特定のハーン機能を省略すると、能力を見逃す可能性があります。例えば、GPT‑5.5 の OpenAI のサイバーレンジにおけるパフォーマンスは、ハーンの選択が長時間かつ多段階のツール使用を必要とするタスクにおいて測定される能力にどのように実質的な影響を与えるかを示しています：ハーンが [compaction](https://openai.com/index/equip-responses-api-computer-environment/) を使用して、相互作用が長くなるにつれてタスクに関連する文脈を保持する場合、モデルのパフォーマンスは向上します。これは、特定のモデルにおいては compaction を省略したハーンではパフォーマンスが十分に誘発されないことを示しています。 高い成功率の方が望ましい 他の公開された評価²も、ハネスと予算の選択が評価結果を変化させることを示しています。**テスト時の計算リソースを増やすことで、評価が引き出す能力が大幅に変化する可能性があり**、特にサイバータスクなど成功の検証が容易なドメインではその傾向が強まります。[UK AISI のサイバーレンジ評価(新しいウィンドウで開く)](https://arxiv.org/pdf/2603.11214) では、予算を 1,000 万トークンから 1 億トークンに引き上げることでパフォーマンスが最大 59% 向上し、最も高い予算でもなお改善が続いていました。この詳細を明記することで評価の解釈可能性が高まります：これは読者に対して、結果がテストされた誘発設定（elicitation setup）にどのように依存しているかを示すものです。追加の予算を与えてもパフォーマンスがまだ向上している場合、そのスコアは測定された能力の上限としてではなく、そのハネスと予算におけるパフォーマンスとして記述されるべきです。能力は往々にしてリソースに依存するものであり、一度きりの測定で明確に定量化できる固定値ではありません。成功を反復試行を通じて測定できる領域では、報告書は固定トークン予算での成功率だけでなく、成功した解決にかかる期待コストも考慮すべきです。これにより深刻度の解釈が容易になります：反復試行のコストが関連する脅威モデルの範囲内であれば、低い成功率でも実質的に意味を持つ場合があります。能力に関する主張においては、回避可能な誘発不足は測定上の失敗です：ハネスや予算によってシステムが本来発揮できる行動を示せなくなっている場合、そのスコアは主張されている能力を測定していることにはなりません。評価者が可能な限り誘発を最大化してもなおパフォーマンスが向上し続けている場合は、報告書でそれを明確に記述し、結果が単なる下限推定値であることをはっきりと示すべきです。 **保護テストは、攻撃者が利用可能なリソース（カスタムハーンを含む）を考慮しない場合、攻撃の成功可能性やその深刻度を過小評価する可能性があります。**[UK AISI の GPT‑5.5 サイバー評価(新しいウィンドウで開く)](https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities)において、専門家のレッドチームは、OpenAI が提供した悪意のあるクエリ全体（マルチターン・エージェント設定を含む）で違反するサイバーコンテンツを引き出す普遍的なジールブレイクを発見しました。彼らは Codex を使用してカスタムハーンを作成し、モデルの攻撃パフォーマンスを強化しました：これは再利用可能な保護回避パターンを対話に埋め込み、そのパターンをターンやブロック全体で維持し、OpenAI が提供した悪意のあるサイバークエリすべてに適用するものです。保護テストは敵対者と同様の条件で行うべきです。専門的な誤用に対する堅牢性に関する主張である場合、定義された予算の下での最も強力な信頼できるエンドツーエンドの攻撃戦略（その戦略を維持・再利用するために必要なハーンを含む）を評価する必要があります。そうでない場合、結果は較正が外れるリスクがあります：より単純なプロンプトへの耐性という限定的な主張しか支持できず、誘発手法が実装された際の攻撃の深刻度や成功確率を見逃す可能性があり、また予算を与えすぎた場合には問題の発生確率や深刻度を過大評価する恐れもあります。 **標準化されたハーン（評価枠組み）による比較には適した時と場所がありますが、評価者はなぜ一貫したセットのハーンを使用することが適切なのか、そしてそれがどのような主張を裏付けることができるのかを明確に述べる必要があります。**[METR の時間軸評価(新しいウィンドウで開く)](https://metr.org/time-horizons/) は、より広範で適切に固定された評価設定の一例です。これは、評価対象となるシステム間で比較可能な結果を生み出すように設計されています。METR は共通の結果指標を定義しており、これは AI エージェントが特定の信頼性レベルで成功すると予測される、人間によるタスクの典型的な所要時間です。また、報告される各推定バッチ内で、共有されたタスクリスト、スコアリング手法、適合手法、および [Triframe や ReAct(新しいウィンドウで開く)](https://metr.org/notes/2026-02-13-measuring-time-horizon-using-claude-code-and-codex/) などの再利用可能なスキャフォールド（足場）の小さなセットを適用します。METR がタスクリストを拡張し、Vivaria という名前のフレームワークから Inspect という名前のフレームワークへと評価インフラストラクチャを移行した際、その変更を報告 ([Time Horizon 1.1 update(新しいウィンドウで開く)](https://metr.org/blog/2026-1-29-time-horizon-1-1/)) し、新しい評価設定の下でモデルを再評価しました。これが標準化された評価設定（一貫したハーンセットを含む）の価値です。これにより、読者はスコアの差が測定環境の変化ではなく、比較対象となるシステム間の本当の違いを反映していることを確信できるようになります。 私たちは、第三者評価レポートにおいて、その評価設定がどのような主張を裏付けるものなのかを明記し、テストされた内容がその広範な主張にどの程度近いかを説明し、結果に影響を与えたハーン（harness）の選択について詳述し、これらの選択が評価間どのように変化するかを詳細に記載し、さらに結果が生み出されられた方法と、それが主張に対してどの程度一般化できるかを示す補足証拠を含めることを推奨します。 評価の有効性を検証するには、結果を歪める可能性のある既知の危険要因を確認する必要があります。モデルの能力が高まるにつれて、評価スコアは誤解されやすくなります。実際の能力と比較して、モデルが評価されていると認識し戦略的にパフォーマンスを低下させた場合、評価スコアは人為的に低く見積もられる可能性があります。また、モデルがタスク、プロンプト、採点者、またはハーン内のショートカットを利用した場合、スコアは過大評価されることになります。さらに、コンタミネーション（モデルがすでに答えを知っているか、タスクを解かずに答えを見つけられる状態）や、「破損した」問題（曖昧である、誤って採点されている、解決不可能である、または意図しないショートカットに脆弱である問題）によってもスコアは歪められます。したがって、評価レポートでは、主要なスコアとこれらの危険要因に関する議論を対にして提示し、読者がスコアが意図した行動を反映しているかどうかを判断できるようにする必要があります。 ハーネス、予算、ツール、採点ルール、モニター、レビュー手順はすべて、エージェントが意図されたタスクを解決しているのか、回避しているのか、暗記しているのか、それとも迂回する道を見つけているのかに影響します。信頼できる報告書ではこれらのチェックが可視化され、評価が実行されるたびに評価者はこれらの行動に関するサンプルを検証する必要があります。 **報酬ハッキング** 報酬ハッキングとは、意図された能力を反映しない方法で高い評価スコアを獲得することを指します。ここでは、システムが評価の目的である作業を行うのではなく、タスク、採点者、プロンプト、またはハーネスを利用することで信用を得るという懸念があります。[METR による GPT 5.4 の評価（新しいウィンドウで開く）](https://t.co/FRWeH7QMnl) はなぜこれが重要なのかを示しています：モデルは最初のパスで約 13 時間の時間範囲として記録されるはずのタスクを高い成功率で遂行していましたが、人間のレビューでは、その成功の一部が報酬ハッキングによるものだったことが判明しました。報酬ハッキングのない事例のみを対象に結果を修正すると、推定値は約 6 時間に低下します。評価者はこのような調整の必要性を評価し、必要な場合は明確に報告すべきです。読者がどの一見した成果が無効化され、なぜ無効化されたのか、そしてその判断が結果にどれほど依存しているかを把握できる場合、能力推定値ははるかに有用になります。 ![image](https://images.ctfassets.net/kftzwdyauwt9/7nO5WpPa0GDm8Dls6FS8o4/a4cb02d049e078be75df88f1289fc34f/extracted_graph_gpt5-4.png?w=3840&q=90&fm=webp) **拒絶** モデルは、安全対策のために能力評価において期待された性能を発揮できない場合があります。モデルは、評価タスクを完了する代わりに拒絶することで、本来の能力よりも低い評価結果を示すことがあります。したがって、報告書では拒絶が評価結果に含まれているかどうか、また含まれる場合はそのためにどの程度のサンプル数が影響を受けたかを説明する必要があります。 **汚染** 汚染は、[公開または再利用されたベンチマーク](https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/)において最も重要です。タスク、回答、あるいはその近傍のバリエーションがトレーニングデータに含まれている場合や、ブラウジング機能を持つエージェントによって発見可能な場合、性能はモデルの能力ではなく、記憶または検索の結果を反映している可能性があります。評価者は、可能であればプライベートまたは新たに構築されたタスクを優先し、解決する前にモデルがタスク固有の詳細を再現できるかどうかを検証すべきです。 **破損した問題** 破損した問題には、偶然にも解決不可能な問題が含まれます。破損した問題は [十分に一般的](https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/) であるため、標準的な妥当性リスクとして扱う必要があります。これには、誤った正解（グランドトゥルース）、曖昧なプロンプト、欠落しているファイル、不安定なサービス、不公平な採点基準、隠された回答ファイルや正解パッチを含むリポジトリ履歴など、近道を利用できる環境が含まれます。 **サンドバッグ** モデルが意図的に性能を低く見せる行為です。 モデルやシステムによるサンドバッグとは、強力なパフォーマンスを発揮することが何らかの目的と矛盾する場合に、戦略的にパフォーマンスを低下させることを意味します。Apollo の [GPT‑5.5 評価(新しいウィンドウで開く)](https://deploymentsafety.openai.com/gpt-5-5/external-evaluations-for-sandbagging---apollo-research) は、モデルが高評価スコアが学習の解除やデプロイのブロックを引き起こす可能性があることを理解する文脈を作成することでこれをテストしました。GPT‑5.5 は依然として正しく回答しており、戦略的なパフォーマンス低下を示す行動上の証拠はほとんどないことが示唆されました³。しかし、推論トレースのレビューにより重要な背景が追加されました：Apollo は、サンドバッグ条件のサンプルの 52% で中程度以上のアライメント評価への意識（alignment-evaluation awareness）の兆候を検出しましたが、反事実的ケースでは 0% でした。この証拠は結果の解釈を複雑にしますが、最終的には読者により多くのシグナルを提供します：読者は安心させる行動上の結果と、それを過大解釈しないよう注意すべき理由の両方を見ることができます。 ## より強力な評価を支援する方法 強い主張には、その振る舞いを引き出すための適切なハネス（harness）と、結果が妥当であることを示す有効性チェックの両方が必要です。ハネスと有効性チェックは評価結果の一部であるという私たちの見解は、実践における第三者評価への支援方法を形作っています： - 評価者に対して、具体的な最大限の能力を引き出すためのガイダンスを共有しています。 - 能力評価者には、OpenAI モデルに対する Codex を共通の基準として使用することを求めています：テストは、単に簡素化されたモデルインターフェースを通じて行うのではなく、ユーザーが実際に依存する可能性のあるエージェント型インターフェースを通じて少なくともベースラインを実行する必要があります。 - また、欺瞞、能力隠し（サンドバッグ）、評価への意識を評価するために必要な場合に限り、推論のトレースやその他の中間成果物を公開しています。METR と Apollo は、GPT‑5 以降、OpenAI の評価においてこのアクセス権を利用してきました。 - 最後に、コンテキスト管理やツールアクセスからリトライ動作、スコアリング、リソース予算に至るまで、ハッチング（harness）の選択が結果にどのように実質的な影響を与えるかをより深く理解するための研究を優先しています。 ## 評価基準と将来の研究方向における意味 これらの推奨事項は、個々の評価レポートの改善だけでなく、最先端 AI の評価と報告に関する新たな [国内（新しいウィンドウで開く）](https://www.nist.gov/news-events/news/2026/01/towards-best-practices-automated-benchmark-evaluations) および [国際標準（新しいウィンドウで開く）](https://www.iso.org/standard/91609.html) を策定する際にも役立てることを意図しています。今後、第三者評価の基準では、意思決定者が特定の評価が何を支持しているのか、どのシステムがテストされたのか、結果がどのように引き出されたのか、そして評価者がその妥当性をどのように確認したのかを理解できる十分な詳細を要求すべきです。エージェント機能（agentic capabilities）が重要なタスクでテストされる最先端システムについては、セキュリティや機密性の懸念がある場合を除き、以下の詳細を含める必要があります: - 主張：評価がシステム間の比較を行うものか、能力の上限を推定するものか、それとも安全対策を検証するものかを明確にすること。 - 評価内容：読者が、その評価が実際にどのようなスキル、行動、あるいは失敗モードを検証しているのかを理解できる程度に、タスクやタスク分布に関する十分な詳細を含めること。 - 検証対象システム：モデル、推論設定、ツールアクセス権限、ハーン（harness）、および安全対策を明記すること。 - バジェット：ターン数、トークン数、試行/再試行回数、実時間、推論コスト、そして適用可能な場合は成功した解決ごとの予想コストを含めること。 - 誘発手法：結果を引き出すために使用されたハーン（harness）の選択と、実施されたテストが主張されるより広範な主張をどの程度反映しているかを説明すること。 - 妥当性検証：評価者がいかにして報酬ハッキング、評価への意識、汚染、拒絶、砂場化（sandbagging）、および結果を損なう可能性のある他の行動を検索したか、また確認された事例がスコアリングや解釈にどのように影響したかを明記すること。 ハーン（harness）の選択や妥当性検証を欠く基準は、システムの能力を過小評価するか、安全に関する主張に対する信頼性を過大評価する恐れがあります。強固なハーン（harness）と誘発手法の構築は依然として未解決の研究領域であり、さらなる調査と投資の対象となるべきです。

信頼できる第三者評価のための共有プレイブック

背景や根拠まで確認しますか？

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

ニュースの次に確認する

調べる

選ぶ

サイト