信頼できる第三者評価のための共有プレイブック
OpenAI は、高度化するフロンティアモデルの安全性評価において、従来のチャットボット型テストから「ハネス(環境設定)」を重視した新しい共通プレイブックを提案し、信頼性の高い第三者評価の基準を提唱している。
キーポイント
評価パラダイムの転換:ハネスの重要性
現代のフロンティアモデルはツール使用や多段階処理を行うため、単なるプロンプト応答ではなく、タスク実行環境(ハネス)が性能に与える影響を評価に組み込む必要がある。
信頼性の高い報告書の必須要件
有用な評価レポートは、結果だけでなく「何を検証しようとしたか」という主張と、「その結果の妥当性を支える証拠」の両方を明示的に記述すべきである。
3 つの評価カテゴリの定義
評価は「能力の誘発(Capability elicitation)」「安全対策のパフォーマンス(Safeguard performance)」「モデル間比較(Comparison)」の 3 つの主要な目的に分類される。
評価結果の有効性を脅かす要因
リワードハッキング、不適切な拒絶、データ汚染(コンタミネーション)、破損した問題設定といった要因が評価の妥当性を損なう可能性があり、これらへの対策検証が不可欠である。
影響分析・編集コメントを表示
影響分析
この提言は、AI セーフティ分野における第三者評価の標準化に向けた重要な指針となり、企業が開発したモデルの安全性主張を検証する際の質的向上を促す。特に複雑化する AI アクション能力に対する評価手法の再定義は、規制当局や研究コミュニティが信頼できるベンチマークを構築する上で決定的な役割を果たすだろう。
編集コメント
AI の能力が複雑化する中、単なる性能比較ではなく、いかに厳密に安全性を検証するかが業界の成熟度を測る指標となっています。OpenAI が自らの知見を共有し、共通の基準を提唱することは、信頼できる AI 社会の実現に向けた重要な一歩です。
独立した信頼できる第三者による評価は、安全性エコシステムを強化する上で 重要な役割 を果たしています。これらの評価は、最先端モデルに対して実施され、重要な機能や安全対策に関する主張に対する追加的な証拠を提供します。本稿では、これまでに得た教訓を共有し、最先端モデルを妥当に評価できる評価設計のアプローチを推奨します。これが、この分野で生まれつつある基準の策定に役立つことを願っています。
以前は多くの評価が、モデルをチャットボットのように扱っていました:評価者がユーザーとして質問を投げかけ、モデルが回答し、評価者がその出力を判断するという形式でした。今日の最先端モデルははるかに多くのことができます:ツールを使用したり、多数のステップにわたって情報を追跡したり、より大きなワークフロー内で行動したりします。これは、パフォーマンスがモデル自体だけでなく、タスクが行われる環境や、その行動を可能にするセットアップにも依存することを意味します。この周囲のセットアップ(私たちが「ハネス」と呼ぶもの)は、ツールの使用法、情報の追跡方法、ミスタイクからの回復方法など、システムの性能に関する重要な側面を変更する可能性があります。
これは、評価をどのように実施すべきか、また読者が評価報告書で何を重視すべきかを根本から変えるものです。私たちの見解では、最も有用な報告書は、結果そのもの以外に以下の2点を明確に記述しています:第一に、評価設定が何の主張を検証するために設計されたのかを特定すること、第二に、評価結果の有効性を裏付ける利用可能な証拠を共有することです。
評価で検証される主張は、通常、次の3つのカテゴリのいずれかに分類されます¹:
- 能力の引き出し:モデルは、評価対象となっている能力を実際に生み出すことが可能か?
- セーフガードのパフォーマンス:評価されている行動や攻撃に対して、テストされたセーフガード(安全装置)はどの程度頑健か?
- 比較:異なるモデルは、同等の条件下でどのようにパフォーマンスを発揮するか?
評価報告書にはまた、結果の有効性に影響を与える可能性のある効果について、評価者がどのように確認を行ったかを説明する必要があります。これらには以下が含まれます:
- リワード・ハッキング:タスクや採点者のショートカットを悪用し、評価が測定すべき行動を実証せずにシステムに点数を与えること。
- 拒絶(リフューザル):テストされている行動を隠蔽する形で拒絶すること。
- コンタミネーション:評価タスク、回答、またはその類似変種がトレーニングデータに含まれていた、あるいは評価中にブラウジングなどを通じて発見可能であったために、過剰にパフォーマンスを発揮すること。
- 破損した問題(ブローケン・プロブレム):タスクが無効であるためパフォーマンスが低下すること。理由には不公平な採点(例:正解には明記されていない実装詳細が必要)、解決不可能な環境(例:重要なファイルの欠落、信頼性の低いツール)などが含まれる。
- サンドバッグ:評価されていることを認識した際に、意図的にパフォーマンスを低下させること。
適切なハネス(harness)を選択することは、最適な結果を得るために極めて重要である
我々は、ハネスの役割がより長い軌道で動作するシステムにおいて特に重要であることを観察してきた。モデルがツールを使用し、状態を維持し、多くのステップにわたってミスを回復できる場合、ハネスは観測されるパフォーマンスレベルを変化させ、さらには評価されている能力が評価自体に現れるかどうかさえ決定し得る。例えば、状態を保持し失敗したアクションを再試行するハネスは、単純なハネスでは同じモデルが完了できない多段階タスクを完了させることができる。
以下の表では、評価者が主張したいと考える3種類の主張と、各主張に必要だと我々が考えるハネスを分けて示す。
評価が支援しようとしている主張を明確にする
適切なハーン(評価枠組み)の選択
報告すべき証拠
強力な誘発条件下での能力:システム A は、その最も信頼性の高いパフォーマンスを引き出すように設計されたセットアップにおいて、タイプ X のタスクを完了できる。
システムに対して、有能なユーザーが合理的に使用するであろうハーン、ツール、足場(スキャフォールディング)、および予算を含む、最も強力かつ信頼性のある誘発セットアップを使用すること。
報告すべき内容には、ハーンとツールのセットアップ、誘導ガイダンス、許可された予算/努力、トークン数/コスト/時間、そしてなぜこのセットアップが主張される能力の信頼できる代理指標となるのかという理由が含まれる。異なる最適化セットアップ下でシステムを比較する場合は、「システム間比較」または「強力な誘発による比較」としてラベル付けすること。
統制された比較:システム A は、共有評価セットアップの下でシステム B よりも優れたパフォーマンスを発揮する。
タスク、スコアリング、および予算は固定状態に保つ。比較対象となるシステムに対して合理的な最大誘発を提供するために、共有ハーン/ツールセットアップを使用するか、事前に選択された標準化されたハーンの固定セットのいずれかを使用すること。
報告すべき内容には、共有タスクセット、ツール、スコアリング方法、ハーン、予算、トークン効率/コスト、および既知の制限が含まれる。コーディングエージェントの評価においては、Codex CLI などのオープンソースハーンが、システム間で固定されたエージェントループとツールインターフェースを提供できる。最大誘発のための理想的なアプローチは、各タスクとシステムのために個別に最適化された専用ハーンを構築することであるが、現状では実践的に実行することは困難である。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
誘発攻撃下での堅牢性の保護:システム A の防御策は、関連するモデルの振る舞いまたは誘発攻撃に対して十分である。
関連する敵対者モデルの下で最も強力な信頼できる攻撃を誘発するように設計された防御策テスト設定を使用すること。
評価者がどのように関連するモデルの振る舞いを特徴付け、どの防御策構成がテストされ、どのような誘発戦略が用いられ、それを実行するためにどのハーン(harness)が使われ、また許容された予算または努力量がどれほどであったかについて記述すること。
能力主張は、それを支える誘発の強さと同じ程度にしか強力ではありません:評価者は、タスクと評価が測定しようとする能力に最も適合するハーンを選択する必要があります。 標準化されたハーンは同一条件下でのシステム比較には適しているかもしれませんが、モデルがタスクを遂行するために役立つ特定のハーン機能を省略すると、能力を見逃す可能性があります。例えば、GPT‑5.5 の OpenAI のサイバーレンジにおけるパフォーマンスは、ハーンの選択が長時間かつ多段階のツール使用を必要とするタスクにおいて測定される能力にどのように実質的な影響を与えるかを示しています:ハーンが compaction を使用して、相互作用が長くなるにつれてタスクに関連する文脈を保持する場合、モデルのパフォーマンスは向上します。これは、特定のモデルにおいては compaction を省略したハーンではパフォーマンスが十分に誘発されないことを示しています。
高い成功率の方が望ましい
他の公開された評価²も、ハネスと予算の選択が評価結果を変化させることを示しています。テスト時の計算リソースを増やすことで、評価が引き出す能力が大幅に変化する可能性があり、特にサイバータスクなど成功の検証が容易なドメインではその傾向が強まります。UK AISI のサイバーレンジ評価(新しいウィンドウで開く) では、予算を 1,000 万トークンから 1 億トークンに引き上げることでパフォーマンスが最大 59% 向上し、最も高い予算でもなお改善が続いていました。この詳細を明記することで評価の解釈可能性が高まります:これは読者に対して、結果がテストされた誘発設定(elicitation setup)にどのように依存しているかを示すものです。追加の予算を与えてもパフォーマンスがまだ向上している場合、そのスコアは測定された能力の上限としてではなく、そのハネスと予算におけるパフォーマンスとして記述されるべきです。能力は往々にしてリソースに依存するものであり、一度きりの測定で明確に定量化できる固定値ではありません。成功を反復試行を通じて測定できる領域では、報告書は固定トークン予算での成功率だけでなく、成功した解決にかかる期待コストも考慮すべきです。これにより深刻度の解釈が容易になります:反復試行のコストが関連する脅威モデルの範囲内であれば、低い成功率でも実質的に意味を持つ場合があります。能力に関する主張においては、回避可能な誘発不足は測定上の失敗です:ハネスや予算によってシステムが本来発揮できる行動を示せなくなっている場合、そのスコアは主張されている能力を測定していることにはなりません。評価者が可能な限り誘発を最大化してもなおパフォーマンスが向上し続けている場合は、報告書でそれを明確に記述し、結果が単なる下限推定値であることをはっきりと示すべきです。
保護テストは、攻撃者が利用可能なリソース(カスタムハーンを含む)を考慮しない場合、攻撃の成功可能性やその深刻度を過小評価する可能性があります。UK AISI の GPT‑5.5 サイバー評価(新しいウィンドウで開く)において、専門家のレッドチームは、OpenAI が提供した悪意のあるクエリ全体(マルチターン・エージェント設定を含む)で違反するサイバーコンテンツを引き出す普遍的なジールブレイクを発見しました。彼らは Codex を使用してカスタムハーンを作成し、モデルの攻撃パフォーマンスを強化しました:これは再利用可能な保護回避パターンを対話に埋め込み、そのパターンをターンやブロック全体で維持し、OpenAI が提供した悪意のあるサイバークエリすべてに適用するものです。保護テストは敵対者と同様の条件で行うべきです。専門的な誤用に対する堅牢性に関する主張である場合、定義された予算の下での最も強力な信頼できるエンドツーエンドの攻撃戦略(その戦略を維持・再利用するために必要なハーンを含む)を評価する必要があります。そうでない場合、結果は較正が外れるリスクがあります:より単純なプロンプトへの耐性という限定的な主張しか支持できず、誘発手法が実装された際の攻撃の深刻度や成功確率を見逃す可能性があり、また予算を与えすぎた場合には問題の発生確率や深刻度を過大評価する恐れもあります。
標準化されたハーン(評価枠組み)による比較には適した時と場所がありますが、評価者はなぜ一貫したセットのハーンを使用することが適切なのか、そしてそれがどのような主張を裏付けることができるのかを明確に述べる必要があります。METR の時間軸評価(新しいウィンドウで開く) は、より広範で適切に固定された評価設定の一例です。これは、評価対象となるシステム間で比較可能な結果を生み出すように設計されています。METR は共通の結果指標を定義しており、これは AI エージェントが特定の信頼性レベルで成功すると予測される、人間によるタスクの典型的な所要時間です。また、報告される各推定バッチ内で、共有されたタスクリスト、スコアリング手法、適合手法、および Triframe や ReAct(新しいウィンドウで開く) などの再利用可能なスキャフォールド(足場)の小さなセットを適用します。METR がタスクリストを拡張し、Vivaria という名前のフレームワークから Inspect という名前のフレームワークへと評価インフラストラクチャを移行した際、その変更を報告 (Time Horizon 1.1 update(新しいウィンドウで開く)) し、新しい評価設定の下でモデルを再評価しました。これが標準化された評価設定(一貫したハーンセットを含む)の価値です。これにより、読者はスコアの差が測定環境の変化ではなく、比較対象となるシステム間の本当の違いを反映していることを確信できるようになります。
私たちは、第三者評価レポートにおいて、その評価設定がどのような主張を裏付けるものなのかを明記し、テストされた内容がその広範な主張にどの程度近いかを説明し、結果に影響を与えたハーン(harness)の選択について詳述し、これらの選択が評価間どのように変化するかを詳細に記載し、さらに結果が生み出されられた方法と、それが主張に対してどの程度一般化できるかを示す補足証拠を含めることを推奨します。
評価の有効性を検証するには、結果を歪める可能性のある既知の危険要因を確認する必要があります。モデルの能力が高まるにつれて、評価スコアは誤解されやすくなります。実際の能力と比較して、モデルが評価されていると認識し戦略的にパフォーマンスを低下させた場合、評価スコアは人為的に低く見積もられる可能性があります。また、モデルがタスク、プロンプト、採点者、またはハーン内のショートカットを利用した場合、スコアは過大評価されることになります。さらに、コンタミネーション(モデルがすでに答えを知っているか、タスクを解かずに答えを見つけられる状態)や、「破損した」問題(曖昧である、誤って採点されている、解決不可能である、または意図しないショートカットに脆弱である問題)によってもスコアは歪められます。したがって、評価レポートでは、主要なスコアとこれらの危険要因に関する議論を対にして提示し、読者がスコアが意図した行動を反映しているかどうかを判断できるようにする必要があります。
ハーネス、予算、ツール、採点ルール、モニター、レビュー手順はすべて、エージェントが意図されたタスクを解決しているのか、回避しているのか、暗記しているのか、それとも迂回する道を見つけているのかに影響します。信頼できる報告書ではこれらのチェックが可視化され、評価が実行されるたびに評価者はこれらの行動に関するサンプルを検証する必要があります。
報酬ハッキング
報酬ハッキングとは、意図された能力を反映しない方法で高い評価スコアを獲得することを指します。ここでは、システムが評価の目的である作業を行うのではなく、タスク、採点者、プロンプト、またはハーネスを利用することで信用を得るという懸念があります。METR による GPT 5.4 の評価(新しいウィンドウで開く) はなぜこれが重要なのかを示しています:モデルは最初のパスで約 13 時間の時間範囲として記録されるはずのタスクを高い成功率で遂行していましたが、人間のレビューでは、その成功の一部が報酬ハッキングによるものだったことが判明しました。報酬ハッキングのない事例のみを対象に結果を修正すると、推定値は約 6 時間に低下します。評価者はこのような調整の必要性を評価し、必要な場合は明確に報告すべきです。読者がどの一見した成果が無効化され、なぜ無効化されたのか、そしてその判断が結果にどれほど依存しているかを把握できる場合、能力推定値ははるかに有用になります。

拒絶
モデルは、安全対策のために能力評価において期待された性能を発揮できない場合があります。モデルは、評価タスクを完了する代わりに拒絶することで、本来の能力よりも低い評価結果を示すことがあります。したがって、報告書では拒絶が評価結果に含まれているかどうか、また含まれる場合はそのためにどの程度のサンプル数が影響を受けたかを説明する必要があります。
汚染
汚染は、公開または再利用されたベンチマークにおいて最も重要です。タスク、回答、あるいはその近傍のバリエーションがトレーニングデータに含まれている場合や、ブラウジング機能を持つエージェントによって発見可能な場合、性能はモデルの能力ではなく、記憶または検索の結果を反映している可能性があります。評価者は、可能であればプライベートまたは新たに構築されたタスクを優先し、解決する前にモデルがタスク固有の詳細を再現できるかどうかを検証すべきです。
破損した問題
破損した問題には、偶然にも解決不可能な問題が含まれます。破損した問題は 十分に一般的 であるため、標準的な妥当性リスクとして扱う必要があります。これには、誤った正解(グランドトゥルース)、曖昧なプロンプト、欠落しているファイル、不安定なサービス、不公平な採点基準、隠された回答ファイルや正解パッチを含むリポジトリ履歴など、近道を利用できる環境が含まれます。
サンドバッグ
モデルが意図的に性能を低く見せる行為です。
モデルやシステムによるサンドバッグとは、強力なパフォーマンスを発揮することが何らかの目的と矛盾する場合に、戦略的にパフォーマンスを低下させることを意味します。Apollo の GPT‑5.5 評価(新しいウィンドウで開く) は、モデルが高評価スコアが学習の解除やデプロイのブロックを引き起こす可能性があることを理解する文脈を作成することでこれをテストしました。GPT‑5.5 は依然として正しく回答しており、戦略的なパフォーマンス低下を示す行動上の証拠はほとんどないことが示唆されました³。しかし、推論トレースのレビューにより重要な背景が追加されました:Apollo は、サンドバッグ条件のサンプルの 52% で中程度以上のアライメント評価への意識(alignment-evaluation awareness)の兆候を検出しましたが、反事実的ケースでは 0% でした。この証拠は結果の解釈を複雑にしますが、最終的には読者により多くのシグナルを提供します:読者は安心させる行動上の結果と、それを過大解釈しないよう注意すべき理由の両方を見ることができます。
より強力な評価を支援する方法
強い主張には、その振る舞いを引き出すための適切なハネス(harness)と、結果が妥当であることを示す有効性チェックの両方が必要です。ハネスと有効性チェックは評価結果の一部であるという私たちの見解は、実践における第三者評価への支援方法を形作っています:
- 評価者に対して、具体的な最大限の能力を引き出すためのガイダンスを共有しています。
- 能力評価者には、OpenAI モデルに対する Codex を共通の基準として使用することを求めています:テストは、単に簡素化されたモデルインターフェースを通じて行うのではなく、ユーザーが実際に依存する可能性のあるエージェント型インターフェースを通じて少なくともベースラインを実行する必要があります。
- また、欺瞞、能力隠し(サンドバッグ)、評価への意識を評価するために必要な場合に限り、推論のトレースやその他の中間成果物を公開しています。METR と Apollo は、GPT‑5 以降、OpenAI の評価においてこのアクセス権を利用してきました。
- 最後に、コンテキスト管理やツールアクセスからリトライ動作、スコアリング、リソース予算に至るまで、ハッチング(harness)の選択が結果にどのように実質的な影響を与えるかをより深く理解するための研究を優先しています。
評価基準と将来の研究方向における意味
これらの推奨事項は、個々の評価レポートの改善だけでなく、最先端 AI の評価と報告に関する新たな 国内(新しいウィンドウで開く) および 国際標準(新しいウィンドウで開く) を策定する際にも役立てることを意図しています。今後、第三者評価の基準では、意思決定者が特定の評価が何を支持しているのか、どのシステムがテストされたのか、結果がどのように引き出されたのか、そして評価者がその妥当性をどのように確認したのかを理解できる十分な詳細を要求すべきです。エージェント機能(agentic capabilities)が重要なタスクでテストされる最先端システムについては、セキュリティや機密性の懸念がある場合を除き、以下の詳細を含める必要があります:
- 主張:評価がシステム間の比較を行うものか、能力の上限を推定するものか、それとも安全対策を検証するものかを明確にすること。
- 評価内容:読者が、その評価が実際にどのようなスキル、行動、あるいは失敗モードを検証しているのかを理解できる程度に、タスクやタスク分布に関する十分な詳細を含めること。
- 検証対象システム:モデル、推論設定、ツールアクセス権限、ハーン(harness)、および安全対策を明記すること。
- バジェット:ターン数、トークン数、試行/再試行回数、実時間、推論コスト、そして適用可能な場合は成功した解決ごとの予想コストを含めること。
- 誘発手法:結果を引き出すために使用されたハーン(harness)の選択と、実施されたテストが主張されるより広範な主張をどの程度反映しているかを説明すること。
- 妥当性検証:評価者がいかにして報酬ハッキング、評価への意識、汚染、拒絶、砂場化(sandbagging)、および結果を損なう可能性のある他の行動を検索したか、また確認された事例がスコアリングや解釈にどのように影響したかを明記すること。
ハーン(harness)の選択や妥当性検証を欠く基準は、システムの能力を過小評価するか、安全に関する主張に対する信頼性を過大評価する恐れがあります。強固なハーン(harness)と誘発手法の構築は依然として未解決の研究領域であり、さらなる調査と投資の対象となるべきです。
原文を表示
Independent, trusted third party evaluations play a critical role in strengthening the safety ecosystem. These evaluations are conducted on frontier models to provide additional evidence for claims about critical capabilities and safety mitigations. In this post, we share lessons we’ve learned so far, and recommend approaches for designing evaluations that can validly assess frontier models that we hope help inform emerging standards in the space.
Earlier, many evaluations treated models like chatbots: the evaluation prompted a model as though it were a user asking a question, the model answered, and an evaluator judged the output. Today’s frontier models can do much more: they can use tools, keep track of information across many steps, and act within a larger workflow. This means that performance depends not only on the model, but also on the environment in which the task takes place, and on the setup that facilitates its actions. This surrounding setup, which we call the “harness,” can change key aspects of the system’s performance, including how it uses tools, keeps track of information, or recovers from mistakes.
This changes how evaluations need to be conducted, and what readers should look for in evaluation reports. In our view, the most useful reports explicitly describe two things beyond the result itself: First, they specify what claim the evaluation setup was designed to test, and second, they share the available evidence that the evaluation result is valid.
Claims tested in evaluations typically fall into one of three buckets¹:
- Capability elicitation: Can a model plausibly produce the capability being evaluated?
- Safeguard performance: How robust are the tested safeguards against the behavior or attack being evaluated?
- Comparison: How do different models perform under equivalent conditions?
Evaluation reports also need to explain how evaluators checked for effects that could impact the validity of a result. These include:
- Reward hacking: Exploiting shortcuts in the task or scorer, so the system gets credit without demonstrating the behavior the evaluation is meant to measure.
- Refusals: Refusing in ways that obscure the behavior being tested.
- Contamination: Overperforming because evaluation tasks, answers, or close variants appeared in training data or were discoverable during the evaluation, such as through browsing.
- Broken problems: Underperforming because tasks are invalid. Reasons can include unfair scoring (e.g., correct answer requires unstated implementation details) and unsolvable environments (e.g., missing critical files or unreliable tools).
- Sandbagging: Deliberately underperforming when they show awareness of being evaluated.
Selecting the right harness for an evaluation is crucial for optimal results
We’ve observed that the role of the harness is especially important for systems that act over longer trajectories. When models can use tools, maintain state, and recover from mistakes across many steps, the harness can change the observed level of performance, and even determine whether the capability that’s being assessed appears in the evaluation at all. For example, a harness that preserves state and retries failed actions may let a model finish a multi-step task that the same model never completes in a simpler harness.
In the table below, we separate three kinds of claims evaluators may want to make and the harness we believe each kind of claim requires.
Claim the evaluation is trying to support
Appropriate harness choice
Evidence to report
Capability under strong elicitation: System A can complete tasks of type X when the setup is designed to draw out its strongest credible performance.
Use the strongest credible elicitation setup for the system, including the harness, tools, scaffolding, and budget a capable user would reasonably use.
The harness and tool setup, elicitation guidance, budget/effort allowed, tokens/cost/time, and why the setup is a credible proxy for the claimed capability. If comparing systems under different optimized setups, label it as a system-to-system or strong-elicitation comparison.
Controlled comparison: System A outperforms System B under a shared evaluation setup.
Keep the tasks, scoring, and budget fixed. Use either a shared harness/tool setup or a fixed set of standardized harnesses chosen up front to provide reasonable max elicitation for the systems being compared.
The shared task set, tools, scoring method, harness, budget, token efficiency/cost, and known limitations. For coding-agent evaluations, an open-source harness such as Codex CLI can provide a fixed agent loop and tool interface across systems. The ideal approach for maximum elicitation would be to optimize a bespoke harness for each task and system, but doing so is currently impractical in practice.
Safeguard robustness under elicited attack: System A’s safeguards are sufficient for the relevant model behavior or elicited attack.
Use a safeguard-testing setup designed to elicit the strongest credible attack under the relevant adversary model.
How evaluators characterized the relevant model behavior, the safeguard configuration tested, the elicitation strategy, the harness used to carry it out, and the budget or effort allowed.
Capability claims are only as strong as the elicitation behind them: evaluators need to choose the harness that best fits the task and the capability the evaluation is trying to measure. A standardized harness may be right for comparing systems under identical conditions, but it can understate capability when it leaves out specific harness features that help the model perform the task. For example, GPT‑5.5’s performance on OpenAI’s cyber ranges shows how a harness choice can materially change measured capability on tasks that require long, multi-step tool use: the model performs better when the harness uses compaction to preserve task-relevant context as the interaction gets longer. This demonstrates that for certain models, a harness that omits compaction would under-elicit performance.
Other published evaluations² also show harness and budget choices changing evaluation results. Increasing test-time compute can significantly change what capability an evaluation elicits, especially in domains where success is easy to verify, such as many cyber tasks. In UK AISI’s cyber range evaluation(opens in a new window), increasing the budget from 10M to 100M tokens improved performance by up to 59%, and performance was still increasing at the highest budget tested. Detailing this makes the evaluation more interpretable: it shows readers how the result depends on the tested elicitation setup. When performance is still improving with additional budget, the score should be described as performance under that harness and budget, not as a measured capability ceiling. Capability is often resource-dependent rather than a fixed quantity that can be cleanly measured once and for all. Where success can be measured across repeated attempts, reports should also consider expected cost per successful solve, not just success rate at a fixed token budget. This can make severity easier to interpret: a low success rate may still be practically meaningful if the cost of repeated attempts is within the relevant threat model. For capability claims, avoidable under-elicitation is a measurement failure: if the harness or budget prevents the system from exhibiting behavior it could otherwise produce, the score does not measure the capability being claimed. Where evaluators have pushed elicitation as far as is feasible and performance is still improving, reports should say so clearly and make clear that the result is only a lower-bound estimate.
Safeguard testing can understate whether an attack can succeed, and how severe it could be, when not accounting for the resources available to attackers, including custom harnesses. In UK AISI's GPT‑5.5 cyber evaluation(opens in a new window), their expert red teaming found a universal jailbreak that elicited violative cyber content across the malicious queries OpenAI provided, including in multi-turn agentic settings. They used Codex to create a custom harness to strengthen the model’s attack performance: it embedded a reusable safeguard-bypass pattern into the interaction, preserved that pattern across turns and blocks, and applied it across the malicious cyber queries OpenAI provided. Safeguard testing should match the adversary. If the claim is about robustness to expert misuse, the test should evaluate the strongest credible end-to-end attack strategy under a defined budget, including any harness needed to preserve and reuse that strategy. Otherwise, the results risk miscalibration: they could support only a narrower claim about resistance to simpler prompting, could miss both how severe the attack becomes and its probability of success once the elicitation method is operationalized, and could also overstate how likely or severe a problem is if given too much budget.
There is a time and place for standardized harness comparisons, but evaluators should be explicit about why using a consistent set of harnesses is appropriate and what claim it can support. METR's time-horizon evaluation(opens in a new window) is an example of a broader, appropriately fixed evaluation setup: it is designed to produce comparable results across the systems it evaluates. METR defines a common outcome, the typical duration for a human task at which an AI agent is predicted to succeed at a given reliability level. It applies a shared task suite, scoring method, fitting method, and a small set of reusable scaffolds such as Triframe and ReAct(opens in a new window) within each batch of estimates reported together. When METR expanded the task suite and moved evaluation infrastructure from a framework called Vivaria to one called Inspect, it reported the change (Time Horizon 1.1 update(opens in a new window)) and re-evaluated models under the new evaluation setup. That is the value of a standardized evaluation setup, including a consistent harness set: it can make readers confident that a difference in scores really reflects a difference between the systems being compared, rather than a change in the measurement setup.
We recommend that third party evaluation reports state what kind of claim their evaluation setup is meant to support; describe how closely what was tested reflects that broader claim; describe the harness choices that shaped the result; detail when those choices change between evaluations; and include supporting evidence to show how the result was produced and how well it generalizes to the claim.
Assess validity by checking for known hazards that can distort results
As models become more capable, evaluation scores become easier to misinterpret. Relative to real capabilities, evaluation scores can be artificially reduced if a model recognizes it is being evaluated and strategically underperforms. They can be inflated if the model exploits a shortcut in the task, prompt, scorer, or harness. They can also be distorted by contamination (where a model already knows or can find an answer without solving the task) or by “broken” problems that are ambiguous, incorrectly scored, unsolvable, or vulnerable to unintended shortcuts. Evaluation reports should therefore pair headline scores with a discussion of these hazards, so readers can assess whether the scores reflect the intended behavior.
Harnesses, budgets, tools, scoring rules, monitors, and review procedures all affect whether an agent is solving the intended task, avoiding it, memorizing it, or finding a path around it. A trustworthy report makes those checks visible: evaluators should review samples for these behaviors every time an assessment is run.
Reward hacking
Reward hacking means achieving high evaluation scores in ways that do not reflect the intended capability. Here, the concern is that the system gets credit by exploiting the task, scorer, prompt, or harness rather than by doing the work the evaluation was meant to measure. METR’s evaluation of GPT 5.4(opens in a new window) shows why this matters: despite the model succeeding on tasks at a rate that would have registered as a roughly 13-hour time horizon at first pass, human review showed that some of those successes came from reward hacking, and revising the results to account for only those instances without reward hacking lowered the estimate to about 6 hours. Evaluators should assess the need for such adjustments and, when they are needed, report them clearly: a capability estimate is much more useful when readers can see which apparent successes were disqualified, why they were disqualified, and how much the result depends on that judgment.

Refusals
Models can also underperform capability evaluations due to safeguards. A model may have lower evaluation performance than it is capable of due to refusing evaluation tasks instead of completing them. Reports should therefore explain if refusals were part of the evaluation results and if yes, then how many samples were compromised because of them.
Contamination
Contamination matters most for public or reused benchmarks. If tasks, answers, or close variants appear in training data or can be found by an agent with browsing, performance may reflect memorization or retrieval rather than model performance. Evaluators should prefer private or newly constructed tasks where possible and test whether models reproduce task-specific details before solving.
Broken problems
Broken problems include situations such as a problem that accidentally cannot be solved. Broken problems are common enough(opens in a new window) that they should be treated as a standard validity risk. They include incorrect ground truth, ambiguous prompts, missing files, flaky services, unfair scoring criteria, and environments that expose shortcuts such as hidden answer files or repository history containing the ground-truth patch.
Sandbagging
Sandbagging by a model or system means strategically underperforming when strong performance would conflict with some objective. Apollo’s GPT‑5.5 evaluation(opens in a new window) tested this by creating a context where the model understood that high evaluation scores might trigger unlearning or block deployment. GPT‑5.5 still answered correctly, suggesting little behavioral evidence of strategic underperformance³. But their review of reasoning traces added important context: Apollo found moderate-or-higher signs of alignment-evaluation awareness in 52% of sandbagging-condition samples, compared with 0% in counterfactuals. That evidence complicates interpretation of the result, but ultimately gives readers more signal: readers can see both the reassuring behavioral result and the reason to be cautious about overinterpreting it.
How we are supporting stronger evaluations
Strong claims require both the right harness to elicit the behavior and validity checks to show the result is sound. Our view that harnesses and validity checks are part of the evaluation result shapes how we support third party evaluations in practice:
- We are sharing specific maximum-elicitation guidance with evaluators.
- We are asking capability evaluators to use Codex as a common floor for OpenAI models: tests should at least run a baseline through the same agentic interface users are likely to rely on, rather than only through a stripped-down model interface.
- We are also making reasoning traces and other intermediate artifacts available where they are needed to assess deception, sandbagging, or evaluation awareness. METR and Apollo have used this access in OpenAI evaluations since GPT‑5.
- Finally, we are prioritizing research to more deeply understand when and how harness choices materially change results, from context management and tool access to retry behavior, scoring, and resource budgets.
What this means for evaluation standards and future research directions
These recommendations are intended not only to improve individual evaluation reports, but also to inform emerging national (opens in a new window)and international (opens in a new window)standards for frontier AI evaluation and reporting. Going forward, third party evaluation standards should require enough detail for decision makers to understand what claims the specific evaluations support, what system was tested, how the result was elicited, and how evaluators checked its validity. For frontier systems being tested on tasks where agentic capabilities matter, details should include (subject to any security or confidentiality concerns):
- The claim: whether the evaluation compares systems, estimates a capability ceiling, or tests safeguards.
- Evaluation content: enough detail about the tasks or task distribution for readers to understand what skills, behaviors, or failure modes the evaluation is actually testing.
- The tested system: the model, reasoning setting, tool access, harness, and safeguards.
- The budget: turns, tokens, attempts/retries, wall-clock time, inference cost, and where applicable expected cost per successful solve.
- Elicitation methods: harness choices used to draw out the result, and how closely what was tested reflects the broader claim being made.
- Validity checks: how assessors looked for reward hacking, evaluation awareness, contamination, refusals, sandbagging and other behaviors that could undermine the result, including how confirmed cases affected scoring or interpretation.
Standards that leave out harness choices or validity checks can understate what a system can do or overstate confidence in a safety claim. Building strong harnesses and elicitation methods remains an open research area and should be a focus for further investigation and investment.
関連記事
Import AI 460:報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース
Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。
グローバルリーダーシップを通じた若者の安全と機会の推進
OpenAI は、若者の安全を確保し、新たな機会を提供するために、世界規模でのリーダーシップを発揮する方針を発表した。
LLM の過去半年を5分で解説
Simon Willison氏がPyCon US 2026で発表した、大規模言語モデルの過去半年の動向をまとめたスライドを紹介する。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み