信頼できる第三者による AI モデル評価のための OpenAI アウトラインプレイブック(4 分読了)
OpenAI は、次世代のフロンティアモデル評価において、単なるチャットボットのテストを超え、ツール使用や環境設定(ハネス)を明示した信頼できる第三者評価の枠組みと基準を提唱している。
キーポイント
評価パラダイムの転換:「ハネス」の重要性
従来のチャットボット形式の評価から、ツール使用や多段階情報管理が可能になった現代のモデルでは、タスク実行環境(ハネス)が性能に大きく影響するため、その設定を詳細に記述する必要がある。
評価報告書に必要な2つの要素
有用な評価レポートは、結果だけでなく「何をテストしようとしたのか」という主張(claim)と、「なぜその結果が妥当か」を示す証拠の両方を明示的に記載すべきである。
3 つの評価分類と検証項目
評価は能力誘発、セーフガード性能、比較の 3 つに分類され、それぞれについて報酬ハッキングや拒絶行動、データ汚染といった妥当性を損なう要因へのチェックが必須である。
影響分析・編集コメントを表示
影響分析
この提言は、AI セーフティ分野における第三者評価の質を底上げし、企業間の比較や規制基準策定のための信頼できる共通言語を提供する可能性があります。特に複雑化するモデル能力に対して、単なるベンチマークスコアではなく、文脈を含めた包括的な検証が求められるようになり、業界全体の透明性と安全性向上に寄与します。
編集コメント
モデルの能力が複雑化する中、評価結果の解釈を誤らないための重要な指針です。特に「ハネス」の定義と妥当性証明は、今後の AI 規制やコンプライアンス対応において必須となる要素でしょう。
独立した信頼できる第三者による評価は、安全性エコシステムを強化する上で 重要な役割 を果たしています。これらの評価は、最先端モデルに対して行われ、重要な機能や安全対策に関する主張に対する追加的な証拠を提供します。本稿では、これまでに得た教訓を共有し、最先端モデルを妥当に評価できる評価設計のアプローチを推奨します。これが、この分野で生まれつつある基準の策定に役立つことを願っています。
以前は多くの評価が、モデルをチャットボットのように扱っていました:評価者がユーザーとして質問を投げかけ、モデルが回答し、評価者がその出力を判断するという形式でした。今日の最先端モデルははるかに多くのことができます:ツールを使用したり、多数のステップにわたって情報を追跡したり、より大きなワークフロー内で行動したりします。これは、パフォーマンスがモデル自体だけでなく、タスクが行われる環境や、その行動を可能にするセットアップにも依存することを意味します。この周囲のセットアップ(私たちが「ハネス」と呼ぶもの)は、ツールの使用法、情報の追跡方法、ミスタイクからの回復方法など、システムの性能における重要な側面を変更する可能性があります。
これは、評価をどのように実施すべきか、また読者が評価報告書で何を重視すべきかを根本から変えるものです。私たちの見解では、最も有用な報告書は、結果そのもの以外に以下の2点を明確に記述しています:第一に、評価設定が何の主張を検証するために設計されたのかを特定すること、第二に、評価結果の有効性を裏付ける利用可能な証拠を共有することです。
評価で検証される主張は、通常、次の3つのカテゴリ1のいずれかに分類されます:
- 能力の誘発(Capability elicitation):モデルが評価対象の能力を実質的に生成できるか?
- セーフガードのパフォーマンス(Safeguard performance):評価対象の振る舞いや攻撃に対して、テストされたセーフガードはどの程度頑健か?
- 比較(Comparison):同等の条件下で、異なるモデルはどのようにパフォーマンスを発揮するか?
評価報告書にはまた、結果の有効性に影響を及ぼす可能性のある効果について、評価者がどのように確認を行ったかを説明する必要があります。これらには以下が含まれます:
- リワードハッキング:タスクやスコアラーにおける近道を利用し、評価が測定すべき行動を実証せずにシステムに点数を与えること。
- 拒絶:テストされている行動を隠すような方法での拒絶。
- コンタミネーション(汚染):評価タスク、回答、またはその類似変種がトレーニングデータに含まれていたか、ブラウジングなどを通じて評価中に発見可能であったために、過剰にパフォーマンスを発揮すること。
- 破損した問題:タスクが無効であるためパフォーマンスが低下すること。理由には不公平なスコアリング(例:正解には明記されていない実装詳細が必要)や解決不可能な環境(例:重要なファイルの欠落や信頼性の低いツール)が含まれる。
- サンドバッグ:評価されていることを認識した際に、意図的にパフォーマンスを落とすこと。
最適な結果を得るためには、評価に適したハーンネス(枠組み)を選択することが極めて重要である
私たちは、特に長い軌道で動作するシステムにおいて、ハーンネスの役割が非常に重要であることを観察してきた。モデルがツールを使用し、状態を維持し、多くのステップにわたってミスを回復できる場合、ハーンネスは観測されるパフォーマンスレベルを変化させるだけでなく、評価されている能力が評価自体に現れるかどうかさえ決定し得る。例えば、状態を保持し失敗したアクションを再試行するハーンネスであれば、単純なハーンネスでは完了できない多段階タスクをモデルが完了できる可能性がある。
以下の表では、評価者が主張したいと考える3種類の主張と、各主張に必要だと私たちが考えるハーンネスを分けて示す。
評価が支援しようとしている主張を明確にする
適切なハルネスの選択
報告すべき証拠
強力な誘発下での能力:システム A は、その最も信頼できるパフォーマンスを引き出すように設計されたセットアップにおいて、タイプ X のタスクを完了できる。
システムに対して、有能なユーザーが合理的に使用するであろうハルネス、ツール、足場、および予算を含む、最も強力かつ信頼性の高い誘発セットアップを使用する。
ハルネスとツールのセットアップ、誘導ガイダンス、許可された予算/努力、トークン/コスト/時間、そしてなぜそのセットアップが主張される能力の信頼できる代理となるのか。異なる最適化セットアップ下でシステムを比較する場合、それを「システム間比較」または「強力な誘発比較」としてラベル付けする。
統制された比較:システム A は、共有評価セットアップの下でシステム B よりも優れたパフォーマンスを発揮する。
タスク、スコアリング、および予算は固定したままにする。比較対象となるシステムに対して合理的な最大誘発を提供するために、共有ハルネス/ツールセットアップを使用するか、事前に選択された標準化されたハルネスの固定セットを使用する。
共有タスクセット、ツール、スコアリング方法、ハルネス、予算、トークン効率/コスト、および既知の制限。コーディングエージェント評価においては、Codex CLI などのオープンソースハルネスが、システム間で固定されたエージェントループとツールインターフェースを提供できる。最大誘発のための理想的なアプローチは、各タスクとシステムのために個別に最適化されたハルネスを作成することであるが、現状では実践的に実行することは困難である。
注記: 原文に含まれる ⟦CODE_0⟧ 等のコードマーカーは本文に存在しなかったため、そのまま保持する処理は不要です。また、入力テキストには HTML タグやマークダウンの特殊構文(画像リンク等)が含まれておらず、通常の段落構造のみであったため、それらの形式変換も不要です。
誘発攻撃下での堅牢性の保護:システム A の防護策は、関連するモデルの振る舞いまたは誘発攻撃に対して十分である。
関連する敵対者モデルの下で最も強力な信頼できる攻撃を誘発するように設計された防護策テスト設定を使用すること。
評価者がどのように関連するモデルの振る舞いを特徴付け、どの防護策構成がテストされ、どのような誘発戦略が用いられ、それを実行するためにどのハーン(harness)が使われ、また許容された予算または努力量がどれほどであったかについて記述した内容。
能力主張は、それを支える誘発の強さによってのみ成立する:評価者は、タスクと評価が測定しようとする能力に最も適合するハーンを選択しなければならない。 標準化されたハーンは同一条件下でのシステム比較には適している場合もあるが、モデルがタスクを遂行するために役立つ特定のハーン機能を欠くことで、能力を過小評価する可能性がある。例えば、OpenAI のサイバーレンジにおける GPT‑5.5 のパフォーマンスは、ハーンの選択が長時間かつ多段階のツール使用を要するタスクにおいて測定される能力にどのように実質的な影響を与えるかを示している:ハーンが compaction(文脈圧縮)を使用して、対話が進むにつれてタスクに関連する文脈を保持する場合、モデルのパフォーマンスは向上する。これは、特定のモデルにおいては compaction を省略したハーンではパフォーマンスが十分に誘発されないことを示している。
高い成功率の方が望ましい
他の公開された評価2 も、ハネスと予算の選択が評価結果を変化させることを示しています。テスト時の計算リソースを増やすことは、特に成功の検証が容易なドメイン(多くのサイバータスクなど)において、評価が引き出す能力を大きく変化させる可能性があります。UK AISI のサイバーレンジ評価(新しいウィンドウで開く) では、予算を 10M トークンから 100M トークンに引き上げることでパフォーマンスが最大 59% 向上し、テストされた最高予算においてもなおパフォーマンスは増加し続けていました。この詳細を記述することは評価の解釈可能性を高めます:これは読者に対して、結果がテストされた誘発設定(elicitation setup)にどのように依存しているかを示すものです。追加の予算を与えてもパフォーマンスがまだ改善している場合、そのスコアは測定された能力の上限としてではなく、そのハネスと予算におけるパフォーマンスとして記述されるべきです。能力は往々にしてリソースに依存するものであり、一度きりで完全に測定できる固定量ではありません。成功を反復試行 across して測定できる領域では、報告書は固定トークン予算での成功率だけでなく、成功した解決にかかる予想コストも考慮すべきです。これにより、深刻度の解釈が容易になります:反復試行のコストが関連する脅威モデルの範囲内であれば、低い成功率でも実質的に意味を持つ場合があります。
能力に関する主張において、回避可能な誘発不足は測定上の失敗です:ハネスや予算がシステムに本来生み出すはずの行動を示させない場合、そのスコアは主張されている能力を測定していることにはなりません。評価者が可能な限り誘発を最大化してもなおパフォーマンスが改善し続けている場合、報告書ではそれを明確に記述し、結果が単なる下限推定値であることをはっきりと示すべきです。
保護機能のテストでは、攻撃者が利用可能なリソース(カスタムハッチスを含む)を考慮しない場合、攻撃が成功する可能性やその深刻さを過小評価する恐れがあります。UK AISI の GPT‑5.5 サイバー評価(新しいウィンドウで開く)において、専門家のレッドチームは、OpenAI が提供した悪意のあるクエリ全体(多ターン・エージェント設定を含む)で違反するサイバーコンテンツを引き出す普遍的な Jailbreak を発見しました。彼らは Codex を用いてカスタムハッチスを作成し、モデルの攻撃性能を強化しました:これは再利用可能な保護機能バイパスパターンを対話に埋め込み、そのパターンをターンやブロック全体で維持し、OpenAI が提供した悪意のあるサイバークエリすべてに適用するものです。保護機能のテストは、敵対者(adversary)と同等であるべきです。もし専門的な誤用に対する堅牢性に関する主張であれば、定義された予算の下での最も強力な信頼できるエンドツーエンドの攻撃戦略を評価すべきであり、その戦略を維持・再利用するために必要なハッチスも含まれる必要があります。そうでなければ、結果は較正が外れたものになるリスクがあります:より単純なプロンプティングに対する耐性という限定的な主張しか支持できず、誘発手法が実装された後の攻撃の深刻さや成功確率を見逃す可能性があり、また予算を過剰に与えた場合、問題の発生確率や深刻さを過大評価する恐れもあります。
標準化されたハーンによる比較には適した時と場所がありますが、評価者はなぜ一貫したセットのハーンを使用することが適切なのか、そしてそれがどのような主張を支持できるのかを明確に述べる必要があります。METR の時間範囲評価(新しいウィンドウで開く) は、より広範で適切に固定された評価設定の例です。これは、評価対象となるシステム間で比較可能な結果を生み出すように設計されています。METR は共通の結果指標を定義しており、これは AI エージェントが特定の信頼性レベルで成功すると予測される、人間によるタスクの典型的な所要時間です。また、報告される各推定バッチ内で、共有されたタスクリスト、スコアリング手法、適合手法、および Triframe や ReAct(新しいウィンドウで開く) などの再利用可能なスキャフォールドの小さなセットを適用します。METR がタスクリストを拡張し、Vivaria という名前のフレームワークから Inspect という名前のフレームワークへと評価インフラストラクチャを移行した際、その変更 (Time Horizon 1.1 アップデート(新しいウィンドウで開く)) を報告し、新しい評価設定の下でモデルを再評価しました。これが標準化された評価設定(一貫したハーンセットを含む)の価値です。これにより、読者はスコアの差が測定環境の変化ではなく、比較対象となるシステム間の本当の違いを反映していることを確信できるようになります。
第三者の評価レポートには、その評価設定がどのような主張を裏付けるものなのかを明記し、テストされた内容がその広範な主張とどの程度一致しているかを説明し、結果に影響を与えたハーン(harness)の選択について詳述し、これらの選択が評価間においてどのように変化するかを詳細に記述し、さらに結果がどのように生成され、主張に対してどの程度一般化できるかを示す補足証拠を含めることを推奨します。
評価スコアは、モデルが評価されていると認識して戦略的にパフォーマンスを低下させた場合、実際の能力と比較して人為的に低く表示される可能性があります。また、タスク、プロンプト、スコアラー、またはハーン内のショートカットを利用した場合にスコアが過大評価されることもあります。さらに、コンタミネーション(モデルがすでに答えを知っている、あるいは問題を解かずに答えを見つけられる状態)や、曖昧さがある、誤って採点されている、解決不可能な、または意図しないショートカットに脆弱な「壊れた」問題によってもスコアは歪められます。したがって、評価レポートでは、これらのハザードに関する議論と併せて主要なスコアを提示し、読者がスコアが意図した行動を反映しているかどうかを判断できるようにする必要があります。
⟦CODE_0⟧
ハルネス、予算、ツール、スコアリングルール、モニター、レビュー手順はすべて、エージェントが意図されたタスクを解決しているのか、回避しているのか、暗記しているのか、それとも迂回経路を見つけているのかに影響します。信頼できる報告書ではこれらのチェックが可視化され、評価が実行されるたびに評価者はこれらの行動に関するサンプルを検証する必要があります。
報酬ハッキング
報酬ハッキングとは、意図された能力を反映しない方法で高い評価スコアを獲得することを指します。ここでは、システムが評価の目的である作業を実行するのではなく、タスク、採点者、プロンプト、またはハルネスを利用することで信用を得るという懸念があります。METR による GPT 5.4 の評価(新しいウィンドウで開く) はなぜこれが重要なのかを示しています:モデルは最初のパスで約 13 時間の時間範囲として記録されるはずのタスクを成功させる率で達成していましたが、人間のレビューでは、その成功の一部が報酬ハッキングによるものであることが判明し、報酬ハッキングのない事例のみを対象に結果を修正すると、推定値は約 6 時間に低下しました。評価者はこのような調整の必要性を評価し、必要な場合は明確に報告すべきです:読者がどの一見した成功が無効化されたか、なぜ無効化されたか、そして結果がその判断にどれだけ依存しているかを把握できる場合、能力推定値ははるかに有用になります。

拒絶(Refusals)
モデルは、セーフガードのために能力評価において期待されたパフォーマンスを発揮できない場合があります。モデルがタスクを完了する代わりに拒絶することで、本来の能力よりも低い評価結果を示すことがあります。したがって、報告書では拒絶が評価結果に含まれているかどうか、また含まれる場合はそのためにどの程度のサンプル数が損なわれたかを説明する必要があります。
汚染(Contamination)
汚染は、公開または再利用されたベンチマークにおいて最も重要です。タスク、回答、あるいはその近傍のバリアントがトレーニングデータに含まれている場合や、ブラウジング機能を持つエージェントによって発見可能な場合、パフォーマンスはモデルの能力ではなく、記憶または検索の結果を反映している可能性があります。評価者は可能であればプライベートなタスクや新たに構築されたタスクを優先し、解決する前にモデルがタスク固有の詳細を再現できるかどうかを検証すべきです。
破損した問題(Broken problems)
破損した問題には、偶然にも解けない問題が含まれます。破損した問題は 十分に一般的 であるため、標準的な妥当性のリスクとして扱う必要があります。これには、誤った正解(ground truth)、曖昧なプロンプト、欠落しているファイル、不安定なサービス、不公平な採点基準、および隠された回答ファイルや正解パッチを含むリポジトリ履歴など、近道が露呈する環境が含まれます。
サンドバッグ(Sandbagging)
モデルが意図的に能力を隠す行為です。
モデルやシステムによるサンディング(sandbagging)とは、強力なパフォーマンスを発揮することが何らかの目的と矛盾する場合に、戦略的にパフォーマンスを低下させることを意味します。Apollo の GPT‑5.5 評価(新しいウィンドウで開く) は、モデルが高評価スコアが学習の解除やデプロイのブロックを引き起こす可能性があることを理解する文脈を作成することでこれをテストしました。GPT‑5.5 は依然として正しく回答しましたが、これは戦略的なパフォーマンス低下の行動的証拠はほとんどないことを示唆しています 3。しかし、推論トレースのレビューにより重要な背景が追加されました:Apollo はサンディング条件のサンプルの 52% で中程度以上のアライメント評価への意識(alignment-evaluation awareness)の兆候を検出しましたが、反事実的ケースでは 0% でした。この証拠は結果の解釈を複雑にしますが、最終的には読者により多くのシグナルを提供します:読者は安心させる行動的結果と、それを過大解釈しないよう注意すべき理由の両方を見ることができます。
より強力な評価をどのように支援しているか
強い主張には、その振る舞いを引き出すための適切なハネス(harness)と、結果が妥当であることを示す有効性チェックの両方が必要です。ハネスと有効性チェックが評価結果の一部であるという私たちの見解は、実践における第三者による評価をどのように支援するかという形に影響を与えます:
- 評価者に対して、最大限の情報を引き出すための具体的なガイダンスを共有しています。
- 能力評価者には、OpenAI モデルの共通基準として Codex を使用することを求めています:テストは、単に簡素化されたモデルインターフェースを通じて行うのではなく、ユーザーが実際に依存する可能性のあるエージェント型インターフェースを通じて少なくともベースラインを実行する必要があります。
- また、欺瞞、砂場行為(sandbagging)、評価への意識といった要素を評価するために必要な場合に限り、推論の痕跡やその他の中間成果物を公開しています。METR と Apollo は、GPT‑5 以降の OpenAI 評価においてこのアクセス権を活用してきました。
- 最後に、コンテキスト管理やツールアクセスからリトライ動作、スコアリング、リソース予算に至るまで、ハッチング(harness)の選択が結果にどのように実質的な影響を与えるかをより深く理解するための研究を優先しています。
これが評価基準と将来の研究方向に与える意味
これらの推奨事項は、個々の評価レポートの改善だけでなく、最先端 AI の評価と報告に関する新たな 国内 (新しいウィンドウで開く) および 国際 (新しいウィンドウで開く) 基準の策定にも資するものです。今後は、第三者による評価基準において、意思決定者が特定の評価が何を支持しているのか、どのシステムがテストされたのか、結果がどのように引き出されたのか、そして評価者がその妥当性をどのように確認したのかを理解できる十分な詳細を要求すべきです。エージェント機能(agentic capabilities)が重要なタスクで最先端システムをテストする場合には、セキュリティや機密性に関する懸念がある場合を除き、以下の詳細を含める必要があります:
- 主張:評価がシステム間の比較を行うものか、能力の上限を推定するものか、あるいは安全対策を検証するものであるか。
- 評価内容:読者が、その評価が実際にどのようなスキル、行動、または失敗モードを検証しているかを理解できるほど、タスクやタスク分布に関する十分な詳細が含まれていること。
- 検証対象システム:モデル、推論設定、ツールアクセス権限、ハネス(評価枠組み)、および安全対策。
- バジェット:ターン数、トークン数、試行/再試行回数、実時間、推論コスト、および該当する場合は成功した解決ごとの予想コスト。
- 誘発手法:結果を引き出すために使用されたハネスの選択と、実際に検証された内容が主張されるより広範な主張をどの程度反映しているか。
- 妥当性チェック:評価者が報酬ハッキング、評価への意識、汚染、拒絶、砂袋行為(能力を隠す行動)、および結果を損なう可能性のある他の行動を検索した方法。また、確認された事例がスコアリングや解釈にどのように影響したかも含む。
ハネスの選択や妥当性チェックを欠いた基準は、システムの能力を過小評価するか、安全に関する主張に対する信頼性を過大評価する恐れがある。強力なハネスと誘発手法を構築することは依然として未解決の研究領域であり、さらなる調査と投資の対象となるべきである。
原文を表示
Independent, trusted third party evaluations play a critical role in strengthening the safety ecosystem. These evaluations are conducted on frontier models to provide additional evidence for claims about critical capabilities and safety mitigations. In this post, we share lessons we’ve learned so far, and recommend approaches for designing evaluations that can validly assess frontier models that we hope help inform emerging standards in the space.
Earlier, many evaluations treated models like chatbots: the evaluation prompted a model as though it were a user asking a question, the model answered, and an evaluator judged the output. Today’s frontier models can do much more: they can use tools, keep track of information across many steps, and act within a larger workflow. This means that performance depends not only on the model, but also on the environment in which the task takes place, and on the setup that facilitates its actions. This surrounding setup, which we call the “harness,” can change key aspects of the system’s performance, including how it uses tools, keeps track of information, or recovers from mistakes.
This changes how evaluations need to be conducted, and what readers should look for in evaluation reports. In our view, the most useful reports explicitly describe two things beyond the result itself: First, they specify what claim the evaluation setup was designed to test, and second, they share the available evidence that the evaluation result is valid.
Claims tested in evaluations typically fall into one of three buckets1:
- Capability elicitation: Can a model plausibly produce the capability being evaluated?
- Safeguard performance: How robust are the tested safeguards against the behavior or attack being evaluated?
- Comparison: How do different models perform under equivalent conditions?
Evaluation reports also need to explain how evaluators checked for effects that could impact the validity of a result. These include:
- Reward hacking: Exploiting shortcuts in the task or scorer, so the system gets credit without demonstrating the behavior the evaluation is meant to measure.
- Refusals: Refusing in ways that obscure the behavior being tested.
- Contamination: Overperforming because evaluation tasks, answers, or close variants appeared in training data or were discoverable during the evaluation, such as through browsing.
- Broken problems: Underperforming because tasks are invalid. Reasons can include unfair scoring (e.g., correct answer requires unstated implementation details) and unsolvable environments (e.g., missing critical files or unreliable tools).
- Sandbagging: Deliberately underperforming when they show awareness of being evaluated.
Selecting the right harness for an evaluation is crucial for optimal results
We’ve observed that the role of the harness is especially important for systems that act over longer trajectories. When models can use tools, maintain state, and recover from mistakes across many steps, the harness can change the observed level of performance, and even determine whether the capability that’s being assessed appears in the evaluation at all. For example, a harness that preserves state and retries failed actions may let a model finish a multi-step task that the same model never completes in a simpler harness.
In the table below, we separate three kinds of claims evaluators may want to make and the harness we believe each kind of claim requires.
Claim the evaluation is trying to support
Appropriate harness choice
Evidence to report
Capability under strong elicitation: System A can complete tasks of type X when the setup is designed to draw out its strongest credible performance.
Use the strongest credible elicitation setup for the system, including the harness, tools, scaffolding, and budget a capable user would reasonably use.
The harness and tool setup, elicitation guidance, budget/effort allowed, tokens/cost/time, and why the setup is a credible proxy for the claimed capability. If comparing systems under different optimized setups, label it as a system-to-system or strong-elicitation comparison.
Controlled comparison: System A outperforms System B under a shared evaluation setup.
Keep the tasks, scoring, and budget fixed. Use either a shared harness/tool setup or a fixed set of standardized harnesses chosen up front to provide reasonable max elicitation for the systems being compared.
The shared task set, tools, scoring method, harness, budget, token efficiency/cost, and known limitations. For coding-agent evaluations, an open-source harness such as Codex CLI can provide a fixed agent loop and tool interface across systems. The ideal approach for maximum elicitation would be to optimize a bespoke harness for each task and system, but doing so is currently impractical in practice.
Safeguard robustness under elicited attack: System A’s safeguards are sufficient for the relevant model behavior or elicited attack.
Use a safeguard-testing setup designed to elicit the strongest credible attack under the relevant adversary model.
How evaluators characterized the relevant model behavior, the safeguard configuration tested, the elicitation strategy, the harness used to carry it out, and the budget or effort allowed.
Capability claims are only as strong as the elicitation behind them: evaluators need to choose the harness that best fits the task and the capability the evaluation is trying to measure. A standardized harness may be right for comparing systems under identical conditions, but it can understate capability when it leaves out specific harness features that help the model perform the task. For example, GPT‑5.5’s performance on OpenAI’s cyber ranges shows how a harness choice can materially change measured capability on tasks that require long, multi-step tool use: the model performs better when the harness uses compaction to preserve task-relevant context as the interaction gets longer. This demonstrates that for certain models, a harness that omits compaction would under-elicit performance.
Other published evaluations2 also show harness and budget choices changing evaluation results. Increasing test-time compute can significantly change what capability an evaluation elicits, especially in domains where success is easy to verify, such as many cyber tasks. In UK AISI’s cyber range evaluation(opens in a new window), increasing the budget from 10M to 100M tokens improved performance by up to 59%, and performance was still increasing at the highest budget tested. Detailing this makes the evaluation more interpretable: it shows readers how the result depends on the tested elicitation setup. When performance is still improving with additional budget, the score should be described as performance under that harness and budget, not as a measured capability ceiling. Capability is often resource-dependent rather than a fixed quantity that can be cleanly measured once and for all. Where success can be measured across repeated attempts, reports should also consider expected cost per successful solve, not just success rate at a fixed token budget. This can make severity easier to interpret: a low success rate may still be practically meaningful if the cost of repeated attempts is within the relevant threat model. For capability claims, avoidable under-elicitation is a measurement failure: if the harness or budget prevents the system from exhibiting behavior it could otherwise produce, the score does not measure the capability being claimed. Where evaluators have pushed elicitation as far as is feasible and performance is still improving, reports should say so clearly and make clear that the result is only a lower-bound estimate.
Safeguard testing can understate whether an attack can succeed, and how severe it could be, when not accounting for the resources available to attackers, including custom harnesses. In UK AISI's GPT‑5.5 cyber evaluation(opens in a new window), their expert red teaming found a universal jailbreak that elicited violative cyber content across the malicious queries OpenAI provided, including in multi-turn agentic settings. They used Codex to create a custom harness to strengthen the model’s attack performance: it embedded a reusable safeguard-bypass pattern into the interaction, preserved that pattern across turns and blocks, and applied it across the malicious cyber queries OpenAI provided. Safeguard testing should match the adversary. If the claim is about robustness to expert misuse, the test should evaluate the strongest credible end-to-end attack strategy under a defined budget, including any harness needed to preserve and reuse that strategy. Otherwise, the results risk miscalibration: they could support only a narrower claim about resistance to simpler prompting, could miss both how severe the attack becomes and its probability of success once the elicitation method is operationalized, and could also overstate how likely or severe a problem is if given too much budget.
There is a time and place for standardized harness comparisons, but evaluators should be explicit about why using a consistent set of harnesses is appropriate and what claim it can support. METR's time-horizon evaluation(opens in a new window) is an example of a broader, appropriately fixed evaluation setup: it is designed to produce comparable results across the systems it evaluates. METR defines a common outcome, the typical duration for a human task at which an AI agent is predicted to succeed at a given reliability level. It applies a shared task suite, scoring method, fitting method, and a small set of reusable scaffolds such as Triframe and ReAct(opens in a new window) within each batch of estimates reported together. When METR expanded the task suite and moved evaluation infrastructure from a framework called Vivaria to one called Inspect, it reported the change (Time Horizon 1.1 update(opens in a new window)) and re-evaluated models under the new evaluation setup. That is the value of a standardized evaluation setup, including a consistent harness set: it can make readers confident that a difference in scores really reflects a difference between the systems being compared, rather than a change in the measurement setup.
We recommend that third party evaluation reports state what kind of claim their evaluation setup is meant to support; describe how closely what was tested reflects that broader claim; describe the harness choices that shaped the result; detail when those choices change between evaluations; and include supporting evidence to show how the result was produced and how well it generalizes to the claim.
Assess validity by checking for known hazards that can distort results
As models become more capable, evaluation scores become easier to misinterpret. Relative to real capabilities, evaluation scores can be artificially reduced if a model recognizes it is being evaluated and strategically underperforms. They can be inflated if the model exploits a shortcut in the task, prompt, scorer, or harness. They can also be distorted by contamination (where a model already knows or can find an answer without solving the task) or by “broken” problems that are ambiguous, incorrectly scored, unsolvable, or vulnerable to unintended shortcuts. Evaluation reports should therefore pair headline scores with a discussion of these hazards, so readers can assess whether the scores reflect the intended behavior.
Harnesses, budgets, tools, scoring rules, monitors, and review procedures all affect whether an agent is solving the intended task, avoiding it, memorizing it, or finding a path around it. A trustworthy report makes those checks visible: evaluators should review samples for these behaviors every time an assessment is run.
Reward hacking
Reward hacking means achieving high evaluation scores in ways that do not reflect the intended capability. Here, the concern is that the system gets credit by exploiting the task, scorer, prompt, or harness rather than by doing the work the evaluation was meant to measure. METR’s evaluation of GPT 5.4(opens in a new window) shows why this matters: despite the model succeeding on tasks at a rate that would have registered as a roughly 13-hour time horizon at first pass, human review showed that some of those successes came from reward hacking, and revising the results to account for only those instances without reward hacking lowered the estimate to about 6 hours. Evaluators should assess the need for such adjustments and, when they are needed, report them clearly: a capability estimate is much more useful when readers can see which apparent successes were disqualified, why they were disqualified, and how much the result depends on that judgment.

Refusals
Models can also underperform capability evaluations due to safeguards. A model may have lower evaluation performance than it is capable of due to refusing evaluation tasks instead of completing them. Reports should therefore explain if refusals were part of the evaluation results and if yes, then how many samples were compromised because of them.
Contamination
Contamination matters most for public or reused benchmarks. If tasks, answers, or close variants appear in training data or can be found by an agent with browsing, performance may reflect memorization or retrieval rather than model performance. Evaluators should prefer private or newly constructed tasks where possible and test whether models reproduce task-specific details before solving.
Broken problems
Broken problems include situations such as a problem that accidentally cannot be solved. Broken problems are common enough(opens in a new window) that they should be treated as a standard validity risk. They include incorrect ground truth, ambiguous prompts, missing files, flaky services, unfair scoring criteria, and environments that expose shortcuts such as hidden answer files or repository history containing the ground-truth patch.
Sandbagging
Sandbagging by a model or system means strategically underperforming when strong performance would conflict with some objective. Apollo’s GPT‑5.5 evaluation(opens in a new window) tested this by creating a context where the model understood that high evaluation scores might trigger unlearning or block deployment. GPT‑5.5 still answered correctly, suggesting little behavioral evidence of strategic underperformance3. But their review of reasoning traces added important context: Apollo found moderate-or-higher signs of alignment-evaluation awareness in 52% of sandbagging-condition samples, compared with 0% in counterfactuals. That evidence complicates interpretation of the result, but ultimately gives readers more signal: readers can see both the reassuring behavioral result and the reason to be cautious about overinterpreting it.
How we are supporting stronger evaluations
Strong claims require both the right harness to elicit the behavior and validity checks to show the result is sound. Our view that harnesses and validity checks are part of the evaluation result shapes how we support third party evaluations in practice:
- We are sharing specific maximum-elicitation guidance with evaluators.
- We are asking capability evaluators to use Codex as a common floor for OpenAI models: tests should at least run a baseline through the same agentic interface users are likely to rely on, rather than only through a stripped-down model interface.
- We are also making reasoning traces and other intermediate artifacts available where they are needed to assess deception, sandbagging, or evaluation awareness. METR and Apollo have used this access in OpenAI evaluations since GPT‑5.
- Finally, we are prioritizing research to more deeply understand when and how harness choices materially change results, from context management and tool access to retry behavior, scoring, and resource budgets.
What this means for evaluation standards and future research directions
These recommendations are intended not only to improve individual evaluation reports, but also to inform emerging national (opens in a new window)and international (opens in a new window)standards for frontier AI evaluation and reporting. Going forward, third party evaluation standards should require enough detail for decision makers to understand what claims the specific evaluations support, what system was tested, how the result was elicited, and how evaluators checked its validity. For frontier systems being tested on tasks where agentic capabilities matter, details should include (subject to any security or confidentiality concerns):
- The claim: whether the evaluation compares systems, estimates a capability ceiling, or tests safeguards.
- Evaluation content: enough detail about the tasks or task distribution for readers to understand what skills, behaviors, or failure modes the evaluation is actually testing.
- The tested system: the model, reasoning setting, tool access, harness, and safeguards.
- The budget: turns, tokens, attempts/retries, wall-clock time, inference cost, and where applicable expected cost per successful solve.
- Elicitation methods: harness choices used to draw out the result, and how closely what was tested reflects the broader claim being made.
- Validity checks: how assessors looked for reward hacking, evaluation awareness, contamination, refusals, sandbagging and other behaviors that could undermine the result, including how confirmed cases affected scoring or interpretation.
Standards that leave out harness choices or validity checks can understate what a system can do or overstate confidence in a safety claim. Building strong harnesses and elicitation methods remains an open research area and should be a focus for further investigation and investment.
関連記事
信頼できる第三者評価のための共有プレイブック
OpenAI が、信頼性の高い第三者による評価を行うための共通の指針(プレイブック)を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。
AI加速型攻撃に備えるセキュリティプログラムの準備
セキュリティ専門家が、AI技術を悪用した攻撃の増加に対応するため、防御プログラムの強化を呼びかけている。
Metaのスーパーインテリジェンスラボ、新スタック上初の frontier モデル「Muse Spark」を発表
MetaのSuperintelligence Labsは、独自の新インフラスタック上で動作する初のフロンティアモデル「Muse Spark」を発表した。同社はさらに大規模なモデルの開発を進めており、限られたパートナー向けにプライベートAPIプレビューを開始した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み