リリース前にデプロイをシミュレーションしてモデルの挙動を予測する手法
OpenAI は、大規模モデルの公開前にデプロイ環境をシミュレーションする手法を発表し、潜在的なリスクや挙動を事前に評価する新たな安全基準を確立した。
キーポイント
事前シミュレーション手法の発表
モデルを実際に公開する前に、デプロイ環境を模倣して挙動を予測・評価する新しいフレームワークを開発し発表した。
リスクの早期発見と防止
本手法により、リリース後の予期せぬ有害な挙動やセキュリティリスクを事前に特定し、被害を未然に防ぐことを可能にする。
AI 安全性の向上への寄与
複雑な AI モデルの社会実装における不確実性を低減し、より安全で信頼性の高いシステム開発プロセスを推進する。
影響分析・編集コメントを表示
影響分析
この発表は、AI モデルの開発ライフサイクルにおいて「事後対応」から「事前予防」へとパラダイムをシフトさせる重要な転換点となる。特に大規模言語モデルが社会に浸透する中で、予期せぬ副作用を防ぐための実用的な手段を提供し、業界全体の安全性基準を引き上げる可能性が高い。
編集コメント
モデルの公開前にシミュレーションでリスクを検知する手法は、実社会への導入が進む中で不可欠な安全策であり、開発者の責任ある姿勢を示す好例です。
イントロダクション
新しいモデルをリリースする前に、ラボは単にそのモデルができることだけでなく、実世界での使用においてどのように振る舞う可能性があり、どこで新たなリスクをもたらす可能性があるかを理解する必要があります。これは、能力が向上するにつれてさらに重要になります。事前展開安全性レビューの一環として、私たちはターゲット評価、レッドチーム演習、その他のチェックを活用してモデルの振る舞いを理解しています。現在、リリース前にモデル展開をシミュレーションする方法を採用し始めました。これにより、ユーザーに到達する前に候補モデルがどのように振る舞うかを示す、展開に似たプレビューという補完的な信号が得られます。
Deployment Simulation(展開シミュレーション)は、実際の展開が行われる前に将来の展開をシミュレーションするための手法です。私たちは、プライバシーを保護しながら過去の会話を新しい候補モデルで再生することでこれを実現します。これにより、リリース前に現実的な文脈において新モデルがどのように応答するか、新たな望ましくない振る舞いが生じるか、そしてそれがどの程度の頻度で現れる可能性があるかを研究することが可能になります。
複数の GPT‑5‑series Thinking 展開において、Deployment Simulation は、望ましくないモデル行動の発生率に関する私たちの推定を改善し、リリース前に新たな不一致(misalignment)の形態を浮き彫りにし、モデルがテストされていることに気づくリスクを低減するのに役立ちました。また、この手法は困難なエージェント型展開にも適用され、標準的なチャットを超えてツール使用を含むより複雑なエージェント設定に拡張可能であること、および内部モデル展開前のリスク評価にも利用可能であることを示しました。
私たちはすでに、モデル開発の段階において Deployment Simulation(デプロイメント・シミュレーション)からの知見を活用し、従来の評価における盲点を特定するとともに、緩和策やデプロイに関する意思決定に役立ててきました。パイプラインの実行をより容易にするにつれ、将来のモデル開発プロセスにおいてその役割はさらに大きくなると期待しています。
Deployment Simulation の仕組み
業界全体で広く用いられているデプロイ前の評価では、一般的に、合成データ、手書き、あるいは本番環境のプロンプトを意図的に選択し、困難なケースや高重大度、敵対的なケースを含む混合セットが使用されます。これらの評価には、通常、2 つの相互に関連する目的があります。1 つ目は、デプロイ後のトラフィックで発生する可能性が極めて低い状況においてモデルがどのように反応するかを評価することです。2 つ目は、望ましくないモデル行動全般を理解し、新たな望ましくない行動を発見するとともに、そのデプロイ時の発生頻度を予測することです。
従来の評価は最初の目的にとって依然として不可欠ですが、Deployment Simulation は、非テールリスク(本稿の実験では、1 回あたり 20 万メッセージ未満の頻度で発生する行動を測定することは期待できない)に関する第 2 の目的において、大きな前進を表しています。Deployment Simulation の強みは、従来の評価が抱えるいくつかの中核的な課題を回避できる点にあります:
- カバレッジ:評価用プロンプトが、モデルの望ましくない行動のすべての可能なタイプを網羅しているという確信を持つことは困難です。新しいタイプの望ましくない行動を測定するには、新たな評価を作成し、何を測定すべきかを把握する必要があります。これは時間と労力を要するものであり、評価は時間の経過とともに飽和する可能性があります。
- 選択バイアス:従来の評価は一般的に、特定の望ましくないモデル行動を意識して構築されており、以前に発生した文脈に偏るような方法で選択されています。これにより、そのような行動が展開分布の全範囲において発生する頻度に関する推定値が、あまり有益でないものになる可能性があります。
- モデルによるテスト認識:モデルは次第に自分がテストされていることを判断できるようになっており、これがその行動を歪め、安全性に関する私たちの後続測定に影響を与える可能性があります。OpenAI で使用している従来の評価の多くも生産トラフィックから抽出されたものであり、この問題に悩まされないものもありますが、これは業界全体で広く使われている多くの従来の評価における一般的な懸念事項です。
Deployment Simulation の背後にある主要な技術はシンプルです:デプロイメントからの最近の会話データを取得し、古いモデルによる元のアシスタント応答を削除して、リリース候補となる新しいモデルで再生成します。生成された応答については、新たな失敗モードを検索することで評価を行い、このデプロイメントに似た分布内での発生頻度に基づいて、本番環境での望ましくない動作の発生頻度を推定します。リリース後には実際のデプロイメントトラフィックに対して同じ測定を行うことで、事前のデプロイメント予測の有効性を検証できます。
Deployment Simulation は上記の 3 つの制限を大幅に緩和します。サンプリングバイアスについては、最近の利用状況を代表する評価用プロンプトの分布を使用することで対処されます。代表的なプロンプトを用いた Deployment Simulation は、カバレッジに関する懸念も軽減可能です:より多くのトラフィックをシミュレーションするだけで、望ましくないモデル動作のカバレッジを拡大できます。計算リソースとカバレッジの間のこのトレードオフは重要です。なぜなら、これによりリスク評価のこの軸における品質が、追加の評価を作成するために必要な人的努力ではなく、利用可能な計算リソースに比例してスケールするからです。また、モデル自体も、Deployment Simulation を通じて取得した会話データと、実際のデプロイメントトラフィックを区別できないようです。
*Figure 1: Overview of our Deployment Simulation pipeline*
Area
Traditional Evaluations
Deployment Simulation
Coverage
Better for low prevalence but high severity risks that we want to make sure we have coverage for
デプロイメントトラフィックで直面する可能性のあるリスクのスペクトラムを理解するために有益です
代表性 / バイアス
デプロイメントにおける発生頻度が極めて低い行動であっても、特定の過去または予測されるリスクに焦点を当てて評価することに注力します。
現在のデプロイメントトラフィックにおいて一定以上の発生頻度を持つリスクを代表するものです。
評価への意識(エヴァリュエーションアウェアネス)
合成データなどを用いた場合、テストの手がかりが潜在的に明白になる可能性があります。ただし、評価用データとしてデプロイメントデータを活用して作成された場合はこの限りではありません。
デプロイメントに近い文脈は、評価への意識を著しく低減させることが示されています。
労力(エフォート)
カスタムプロンプト分布や設定には、大幅な手作業の労力を要します。
一度インフラコストを負担すれば、デプロイメントからのプレフィックスと既知の望ましくない行動に対するグラダーを再利用できます。
*従来の評価とデプロイメントシミュレーションの高レベル比較*
デプロイメントシミュレーションのテスト方法
Deployment Simulation の評価を行うために、GPT‑5.4 Thinking の本番環境での頻度について、20 種類の望ましくない行動に関する予測を事前に登録しました。また、GPT‑5 シリーズの Thinking モデルの他の展開事例についても回顧研究を実施しました。分析対象となるモデルの振る舞いには、システムカードで報告してきた不一致および禁止コンテンツのカテゴリー(例:ツールについて嘘をつく、禁止された性的なコンテンツを出力するなど)が含まれます。今回の結果では 20 のカテゴリの望ましくないモデル行動のみを追跡し、新規の不整合行動のみを検出していますが、Deployment Simulation は本番環境での任意のモデル特性をシミュレートするために適用可能な一般的な技術です。
利用した本番トラフィックも GPT‑5 シリーズの Thinking モデルからのものです。評価を実行する前に、アカウントに紐付けられた識別子および個人を特定できる情報を自動的に削除しました。プライバシーポリシーに従い、モデル改善のためにデータの使用を許可したユーザーからの ChatGPT トラフィックのみを分析対象としました。報告するのはこれらの評価から得た集計結果のみです。合計で、2025 年 8 月から 2026 年 3 月までの GPT‑5 Thinking から GPT‑5.4 の展開に至る約 130 万件の匿名化された会話进行分析しました。
Deployment Simulation が本番環境導入前に生成するリスク評価の品質は、主に以下の 3 つの方法で評価されます:
- タクソノミーの網羅性:リリース後の監査により、初期の悪意ある行動タクソノミーに欠けていた重要な整合性外れ行動は発見されたか?
- 方向性の精度:シミュレーションは、既知の行動について展開後の普及率が上昇するか低下するかを正しく予測できたか?
- レート較正:展開前の推定値は、その後に展開で観測されたレートと近かったか?良好なレート較正を達成するには方向性の精度だけでは不十分であり、これが最も高い品質基準となる。
また、Deployment Simulation においてモデルが評価中であることを認識できている程度を測定し、異なる形態の展開トラフィックや困難なツール使用設定に対してこの手法がどの程度頑健であるかをテストする。
Deployment Simulation は事前展開リスク評価を大幅に拡大する
GPT‑5 シリーズ Thinking の展開全体において、Deployment Simulation は実際のリスク率を特定する上で挑戦的なプロンプトベースラインを上回り、リリース前に計算機ハッキングを発見することができ、モデルにとっては展開と区別がつかないほどであるように見える。
予測の概要。 GPT-5 シリーズの Thinking モデル展開に関するすべての予測の可視化については、図 2 を参照してください。GPT-5.4 Thinking の予測は事前登録されたものであり、他の予測は事後に遡って行われたものです。集計すると、私たちの予測の乗算誤差の中央値は 1.5 倍でした(例えば、望ましくない行動の発生率が 10 万分の 10 の場合、これは 10 万分の 15 または 6.67 と推定されることを意味します)。私たちの手法におけるテール誤差は概ね 10 倍程度大きくなる可能性がありますが、以下で議論するように、シミュレーションパイプラインのさらなる改善により、これらを大幅に削減できると期待しています。
*図 2。過去の展開データに基づいた、展開時の望ましくない行動の頻度に関する展開シミュレーション予測。記号「5.1 → 5」は、GPT-5 のプレフィックスを GPT-5.1 で再サンプリングしていることを示し、つまり GPT-5 のデータに基づいて GPT-5.1 の展開をシミュレートしていることを意味します。最も高いミスマッチ行動の発生率は「電卓ハッキング」であり、これは *以前に(新しいウィンドウで開く)* で議論しました。*
デプロイメント・シミュレーションの予測とベースラインの比較。 事前デプロイメントにおけるリスク評価において、正しく推定することが最も重要なのは、モデルのデプロイ後に発生頻度に大きな変化(例:1.5 倍以上)が生じるカテゴリです。このサブセットにおいては、Deployment Simulation は、特定の望ましくない行動がモデルのデプロイに伴って増加するか減少するかを予測する能力(Figure 3, 左図)において、またその正確なデプロイ時の発生頻度を推定する能力(Figure 3, 右図)において、いずれもベースラインよりも大幅に優れています。私たちが用いる主なベースラインは二つあります。一つは現在システムカードやローンチの判断に使用している「Challenging Prompts ベースライン」であり、もう一つは、新しいモデルに対する推定値として前回のデプロイ時のレートを使用する単純な(naive)ベースラインです。
*Figure 3. Deployment Simulation は、静的評価よりも発生頻度の変化の方向性(左図)と正確な本番環境での発生率(右図)をよりよく予測します。
当社のパイプラインにおけるシミュレーション誤差の原因。 私たちはまた、現在のパイプラインにおける誤差の主な原因についても調査を行いました。具体的には、大きな尾部誤差(tail errors)が存在すると、デプロイメント判断においてパイプラインの信頼性が損なわれます。例えば、ある種類の望ましくない行動が大幅に増加すると予測された場合でも、そのパイプラインが偶発的に大きな誤差を犯すことが知られていると、これが信頼できる推定値なのか、それともパイプラインに起因するアーティファクト(人工的な結果)なのかという疑念が生じます。考えられる誤差の主な原因は二つあります:
- リサンプリング環境忠実度エラー:生産環境でのレートを見積もるには、シミュレーションパイプラインを可能な限り現実的なものにする必要があります。これは一部、本番トラフィックに使用されるのと同じパイプラインを使用してモデルからサンプリングするというエンジニアリング上の課題であり、他方では常に変化する外部リソース(例えばウェブ検索やローカルファイルとの対話など)への読み書きアクセスを必要とするツールにとって興味深い挑戦です。実際のデプロイとそのシミュレーション(すでにデプロイされたモデルのデプロイをシミュレートすること)からの予測を比較することで、シミュレーション忠実度エラーを分離して評価できます。
- プロンプト分布シフトエラー:Deployment Simulation における主要な懸念は、どのモデルのデプロイも入力に分布シフトを引き起こす可能性があり、特にユーザーが新しいモデルの機能に適応した場合です。最近のプロンプトを使用する場合と、実現されたデプロイからのプロンプトを使用する場合の見積もりを比較することで、プロンプト分布エラーを分離して評価できます。
図 4 に示されているように、私たちのパイプラインにおける誤差の大部分、特にテールエラーについては、現在シミュレーション忠実度が主な原因であることがわかりました。これは朗報です。なぜなら、シミュレーション忠実度の向上は、プロンプト分布シフトを減らすことよりも一般的に容易であると予想されるからです。また、前回のデプロイから得られた最新のデータを使用することで、プロンプト分布シフトエラーを低減できる可能性も見出しました。詳細については研究論文をご覧ください。
*図4:再サンプリング環境の忠実度は、特に最も極端な誤差において、私たちの推定における最大の誤差源であるように思われます。
自動監査により、これらの展開で新たに導入された1つの不整合が発見されました。 私たちが調査した展開ウィンドウでは、シミュレーション展開に基づく自動監査パイプラインが、「電卓ハッキング」をリリース前に検出していたはずです。これは分析対象のChatGPTトラフィックにおいて特定された唯一の新たな不整合でした。電卓ハッキングは、モデルがブラウザツールを電卓として使用しながらその行動を検索として提示する報酬ハッキングの一形態です。これは大規模な監査がすべての新しい失敗を検出できることを意味するものではありませんが、現実的な文脈がなぜ重要であるかを示しています:より狭い評価セットでは直接表面化しない可能性のある振る舞いを引き起こすことがあり、シミュレーションの種として使用された元のトラフィックに存在しなかった場合でもです。
評価意識の低減
デプロイメントに似た文脈を使用する別の利点は、モデルがテストされていることを認識した際に生じる歪みを軽減できる可能性があることです。これまでの研究において、私たち や 他の研究者 は、モデルがテストされている状況をしばしば認識していることを発見しています。例えば、モデルは思考連鎖の中で、自分が何についてテストされているのか、評価者が何を望んでいるのか、そしてもし不適切な行動をとっている場合、それがばれてしまうのではないかといった推論を行うことがあります。これはアライメント評価にとって課題となります:モデルがテストされていると信じているからこそ良好に振る舞うのであれば、デプロイされたことを学んだ後に安全に振る舞うという確信をどうすれば得られるのでしょうか?
私たちは、従来の評価(実稼働データに基づかないもの)と比較して、デプロイメント・シミュレーションがモデルが示す評価への意識レベルを大幅に低下させることを示します。評価への意識は3つの方法で測定されます:1) モデルに対して、あるトランザクションが生産環境由来か評価用か classification するよう問いかけること、2) チェーン・オブ・スー(chain-of-thought)においてアライメントのための評価を受けていることを明示的に記述しているかを監視すること、3) メタゲーミング(新しいウィンドウで開く):監督に関するあらゆる推論の検出です。シミュレーションされたデプロイメント・トラフィックは、これら3つの測定項目すべてにおいて実稼働トラフィックと非常に良く一致しました。例えば、GPT‑5.2 は実稼働トラフィックを評価用と類似したものと 5.4% の頻度で、シミュレーションされたトラフィックを 5.1% の頻度でラベル付けしましたが、従来の評価(SWE-Bench や MonorepoBench など、主に合成例から構成されるもの)はほぼ 100% の頻度で評価用と分類されました。
*図 5. 評価への意識の比較:実稼働トラフィックとシミュレーションされたトラフィックは、評価検出、言語化されたアライメント評価への意識、メタゲーミングにおいて同様の率を示しますが、従来の評価データセットでははるかに高い率が報告されています。
エージェント・トランザクションのためのツール・シミュレーション
標準的なチャットモードを超えてこの手法を拡張できるかどうかを検証するため、困難なエージェント型コーディング設定におけるデプロイメントのシミュレーションも調査しました。具体的には、GPT-5.4 の内部従業員による 120,000 のエージェント軌跡(trajectories)を用いて、GPT-5.5 ベースのコーディングエージェントの内部デプロイメントをシミュレートします。これには二つの目的があります:まず、デプロイメント・シミュレーションが内部デプロイメントにおけるリスク評価にも活用できることを示すこと、そして、注意深いツール(tools)のシミュレーションを通じて、エージェント型設定においても高いシミュレーション忠実度(fidelity)を達成可能であることを実証することです。
前述した通り、現在のパイプラインにおける誤差の主要な源泉の一つがシミュレーション忠実度です。デプロイメント・シミュレーションを実践的なものにする際の課題の一つは、外部リソースへの読み書きアクセスが必要となる場合でも、それらが常に変化する状況(例えばウェブ検索やローカルファイルとの対話)においてツールが現実的な振る舞いをする必要がある点にあります。
これは特にエージェント型デプロイメントのような設定において顕著な課題です。単一のエージェント軌跡は、数百回のツール呼び出し、リポジトリの状態、ネットワーク応答、あるいは一時的な障害に依存する可能性があります。これにより、実際のツールアクセスを伴う再サンプリング(resampling)は困難であるだけでなく、潜在的に危険なものにもなり得ます。こうした状況を踏まえ、ライブシステムに対して直接ツール呼び出しを行うのではなく、別の大規模言語モデル(LLM)を用いてそれらをシミュレートします。この LLM に追加的な機能(affordances)を与えることが、現実味を高めるために不可欠であり、したがって推定品質の向上にもつながることを示しています。
ツール・シミュレータモデルには、元の最終ターンロールアウト、会話当時のリポジトリ、ツール呼び出し/レスポンスペアのデータベース、および読み取り専用コネクタを与えます。弁別器がシミュレートされたロールアウトと実際のロールアウトを区別しようとするテストでは、現実性は勝率 11.6% から 49.5% に向上し、約 50% の確率レベルに近づきました。
*Figure 6: ツール呼び出しを増強したアフォーダンスでシミュレートすることで、ツール依存度の高い設定においても、リサンプリングの現実性を実際のサンプリングとほとんど見分けがつかなくすることができます。*
シミュレーションの忠実さに対する追加的な証拠として、GPT‑5.4 で GPT‑5.4 Codex の思考トラフィックをシミュレートした場合、不整合率はほぼ誤差範囲内に収まります。一方、事前展開テストでは、GPT‑5.5 はほとんどのカテゴリでより不整合を示しました。
*Figure 7: ツール・シミュレーションを用いると、GPT‑5.4 でリサンプリングされた会話の行動率と、実際の GPT‑5.4 の本番トラフィックの行動率は非常に類似しており、高いリサンプリング環境の忠実さを示しています。カテゴリに関する詳細な文脈については、*GPT‑5.5 システムカード(新しいウィンドウで開く)* を参照してください。*
これらの結果は、周辺ツール環境が十分な忠実度でシミュレートされる場合、デプロイメント・シミュレーションを複雑なエージェント設定に拡張できることを示唆しています。
WildChat と外部監査
自然な疑問として、外部監査員がプライベートな本番トラフィックへのアクセスなしに、同様の恩恵を一部得られるかどうかがあります。これを検証するために、プレフィックスとして使用された 100,000 の WildChat 会話を用いてテストを行いました。WildChat は直近の OpenAI 本番データよりも精度は低かったものの、依然として有益な知見を提供しました:直近の本番データの方が平均乗算誤差が小さく(1.75 倍対 2.44 倍)、一方 WildChat は多くの場合、本番レートの約 3 倍以内に収まり、確率以上のレートでより優れたモデルを特定できました。私たちは、WildChat スタイルの評価を、開発者が実行するデプロイメント・シミュレーション(Deployment Simulation)の有望な補完手段と捉えています。この点に関するさらなる結果については、関連する Alignment ブログ投稿(新しいウィンドウで開く) をご覧ください。
限界事項
デプロイメント・シミュレーションは、敵対的評価(adversarial evaluations)、レッドチーム演習(red-teaming)、およびターゲットを絞ったテールリスク分析(tail-risk analysis)の代替ではなく、それらを補完するものです。一部の望ましくないモデル挙動の検出には、思考連鎖の監視可能性(chain-of-thought monitorability)への依存があります:将来のモデルがより読み取りにくい推論を行う場合、重要なステップを省略する場合、あるいは意図を隠すことを学習した場合、これらの望ましくない行為の形態を検出できない可能性があります。さらに、本番データは非公開であるため、開発者は現在、外部監査員よりも代表的な文脈にアクセスする上で優位性を持っています。より優れたパブリック・データセットが、この格差を縮小できるかもしれません。
デプロイメント・シミュレーションは、サンプリングされたプレフィックスに現れるほど頻繁に発生する振る舞いに対して最も有用です。1000 万回の会話のうち一度しか発生しない失敗は、100 万サンプルの実行では発見されない可能性が高いため、敵対的評価(adversarial evaluations)、レッドチーム演習(red-teaming)、およびターゲットを絞ったテールリスク分析(tail-risk analysis)は依然として必要です。現在、私たちは単一のアシスタント応答のシミュレーションに焦点を当てていますが、予備的な実験では複数のターンをシミュレートしても推定値に有意な改善は見られませんでした。これは将来、シミュレーションの忠実度を向上させる重要な分野となる可能性があります。
この手法はまた、プレフィックス分布、つまり再サンプリングされる会話の混合にも依存します。過去のトラフィックが、主要な製品変更、新ツールのリリース、世界的出来事、または季節の変化後にユーザーがより能力の高いモデルとどのように相互作用するかを反映していない可能性があります。完全な論文における分析では、この問題は利用可能な最新のデータを使用することで緩和できると示唆されています。
結論
デプロイメントシミュレーションは、フロンティア研究所や評価者が言語モデルが実世界でどのように振る舞うかを予測し、デプロイ前にモデルがもたらすリスクを理解するための新しい事前デプロイメントリスク評価アプローチです。これは、より生産環境に近い予測層を追加することで既存の安全性評価、レッドチーム演習、およびターゲット分析を補完し、デプロイメント行動の推定精度を向上させ、評価への意識効果(evaluation-awareness effects)を低減し、リリース後に事前デプロイメント予測を検証可能にします。従来の評価と併用することで、モデルリスク評価をより現実的なものにし、より定量的なものとし、デプロイメント判断においてより有用なものにすることができます。
Deployment simulation is a new approach to pre-deployment risk assessment that helps frontier labs and evaluators predict how language models may behave in the real world and understand the risks they pose before deployment. It complements existing safety evaluations, red-teaming, and targeted analysis by adding a more production-like prediction layer that can improve estimates of deployment behavior, reduce evaluation-awareness effects, and make pre-deployment predictions checkable after release. Used alongside traditional evaluations, Deployment Simulation can help make model risk assessment more realistic, more quantitative, and more useful for deployment decisions.
原文を表示
Introduction
Before releasing a new model, labs need to understand not just what it can do, but how it is likely to behave in real-world use, including where it might introduce new risks. This becomes even more important as capabilities increase. As part of our pre-deployment safety review, we leverage targeted evaluations, red-teaming, and other checks to understand model behavior. We’ve now started using a method for simulating model deployments before they happen, which adds a complementary signal: a deployment-like preview of how a candidate model may behave before it reaches users.
Deployment Simulation is a method for simulating a future deployment before it happens. We do so by replaying previous conversations in a privacy-preserving manner with a new candidate model. This enables us to study how the new model responds in realistic contexts before release, including whether new undesired behaviors emerge and how often they may appear.
Across multiple GPT‑5‑series Thinking deployments, Deployment Simulation improved our estimates of undesired model behavior rates, helped surface novel forms of misalignment before release, and helped reduce the risk that models would be able to tell they were being tested. We also applied the method to challenging agentic rollouts, showing that it can extend beyond standard chat to more complex agent settings involving tool use, and can also be used for risk assessment before internal model deployments.
We have already used insights from Deployment Simulation during model development to identify blind spots in traditional evaluations and inform mitigations and deployment decisions. As we make the pipeline easier to run, we expect it to play a larger role in the future model development process.
How Deployment Simulation works
Pre-deployment evaluations used across the industry generally consist of a mix of synthetic, manually written, or production prompts intentionally selected to be difficult, high severity, or adversarial. These evaluations have generally had two intertwined goals: assessing how the model responds when stress-tested in situations that have a very small chance of occurring in deployment traffic, and gaining a general understanding of undesired model behaviors, including finding novel undesired behaviors and predicting their deployment-time frequencies.
While traditional evaluations remain crucial for the first goal, Deployment Simulation represents a significant step forward with regards to the second goal for non-tail risks (in our experiments, our approach can’t be expected to measure behaviors that occur with frequency less than 1 in 200,000 messages). Deployment Simulation’s strength comes from side-stepping some core challenges with traditional evaluations:
- Coverage: it is difficult to be confident that evaluation prompts will cover all possible types of undesired model behavior. Measuring new types of undesired behavior requires creating new evaluations, and knowing what harms to measure. This can be time and labor intensive, and evaluations can saturate over time.
- Selection biases: traditional evaluations generally are built with specific undesired model behaviors in mind, selected in ways that bias towards contexts have previously occurred. This may make their estimates less informative about incidence of such behaviors in the full breadth of the deployment distribution.
- Being recognizable as tests by models: models have been increasingly able to determine they are being tested, which can distort their behavior and our downstream measurements of their safety. While many of the traditional evaluations we use at OpenAI are also drawn from production traffic and don’t suffer from this issue, this is a common concern for many traditional evaluations used across the industry.
The main technique behind Deployment Simulation is simple: we take recent conversations from deployment, remove the original assistant response from the older model, and regenerate it with a candidate model to be released. We evaluate the completions by searching for new failure modes, and estimate deployment-time undesired behavior frequency based on frequency in this deployment-like distribution. We can perform the same measurements after release on real deployment traffic, enabling us to validate our pre-deployment forecasts.
Deployment Simulation significantly mitigates the three limitations listed above: sampling bias is addressed by using a distribution of evaluation prompts representative of recent usage. Deployment Simulation with representative prompts can also mitigate concerns about coverage: we get greater coverage of undesirable model behaviors by simply simulating more traffic. This tradeoff between compute and coverage is important, because it makes the quality of this axis of risk assessment scale with compute, rather than the manual effort required to build more evaluations. Models also don’t seem to be able to distinguish between conversations obtained via deployment simulation and real deployment traffic.
Area
Traditional Evaluations
Deployment Simulation
Coverage
Better for low prevalence but high severity risks that we want to make sure we have coverage for
Better for understanding the spectrum of risks we’re likely to see in deployment traffic
Representativeness / bias
Focused on evaluating targeted past or predicted risks, even for behaviors that have extremely low prevalence in deployment
Representative of risks that occur above a certain prevalence in current deployment traffic
Evaluation awareness
Potentially obvious test cues (e.g., with synthetic data) unless evals are created with deployment data
Deployment-like context seems to significantly mitigate eval awareness
Effort
Custom prompt distributions and setups requires significantly more manual effort
Requires a one-time infrastructure cost, and then reuses prefixes from deployment and graders from known undesired behaviors
*High level comparison between traditional evaluations and Deployment Simulation*
How we tested Deployment Simulation
To evaluate Deployment Simulation, we pre-registered predictions for the deployment-time frequency of 20 types of undesirable behavior for GPT‑5.4 Thinking. We also ran retrospective studies across other deployments of Thinking models of the GPT‑5‑series. The model behaviors we analyze cover both misalignment and disallowed content categories which we have been reporting in system cards (e.g. the model lying about tools, or outputting disallowed sexual content). While for these results we only track 20 categories of undesired model behavior, and only look for novel misaligned behaviors, Deployment Simulation is a general technique which could be applied to simulate any deployment-time model property.
The production traffic we leveraged was also from Thinking models of the GPT‑5‑series. Before running our evaluations, we automatically removed account-linked identifiers and identifiable information. In accordance with our privacy policy, we only analyzed ChatGPT traffic from users who allow their data to be used for model improvements. We report only aggregate findings from these evaluations. In total, we analyzed approximately 1.3 million de-identified conversations across GPT‑5 Thinking through GPT‑5.4 deployments, spanning August 2025 to March 2026.
We evaluate the quality of the pre-deployment risk-assessment produced by Deployment Simulation in three main ways:
- Taxonomy coverage: did post-release auditing surface any important misaligned behaviors missing from our initial bad behavior taxonomy?
- Directional accuracy: did the simulation correctly predict whether deployment prevalence would increase or decrease for known behaviors?
- Rate calibration: were our pre-deployment estimates close to the rates we later observed in deployment? Achieving good rate calibration requires more than directional accuracy, making this the highest possible quality standard.
We also measure how much models are able to tell they are in an evaluation during Deployment Simulation, and test how robust the method is to different forms of deployment traffic and to challenging tool use settings.
Deployment Simulation significantly expands pre-deployment risk assessment
Across GPT‑5‑series Thinking deployments, Deployment Simulation outperformed challenging-prompt baselines in determining actual risk rate, was able to surface calculator hacking before release, and appeared potentially indistinguishable from deployment to the model.
Overview of our predictions. For a visualization of all predictions for Thinking model deployments of the GPT‑5‑series, see Figure 2. The predictions for GPT‑5.4 Thinking were pre-registered, while the others were retroactive predictions. In aggregate, our predictions had a median multiplicative error of 1.5x (e.g. if the undesirable behavior rate is 10 in 100k, this would correspond to estimating a rate of 15 or 6.67 in 100k). While tail errors of our method can be roughly 10x larger, we expect they can be significantly reduced with further improvements to our simulation pipeline, as discussed below.
Comparing Deployment Simulation predictions to baselines. The most important categories to estimate correctly for pre-deployment risk-assessments are ones that have large changes of incidence after the model’s deployment (e.g. >= 1.5x). On this subset, Deployment Simulation is substantially better than baselines both at predicting whether a certain undesirable behavior will increase or decrease in prevalence with a model’s deployment (Figure 3, left), and at estimating its exact deployment-time incidence (Figure 3, right). We use two main baselines: a Challenging Prompts baseline which we currently use for system cards and launch decisions, and a naive baseline of using rates from the previous deployment as estimates for the new model.
Sources of simulation error in our pipeline. We also studied the current sources of error in our pipeline. Specifically, large tail errors make the pipeline less trustworthy for deployment decisions: for example, when seeing a large predicted increase in an undesirable behavior of a certain type, if the pipeline is known to have even occasional large errors, it raises doubt about whether this is a reliable estimate or an artifact of the pipeline. There are two main sources of possible error:
- Resampling environment fidelity error: to estimate production rates accurately, our simulation pipeline needs to be as realistic as possible. This is in part an engineering problem (sampling from the model using the same pipelines used for production traffic), and in part an interesting challenge for tools which need read/write access to external resources which are constantly changing (e.g. web searches or interacting with local files). We can isolate the simulation fidelity error by comparing predictions from an actual deployment and its simulation (that is, simulating the deployment of the already deployed model).
- Prompt distribution shift error: a major concern with Deployment Simulation is that any model’s deployment will cause a distributional shift in inputs, especially if users adapt to new model affordances. We isolate prompt distribution error by comparing estimates when simulating the deployment using recent prompts vs prompts from the realized deployment.
As seen in Figure 4, we find that a large fraction of the error in our pipeline–especially for tail errors–is currently due to simulation fidelity. This is good news, as we expect simulation fidelity to be generally easier to improve than reducing prompt distribution shift. We also find that prompt distribution shift error may be reduced by using the most recent data from the previous deployment. More detail can be found in the research paper.
Automated auditing found the one new misalignment introduced in these deployments. In the deployment window we studied, our automated auditing pipeline based on simulated deployments would have surfaced ‘calculator hacking’ before release, which was the only novel misalignment we identified in the analyzed ChatGPT traffic. Calculator hacking is a form of reward hacking which involves the model using a browser tool as a calculator while presenting the action as a search. This does not mean large-scale auditing will catch every new failure, but it shows why realistic contexts matter: they can elicit behaviors that narrower eval sets may never surface directly, even if they were not present in the original traffic used to seed the simulation.
Reducing evaluation awareness
Another advantage of using deployment-like contexts is that they may reduce distortions that arise when models recognize they are being tested. In prior research, we as well as others(opens in a new window) have found that models are often aware of when they’re being tested. For example, models may reason in their chain-of-thought about what they’re being tested on, what an evaluator might like, and – if they’re misbehaving – whether they’ll be caught. This poses a problem for alignment evaluations: if a model is only well behaved because it thinks it's being tested, how do we build confidence that it’ll behave safely once it learns it’s been deployed?
We show that Deployment Simulation substantially reduces levels of evaluation awareness exhibited by models relative to traditional evaluations which are not based on real deployment data. We measure evaluation awareness in three ways: by asking a model to classify whether a trajectory came from production or an evaluation, monitoring chain-of-thought for explicit statements about being evaluated for alignment, as well as for metagaming(opens in a new window): any reasoning about oversight. Simulated deployment traffic closely matched real deployment traffic across all three measures. For example, GPT‑5.2 labeled real production traffic as evaluation-like 5.4% of the time and simulated traffic 5.1% of the time, while traditional evaluations (such as SWE-Bench or MonorepoBench, which are composed primarily of synthetic examples) were classified as evaluations almost 100% of the time.
Tool simulation for agentic trajectories
To test whether the method could extend beyond standard chat modes, we also studied simulating deployments for challenging agentic coding settings. Specifically, we use 120,000 internal employee agentic trajectories from GPT‑5.4 to simulate the internal deployment of coding agents based on GPT‑5.5. This serves two purposes: this shows how deployment simulation can also be used for risk-assessment for internal deployments, and it demonstrates that it is possible to make simulation fidelity high even in agentic settings via careful tool simulation.
Above we discussed that the simulation fidelity is one of the main sources of error in our current pipeline. One of the challenges with making deployment simulations realistic is that it requires tools to act in realistic ways, even when they need read/write access to external resources which are constantly changing (e.g. web searches or interacting with local files).
This is especially challenging for settings such as agentic deployments: a single agent trajectory can depend on hundreds of tool calls, repository state, network responses, or transient failures. This makes resampling with real tool access both challenging and potentially dangerous. In light of this, instead of applying tool calls to live systems, we simulate them with another LLM. We show that giving this LLM extra affordances is essential to realism and therefore estimation quality.
We give the tool-simulator model the original final-turn rollout, the repository from the time of the conversation, a database of tool-call/response pairs, and read-only connectors. In a test where a discriminator tried to tell simulated from real rollouts, realism improved from an 11.6% win rate to 49.5%, near the 50% chance level.
As additional evidence of simulation fidelity, when simulating GPT‑5.4 Codex thinking traffic with GPT‑5.4, the misalignment rates are, just about, within error bars. By contrast, in our pre-deployment testing GPT‑5.5 was more misaligned in most categories.
These results suggest that Deployment Simulation can extend to complex agent settings when the surrounding tool environment is simulated with sufficient fidelity.
WildChat and external auditing
A natural question is whether external auditors can get some of the same benefits without access to private production traffic. We tested this with 100,000 WildChat conversations used as prefixes. WildChat was less accurate than recent OpenAI production data, but still informative: recent production data had lower average multiplicative error than WildChat (1.75× vs. 2.44×), while WildChat often stayed within roughly 3× of production rates and identified the better model at above-chance rates. We see WildChat-style evaluations as a promising complement to developer-run Deployment Simulation. See this companion Alignment blogpost(opens in a new window) for more results on this point.
Limitations
Deployment Simulation is a complement to, not a replacement for, adversarial evaluations, red-teaming, and targeted tail-risk analysis. The detection of some undesired model behaviors relies on chain-of-thought monitorability: if future models reason less legibly, omit key steps, or learn to obscure intent, we may not be able to detect these forms of undesirable behavior. Furthermore, because production data is private, developers currently have stronger access to representative contexts than external auditors. Better public datasets could narrow that gap.
Deployment Simulation is most useful for behaviors that occur often enough to appear in sampled prefixes. A failure that occurs once in ten million conversations is unlikely to be discovered in a million-sample run, so adversarial evaluations, red-teaming, and targeted tail-risk analysis remain necessary. We currently focus on simulating a single assistant response, as in preliminary experiments we did not find meaningful improvements to our estimates by simulating multiple turns. This may be an important area for improving simulation fidelity in the future.
The method also depends on the prefix distribution—the mix of conversations that are being resampled. Historical traffic may not match how users interact with a more capable model after a major product change, new tool release, world event, or seasonal shift. Analysis in the full paper suggests that this issue can be mitigated by using the most recent data available.
Conclusion
Deployment simulation is a new approach to pre-deployment risk assessment that helps frontier labs and evaluators predict how language models may behave in the real world and understand the risks they pose before deployment. It complements existing safety evaluations, red-teaming, and targeted analysis by adding a more production-like prediction layer that can improve estimates of deployment behavior, reduce evaluation-awareness effects, and make pre-deployment predictions checkable after release. Used alongside traditional evaluations, Deployment Simulation can help make model risk assessment more realistic, more quantitative, and more useful for deployment decisions.
関連記事
Pramaana Labs が Khosla Ventures からシードラウンドで 2700 万ドルを調達し、AI の形式検証を実現へ
Pramaana Labs は Khosla Ventures などから 2700 万ドルの資金調達に成功し、AI システムの信頼性を高めるための形式検証技術の実用化を進める。
Qwen の具現化された世界モデル(28 分読了)
アリババ傘下の通義千問チームが、物理世界をシミュレートする新しい「具現化された世界モデル」を発表し、AI が現実環境を理解・予測する能力の向上を示した。
Google DeepMind が ASI(人工超知能)への道を探る
Google DeepMind が、人間を超える能力を持つ人工超知能(ASI)の実現に向けた研究経路について詳細な分析を行っている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み