OpenAI、AIコーディングベンチマークの引退を提案
OpenAIは、AIのコーディング能力を評価するために広く使われているSWE-benchベンチマークの引退を提案。より実践的な評価基準への移行を目指す。
キーポイント
OpenAIがAIコーディング評価の業界標準ベンチマーク「SWE-bench Verified」の廃止を提唱
ベンチマークの59.4%以上に欠陥があり、正しい解答を誤って拒否する問題が指摘
主要モデルの学習データにタスクと解答が漏洩し、実力測定ではなく記憶力テストになっている
OpenAIは代替ベンチマーク「SWE-bench Pro」を推奨し、自社の非公開テストを開発中
汚染されたベンチマークは競合(特にオープンソースモデル)の評価を歪める戦略的リスクを含む
影響分析・編集コメントを表示
影響分析
AIコーディング能力評価の業界標準が根本的に問い直される重大な転換点。ベンチマークの信頼性低下はAI開発の進捗測定を困難にし、企業間の競争環境やオープンソースコミュニティの評価に影響を与える可能性が高い。これにより、より実践的で漏洩リスクの少ない評価手法の開発が加速すると予想される。
編集コメント
ベンチマーク汚染問題はAI評価の根本的な課題を露呈しており、単なる技術論争を超えて業界の評価基準そのものの再構築を迫る重要な議論だ。
OpenAI、AIコーディングベンチマークの引退を提案
OpenAIは、SWE-bench Verifiedプログラミングベンチマークが、AIのコーディング能力を意味ある形で測る指標としての価値を失ったと述べています。同社は主に二つの問題点を指摘しています。第一に、ベンチマークのタスクの少なくとも59.4%に欠陥があり、特定の実装詳細を強制したり、タスクで説明されていない関数をチェックしたりするため、正しい解決策を却下してしまうことです。
また、多くのタスクとその解決策が主要モデルの学習データに漏洩しています。OpenAIの報告によると、GPT-5.2、Claude Opus 4.5、Gemini 3 Flash Previewは、一部のオリジナルの修正を記憶から再現できたとのことです。これは、ベンチマークの進歩が、モデルがどれだけ上手くコードを書くかではなく、何を見てきたかをますます反映するようになっていることを意味します。OpenAIは代わりにSWE-bench Proを推奨しており、自社では非公開のテストを構築中です。
ここには戦略的な思惑も考えられます。「汚染された」ベンチマークは、競合他社、特にオープンソースモデルをより良く見せ、順位を歪める可能性があるからです。SWE-bench Verifiedは長らくAIコーディング評価のゴールドスタンダードであり、OpenAI、Anthropic、Google、そして多くの中国のオープンウェイトモデルが僅差のリードを争ってきました。AIベンチマークは有用な指標を提供できますが、その実世界での価値は依然として限られています。
誇大広告なしのAIニュース – 人間によるキュレーション
THE DECODERの購読者になると、広告非表示での閲覧、週刊AIニュースレター、年6回の限定レポート「AI Radar」フロンティアレポート、コメントへのアクセス、完全なアーカイブを利用できます。
原文を表示
OpenAI wants to retire the AI coding benchmark that everyone has been competing on
OpenAI says the SWE-bench Verified programming benchmark has lost its value as a meaningful measure of AI coding ability. The company points to two main problems: at least 59.4 percent of the benchmark's tasks are flawed, rejecting correct solutions because they enforce specific implementation details or check functions not described in the task.
Many tasks and solutions have also leaked into leading models' training data. OpenAI reports that GPT-5.2, Claude Opus 4.5, and Gemini 3 Flash Preview could reproduce some original fixes from memory, meaning benchmark progress increasingly reflects what a model has seen, not how well it codes. OpenAI recommends SWE-bench Pro instead and is building its own non-public tests.
There's a possible strategic angle here: a "contaminated" benchmark can make rivals—especially open-source models—look better and skew rankings. SWE-bench Verified was long the gold standard for AI coding evaluation, with OpenAI, Anthropic, Google, and many Chinese open-weight models competing for small leads. AI benchmarks can provide useful signal, but their real-world value remains limited.AdDEC_D_Incontent-1Ad
AI News Without the Hype – Curated by Humans
As a THE DECODER subscriber, you get ad-free reading, our weekly AI newsletter, the exclusive "AI Radar" Frontier Report 6× per year, access to comments, and our complete archive.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み