GeneBench-Pro の紹介
OpenAI は遺伝子解析や生物学的研究の性能評価を目的としたベンチマークツール「GeneBench-Pro」を発表した。
キーポイント
新ツールの発表
OpenAI が、遺伝子解析および生物学的研究における AI モデルの性能を評価するための専用ベンチマークツール「GeneBench-Pro」をリリースした。
目的と用途
本ツールは、生物学分野における AI の精度や信頼性を客観的に測定・比較することを主眼として設計されている。
業界への影響
AI とバイオテクノロジーの融合領域において、標準的な評価基準を提供することで研究開発の加速が期待される。
影響分析・編集コメントを表示
影響分析
この発表は、AI が生命科学分野で果たす役割を定量的に評価する枠組みを提供し、業界全体の信頼性向上に寄与する可能性があります。ただし、現時点では単なるツール発表であり、具体的な技術的詳細や実証データが示されていないため、即座に業界構造を変える重大な転換点とは判断されません。
編集コメント
バイオテクノロジー分野における AI の評価基準整備は重要な一歩ですが、詳細な技術仕様や実証事例が示されていないため、現時点では業界の動向を注視する程度のニュースです。
科学的データには、通常、指示書が付随していません。研究者は、パターンが生体現象を反映しているのかノイズなのか、そのデータが問いかけられている質問に答えるのに十分かどうか、そして各結果が次の行動をどのように変えるべきかを判断しなければなりません。AI エージェントは複雑な分析を実行する能力をますます高めていますが、実際の科学研究では、単に事実を思い出すことや事前に定義されたワークフローに従うことだけでなく、こうした高次レベルの判断を行うことも不可欠です。
本日、私たちは GeneBench-Pro を発表します。これは、モデルが現実世界の計算生物学が必要とするような、判断を要する分析を処理できるかをテストするための、難易度が高く研究レベルのベンチマークです。GeneBench(新しいウィンドウで開く)(https://www.biorxiv.org/content/10.64898/2026.04.22.720113v1)を拡張し、ゲノミクス、定量的生物学、転換医学にわたるより困難で現実的なタスクをカバーします。これにより、計算生物学における科学研究の複雑さ、反復的な性質、そして曖昧さが捉えられています。
これまで、現実世界の計算研究を困難にするシステムレベルの判断に関する説得力のある評価はほとんどありませんでした。これには、曖昧さへの対応、仮定の修正、適切な分析経路の選択、結果が意思決定可能な状態にあるかどうかの判断などが含まれます。これらのスキルは形式化することが難しいため、それらの弱点が AI の全体的なパフォーマンスをますます制約するようになっているにもかかわらず、厳密に評価することも困難です。
GeneBench-Pro は、これらの高次能力を精密に測定するために設計されています。GeneBench-Pro 内では、「研究の勘所(research taste)」とは、分析を形作る一連の判断の連鎖として定義されます。具体的には、データが支持できる問いは何か、初期診断結果がどのようにモデルや推定対象を変更すべきか、そしていつ初期計画の見直しが必要となるかなどです。各 GeneBench-Pro の問題は、モデルに現実的で複雑なデータセット、簡潔な実験的文脈、および下流の意思決定に関連する特定の推定対象を与えます。正しく回答するためには、モデルはデータを探索し、適切な分析アプローチを選択し、試行錯誤を繰り返すプロセスに参加し、最終的な答えを提供する必要があります。
データセット構築
生物学において、データ生成のコスト(例えばゲノムシーケンシング)は劇的に低下しており、一部の研究者は今や 制限要因はもはやサンプル収集ではなく、下流の計算と分析であると主張しています。GeneBench-Pro は、このボトルネックへの対応における進捗を評価するために構築されたものであり、計算生物学の設定や手法の幅広い範囲にわたる 129 の質問を網羅しています。
ドメインアトラス:10 のドメインと 21 のサブドメインにまたがる 129 の問題
上のドットをクリックすると、ベンチマーク問題の詳細がわかります。
このアトラスは、GeneBench-Pro の広範な範囲をプレビューするものです。より詳細に 10 の代表的な質問を探求するには、ケーススタディページ をご覧ください。
GeneBench-Pro はまた、一般的なベンチマークの失敗を回避するように設計されています。多くの長期ホライズンの生物学ベンチマークは、分析を通じて単一の正しい経路が存在しない可能性のある、ごちゃごちゃした歴史的データを中心に多段階の質問を構築しています。あるエージェントが一つの正当なカットオフを選択する一方で、別のエージェントは異なるが同様に正当な選択肢を選ぶこともあり、これはモデル性能の本質的な違いよりも、ベンチマーク作成者が行った恣意的な選択を反映している可能性があります。逆の現象も起こり得ます:問題が数値的に不感度すぎる場合、エージェントは分析において根本的な誤りを犯しても、合格する結果を生み出すことがあります。
これらの失敗モードを回避するため、各 GeneBench-Pro の問題は合成データとして構築されています。我々は完全な因果構造を知っており、データ生成プロセスを直接シミュレーションします。これにより、各問題の複雑さを調整し、主観的な分析選択における合理的な違いが依然として受け入れられる数値結果を生み出すことを保証し、(アブレーション研究を通じて)妥当だが誤った分析が失敗することを検証できます。その後、情報漏洩や意図しない解決経路がないかを確認するために、詳細なトレース分析を通じて問題の草案を監査します。これにより、正解を得るには正しい分析経路を選択することが必要であり、ショートカットを利用したり、恣意的な著者の好みに合致させたりするものではないという確信が得られます。
GeneBench-Pro の質問 129 問のうち 82 問を、大学院生、ポスドク研究者、産業科学者、教授などを含む外部の専門家に送付しました。審査員は各問題の現実性、目標回答が特定可能かどうか、そして手法と推定器が適切であるかを評価し、フィードバックは問題の改善に活用されました。
評価と採点
各 GeneBench-Pro の問題は、独立した科学的分析として構成されています。エージェントには、短いプロンプト、データファイル、および Python や科学計算ライブラリ、PLINK 2.0(ただし問題にはドメイン固有のツールは不要)などの標準的なバイオインフォマティクススタックを含む隔離されたワークスペースへのアクセス権が付与されます。
データ生成プロセスを完全に制御しているため、既知の目標に対して正答性を決定論的に評価でき、一般的なルールベースの評価で見られるモデル選択の変動や冗長性の影響を回避できます。
各問題には、意図された分析構造、添付データファイル、詳細な多ページケーススタディ、そして専門家によるレビュー結果といった豊富なメタデータが付随しています。私たちは、GeneBench-Pro の代表的な 10 問を Hugging Face(新しいウィンドウで開く) で完全にオープンソース化しており、それらを閲覧するための インタラクティブな Web インターフェース も用意しています。さらに、近い将来、50 問のサブセットを Artificial Analysis(新しいウィンドウで開く) に提供し、独立した第三者によるベンチマークを実施する予定です。
結果
当社の最強モデルである GPT‑5.6 Sol は、最高レベルの推論(reasoning)において 28.7% の合格率を達成しました(Pro モード有効時は 31.5%)。これは、オリジナルの GeneBench を構築し始めた当時の状況と比較すると劇的な向上です。当時、当社の最前線のモデルであった GPT‑5 は 5% 未満のスコアしか得られませんでした。このベンチマークにおける進歩は、より目に見えにくいシステムレベルの科学的推論においても、最先端モデルが急速に改善されていることを示唆しています。現在のペースが続けば、今年末にはこのベンチマークが飽和状態になる可能性があります。
結果はまた、テスト時の計算リソース(test-time compute)のスケーリングの影響も示しています。最も低い推論レベルでは、GPT‑5.6 Sol は単一桁の合格率しか達成していません。一方、最高レベルの推論においては、GPT‑5.2 が解ける問題数の約 6 倍を GPT‑5.6 Sol が解決しており、かつ使用トークン数は約 3 分の 2 で済んでいます。
モデルファミリー間の比較から、GPT モデルは定量的不確実性下での高次科学推論において最も強力なシステムの 1 つであることが示唆されています。GPT‑5.6 と GPT‑5.5 のパフォーマンスと、GLM 5.2 などの主要なオープンソースモデルとの間の性能差は、コーディングベンチマーク(外部リンク)からの外挿から予想されるよりも著しく大きく、これはオープンソースモデルが広範な推論能力よりもコーディングに特化していることを示しています。
開発中は最前線の GPT モデルを用いて問題の評価と強化を行いました。そのため、GeneBench-Pro が他のモデルファミリーと比較して GPT モデルに対してバイアスがかかっている可能性があると懸念していました。しかしながら、競合モデルはせいぜいリリース当時の対応する GPT モデルのパフォーマンスに匹敵する程度であり、むしろ大幅に劣る傾向が見られました。
これらの評価結果—GPT‑5.6 Sol (Pro) では最高 31.5% に達します—は、GeneBench-Pro の問題の難易度を考慮すると驚くべきものです。アンケート調査では、レビュー担当者が典型的な GeneBench-Pro の問題を人間が専門家として完了させるのに約 20〜40 時間かかると推定しました。保守的な時給 200 ドルを仮定すると、1 つの問題あたりの人件費は数千ドルに達します。現在の AI エージェントはまだ人間の専門家を完全に代替するには信頼性が不足していますが、コスト格差は大きく、1 つの問題あたりの推論コストは数ドル程度です。つまり、現在の能力でも部分的な自動化が行われれば、経済的・科学的に意味のある価値を生み出す可能性があります。
それでも、最先端モデルがいまだにこれらの問題の3分の1未満しか解決できないという事実は、改善の余地が依然として大きいことを示しています。モデルは困難な問題に対して部分的な進歩を遂げることはできますが、推論ループを完結させることには苦戦します。この失敗のパターンは、人間の専門家と初心者の対比に似ています。専門家は経験を用いて問題を枠組み化し、アプローチを適応させますが、初心者は観察を行っても、それを問題のより広い文脈に統合することに苦労します。
ほぼ完璧な性能を達成するには、進歩を確実に測定するとともに、モデルがいまだにどこで失敗しているかを特定できる評価が必要です。GeneBench-Pro などのベンチマークは、漠然とした能力の欠如を、診断して改善可能な具体的な課題へと転換する手助けをすることができます。
もしエージェントがこの種の分析を確実に自動化できれば、科学発見を大幅に加速させる可能性があります。ヒト遺伝学的エビデンスはすでに標的の優先順位付けや翻訳後の追跡において中心的な役割を果たしており、遺伝学的裏付けのあるメカニズムの方が承認された治療法につながる可能性がはるかに高いためです。
一方、シーケンシングのコストは急落し、バイオバンク規模のデータセットでは、分子情報、表現型情報、健康記録情報を前例のない広範囲で結びつけることが可能になっています。現在のボトルネックはデータの生成から、その情報を実行可能な洞察に変換することへと移り変わっています。人間の専門家チームが現在行っている分析を一貫して実施できるモデルは、仮説の選別、標的の追跡、データ生成と意思決定の間での反復サイクルの加速を通じて、産業研究を変革する可能性があります。
GeneBench-Pro は、経験豊富な科学者が持つ優れた科学的判断に関わるより抽象的なスキルを評価するための初期の取り組みです。これらのスキルにより、彼らは最も有望な初期分析を直感的に特定し、データが当初の仮定と矛盾した際に思考を反復・修正し、その後の臨床的、学術的、あるいはビジネス上の意思決定の基盤となる結論に至ることができます。
モデルの能力が進化するにつれて、単なる教科書的な知識やルーチン分析の実行能力を検証するものを超え、これらのより高次の抽象レベルにおけるモデルの能力を探るベンチマークが、ますます有用になると予想されます。
原文を表示
Scientific data rarely arrive with instructions. Researchers must decide whether a pattern reflects biology or noise, whether the data can support the question being asked, and how each result should change what they do next. AI agents are increasingly capable of executing complex analyses, but real scientific research also depends not simply on recalling facts or following a predefined workflow but also on making these higher-order judgments.
Today, we’re introducing GeneBench-Pro—a challenging, research-level benchmark for testing whether models can handle the kind of judgment-heavy analysis that real-world computational biology requires. It expands on GeneBench(opens in a new window) to cover harder, more realistic tasks across genomics, quantitative biology, and translational medicine, capturing the complexity, iterative nature, and ambiguity of scientific research in computational biology.
To date, there have been few convincing assessments of the system-level judgment calls that make real-world computational research difficult. These include handling ambiguity, revising assumptions, choosing the correct analysis path, and knowing when a result is decision-ready. Because these skills are difficult to formalize, they are also difficult to assess rigorously, even as weaknesses in them increasingly constrain overall AI performance.
GeneBench-Pro is designed to precisely measure these higher-level capabilities. Within GeneBench-Pro, we define “research taste” as the chains of judgment calls that shape an analysis: which questions the data can support, how early diagnostics should change the model or estimand, and when an initial plan needs to be revised. Each GeneBench-Pro problem gives the model a realistic and messy dataset, brief experimental context, and a target estimand tied to a downstream decision. To answer correctly, the model must explore the data, choose an appropriate analytical approach, engage in an iterative process of experimentation, and supply a final answer.
Dataset construction
In biology, the cost of data generation (e.g., genome sequencing) has fallen dramatically, and some researchers now argue(opens in a new window) that the limiting factor is no longer sample collection but downstream computation and analysis. GeneBench-Pro is built to assess progress in addressing that bottleneck, with 129 questions covering a broad range of computational biology settings and methods.
GeneBench-Pro is also designed to avoid common benchmark failures. Many long-horizon biology benchmarks construct multi-step questions around messy historical datasets, where there may be no single correct path through the analysis. An agent might choose one defensible cutoff, while another might choose a different but equally defensible option, reflecting the arbitrary choices made by the benchmark creator more than any fundamental differences in model performance. The reverse can also happen: if a problem is too numerically insensitive, an agent can make fundamental errors in an analysis and still produce a passing result.
To avoid these failure modes, each GeneBench-Pro problem is built synthetically: we know the full causal structure and directly simulate the data-generating process. That enables us to tune the complexity of each problem, ensure that reasonable differences in subjective analytical choices still produce accepted numerical results, and verify (through ablation studies) that plausible but incorrect analyses fail. We then audit problem drafts through detailed trace analyses to check for information leakage and unintended solution pathways. This gives us confidence that getting the right answer depends on choosing the correct analytic pathway and not on exploiting a shortcut or matching an arbitrary author preference.
We sent 82 of the 129 GeneBench-Pro questions to external domain experts, including graduate students, postdoctoral researchers, industry scientists, and professors. Reviewers assessed each problem’s realism, whether the target answer was identifiable, and whether the methods and estimators were appropriate. Feedback was used to improve problems.
Evaluation and grading
Each GeneBench-Pro problem is a self-contained scientific analysis. Agents receive access to an isolated workspace with a short prompt, data files, and a standard bioinformatics stack including Python, scientific computing libraries, and basic genomics packages like PLINK 2.0 (although the problems do not require domain-specific tooling).
Because we control the full data-generation process, we can grade correctness deterministically against known targets, avoiding model-choice variability and verbosity effects found in standard rubric-based evaluation.
Each problem also comes with rich metadata, including the intended analysis structure, attached data files, a detailed multi-page case study, and expert review outcomes. We are fully open-sourcing 10 representative GeneBench-Pro questions on Hugging Face(opens in a new window), with an interactive web interface for browsing them. Finally, we will provide a 50-question subset to Artificial Analysis(opens in a new window) for independent, third-party benchmarking in the near future.
Results
Our strongest model, GPT‑5.6 Sol, attains a pass rate of 28.7% at the highest reasoning level (31.5% with Pro mode enabled). That is a sharp increase from when we began building the original GeneBench; at that time, our best frontier model, GPT‑5, scored below 5%. Progress on this benchmark suggests that frontier models are improving quickly, even on less tangible, systems-level scientific reasoning. At the current pace, this benchmark may be saturated by the end of the year.
The results also show the impact of scaling test-time compute. At the lowest reasoning level, GPT‑5.6 Sol only achieves a single-digit passrate. At the highest reasoning level, GPT‑5.6 Sol solves nearly six times as many questions as GPT‑5.2 does while using about two-thirds as many tokens.
Comparisons across model families suggest that GPT models are among the strongest systems at high-level scientific reasoning under quantitative uncertainty. The performance gap between GPT‑5.6, GPT‑5.5 and leading open-source models such as GLM 5.2 is significantly larger than we would expect when extrapolating from coding benchmarks(opens in a new window), indicating that open-source models are more specialized for coding than for broader reasoning ability.
We used frontier GPT models to evaluate and harden problems during development. As such, we suspected GeneBench-Pro might be biased against GPT models relative to other model families. However, competitor models at best matched the performance of the corresponding GPT model at the time of release, and tended to fall short considerably.
These evaluation results—as high as 31.5% on GPT‑5.6 Sol (Pro)—are striking given the difficulty of the GeneBench-Pro questions. In a survey, our reviewers estimated that a typical GeneBench-Pro problem would take a human expert around 20–40 hours to complete. At a conservative $200 per hour, that puts the human labor cost of a single problem in the thousands of dollars. Current AI agents are still too unreliable to replace human experts, but the cost gap is large, with inference costs at only several dollars per problem. That means even partial automation at current capabilities could create meaningful economic and scientific value.
Still, the fact that frontier models still solve fewer than a third of these problems shows that there is substantial room for improvement. Models can make partial progress on challenging problems, but they struggle to close the inferential loop. This failure pattern mirrors the contrast between human experts and novices. Experts use their experience to frame the problem and adapt their approach, while novices make observations but struggle to integrate them into the broader context of the problem.
Achieving near-perfect performance will require evaluations that both reliably measure progress and identify where models still fail. Benchmarks like GeneBench-Pro can help to turn a vague capability deficiency into something we can diagnose and improve.
If agents can reliably automate this class of analysis, they could significantly accelerate scientific discovery. Human genetic evidence is already central to target prioritization and translational follow-up, because mechanisms with genetic support are much more likely to lead to approved treatments.
Meanwhile, sequencing costs have plummeted, and biobank-scale datasets now link molecular, phenotypic, and health-record information at unprecedented breadth. The limiting factor is shifting from data generation to turning the information into actionable insights. Models that can consistently perform analyses now handled by teams of human experts could transform industrial research by accelerating hypothesis triage, target follow-up, and the iteration cycle between data generation and decision-making.
GeneBench-Pro represents an initial effort to evaluate the more abstract skills involved in good scientific judgment possessed by experienced. These skills allow them to intuit and identify the most promising initial analyses, iterate and revise their thinking when data contradict initial assumptions, and arrive at conclusions upon which downstream clinical, academic, or business decisions may depend.
We anticipate that as model capabilities advance, benchmarks that probe model abilities at these higher levels of abstraction will become increasingly useful, beyond those that simply test book knowledge or the ability to execute routine analyses.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み