AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
OpenAI News·2026年6月17日 09:00·約23分で読める

LifeSciBench の紹介

#LifeSciBench#ベンチマーク#生命科学#OpenAI#医療 AI
TL;DR

OpenAI が生命科学分野における AI モデルの性能を客観的に評価・比較するための専用ベンチマーク「LifeSciBench」を発表した。

AI深層分析2026年6月18日 06:03
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

生命科学研究向け新ベンチマークの登場

OpenAI は、生命科学分野における AI モデルの評価を目的とした「LifeSciBench」を正式に発表した。

2

専門領域における標準評価基準の確立

このベンチマークは、医療や生物学といった複雑なドメインで AI の能力を定量的に測るための重要な指標となる。

3

AI モデル開発と応用の加速

研究者や開発者が自社のモデルの強み・弱みを明確にし、生命科学分野への実装をより効率的に進めることを支援する。

影響分析・編集コメントを表示

影響分析

この発表は、生命科学という極めて専門性が高くリスクの大きい領域において、AI モデルの信頼性を評価するための共通言語を確立した点で画期的です。今後は、各研究機関や企業が LifeSciBench のスコアを指標としてモデル選定を行うようになり、生命科学研究における AI 導入のスピードと質が飛躍的に向上する可能性があります。

編集コメント

生命科学研究の分野では、AI モデルの誤りやバイアスが重大な結果を招くリスクがあるため、このように専門特化型の厳格な評価基準が整備されることは業界にとって待望の進展です。

エージェント型 AI システムは、科学タスクを遂行する能力をますます高めています。しかし、それらの有用性が生命科学研究者にとってどの程度あるかは、現実の研究が抱える複雑さをいかに扱えるかにかかっています。実際の研究プロセスは、単なる事実想起の質問や、きれいに整理された予測問題のように単純なものではありません。研究者たちは不完全な証拠を解釈し、矛盾する結果を統合し、困難な実験を設計し、アッセイの問題解決を行い、転換リスクを評価し、不確実性の中で次に何をすべきかを決定します。

現在のベンチマークはこれらの能力を十分に捉えていません。多くの生命科学関連の評価は狭いドメインや孤立したスキルに焦点を当てており、構造化された質問形式と明確な参照回答を持つ問題となっています。これらは価値あるものですが、モデルが研究レベルの広範な業務全体にわたって貢献できるかどうかを真に評価するにはしばしば不十分です。

私たちはこのギャップを埋めるために LifeSciBench を設計しました。すべてのタスクは、バイオテックおよび製薬企業で創薬プログラムの推進に関わる実践経験を持つ、博士号レベルの訓練を受けた生命科学者の判断に基づいています。

LifeSciBench には、7 つのワークフローと 7 つの生物学的ドメインにわたる 750 の専門家作成タスクが含まれています。

1,062

タスクアーティファクト

173

科学者貢献者

19,020

評価基準(ルブリック)

453

専門家レビューア

LifeSciBench が測定するもの

LifeSciBench は、AI システムが生物学の質問に答えるだけでなく、現実的な生命科学の研究タスクを支援できるかを測定するものです。ベンチマークの分類体系を定義するために、私たちは応用研究現場で最も頻繁に使用されるワークフローについて実践中の生命科学者たちに調査を行いました。その後、彼らの回答を 7 つの反復出現するカテゴリにグループ化しました:証拠処理、分析、設計と最適化、科学的推論、検証と運用、翻訳、そして科学コミュニケーションです。

各タスクは、科学者が知識豊富な協力者に依頼するようなリクエストのように構成されています:科学的プロンプト、関連する文脈やアーティファクト、そして自由記述による回答です。専門家によって作成された評価基準(ルブリック)は、モデルが特定の課題に対して、科学者が期待する適切な詳細度、根拠、注意喚起、および書式で正しい答えを生成できるかを評価します。

データセット構築

LifeSciBench は、現実世界の科学的利用に必要な、定義が明確でない実践的スキルとともに、科学的推論能力も評価します。そのタスクは、モデルに現実的な研究問題に取り組ませるよう求めます:証拠の解釈、ドメインに基づいた判断の行い、専門家レビューアーにとって有用な結論の伝達です。多くのタスクではまた、プロンプトテキストのみへの依存ではなく、不確実性を扱い、支援データファイルを対象として推論を行うこともモデルに要求されます。

このベンチマークは、生命科学の業務の複雑さを反映するように設計されています。全体として、タスクの 79% が複数の推論または意思決定ステップを必要とし、1 タスクあたりの平均ステップ数は 4 つです。LifeSciBench には、図、PDF、表、配列ファイル、構造または化学ファイル、ウェブ参照などを含む 1,062 の添付アーティファクトが含まれています。タスクの半数以上(53%)では、モデルが少なくとも 1 つのアーティファクトから情報を解釈または統合する必要があります。

タスクは、異なる生命科学分野にわたる 173 名の専門家科学者によって作成されました。各科学者は博士号レベルの訓練を受けており、バイオテクノロジーまたは製薬業界での実務経験を持っています。タスクは承認されるまで必要な回数だけ改訂サイクルを経ることができ、ラウンド数には固定された上限はありません。承認されたタスクは平均して 6 つの自己主導型の自動レビューサイクルを経ており、少なくとも 2 ラウンドの専門家レビューを完了しています。レビューは、検証可能な正解または強力な専門家の合意に基づいて行われ、関連分野におけるレビュー間の同意率は少なくとも 90% でした。このプロセスにより、承認されたタスクが科学的根拠に基づき、採点に十分な明確さを持ち、応用研究を代表するものであることが保証されました。

評価とルーブリックの breakdown

このベンチマークは、生命科学の業務の複雑さを反映するように設計されています。全体として、タスクの 79% が複数の推論または意思決定ステップを必要とし、1 タスクあたりの平均ステップ数は 4 つです。LifeSciBench には、図、PDF、表、配列ファイル、構造または化学ファイル、ウェブ参照などを含む 1,062 の添付アーティファクトが含まれています。タスクの半数以上(53%)では、モデルが少なくとも 1 つのアーティファクトから情報を解釈または統合する必要があります。

タスクは、異なる生命科学分野にわたる 173 名の専門家科学者によって作成されました。各科学者は博士号レベルの訓練を受けており、バイオテクノロジーまたは製薬業界での実務経験を持っています。タスクは承認されるまで必要な回数だけ改訂サイクルを経ることができ、ラウンド数には固定された上限はありません。承認されたタスクは平均して 6 つの自己主導型の自動レビューサイクルを経ており、少なくとも 2 ラウンドの専門家レビューを完了しています。レビューは、検証可能な正解または強力な専門家の合意に基づいて行われ、関連分野におけるレビュー間の同意率は少なくとも 90% でした。このプロセスにより、承認されたタスクが科学的根拠に基づき、採点に十分な明確さを持ち、応用研究を代表するものであることが保証されました。

評価とルーブリックの breakdown

LifeSciBench のタスクは、期待される回答を具体的な科学的主張、計算、意思決定、根拠などに分解する、詳細かつタスク固有のルーブリックを用いて採点されます。ベンチマーク全体を通じて、専門家によって開発されたルーブリックには 19,020 の基準が含まれており(タスクあたり平均 25 個)、科学的正確性と研究意思決定における有用性の両方を評価します。

この設計は、実践において科学的工作がどのように評価されるかを反映しています。多くの生命科学のタスクでは、最終回答のみをチェックして採点することはできません。ある回答が高レベルの結論に正しく到達したとしても、重要なアッセイ(assay)の限界を見逃したり、極めて重大な生物学的ニュアンスを先回りして提起しなかったりする場合などには、不完全と判断されることがあります。逆に、タスクを完全に解決していなくても、高品質な推論を含む部分的な回答も存在します。

細分化されたルーブリックはこのニュアンスを捉えています。LifeSciBench は最終回答の正確性だけでなく、モデルがその回答に到達する過程が科学的に妥当であり、運用上有用であるかも評価します。

論文、図表、表、実験記録から科学的証拠を抽出し、整合性を図り、監査すること。

Candidate Response

結論: 提示されたパッケージでは、マイクロ・ジストロフィンの発現を臨床的ベネフィットを予測する可能性が合理的に高い置換エンドポイントとして用いて加速承認を支持するには十分ではありません。懐疑的な FDA の審査官は、バイオマーカー、機能性、持続性、安全性、一般化性の証拠が実質的に不十分であるとみなすでしょう。

パッケージ項目

主要な失敗モード

必要とされること

ウェスタンブロット定量

MANEX1A は、内因性のフルレングス・ジストロフィンとマイクロ・ジストロフィンのトランスジェーンに共通する N 末端エピトープに結合するため、このアッセイではトランスジェーンと残留/リバート型ジストロフィンを明確に区別できません。また、健康なフルレングス・ジストロフィンの標準品に対して 138 kDa のマイクロ・ジストロフィンを定量することも無効です。

組換えマイクロ・ジストロフィンの標準品を使用し、トランスジェーンと内因性ジストロフィンを区別できる直交法(例:ターゲット質量分析またはトランスジェーン特異的/エピトープ特異的アッセイ)を併用してください。

免疫蛍光染色

C 末端ポリクローナル抗体は、138 kDa のコンストラクトが C 末端ドメインを欠いているため不適切です。多くの DMD(デュシェンヌ型筋ジストロフィー)患者にはリバート型線維が存在し、リバート型ジストロフィンは C 末端エピトープを保持する可能性があります。リバート型線維は加齢とともにクローン的に拡大する傾向があり、特に年長の男孩において免疫蛍光(IF)信号にバイアスをもたらします。

トランスジェーンには存在し、リバート型ジストロフィンには存在しないエピトープに対する抗体を用いて IF を繰り返し行い、トランスジェーン陽性線維をリバート型線維とは別に定量してください。

代替エンドポイントの有効性

このパッケージはタンパク質量と臨床機能を混同しています。「健康対照群のタンパク質量の 38%」とは、構造的に切断されたマイクロ・ジストロフィンの場合、正常なジストロフィンの機能の 38% を意味するものではありません。

発現を代替エンドポイントとして扱う前に、マイクロ・ジストロフィン質量パーセント、筋膜局在化、下流の機能的回復、および臨床的恩恵との関係を経験的に検証する必要があります。

生検デザイン

治療前と治療後の対側広腿外側の生検は、左右差や筋肉内空間的な変動をもたらします。病気の進行や線維性脂肪置換も、総タンパク質正規化されたシグナルを変化させる可能性があります。

生検部位を一定の解剖学的ランドマークを用いて標準化し、筋特異的タンパク質に対して正規化するとともに、並行して線維性脂肪組成を測定する必要があります。

NSAA 比較対象/統計解析

外部の自然経過コホートは、ランダム化された同時対照ではありません。試験適格基準、支援ケア、参加効果、ベースライン NSAA、ステロイド投与計画、年齢、エクソンクラスなどはすべて比較にバイアスをもたらす可能性があります。非対応 t 検定では不十分です。また、NSAA で +1.4 の変化は、この年齢群における再検査変動の範囲内です。

ランダム化された同時プラセボ対照試験を実施するか、少なくともベースライン NSAA、年齢、ステロイド投与計画、エクソンクラス、およびその他の交絡因子を考慮した調整分析を使用する必要があります。

年齢層による交絡

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

4〜7歳の男の子は、治療されていない歩行可能なデュシェンヌ型筋ジストロフィー(DMD)患者が機能低下に支配される前に運動機能を獲得できる発達的窓期にあります。48 週間の NSAA(North Star Ambulatory Assessment)の変化には、発達の進展、疾患の進行、および可能的な治療効果が混在しています。

発達の軌跡と治療効果を分離するために、年齢層別層化を伴う並行ランダム化対照試験を使用してください。

先行する臨床的先例

オープンラベル微小ジストロフィン(micro-dystrophin)の機能シグナルは、確認的な利益を信頼性高く予測していません。公開された先例には、オープンラベル NSAA の改善を再現できなかった微小ジストロフィン遺伝子治療の確認試験が含まれます。

決定的な根拠としてオープンラベル NSAA の変化に依存しないでください。対照された機能的証拠を要求してください。

構成の構造的限界

138 kDa の構成体は、nNOS(一酸化窒素合成酵素)結合部位を含むスペクトリンリピート R16/17 を欠損させています。nNOS 誘導の喪失は、運動中の機能的な交感神経遮断(functional sympatholysis)および虚血保護を損ない、発現量に関係なく救済に対するメカニズム上の天井を生み出します。

この特定の構成体が関連するジストロフィン複合体機能、nNOS の局在化、運動生理学、および筋肉保護を回復するかどうかを示すメカニズム研究を追加してください。

AAV(アデノ随伴ウイルス)の耐久性

12 週時点でのベクターゲノムは持続的な発現を確立していません。AAV9 ゲノムは主に非統合性のエピソームであり、時間とともに減少する可能性があります。ベクターゲノムの持続性は、持続的なタンパク質発現と同じではありません。

12 週間を超えて、長期的なトランスジェーンタンパク質発現と機能的バイオマーカーの持続性を測定する。

免疫・安全性プロファイル

患者 12 人中 8 人にみられるトランスアミナーゼ上昇は、AAV 転写細胞に対する免疫反応と整合性があるが、そのメカニズムは未確定である。AAV9 の心臓特異性を考慮すると、心筋炎の症例 1 件は懸念される。

より詳細な免疫モニタリング、肝臓・心臓安全性の評価、および強化された心臓フォローアップを提供する必要がある。

患者選択と一般化可能性

抗 AAV9 中和抗体陽性の患者を除外することは、一般化可能性を制限する。エクソン 44 の欠失を除外することは、その DMD サブグループへの適用性を制限する。n=12 では、より広範な DMD 集団全体における安全性と有効性を特徴づけるには小さすぎる。

可能であれば適格基準を広げるか、あるいは広く承認する根拠とする前に、抗体ステータス、遺伝子型/エクソンクラス、年齢、ベースライン機能による層別化解析を事前に規定すべきである。

規制上の結論: 本パッケージは生物学的活性を示す可能性があるが、測定されたマイクロ・ジストロフィンの発現が臨床的ベネフィットを予測する可能性が高い信頼できるサロゲートであることを確立するには至っていない。主なギャップは、アッセイの特異性、無効な定量基準、リバータント繊維による交絡、ランダム化対照群の欠如、年齢関連 NSAA の交絡、不確実な持続性、および未解決の安全性・一般化可能性の問題である。

このギャップを埋めるためには、制御された年齢層別臨床デザイン、トランスジェーン特異的発現アッセイ、直交するタンパク質量測定、組織組成対照、断片化コンストラクトのメカニズム機能アッセイ、および特に肝臓と心臓に関するより強力な安全性モニタリングが必要である。

ルブリック基準と評価

基準

ポイント

マイクロ・ジストロフィンの定量におけるアッセイ/測定上の問題(MANEX1A エピトープの共有、無効なフルレングス・ジストロフィン標準品、組換え体または直交するトランスジェーン特異的測定の必要性)を特定すること。

+24

マイクロ・ジストロフィンの発現レベルが自動的に臨床的有益性の有効な代理指標とならない理由を説明すること。

+22

ビopsy 部位、組織組成、年齢層の交絡要因が、発現と NSAA(North Star Ambulatory Assessment)の解釈を弱めることを指摘すること。

+19

NSAA の比較対象/統計手法を批判すること。特に外部自然経過対照への依存に焦点を当てること。

+12

AAV の耐久性、免疫反応、トランスアミナーゼ上昇、心筋炎、およびより長期的な発現・安全性フォローアップの必要性について言及すること。

+15

患者選択/一般化可能性におけるギャップ(抗 AAV9 抗体保有者の除外、エクソン44 の欠失、小サンプルサイズなど)を指摘すること。

+8

LifeSciBench の検証

LifeSciBench は、独立した専門家レビューを通じて検証されました。タスク作成には関与していない 453 名のレビュアーからフィードバックが寄せられました。そのうち 97% が博士号または同等の学位を保有し、平均 12 年の分野経験と 14 件の査読付き論文を有しており、88% が少なくとも 1 つの賞やフェローシップを受賞したと報告しています。

レビュアーは、各タスクが強力なベンチマーク質問に必要な特性(現実の研究業務との整合性、科学的推論および専門領域の知識の適切な検証、証拠または専門家合意に基づく根拠、モデル性能評価における全体的な有用性)を反映しているかを採点しました。すべてのカテゴリで同意率は 96% を超えました。

レビュアーからのコメントは定量的評価を裏付けるものでした:

1 of 3

Results

我々は 2 つの補完的な指標を報告します。パス率(Pass rate)とは、モデルがタスクレベルの成功閾値である 70% を達成するタスクの割合です。スコア(Score)は、平均ルーブリック報酬であり、完全なタスクが解決されなくても個々の基準に対して部分的に与えられる点数を含みます。両方の指標が重要なのは、科学的任务に対する回答が完全な答えに必要なすべての要件を満たさなくても、部分的に正しく有用である可能性があるからです。

モデルの性能は、タスクの種類、ワークフロー、および応答形式によって大きく異なります。

Where AI systems show early strength

LifeSciBench は、最先端モデルが科学の統合、コミュニケーション、構造化された解釈を伴うタスクにおいて相対的に最も強いことを示しています。絶対的な合格率は依然として控えめなため、これらのベンチマークドメインは飽和状態からほど遠いですが、GPT‑Rosalind は GPT‑5.5 を上回る有意義な進歩を示し、全体の正確な合格率を 25.7% から 36.1% に向上させました。

モデル能力の進展において最も顕著な方向性は、科学コミュニケーションと翻訳に見られます。例えば、科学コミュニケーションの合格率は GPT‑5.5 の 56.3% から GPT‑Rosalind では 71.1% に増加しています。このカテゴリは小規模(n=9)であるため注意深く解釈する必要がありますが、これは最先端モデルが証拠を整理し、専門家向けの説得力のある説明を生み出す能力を急速に高めていることを示唆しています。翻訳(創薬における「ベンチからベッドサイド」へのプロセス)も同様のパターンを示し、GPT‑5.5 の 36.8% から GPT‑Rosalind では 57.7% に上昇しており、モデルが前臨床エビデンスと臨床的含意を結びつける能力を急速に向上させていることを示唆しています。

ルブリックレベルの結果も同じ方向を示しています。専門家にとって有用または実行可能な出力を必要とするタスクでは、GPT‑Rosalind は 44.7% のスコアを獲得し、対照的に GPT‑5.5 は 29.1% です。不確実性と注意の扱いを必要とするタスクでも、GPT‑Rosalind は 44.8% を獲得し、GPT‑5.5 は 29.3% です。このパターンは、モデルが明確なエビデンスの境界を持ち、構造化された科学的判断を求める場合に最も有用であることを示唆しています。

GPT‑Rosalind は、業界および学術の専門家が特定した科学的価値の高いタスクにおいて、すべてのパフォーマンスをリードしています。

GPT‑Rosalind は、コアとなるライフサイエンスワークフロー全体で GPT‑5.5 を上回るパフォーマンスを示し、特に翻訳と科学コミュニケーションにおける向上が顕著です。

AI システムがいまだに苦手とする領域

アーティファクト(生成物)が多く、設計に重点を置かれ、かつ運用上の制約がある科学的作業においては、依然としてパフォーマンスは大幅に劣っています。具体的には、「デザイン」「最適化」「予測」のワークフローが最も困難な分野の一つであり、GPT‑Rosalind の合格率は 30.7% です。「分析」も同様に難易度が高く、30.3% に留まります。

アーティファクトの利用における格差は特に明確です。GPT‑Rosalind はアーティファクトを多用する設定において GPT‑5.5 よりも優れたパフォーマンスを発揮しますが、その合格率はテキストのみのタスクでは 45.1% であるのに対し、アーティファクトや URL が含まれるタスクでは 28.1% に低下します。GPT‑5.5 も同様の傾向を示し、29.9% から 21.9% へと低下しています。より詳細な分析により、最先端モデルが複雑な図表や大規模なシーケンスファイルから情報を抽出し、それを最終回答に統合する際に苦戦することが確認されています。

タスクでソースに基づく推論やアーティファクトの扱いを必要とする場合、合格率は低下します

回答形式も重要です。正確なシーケンス、構造、または構成レベルの出力を必要とするタスクでは、合格率が低くなります:GPT‑Rosalind は数値タスクで 14.8%、シーケンスまたは構造の出力では 24.0% に留まります。構成生成タスクも脆く、GPT‑Rosalind は 27.3% で GPT‑5.5 と比べてほとんど改善が見られません。この差の一部は、正確な回答を必要とするタスクに対してより厳格な評価基準が適用されていることを反映している可能性があります。計算やフォーマットにおける小さな違いが、応答が合格閾値を下回る原因となる場合があります。それでも、これらの失敗は科学的に意味があります。なぜなら、多くのライフサイエンスのワークフローでは、CRISPR/HDR ドナー設計(Donor Design)や siRNA 設計(siRNA Design)のように、直接使用できるほど正確な出力が必要とされるからです。

モデルはしばしばタスクを完全に解決する前に、部分的にその道筋を進むこともあります。おおよそ 14% のタスクでは、正確な合格閾値には達しなかったにもかかわらず、モデルはルーブリック(評価基準)から相当な点数を獲得しました。GPT‑Rosalind の場合、20% 未満の合格率でありながら、少なくとも 50% のルーブリック報酬を得たタスクが 109 件ありました。実際には、これはモデルが関連する証拠を特定したり、妥当な部分的回答を生成したりすることはできても、重要な制約を見落としたり、誤った証拠を使用したり、不十分な計算を行ったり、推論を科学的に有用な最終決定に結びつけられなかったりするために失敗することを意味します。

限界と今後の展望

LifeSciBench は、AI システムが生命科学研究においてどの程度有用であるかを測定するための一歩ですが、生きた研究環境におけるモデルの研究を代替するものではありません。このベンチマークは、業界の反復的なワークフローを反映した自己完結型のタスクに焦点を当てていますが、現在の範囲には多くの科学専門分野やタスクタイプが含まれていません。実際の研究は反復的であり、科学者は新たな証拠を集め、仮説を見直し、追跡実験を設計し、結果が現れるにつれて計画を適応させていきます。

したがって、LifeSciBench における高いパフォーマンスは、下流の研究への直接的な影響の尺度ではなく、現実的なタスクレベルでの能力を示す証拠として解釈されるべきです。このベンチマークは業界ワークフローに基づいていますが、時間の経過とともに展開する要因に依存して進捗が決定される生きた研究プログラムの多様性やダイナミクス全体を捉えているわけではありません。

次のステップは、ベンチマークのパフォーマンスを生きた研究ワークフローにおける導入調査と結びつけることです。LifeSciBench は実践的な科学者と共に開発されましたが、AI システムが発見を加速させるか、R&D(Research and Development:研究開発)の結果を改善するかを測定するには、より長い時間軸にわたり、複数の推論・フィードバック・実験追跡のラウンドを通じて、実際の研究設定におけるモデルの使用とパフォーマンスを調査する必要があります。

原文を表示

Agentic AI systems are becoming increasingly capable of performing scientific tasks. However, their usefulness to life science researchers depends on how well they handle the complexity of real research. That work rarely looks like a single fact-recall question or a clean prediction problem. Researchers interpret incomplete evidence, reconcile conflicting results, design difficult experiments, troubleshoot assays, evaluate translational risk, and decide what to do next under uncertainty.

Current benchmarks do not fully capture these capabilities. Many life science evaluations focus on narrow domains or isolated skills, resulting in questions with structured question formats and clean reference answers. While valuable, they often fail to truly assess whether a model can contribute across the broader span of research-level work.

We designed LifeSciBench to help close this gap. Every task is grounded in the judgment of practicing life scientists with Ph.D.-level training and direct experience advancing drug discovery programs in biotech and pharmaceutical settings.

LifeSciBench includes 750 expert-authored tasks spanning seven workflows and seven biological domains.

1,062

Task artifacts

173

Scientist contributors

19,020

Rubric criteria

453

Expert reviewers

What LifeSciBench measures

LifeSciBench measures whether AI systems can support realistic life science research tasks, not just answer biology questions. To define the benchmark taxonomy, we surveyed practicing life scientists about the workflows they use most often in applied research settings. Then, we grouped their responses into seven recurring categories: evidence handling, analysis, design and optimization, scientific reasoning, validation and operations, translation, and scientific communication.

Each task is structured like a request a scientist might give to a knowledgeable collaborator: scientific prompt, any relevant context or artifacts, and a free-response answer. Expert-written rubrics evaluate whether a model can produce the right answer for a specific problem, with the right level of detail, justification, caveats, and formatting a scientist would expect.

Dataset construction

LifeSciBench evaluates scientific reasoning alongside the less well-defined, practical skills necessary for real-world scientific use. Its tasks ask models to work through realistic research problems: interpreting evidence, making domain-grounded judgments, and communicating conclusions that would be useful to expert reviewers. Many tasks also require models to handle uncertainty and reason over supporting data files rather than relying on prompt text alone.

The benchmark is designed to reflect the complexity of life science work. Overall, 79% of tasks require multiple reasoning or decision-making steps, with an average of four steps per task. LifeSciBench includes 1,062 attached artifacts spanning figures, PDFs, tables, sequence files, structure or chemical files, and web references. More than half of tasks (53%) require models to interpret or synthesize information from at least one artifact.

Tasks were created by 173 expert scientists across different life science disciplines. Each scientist had Ph.D.-level training and biotechnology or pharmaceutical industry experience. Tasks could undergo as many revision cycles as needed before acceptance, with no fixed cap on the number of rounds; accepted tasks averaged six self-directed automated review cycles and completed at least two rounds of expert reviews. Reviews were anchored in either a verifiable correct answer or strong expert consensus, with at least 90% agreement among reviewers in the relevant domain. This process helped ensure that accepted tasks were scientifically grounded, clear enough to grade, and representative of applied research.

Grading and rubric breakdown

LifeSciBench tasks are graded with a detailed, task-specific rubric that breaks down the expected response into specific scientific claims, calculations, decisions, justifications, and so on. Across the benchmark, expert-developed rubrics include 19,020 criteria—an average of 25 per task—to assess both scientific correctness and usefulness for research decisions.

This design reflects how scientific work is evaluated in practice: many life science tasks cannot be graded by checking the final answer alone. A response may reach the correct high-level conclusion but still be judged incomplete if, for example, it overlooks a key assay limitation or fails to proactively bring up a highly consequential biological nuance. Conversely, a partial response may contain high-quality reasoning even if it does not fully solve the task.

The granular rubrics capture this nuance. LifeSciBench evaluates not only final-answer accuracy, but whether a model reaches its answer in a scientifically valid and operationally useful way.

Extracting, reconciling, and auditing scientific evidence from papers, figures, tables, and experimental records.

Candidate Response

Bottom line: As presented, this package is not strong enough to support accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit. A skeptical FDA reviewer would likely view the biomarker, functional, durability, safety, and generalizability evidence as materially under-supported.

Package Item

Key Failure Mode

What Would Be Needed

Western blot quantification

MANEX1A binds an N-terminal epitope shared by endogenous full-length dystrophin and the micro-dystrophin transgene, so the assay does not cleanly distinguish transgene from residual/revertant dystrophin. Quantifying a 138 kDa micro-dystrophin against a healthy full-length dystrophin standard is also invalid.

Use a recombinant micro-dystrophin standard and an orthogonal method that distinguishes transgene from endogenous dystrophin, such as targeted mass spectrometry or a transgene-specific/epitope-specific assay.

Immunofluorescence

The C-terminal polyclonal antibody is poorly suited because the 138 kDa construct lacks the C-terminal domain. Many DMD patients have revertant fibers, and revertant dystrophin can retain C-terminal epitopes. Revertant fibers may expand clonally with age, biasing IF signal, especially in older boys.

Repeat IF with an antibody against an epitope present in the transgene but absent from revertant dystrophin. Quantify transgene-positive fibers separately from revertant fibers.

Surrogate endpoint validity

The package conflates protein amount with clinical function. “38% of healthy-control protein mass” does not mean 38% of normal dystrophin function because micro-dystrophin is structurally truncated.

Empirically validate the relationship between micro-dystrophin mass-percent, sarcolemmal localization, downstream functional restoration, and clinical benefit before treating expression as a surrogate endpoint.

Biopsy design

Pre- and post-treatment contralateral vastus lateralis biopsies introduce left-right and intramuscular spatial variability. Disease progression and fibro-fatty replacement can also change total-protein-normalized signal.

Standardize biopsy site using consistent anatomical landmarks, normalize to muscle-specific proteins, and measure fibro-fatty composition in parallel.

NSAA comparator/statistics

An external natural-history cohort is not a randomized concurrent control. Trial eligibility, supportive care, participation effects, baseline NSAA, steroid regimen, age, and exon class can all bias the comparison. An unpaired t-test is not sufficient. Also, a +1.4 NSAA change is within test-retest variability for this age group.

Run a randomized concurrent placebo-controlled study, or at minimum use adjusted analyses accounting for baseline NSAA, age, steroid regimen, exon class, and other confounders.

Age-window confounding

Boys age 4–7 are in a developmental window where untreated ambulatory DMD patients may gain motor function before decline dominates. A 48-week NSAA change mixes developmental gain, disease progression, and possible treatment effect.

Use a concurrent randomized control with age stratification to separate developmental trajectory from treatment effect.

Prior clinical precedent

Open-label micro-dystrophin functional signals have not reliably predicted confirmatory benefit; published precedent includes micro-dystrophin gene therapy confirmatory trials failing to reproduce open-label NSAA improvements.

Do not rely on open-label NSAA change as decisive support. Require controlled functional evidence.

Structural limits of the construct

The 138 kDa construct deletes spectrin repeats R16/17, which contain nNOS-binding sites. Loss of nNOS recruitment can impair functional sympatholysis and ischemia protection during exercise, creating a mechanistic ceiling on rescue independent of expression level.

Add mechanistic studies showing whether this specific construct restores relevant dystrophin-associated complex function, nNOS localization, exercise physiology, and muscle protection.

AAV durability

Vector genomes at 12 weeks do not establish durable expression. AAV9 genomes are largely non-integrating episomes and may decline over time. Vector-genome persistence is not the same as persistent protein expression.

Measure longitudinal transgene protein expression and functional biomarker durability beyond 12 weeks.

Immune/safety profile

Transaminitis in 8/12 patients is consistent with immune response to AAV-transduced cells, but the mechanism is not established. One myocarditis case is concerning given AAV9 cardiac tropism.

Provide deeper immune monitoring, liver/cardiac safety characterization, and intensified cardiac follow-up.

Patient selection/generalizability

Excluding anti-AAV9 neutralizing-antibody-positive patients limits generalizability. Excluding exon-44 deletions limits applicability to that DMD subgroup. n=12 is too small to characterize safety and efficacy across the broader DMD population.

Broaden eligibility where possible or pre-specify stratified analyses by antibody status, genotype/exon class, age, and baseline function before using the result to support broad approval.

Regulatory conclusion: The package may show biological activity, but it does not yet establish that the measured micro-dystrophin expression is a reliable surrogate reasonably likely to predict clinical benefit. The main gaps are assay specificity, invalid quantification standards, possible revertant-fiber confounding, lack of a randomized control, age-related NSAA confounding, uncertain durability, and unresolved safety/generalizability issues.

To close the gap, the program would need a controlled, age-stratified clinical design with transgene-specific expression assays, orthogonal protein quantification, tissue-composition controls, longitudinal durability data, mechanistic functional assays for the truncated construct, and stronger safety monitoring, especially hepatic and cardiac.

Rubric Criteria & Grades

Criterion

Points

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

+8

Validating LifeSciBench

We validated LifeSciBench through an independent expert review. Feedback came from 453 reviewers who were not involved in writing the tasks. Of those reviewers, 97% held a Ph.D. or equivalent doctorate, with an average of 12 years of field experience and 14 peer-reviewed publications; 88% reported receiving at least one award or fellowship.

Reviewers scored whether each task reflected the qualities needed for a strong benchmark question: alignment with real-world research work, appropriate testing of scientific reasoning and domain expertise, grounding in evidence or expert consensus, and overall usefulness for assessing model performance. Agreement exceeded 96% in every category.

Reviewer comments reinforced the quantitative ratings:

1 of 3

Results

We report two complementary metrics. Pass rate is the percentage of tasks on which a model meets the task-level success threshold of 70%. Score is the average rubric reward, giving partial credit for individual criteria even when the full task is not solved. Both matter because a response to a scientific task can be partially correct or useful without meeting every requirement for a complete answer.

Model performance varies substantially by task type, workflow, and response format.

Where AI systems show early strength

LifeSciBench shows that frontier models are relatively strongest on tasks involving scientific synthesis, communication, and structured interpretation. Absolute pass rates are still modest, so these benchmark domains are far from saturated, but GPT‑Rosalind shows meaningful progress over GPT‑5.5, improving overall exact pass rate from 25.7% to 36.1%.

The strongest directions of progression in model capabilities appear in Scientific Communication and Translation. For example, the Scientific Communication pass rate increases from 56.3% for GPT‑5.5 to 71.1% for GPT‑Rosalind; this category is small (n=9), so it should be interpreted cautiously, but it suggests frontier models are improving rapidly in their ability to organize evidence and produce convincing expert-facing explanations. Translation (the "bench-to-bedside" process of drug development) shows a similar pattern, rising from 36.8% for GPT‑5.5 to 57.7% for GPT‑Rosalind, suggesting models are quickly improving on their ability to connect preclinical evidence to clinical implications.

Rubric-level results point in the same direction. On tasks requiring expert-useful or actionable outputs, GPT‑Rosalind scores 44.7%, compared with 29.1% for GPT‑5.5. On tasks requiring uncertainty and caveat handling, it scores 44.8%, compared with 29.3%. This pattern suggests models are most useful when the task has a clear evidence boundary and calls for structured scientific judgment.

Where AI systems still fall short

Performance remains much weaker on artifact-heavy, design-heavy, and operationally constrained scientific work. Namely, Design, Optimization, & Prediction remains one of the hardest workflows, with GPT‑Rosalind passrate at 30.7%; Analysis is similarly difficult at 30.3%.

Artifact use is a particularly clear gap. While GPT‑Rosalind performs better than GPT‑5.5 in artifact-heavy settings, its pass rate still drops from 45.1% on text-only tasks to 28.1% on tasks with artifacts or URLs. GPT‑5.5 shows the same pattern, dropping from 29.9% to 21.9%. A more detailed analysis confirms that frontier models struggle at extracting information from complex figures or large sequence files and integrating that information into the final answer.

The answer format also matters. Tasks requiring exact sequence, structure, or construct-level outputs show lower pass rates: GPT‑Rosalind reaches only 14.8% on numeric tasks and 24.0% on sequence or structure outputs. Construct-generation tasks are also brittle, with GPT‑Rosalind at 27.3% and showing little improvement over GPT‑5.5. Some of this gap may reflect a stricter grading surface for exact-answer tasks, where small differences in calculation or formatting can cause a response to fall under pass threshold. Still, these failures are scientifically meaningful because many life science workflows require outputs that are exact enough to be used directly, such as in CRISPR/HDR donor design or siRNA design.

Models also often get part of the way there without fully solving the task. In roughly 14% of tasks, models earned substantial rubric credit despite failing the exact-pass threshold. For GPT‑Rosalind, 109 tasks had pass rates below 20% while still earning at least 50% rubric reward. In practice, this means models may identify relevant evidence or produce a plausible partial answer, but still fail because they miss a key constraint, use the wrong evidence, make an incomplete calculation, or do not connect their reasoning to a scientifically useful final decision.

Limitations & what’s next

LifeSciBench is a step toward measuring how useful AI systems can be for life science research, but it is not a substitute for studying models in live research environments. The benchmark focuses on self-contained tasks that reflect recurring industry workflows, while leaving many scientific specialties and task types outside its current scope. Real research is iterative: scientists gather new evidence, revise hypotheses, design follow-up experiments, and adapt their plans as results emerge.

Strong performance on LifeSciBench should therefore be interpreted as evidence of realistic task-level capability, not as a direct measure of downstream research impact. The benchmark is grounded in industry workflows, but it does not capture the full diversity or dynamics of live research programs, where progress depends on factors that unfold over time.

The next step is to connect benchmark performance to deployment studies in live research workflows. While LifeSciBench was developed with practicing scientists, measuring whether AI systems accelerate discovery or improve R&D outcomes will require studying model use and performance in real research settings, over longer horizons, and across multiple rounds of reasoning, feedback, and experimental follow-up.

この記事をシェア

関連記事

MarkTechPost★42026年6月18日 11:28

OpenAI、専門家が作成した評価基準を用いた750タスクのライフサイエンス研究ベンチマーク「LifeSciBench」を公開

OpenAIは、生物学者が不確実な証拠に基づいて判断する現実の研究プロセスを模擬するため、専門家による評価基準付きで750件のタスクを含む新ベンチマーク「LifeSciBench」を発表した。

OpenAI News★42026年5月29日 09:00

信頼できる第三者評価のための共有プレイブック

OpenAI が、信頼性の高い第三者による評価を行うための共通の指針(プレイブック)を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。

Simon Willison Blog★42026年5月1日 08:03

OpenAI の GPT-5.5 のサイバーセキュリティ能力に関する評価

英国 AI セキュリティ研究所は、GPT-5.5 が脆弱性発見において Claude Mythos と同等の能力を持つと評価し、一般利用可能である点を指摘した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む