AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月18日 11:28·約14分で読める

OpenAI、専門家が作成した評価基準を用いた750タスクのライフサイエンス研究ベンチマーク「LifeSciBench」を公開

#LifeSciBench#Reasoning#Scientific Research#OpenAI#Evaluation Benchmark
TL;DR

OpenAI は、専門家の評価基準を用いた 750 タスクからなる LifeSciBench を公開し、科学的研究の複雑な意思決定プロセスを評価する新たなベンチマークとして AI モデルの限界と課題を浮き彫りにした。

AI深層分析2026年6月18日 12:02
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

専門家の知見に基づく厳格な評価基準

173 名の博士号保有者が作成した 750 のタスクには、19,020 の詳細な評価項目(ルブリック)が紐付けられており、単なる正解ではなく推論プロセスや証拠の扱い方を厳密に採点する。

2

現実的な科学作業ワークフローの再現

ゲノム解析から医薬品化学まで 7 つの領域と、証拠処理・設計・推論など 7 つのワークフローを網羅し、回答者が複数のステップで判断を下す自由記述形式を採用している。

3

主要モデルの未熟な性能とサチュレーション

GPT-Rosalind を含む最上位モデルでも正解率は 36.1% に留まり、現在の AI は複雑な生命科学研究における不確実性のある判断をまだ十分に処理できないことが示された。

4

部分採点と厳格な合格ラインの併用

ルブリックに基づく部分採点(正規化スコア)でプロセスを評価しつつ、タスク全体の合格ラインは 70% と高く設定されており、不完全な回答でも「失敗」と判定される設計となっている。

5

専門モデルの優位性とボトルネック

OpenAI の GPT-Rosalind が全体で首位を維持したが、設計・最適化や外部アートの使用を伴うタスクでは全モデルとも成功率が 30% を下回るなど課題が残る。

6

評価の限界と課題

750 のタスクのうち 171 タスク(22.8%)でどのモデルも合格できず、また 34.8% のタスクで最高得点モデルの合格率が 20% を下回るなど、実用化に向けた大きな余地がある。

7

ベンチマークの特徴と制約

専門家による厳格なルブリックとリアルなアートを活用している一方、単一ターンでの評価に限られ、OpenAI 自身が開発に関与している点にバイアスの懸念がある。

影響分析・編集コメントを表示

影響分析

このベンチマークは、AI が単なる情報検索や事実の再生を超え、不確実性を含む複雑な科学的研究で意思決定支援ツールとして機能するための重要なマイルストーンとなります。特に、部分採点と厳格な合格ラインを併用する評価手法は、AI の安全性と信頼性を定量化する新たな基準を提供し、生命科学分野における AI 導入の現実的なハードルを明確に示しています。

編集コメント

科学分野における AI の評価基準が、単なる正解率から「思考プロセスの質」へと大きくシフトした画期的なニュースです。現状のモデル性能が限界を示す一方で、より高度な推論能力を必要とする未来の研究開発に向けた明確なロードマップを提供しています。

多くの生物学ベンチマークは、答えが明確な狭く事実に基づいた質問を扱っています。科学者は不完全な証拠を評価し、意思決定を行います。OpenAI は LifeSciBench をリリースし、このギャップに直接取り組んでいます。

最も強力なモデルでも、おおよそ 3 つのタスクのうち 1 つしか通過できません。このベンチマークは未だ飽和状態にはほど遠いです。

LifeSciBench とは何か

LifeSciBench には 750 の専門家によって作成されたタスクが含まれています。これらは 7 つのワークフローと 7 つの生物学的ドメインにまたがっています。各タスクは、プロンプト、補完資料(アーティファクト)、および評価基準(ルーブリック)のペアで構成されています。

7 つのワークフローには、証拠の取り扱いと分析が含まれます。さらに、設計と最適化、科学的推論、検証と運用、翻訳、そして科学コミュニケーションも含まれています。

7 つのドメインは、ゲノム学や医薬品化学から臨床および転換科学まで多岐にわたります。

タスクは、科学者が同僚に指示を出すような形式で記述されています。自由回答式であり、択一問題ではありません。約 79% のタスクでは複数の推論または意思決定ステップが必要で、平均して各タスク 4 つのステップを要します。

ベンチマークの構築方法

173 名の専門家科学者からなるコホートがタスクを作成しました。全員が博士号(Ph.D.)を取得しており、バイオテクノロジーまたは製薬業界での経験を持っています。採用されたタスクは平均して 6 回の自動レビューサイクルと少なくとも 2 回の専門家レビューを経ています。

多くのタスクには資料(アーティファクト)が付属しています。ベンチマーク全体で合計 1,062 の添付資料が含まれています。タスクの約 53% で、少なくとも 1 つの資料が必要となります。資料の種類には、配列、図表、テーブル、PDF ファイル、化学構造式などがあります。

別のコホートによって品質が検証されました。レビューヤーは453名おり、その97%が博士号を保有していました。関連性、推論、根拠付け、有用性に関する全体的な合意率は96%を超えました。

評価基準システム

評価基準(ルブリック)がここでの中核的なメカニズムです。これらはベンチマーク全体で19,020の基準を含んでいます。これはタスクあたりおおよそ25の基準に相当します。

各基準は、具体的な一つの性質に対して報酬を与えます。例としては、特定の事実、推論のステップ、または許容範囲内の数値回答などが挙げられます。採点は単一の参照文字列ではなく、評価基準に基づいて行われます。

パフォーマンスを要約する指標は2つあります。正規化された評価基準スコアは、付与されたポイントを総ポイントで割ったものです。タスク合格率は、70%以上のスコアを獲得したタスクの数をカウントします。

この分離は解釈において重要です。回答が部分的な加点を得ても、タスク自体には不合格となる場合があります。合格閾値は設計上厳格に設定されています。

以下に、平易な Python による採点ロジックを示します:

python
def grade(rubric, awarded_ids):
    total = sum(c["pts"] for c in rubric)
    earned = sum(c["pts"] for c in rubric if c["id"] in awarded_ids)
    normalized = earned / total          # partial credit
    passed = normalized >= 0.70          # task-level success
    return normalized, passed

モデルのパフォーマンス

OpenAI は、1ターン設定において5つのモデルを評価しました。各モデルはプロンプトとアーティファクトを一度だけ提示されました。制限のないインターネット閲覧が許可されていました。

モデル | 正規化スコア | タスク合格率

---|---|---

GPT-Rosalind | 0.576 | 36.1%

GPT-5 | 0.519 | 25.7%

Gemini 3.1 Pro | 0.515 | 23.6%

GPT-5.4 | 0.479 | 20.7%

Grok 4.30.39913.0%

GPT-Rosalind は、OpenAI のドメイン特化型モデルであり、全体で首位となりました。750 タスクのうち 386 タスクでタスクごとの平均点が最高でした。また、GPT-5.5 を上回る全体的な合格率を達成し、25.7% から 36.1% に引き上げました。ただし、すべてのモデルにおいて合格率は依然として控えめな水準にとどまりました。

ランキングは物語のすべてではありません。Gemini 3.1 Pro は、214 タスクで独自に首位となりました。集計スコアだけでは、タスク固有の強みが隠れてしまう可能性があります。

モデルが勝つ領域と、苦手とする領域

モデルは構造的な判断において最も強みを発揮しました。GPT-Rosalind は翻訳(Translation)において 0.712 の平均点を達成しました。科学コミュニケーション(Scientific Communication)は 0.718 でしたが、このカテゴリのタスク数が少ないため、慎重に解釈する必要があります。

2 つのワークフローは依然として困難でした。「設計・最適化・予測」(Design, Optimization, and Prediction)は最も難しいものの一つで、GPT-Rosalind の合格率は 30.7% にとどまりました。分析(Analysis)もこれに次ぐ 30.3% でした。

アーティファクトの活用が明確なボトルネックとなりました。GPT-Rosalind はテキストのみを対象としたタスクでは 45.1% の合格率でしたが、アーティファクトを含むタスクでは 28.1% に低下しました。GPT-5.5 も同様に、29.9% から 21.9% へと減少しました。

正確な出力の生成が最も困難でした。モデル間での「シーケンスと構造」基準の達成率は 46.9% から 18.0% の範囲にありました。GPT-Rosalind が GPT-5.5 を上回った「生成・構築(generate/construct)」項目における改善幅はわずか +0.001 でした。

モデルはタスクの途中で行き詰まることもありました。GPT-Rosalind の場合、750 タスクのうち少なくとも 50% のルブリック評価を獲得した 109 タスクでも、最終的な合格率は 20% を下回りました。

改善の余地はまだ大きいです。どのモデルも 171 タスク(全体の 22.8%)で合格できませんでした。また、261 タスク(34.8%)では、最上位モデルの合格率すら 20% に満たない状況でした。

強みと弱み

強み:

7 つのワークフローと 7 つの生物学的ドメインにわたる広範な対応

専門家が作成した評価基準には、19,020 の原子化され、採点可能な基準が含まれています

現実的な成果物:配列、図表、テーブル、PDF、および構造体

453 名の専門家レビューヤーによる独立検証。そのうち 97% が博士号を保有しています

弱点:

単一ターン(1 回限りの対話)のみ対応。実際の研究は反復的かつ多段階の対話プロセスです

OpenAI によって構築されましたが、同社が評価対象となるモデルの大半も提供しています

公開版は、安全性やライセンス制約により制限される可能性があります

750 のタスクでは、すべての科学専門分野を網羅することはできません

試してみる:インタラクティブな評価基準グラダーデモ

@import url('https://fonts.googleapis.com/css2?family=JetBrains+Mono:wght@400;500;700&display=swap');

/* ---- hard reset, scoped to the widget only ---- */

#lsb-root, #lsb-root *, #lsb-root *::before, #lsb-root *::after {

box-sizing: border-box !important;

margin: 0 !important; padding: 0 !important;

font-family: 'JetBrains Mono', ui-monospace, "SFMono-Regular", Menlo, Consolas, monospace !important;

letter-spacing: normal !important; text-shadow: none !important; float: none !important;

}

#lsb-root {

--green: #76B900; --bg: #111111; --panel: #171717; --panel2: #1e1e1e;

--line: #2a2a2a; --txt: #e8e8e8; --mut: #8a8a8a; --red: #e0533d;

display: block !important;

background: var(--bg) !important; color: var(--txt) !important;

max-width: 920px !important; width: 100% !important; margin: 0 auto !important;

padding: 16px !important; border-radius: 8px !important; line-height: 1.5 !important;

border: 1px solid var(--line) !important;

}

/* suppress wpautop artifacts inside the widget */

#lsb-root p:empty { display: none !important; }

#lsb-root br { display: none !important; }

#lsb-root .lsb-head{ border:1px solid var(--line) !important; border-left:3px solid var(--green) !important;

background:var(--panel) !important; padding:16px 18px !important; border-radius:6px !important; }

#lsb-root .lsb-kicker{ color:var(--green) !important; font-size:11px !important; letter-spacing:2px !important; text-transform:uppercase !important; }

#lsb-root .lsb-title{ font-size:20px !important; font-weight:700 !important; margin:6px 0 4px !important; color:var(--txt) !important; }

#lsb-root .lsb-sub{ color:var(--mut) !important; font-size:12.5px !important; }

#lsb-root .lsb-tabs{ display:flex !important; gap:8px !important; margin:16px 0 !important; flex-wrap:wrap !important; }

#lsb-root button{ -webkit-appearance:none !important; appearance:none !important; cursor:pointer !important;

box-shadow:none !important; text-transform:none !important; min-height:0 !important; width:auto !important; line-height:1.5 !important; }

#lsb-root .lsb-tab{ border:1px solid var(--line) !important; background:var(--panel) !important; color:var(--mut) !important;

padding:9px 14px !important; border-radius:6px !important; font-size:12.5px !important; font-weight:500 !important; }

#lsb-root .lsb-tab.on{ color:var(--bg) !important; background:var(--green) !important; border-color:var(--green) !important; font-weight:700 !important; }

#lsb-root .lsb-card{ border:1px solid var(--line) !important; background:var(--panel) !important; border-radius:6px !important; padding:16px !important; }

#lsb-root .lsb-prompt{ background:var(--panel2) !important; border:1px solid var(--line) !important; border-radius:5px !important;

padding:12px !important; font-size:12px !important; color:#cfcfcf !important; margin-bottom:14px !important; }

#lsb-root .lsb-prompt b{ color:var(--green) !important; }

#lsb-root .lsb-grp{ margin-bottom:14px !important; }

#lsb-root .lsb-grp .lsb-h{ font-size:12px !important; color:var(--green) !important; text-transform:uppercase !important;

letter-spacing:1px !important; margin-bottom:8px !important; font-weight:700 !important; }

#lsb-root .lsb-crit{ display:flex !important; align-items:flex-start !important; gap:10px !important; padding:7px 9px !important;

border:1px solid var(--line) !important; border-radius:5px !important; margin-bottom:6px !important; cursor:pointer !important; background:var(--panel2) !important; }

#lsb-root .lsb-crit.sel{ border-color:var(--green) !important; background:rgba(118,185,0,.08) !important; }

#lsb-root .lsb-crit input{ margin-top:3px !important; accent-color:var(--green) !important; width:15px !important; height:15px !important; flex:0 0 auto !important; }

#lsb-root .lsb-crit .lbl{ font-size:12px !important; flex:1 !important; color:var(--txt) !important; }

#lsb-root .lsb-crit .pts{ color:var(--green) !important; font-weight:700 !important; font-size:12px !important; flex:0 0 auto !important; }

#lsb-root .lsb-presets{ display:flex !important; gap:7px !important; flex-wrap:wrap !important; margin-bottom:14px !important; align-items:center !important; }

#lsb-root .lsb-presets .cap{ font-size:11px !important; color:var(--mut) !important; }

#lsb-root .lsb-pbtn{ border:1px solid var(--line) !important; background:var(--panel2) !important; color:var(--txt) !important;

padding:7px 11px !important; border-radius:5px !important; font-size:11.5px !important; }

#lsb-root .lsb-score{ background:var(--panel2) !important; margin-top:8px !important; }

#lsb-root .lsb-meter{ display:flex !important; justify-content:space-between !important; align-items:baseline !important; margin-bottom:6px !important; }

#lsb-root .lsb-ptsbig{ font-size:26px !important; font-weight:700 !important; color:var(--txt) !important; }

#lsb-root .lsb-norm{ font-size:13px !important; color:var(--mut) !important; }

#lsb-root .lsb-bar{ height:14px !important; background:var(--bg) !important; border:1px solid var(--line) !important;

border-radius:20px !important; overflow:hidden !important; position:relative !important; }

#lsb-root .lsb-fill{ height:100% !important; background:var(--green) !important; width:0 !important; transition:width .25s ease !important; }

#lsb-root .lsb-thresh{ position:absolute !important; top:-3px !important; bottom:-3px !important; left:70% !important; width:2px !important; background:var(--red) !important; }

#lsb-root .lsb-threshlab{ font-size:10px !important; color:var(--red) !important; text-align:right !important; margin-top:3px !important; }

#lsb-root .lsb-badge{ display:inline-block !important; margin-top:10px !important; padding:6px 14px !important; border-radius:5px !important; font-weight:700 !important; font-size:13px !important; }

#lsb-root .lsb-pass{ background:var(--green) !important; color:var(--bg) !important; }

#lsb-root .lsb-fail{ background:rgba(224,83,61,.15) !important; color:var(--red) !important; border:1px solid var(--red) !important; }

#lsb-root .lsb-note{ font-size:11px !important; color:var(--mut) !important; margin-top:10px !important; }

#lsb-root .lsb-row{ margin-bottom:12px !important; }

#lsb-root .lsb-row .top{ display:flex !important; justify-content:space-between !important; font-size:12.5px !important; margin-bottom:4px !important; }

#lsb-root .lsb-row .nm{ color:var(--txt) !important; font-weight:700 !important; }

#lsb-root .lsb-row .val{ color:var(--green) !important; font-weight:700 !important; }

#lsb-root .lsb-lbar{ height:20px !important; background:var(--bg) !important; border:1px solid var(--line) !important; border-radius:5px !important; overflow:hidden !important; }

#lsb-root .lsb-lfill{ height:100% !important; background:linear-gradient(90deg,#4d7a00,var(--green)) !important; width:0 !important; transition:width .35s ease !important; }

#lsb-root .lsb-hide{ display:none !important; }

#lsb-root .lsb-foot{ margin-top:18px !important; padding-top:12px !important; border-top:1px solid var(--line) !important;

font-size:11px !important; color:var(--mut) !important; display:flex !important; justify-content:space-between !important; flex-wrap:wrap !important; gap:8px !important; }

#lsb-root .lsb-foot b{ color:var(--green) !important; }

@media(max-width:640px){

#lsb-root{ padding:10px !important; }

#lsb-root .lsb-title{ font-size:17px !important; }

#lsb-root .lsb-ptsbig{ font-size:22px !important; }

#lsb-root .lsb-crit .lbl{ font-size:11.5px !important; }

}

LifeSciBench — インタラクティブデモ

ルブリック評価者 & モデルリーダーボード

ルールの基づく評価が実際のベンチマークタスクでどのように機能するかをご覧ください。モデルが「正解」とした基準を切り替え、正規化スコアと 70% の合格閾値がリアルタイムで更新される様子を確認できます。

ルール評価者

モデルリーダーボード

タスク(分析 — 空間トランスクリプトミクス):添付された FFPE 子宮頸がんスライドの Visium データを用いて、スポットを 4 つの k-means グループにクラスタリングし、各クラスタごとの支配的な細胞タイプを注釈付け、腫瘍領域と非腫瘍領域間の抗原発現の違いに基づき、最も有望な標的治療法(ADC、TCE、または CAR-T)を 1〜2 つ推奨してください。

応答のシミュレーション:

強力

部分的

弱い

すべてクリア

0 / 76 ポイント

正規化スコア:0%

▲ 70% 合格閾値(53.2 ポイント)

FAIL — 70% 未満

応答が部分的な加点を獲得しても、タスクに不合格となる場合があります。このギャップこそが LifeSciBench が測定するものです。

タスク合格率

正規化スコア

シングルターン評価;インターネット閲覧は制限なし。GPT-Rosalind が全体で首位を占めましたが、独自に上位となったのは 750 のタスク中 386 のみでした。Gemini 3.1 Pro は 214 で独自に首位となりました。

Marktechpost によって構築 · データ:OpenAI LifeSciBench プレプリントおよびリリース

検証日:2026 年 6 月 17 日

(function(){

var root = document.getElementById('lsb-root');

if(!root || root.getAttribute('data-init')) return;

root.setAttribute('data-init','1');

var RUBRIC = {

"Analysis":[

{id:"a1", lbl:"腫瘍スポットとして 2 つのクラスターを特定する", pts:10},

{id:"a2", lbl:"がん関連線維芽細胞として 1 つのクラスターを特定する", pts:5},

{id:"a3", lbl:"間質スポットとして 1 つのクラスターを特定する", pts:5},

{id:"a4", lbl:"免疫系クラスターが存在しないことを特定する", pts:10}

],

"Targeted therapies":[

{id:"f1", lbl:"F3 を潜在的な治療標的として特定する", pts:3},

{id:"f2", lbl:"腫瘍スポットの 90–100% に F3 の発現がある", pts:2},

{id:"f3", lbl:"非腫瘍スポットの 80–90% に F3 の発現がある", pts:1},

{id:"f4", lbl:"F3 のオッズ比は 11–13(腫瘍対非腫瘍)", pts:1},

{id:"f5", lbl:"F3 の特異性は 12–16%", pts:2},

{id:"t1", lbl:"TROP2 を潜在的な標的として特定する", pts:3},

{id:"t2", lbl:"HER2 を潜在的な標的として特定する", pts:3},

{id:"t3", lbl:"NECTIN4 を潜在的な標的として特定する", pts:3},

{id:"t4", lbl:"HER3 を潜在的な標的として特定する", pts:3}

],

"Treatment recommendation":[

{id:"r1", lbl:"この患者にとって NECTIN4 は潜在的な標的となり得る", pts:5},

{id:"r2", lbl:"この患者にとって HER3 は潜在的な標的となり得る", pts:5},

{id:"r3", lbl:"エンフォルツマブ ベドチン(NECTIN4 標的)を検討できる可能性があるが、子宮頸がんにおける標準治療(SOC)として確立されていない", pts:6},

{id:"r4", lbl:"パトリツムバー デルクセカンは潜在的な治療薬となり得る", pts:6},

{id:"r5", lbl:"免疫チェックポイント阻害剤の有効性は限定的である可能性がある(免疫系クラスターが存在しないため)", pts:3}

]

};

var TOTAL = 76, THRESH = 0.70;

var selected = {};

var PRESETS = {

strong:["a1","a2","a3","a4","f1","t1","t2","t3","t4","r1","r2","r3","r4","r5"],

partial:["a1","a4","f1","t1","t2"],

weak:["a1","f1"],

clear:[]

};

var groupsEl = root.querySelector('[data-groups]');

var ptsEl = root.querySelector('[data-pts]');

var normEl = root.querySelector('[data-norm]');

var fillEl = root.querySelector('[data-fill]');

var badgeEl = root.querySelector('[data-badge]');

var noteEl = root.querySelector('[data-note]');

function esc(s){ var d=document.createElement('div'); d.textContent=s; return d.innerHTML; }

function renderGroups(){

var html='';

for(var grp in RUBRIC){

if(!RUBRIC.hasOwnProperty(grp)) continue;

html += ''+esc(grp)+'

';

RUBRIC[grp].forEach(function(c){

var sel = !!selected[c.id];

html += ''

+ ''

+ ''+esc(c.lbl)+''

+ '+'+c.pts+'';

});

html += '

';

}

groupsEl.innerHTML = html;

}

function update(){

var pts=0;

for(var grp in RUBRIC){

if(!RUBRIC.hasOwnProperty(grp)) continue;

RUBRIC[grp].forEach(function(c){ if(selected[c.id]) pts+=c.pts; });

}

var norm = pts/TOTAL;

ptsEl.textContent = pts;

normEl.textContent = (norm*100).toFixed(1)+'%';

fillEl.style.setProperty('width', (norm*100)+'%', 'important');

if(norm>=THRESH){ badgeEl.className='lsb-badge lsb-pass'; badgeEl.textContent='PASS — meets 70% threshold'; }

else { badgeEl.className='lsb-badge lsb-fail'; badgeEl.textContent='FAIL — below 70%'; }

if(pts>0 && norm=THRESH) noteEl.textContent='Task passes. The response satisfies enough rubric criteria to count as a successful answer.';

else noteEl.textContent='A response can collect partial credit yet still fail the task. That gap is exactly what LifeSciBench measures.';

}

function refresh(){ renderGroups(); update(); }

// criterion toggle (event delegation; works for label or checkbox click)

groupsEl.addEventListener('click', function(e){

var lab = e.target.closest ? e.target.closest('.lsb-crit') : null;

if(!lab) return;

e.preventDefault();

var id = lab.getAttribute('data-id');

if(selected[id]) delete selected[id]; else selected[id]=1;

refresh();

}

// プリセット

root.querySelectorAll('[data-preset]').forEach(function(btn){

btn.addEventListener('click', function(){

selected = {};

PRESETS[btn.getAttribute('data-preset')].forEach(function(id){ selected[id]=1; });

refresh();

});

});

// パネルタブ

var tabBtns = root.querySelectorAll('[data-tab]');

var panels = root.querySelectorAll('[data-panel]');

tabBtns.forEach(function(btn){

btn.addEventListener('click', function(){

var t = btn.getAttribute('data-tab');

tabBtns.forEach(function(b){ b.className = 'lsb-tab'+(b===btn?' on':''); });

panels.forEach(function(p){ p.className = 'lsb-card'+(p.getAttribute('data-panel')===t?'':' lsb-hide'); });

if(t==='leaderboard') drawLB();

});

});

// リーダーボード

var MODELS=[

{name:"GPT-Rosalind", score:0.576, pass:0.361},

{name:"GPT-5.5", score:0.519, pass:0.257},

{name:"Gemini 3.1 Pro", score:0.515, pass:0.236},

{name:"GPT-5.4", score:0.479, pass:0.207},

{name:"Grok 4.3", score:0.399, pass:0.130}

];

var lbEl = root.querySelector('[data-lb]');

var curMetric='pass';

function drawLB(){

var max = curMetric==='pass'?0.40:0.60, html='';

MODELS.forEach(function(m){

var v=m[curMetric];

var label = curMetric==='pass' ? (v*100).toFixed(1)+'%' : v.toFixed(3);

html += ''+esc(m.name)+''

+ ''+label+'

';

';

});

lbEl.innerHTML = html;

}

root.querySelectorAll('[data-metric]').forEach(function(btn){

btn.addEventListener('click', function(){

curMetric = btn.getAttribute('data-metric');

root.querySelectorAll('[data-metric]').forEach(function(b){ b.className='lsb-tab'+(b===btn?' on':''); });

drawLB();

});

});

refresh();

drawLB();

})();

Check out t

原文を表示

Most biology benchmarks ask narrow, fact-based questions with clean answers. Scientists weigh imperfect evidence and make decisions. OpenAI released LifeSciBench and it targets that gap directly.

Even the strongest model passes roughly one task in three. The benchmark is far from saturated.

What is LifeSciBench

LifeSciBench contains 750 expert-authored tasks. They span seven workflows and seven biological domains. Each task pairs a prompt, supporting artifacts, and a grading rubric.

The seven workflows cover evidence handling and analysis. They also include design and optimization, scientific reasoning, validation and operations, translation, and scientific communication.

The seven domains run from genomics and medicinal chemistry to clinical and translational science.

Tasks are written as a scientist would brief a colleague. They are free-response, not multiple-choice. Around 79% require multiple reasoning or decision-making steps, averaging four steps each.

How the Benchmark was Built

A cohort of 173 expert scientists wrote the tasks. Each held a Ph.D. and had biotechnology or pharmaceutical experience. Accepted tasks averaged six automated review cycles and at least two expert reviews.

Many tasks ship with artifacts. The benchmark includes 1,062 attached artifacts in total. About 53% of tasks require at least one artifact. Types include sequences, figures, tables, PDFs, and chemical structures.

A separate cohort validated quality. There were 453 reviewers, and 97% held doctorates. Overall agreement exceeded 96% on relevance, reasoning, grounding, and usefulness.

The Rubric System

Rubrics are the core mechanic here. They contain 19,020 criteria across the benchmark. That is roughly 25 criteria per task.

Each criterion rewards one concrete property. Examples include a specific fact, a reasoning step, or a numeric answer within tolerance. Grading runs against the rubric, not a single reference string.

Two metrics summarize performance. Normalized rubric score divides awarded points by total points. Task pass rate counts tasks scoring at or above 70%.

This separation matters for interpretation. A response can earn partial credit while still failing the task. The pass threshold is strict by design.

Here is the scoring logic in plain Python:

Copy CodeCopiedUse a different Browser

def grade(rubric, awarded_ids):

total = sum(c["pts"] for c in rubric)

earned = sum(c["pts"] for c in rubric if c["id"] in awarded_ids)

normalized = earned / total # partial credit

passed = normalized >= 0.70 # task-level success

return normalized, passed

How the Models Performed

OpenAI evaluated five models in a single-turn setting. Each model saw the prompt and artifacts once. Unrestricted internet browsing was permitted.

ModelNormalized scoreTask pass rate

GPT-Rosalind0.57636.1%

GPT-5.50.51925.7%

Gemini 3.1 Pro0.51523.6%

GPT-5.40.47920.7%

Grok 4.30.39913.0%

GPT-Rosalind, OpenAI’s domain-specialized model, led overall. It had the highest per-task mean on 386 of 750 tasks. It also lifted the overall pass rate over GPT-5.5, from 25.7% to 36.1%. Pass rates stayed modest across every model.

Rankings are not the whole story. Gemini 3.1 Pro uniquely led on 214 tasks. Aggregate scores can hide task-specific strengths.

Where Models Win, and Where They Fall Short

Models were strongest on structured judgment. GPT-Rosalind reached a 0.712 mean score on Translation. Scientific Communication scored 0.718, but that category is small, so read it cautiously.

Two workflows stayed hard. Design, Optimization, and Prediction was among the toughest, with GPT-Rosalind passing 30.7%. Analysis was close behind at 30.3%.

Artifact use was a clear bottleneck. GPT-Rosalind dropped from 45.1% on text-only tasks to 28.1% on artifact tasks. GPT-5.5 fell the same way, from 29.9% to 21.9%.

Exact outputs were hardest of all. Sequence and structure criterion success ranged from 46.9% to 18.0% across models. GPT-Rosalind’s gain over GPT-5.5 on generate/construct items was just +0.001.

Models also stalled mid-task. For GPT-Rosalind, 109 tasks earned at least 50% rubric credit but still passed below 20%.

Headroom remains large. No model passed 171 tasks (22.8%). And 261 tasks (34.8%) had a best-model pass rate below 20%.

Strengths and Weaknesses

Strengths:

Broad coverage across seven workflows and seven biological domains

Expert-authored rubrics with 19,020 atomic, gradeable criteria

Realistic artifacts: sequences, figures, tables, PDFs, and structures

Independent validation by 453 expert reviewers, 97% with doctorates

Weaknesses:

Single-turn only; real research is iterative and multi-turn

Built by OpenAI, which also supplies most evaluated models

Public release may be limited by safety and licensing constraints

750 tasks cannot cover every scientific specialty

Try It: Interactive Rubric Grader Demo

@import url('https://fonts.googleapis.com/css2?family=JetBrains+Mono:wght@400;500;700&display=swap');

/* ---- hard reset, scoped to the widget only ---- */

#lsb-root, #lsb-root *, #lsb-root *::before, #lsb-root *::after{

box-sizing:border-box !important;

margin:0 !important; padding:0 !important;

font-family:'JetBrains Mono', ui-monospace, "SFMono-Regular", Menlo, Consolas, monospace !important;

letter-spacing:normal !important; text-shadow:none !important; float:none !important;

}

#lsb-root{

--green:#76B900; --bg:#111111; --panel:#171717; --panel2:#1e1e1e;

--line:#2a2a2a; --txt:#e8e8e8; --mut:#8a8a8a; --red:#e0533d;

display:block !important;

background:var(--bg) !important; color:var(--txt) !important;

max-width:920px !important; width:100% !important; margin:0 auto !important;

padding:16px !important; border-radius:8px !important; line-height:1.5 !important;

border:1px solid var(--line) !important;

}

/* suppress wpautop artifacts inside the widget */

#lsb-root p:empty{ display:none !important; }

#lsb-root br{ display:none !important; }

#lsb-root .lsb-head{ border:1px solid var(--line) !important; border-left:3px solid var(--green) !important;

background:var(--panel) !important; padding:16px 18px !important; border-radius:6px !important; }

#lsb-root .lsb-kicker{ color:var(--green) !important; font-size:11px !important; letter-spacing:2px !important; text-transform:uppercase !important; }

#lsb-root .lsb-title{ font-size:20px !important; font-weight:700 !important; margin:6px 0 4px !important; color:var(--txt) !important; }

#lsb-root .lsb-sub{ color:var(--mut) !important; font-size:12.5px !important; }

#lsb-root .lsb-tabs{ display:flex !important; gap:8px !important; margin:16px 0 !important; flex-wrap:wrap !important; }

#lsb-root button{ -webkit-appearance:none !important; appearance:none !important; cursor:pointer !important;

box-shadow:none !important; text-transform:none !important; min-height:0 !important; width:auto !important; line-height:1.5 !important; }

#lsb-root .lsb-tab{ border:1px solid var(--line) !important; background:var(--panel) !important; color:var(--mut) !important;

padding:9px 14px !important; border-radius:6px !important; font-size:12.5px !important; font-weight:500 !important; }

#lsb-root .lsb-tab.on{ color:var(--bg) !important; background:var(--green) !important; border-color:var(--green) !important; font-weight:700 !important; }

#lsb-root .lsb-card{ border:1px solid var(--line) !important; background:var(--panel) !important; border-radius:6px !important; padding:16px !important; }

#lsb-root .lsb-prompt{ background:var(--panel2) !important; border:1px solid var(--line) !important; border-radius:5px !important;

padding:12px !important; font-size:12px !important; color:#cfcfcf !important; margin-bottom:14px !important; }

#lsb-root .lsb-prompt b{ color:var(--green) !important; }

#lsb-root .lsb-grp{ margin-bottom:14px !important; }

#lsb-root .lsb-grp .lsb-h{ font-size:12px !important; color:var(--green) !important; text-transform:uppercase !important;

letter-spacing:1px !important; margin-bottom:8px !important; font-weight:700 !important; }

#lsb-root .lsb-crit{ display:flex !important; align-items:flex-start !important; gap:10px !important; padding:7px 9px !important;

border:1px solid var(--line) !important; border-radius:5px !important; margin-bottom:6px !important; cursor:pointer !important; background:var(--panel2) !important; }

#lsb-root .lsb-crit.sel{ border-color:var(--green) !important; background:rgba(118,185,0,.08) !important; }

#lsb-root .lsb-crit input{ margin-top:3px !important; accent-color:var(--green) !important; width:15px !important; height:15px !important; flex:0 0 auto !important; }

#lsb-root .lsb-crit .lbl{ font-size:12px !important; flex:1 !important; color:var(--txt) !important; }

#lsb-root .lsb-crit .pts{ color:var(--green) !important; font-weight:700 !important; font-size:12px !important; flex:0 0 auto !important; }

#lsb-root .lsb-presets{ display:flex !important; gap:7px !important; flex-wrap:wrap !important; margin-bottom:14px !important; align-items:center !important; }

#lsb-root .lsb-presets .cap{ font-size:11px !important; color:var(--mut) !important; }

#lsb-root .lsb-pbtn{ border:1px solid var(--line) !important; background:var(--panel2) !important; color:var(--txt) !important;

padding:7px 11px !important; border-radius:5px !important; font-size:11.5px !important; }

#lsb-root .lsb-score{ background:var(--panel2) !important; margin-top:8px !important; }

#lsb-root .lsb-meter{ display:flex !important; justify-content:space-between !important; align-items:baseline !important; margin-bottom:6px !important; }

#lsb-root .lsb-ptsbig{ font-size:26px !important; font-weight:700 !important; color:var(--txt) !important; }

#lsb-root .lsb-norm{ font-size:13px !important; color:var(--mut) !important; }

#lsb-root .lsb-bar{ height:14px !important; background:var(--bg) !important; border:1px solid var(--line) !important;

border-radius:20px !important; overflow:hidden !important; position:relative !important; }

#lsb-root .lsb-fill{ height:100% !important; background:var(--green) !important; width:0 !important; transition:width .25s ease !important; }

#lsb-root .lsb-thresh{ position:absolute !important; top:-3px !important; bottom:-3px !important; left:70% !important; width:2px !important; background:var(--red) !important; }

#lsb-root .lsb-threshlab{ font-size:10px !important; color:var(--red) !important; text-align:right !important; margin-top:3px !important; }

#lsb-root .lsb-badge{ display:inline-block !important; margin-top:10px !important; padding:6px 14px !important; border-radius:5px !important; font-weight:700 !important; font-size:13px !important; }

#lsb-root .lsb-pass{ background:var(--green) !important; color:var(--bg) !important; }

#lsb-root .lsb-fail{ background:rgba(224,83,61,.15) !important; color:var(--red) !important; border:1px solid var(--red) !important; }

#lsb-root .lsb-note{ font-size:11px !important; color:var(--mut) !important; margin-top:10px !important; }

#lsb-root .lsb-row{ margin-bottom:12px !important; }

#lsb-root .lsb-row .top{ display:flex !important; justify-content:space-between !important; font-size:12.5px !important; margin-bottom:4px !important; }

#lsb-root .lsb-row .nm{ color:var(--txt) !important; font-weight:700 !important; }

#lsb-root .lsb-row .val{ color:var(--green) !important; font-weight:700 !important; }

#lsb-root .lsb-lbar{ height:20px !important; background:var(--bg) !important; border:1px solid var(--line) !important; border-radius:5px !important; overflow:hidden !important; }

#lsb-root .lsb-lfill{ height:100% !important; background:linear-gradient(90deg,#4d7a00,var(--green)) !important; width:0 !important; transition:width .35s ease !important; }

#lsb-root .lsb-hide{ display:none !important; }

#lsb-root .lsb-foot{ margin-top:18px !important; padding-top:12px !important; border-top:1px solid var(--line) !important;

font-size:11px !important; color:var(--mut) !important; display:flex !important; justify-content:space-between !important; flex-wrap:wrap !important; gap:8px !important; }

#lsb-root .lsb-foot b{ color:var(--green) !important; }

@media(max-width:640px){

#lsb-root{ padding:10px !important; }

#lsb-root .lsb-title{ font-size:17px !important; }

#lsb-root .lsb-ptsbig{ font-size:22px !important; }

#lsb-root .lsb-crit .lbl{ font-size:11.5px !important; }

}

LifeSciBench — Interactive Demo

Rubric Grader & Model Leaderboard

See how rubric-based grading works on a real benchmark task. Toggle the criteria a model “got right” and watch the normalized score and 70% pass threshold update live.

Rubric Grader

Model Leaderboard

Task (Analysis — Spatial Transcriptomics): Using attached Visium data from an FFPE cervical cancer slide, cluster the spots into 4 k-means groups, annotate the dominant cell type per cluster, and recommend the 1–2 most promising targeted therapies (ADC, TCE, or CAR-T) based on antigen expression differences between tumor and non-tumor regions.

Simulate a response:

Strong

Partial

Weak

Clear all

0 / 76 pts

Normalized score: 0%

▲ 70% pass threshold (53.2 pts)

FAIL — below 70%

A response can collect partial credit yet still fail the task. That gap is exactly what LifeSciBench measures.

Task pass rate

Normalized score

Single-turn evaluation; unrestricted internet browsing permitted. GPT-Rosalind led overall but uniquely topped only 386 of 750 tasks; Gemini 3.1 Pro uniquely led on 214.

Built by Marktechpost · Data: OpenAI LifeSciBench preprint & release

Verified Jun 17, 2026

(function(){

var root = document.getElementById('lsb-root');

if(!root || root.getAttribute('data-init')) return;

root.setAttribute('data-init','1');

var RUBRIC = {

"Analysis":[

{id:"a1", lbl:"Identifies two clusters as tumor spots", pts:10},

{id:"a2", lbl:"Identifies one cluster as cancer-associated fibroblasts", pts:5},

{id:"a3", lbl:"Identifies one cluster as stromal spots", pts:5},

{id:"a4", lbl:"Identifies that there is no immune cluster", pts:10}

],

"Targeted therapies":[

{id:"f1", lbl:"Identifies F3 as a potential therapeutic target", pts:3},

{id:"f2", lbl:"90\u2013100% of tumor spots have F3 expression", pts:2},

{id:"f3", lbl:"80\u201390% of non-tumor spots have F3 expression", pts:1},

{id:"f4", lbl:"F3 odds ratio 11\u201313 (tumor vs non-tumor)", pts:1},

{id:"f5", lbl:"F3 specificity 12\u201316%", pts:2},

{id:"t1", lbl:"Identifies TROP2 as a potential target", pts:3},

{id:"t2", lbl:"Identifies HER2 as a potential target", pts:3},

{id:"t3", lbl:"Identifies NECTIN4 as a potential target", pts:3},

{id:"t4", lbl:"Identifies HER3 as a potential target", pts:3}

],

"Treatment recommendation":[

{id:"r1", lbl:"NECTIN4 would be a potential target for this patient", pts:5},

{id:"r2", lbl:"HER3 would be a potential target for this patient", pts:5},

{id:"r3", lbl:"Enfortumab vedotin may be considered (NECTIN4); not yet established SOC for cervical cancer", pts:6},

{id:"r4", lbl:"Patritumab deruxtecan would be a potential therapeutic", pts:6},

{id:"r5", lbl:"Checkpoint inhibitor efficacy may be limited (no immune cluster)", pts:3}

]

};

var TOTAL = 76, THRESH = 0.70;

var selected = {};

var PRESETS = {

strong:["a1","a2","a3","a4","f1","t1","t2","t3","t4","r1","r2","r3","r4","r5"],

partial:["a1","a4","f1","t1","t2"],

weak:["a1","f1"],

clear:[]

};

var groupsEl = root.querySelector('[data-groups]');

var ptsEl = root.querySelector('[data-pts]');

var normEl = root.querySelector('[data-norm]');

var fillEl = root.querySelector('[data-fill]');

var badgeEl = root.querySelector('[data-badge]');

var noteEl = root.querySelector('[data-note]');

function esc(s){ var d=document.createElement('div'); d.textContent=s; return d.innerHTML; }

function renderGroups(){

var html='';

for(var grp in RUBRIC){

if(!RUBRIC.hasOwnProperty(grp)) continue;

html += ''+esc(grp)+'

';

RUBRIC[grp].forEach(function(c){

var sel = !!selected[c.id];

html += ''

+ ''

+ ''+esc(c.lbl)+''

+ '+'+c.pts+'';

});

html += '

';

}

groupsEl.innerHTML = html;

}

function update(){

var pts=0;

for(var grp in RUBRIC){

if(!RUBRIC.hasOwnProperty(grp)) continue;

RUBRIC[grp].forEach(function(c){ if(selected[c.id]) pts+=c.pts; });

}

var norm = pts/TOTAL;

ptsEl.textContent = pts;

normEl.textContent = (norm*100).toFixed(1)+'%';

fillEl.style.setProperty('width', (norm*100)+'%', 'important');

if(norm>=THRESH){ badgeEl.className='lsb-badge lsb-pass'; badgeEl.textContent='PASS \u2014 meets 70% threshold'; }

else { badgeEl.className='lsb-badge lsb-fail'; badgeEl.textContent='FAIL \u2014 below 70%'; }

if(pts>0 && norm=THRESH) noteEl.textContent='Task passes. The response satisfies enough rubric criteria to count as a successful answer.';

else noteEl.textContent='A response can collect partial credit yet still fail the task. That gap is exactly what LifeSciBench measures.';

}

function refresh(){ renderGroups(); update(); }

// criterion toggle (event delegation; works for label or checkbox click)

groupsEl.addEventListener('click', function(e){

var lab = e.target.closest ? e.target.closest('.lsb-crit') : null;

if(!lab) return;

e.preventDefault();

var id = lab.getAttribute('data-id');

if(selected[id]) delete selected[id]; else selected[id]=1;

refresh();

});

// presets

root.querySelectorAll('[data-preset]').forEach(function(btn){

btn.addEventListener('click', function(){

selected = {};

PRESETS[btn.getAttribute('data-preset')].forEach(function(id){ selected[id]=1; });

refresh();

});

});

// panel tabs

var tabBtns = root.querySelectorAll('[data-tab]');

var panels = root.querySelectorAll('[data-panel]');

tabBtns.forEach(function(btn){

btn.addEventListener('click', function(){

var t = btn.getAttribute('data-tab');

tabBtns.forEach(function(b){ b.className = 'lsb-tab'+(b===btn?' on':''); });

panels.forEach(function(p){ p.className = 'lsb-card'+(p.getAttribute('data-panel')===t?'':' lsb-hide'); });

if(t==='leaderboard') drawLB();

});

});

// leaderboard

var MODELS=[

{name:"GPT-Rosalind", score:0.576, pass:0.361},

{name:"GPT-5.5", score:0.519, pass:0.257},

{name:"Gemini 3.1 Pro", score:0.515, pass:0.236},

{name:"GPT-5.4", score:0.479, pass:0.207},

{name:"Grok 4.3", score:0.399, pass:0.130}

];

var lbEl = root.querySelector('[data-lb]');

var curMetric='pass';

function drawLB(){

var max = curMetric==='pass'?0.40:0.60, html='';

MODELS.forEach(function(m){

var v=m[curMetric];

var label = curMetric==='pass' ? (v*100).toFixed(1)+'%' : v.toFixed(3);

html += ''+esc(m.name)+''

+ ''+label+'

'

+ '

';

});

lbEl.innerHTML = html;

}

root.querySelectorAll('[data-metric]').forEach(function(btn){

btn.addEventListener('click', function(){

curMetric = btn.getAttribute('data-metric');

root.querySelectorAll('[data-metric]').forEach(function(b){ b.className='lsb-tab'+(b===btn?' on':''); });

drawLB();

});

});

refresh();

drawLB();

})();

Check out t

この記事をシェア

関連記事

OpenAI News★42026年6月17日 09:00

LifeSciBench の紹介

OpenAI が、生命科学分野の AI モデル評価を目的としたベンチマーク「LifeSciBench」を発表した。

Understanding AI★42026年6月11日 04:21

Anthropic、画像理解能力で OpenAI に追いつく

Anthropic は火曜日に「Claude Mythos 5」と「Claude Fable 5」の 2 つの新モデルを公開し、画像理解能力において OpenAI と同等の水準に達したと発表した。

OpenAI News★42026年6月4日 09:00

知能時代における生物防衛

OpenAI は、人工知能の発展に伴う生物兵器リスクへの対策として、新たな知能時代の生物防衛戦略を提唱した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む