空間生物学における新 Frontier モデルは高速化されたが信頼性は向上せず
GPT-5.5 や Opus 4.7 の最新モデルは空間生物学タスクで処理速度を大幅に改善したものの、精度の向上は見られず、一般推論能力の強化だけでは限界があることが示された。
キーポイント
速度と精度の乖離
GPT-5.5 は GPT-5.4 に比べて SpatialBench の実行時間を約半分に短縮したが、精度はほぼ横ばいであり、Opus 4.7 も同様の傾向を示した。
一般推論の限界
空間生物学分野における性能向上は、汎用的な推論能力の強化だけでは達成できず、特定の領域知識が不可欠であることが示された。
専門的トレーニングの必要性
今後の改善には、統計的設計、プラットフォーム固有の解析スタック、複製を考慮した差分テストなど、空間生物学に特化した明示的なトレーニングが必要となる。
影響分析・編集コメントを表示
影響分析
この分析は、AI モデルの性能評価において「速度」と「精度」が必ずしも比例しないことを示唆しており、特に科学計算や専門分野への適用においては、汎用推論能力だけでなくドメイン固有の知識統合が不可欠であることを浮き彫りにしています。業界全体として、単なるモデルサイズの拡大や推論速度の最適化から、専門領域に特化した学習データとトレーニング手法への転換を迫る重要な示唆となっています。
編集コメント
速度向上の裏で精度が停滞している事実は、AI が専門分野に浸透する際のボトルネックを如実に示しています。今後は「速いだけ」のモデルから、「正確な専門家」として機能するためのドメイン特化型学習への投資が急務となるでしょう。
新世代モデルは SpatialBench で高速化されたが、精度は向上していない。
GPT-5.5 は GPT-5.4 と比較して実行時間がほぼ半減したが、精度は横ばいの 57.6% 対 57.4% に留まっている。Opus 4.7 も Opus 4.6 と同様に拮抗しており、それぞれ 52.4% 対 52.8% である。
科学者によるレビュー済み経路(trajectories)は、アッセイ認識型生物学的判断における課題を浮き彫りにしている:統計的設計、空間単位、バッチ構造、および科学的解釈に関するものである。
完全なベンチマークデータと選択された経路は benchmarks.bio で利用可能である。
空間生物学(Spatial biology)は強力な測定ツールであり、エージェント機能の重要なカテゴリである。分析ワークフローにはコードと生物学的推論の組み合わせが必要であり、エージェントは大規模データを処理し、プラットフォーム固有の詳細を理解し、科学的目標との文脈化を行い、勤勉な科学者が計算するであろう数値結果を返す必要がある。
SpatialBench はこの作業を測定する:Xenium、Visium FFPE、MERFISH、TakaraBio Seeker、AtlasXomics DBiT-seq などのプラットフォームにわたる 159 の空間生物学分析タスクである。各タスクは実際の分析状態から開始され、エージェントに特定の生物学的結果の回復を要求する。グラダー(採点者)は構造化出力を専門家によって導出された参照データと比較して検証する(一部の例は こちら で利用可能)。
新世代モデルは速度とステップ数の面で改善を示しているが、このベンチマークにおける全体的な精度の向上は見られない。
GPT-5.5 は GPT-5.4 と比べて大幅に高速化されており、平均所要時間は約半分になり、必要なステップ数もはるかに少なくなっています。しかし、その精度は実質的に変わっていません:57.65% 対 57.44% です。Opus 4.7 も Opus 4.6 と実質的に同点で、それぞれ 52.41% 対 52.83% です。
プラットフォームレベルでのグループ化を見ると、GPT-5.5 は Visium、Xenium、MERFISH では GPT-5.4 よりも改善していますが、TakaraBio と AtlasXomics では GPT-5.4 に劣っています。
同様に、Opus 4.7 は Xenium で Opus 4.6 を 11.1 ポイント上回りますが、TakaraBio では同点、Visium、MERFISH、AtlasXomics では劣っています:
経路レビューでは、モデルファミリー全体で recurring failure categories(再発する失敗のカテゴリ)が特定されました:
- 生物学的反復がドナー、動物、組織切片、または時間点であるにもかかわらず、細胞、ビーズ、スポット、バーコードを独立した観測値として扱うこと
- scRNA-seq の正規化デフォルトを、それらが不適切な空間プラットフォームに適用すること
- 統合なしでマルチサンプルデータをクラスタリングし、ドナーや時間点の構造を誤って解釈すること
- 空間マーカー単位を細胞や解剖学的構造と混同すること
- 正しい de novo ニッチ(新規ニッチ)、組織状態、および空間コンパートメントの回復に失敗すること
現実的なタスクの文脈における失敗モードを理解するために、いくつかの例を見ていきましょう。各タスク経路は、評価対象となっている特定の空間プラットフォームで長年の経験を持つ科学者によってレビューされています。
AtlasXomics SPATIAL10_genome_wide_de_pct タスクは、ヒト背根神経節の DBiT-seq データセットにおいて 24,919 遺伝子の性差を検定するようモデルに要求します。このデータセットには、8 人のドナー(女性 3 人、男性 5 人)由来の約 10,000 の空間バーコードが含まれています。
バーコードはドナー内にネストされています。研究者はドナーレベルで集計し、約 1.2% の遺伝子が発現変動していることを計算するはずです。しかし、エージェントたちは一貫してこのドナー情報を無視しています。
GPT-5.4 と GPT-5.5 は、6 回のすべての実行において 93.876% を報告します。また、Opus 4.7 と Opus 4.6 も、全遺伝子の約 92〜94% が有意な性差を示すと報告しています。この解釈は生物学的に非現実的です:8 人のドナーにおいて、性の違いが全遺伝子の 93% のクロマチンアクセシビリティ(chromatin accessibility)を変化させることはあり得ません。
SPATIAL07_sex_housekeeping_de タスクでは、同じ空間 ATAC-seq デザインにおいて 10 本のハウスキーピング遺伝子に性差が見られるかを問います。期待される答えは「ない」です。
経路レビューによると、モデルは 9〜10 本のハウスキーピング遺伝子を有意であると判定します。Opus 4.7 と Opus 4.6 のモデルは、すべての実行において全 10 本のハウスキーピング遺伝子が性差を示すと判断しています。GPT-5.4 と GPT-5.5 も 9〜10 本のハウスキーピング遺伝子を有意と判定します。ACTB や GAPDH、および他の構成遺伝子を性差があるとするのは、明らかな疑似反復(pseudoreplication)の兆候です:モデルは数千のバーコードを独立した反復として扱い、統計的検出力を人為的に増大させ、有意性を捏造しています。
MERFISH norm_02_myelin_gene_coexpression_normalization タスクは、オリゴデンドロサイトにおける Mbp と Plp1 の間の Spearman 相関(Spearman correlation)を求めることを求めています。これらはミエリン構造遺伝子であり、正の共発現を示すべきです。期待される値は約 0.308 です。
GPT-5.5 はすべての 3 回の試行で失敗し、一貫して -0.157 という結果を出力しました。人間のレビューによると、GPT-5.5 はターゲットパネルのカウントに対して過剰補正を行う正規化ステップを適用しており、これが生物学的な正の関係を見かけ上の逆相関に変えてしまっています。一方、GPT-5.4 はその特定の正規化パスを回避することで 3 回の試行のうち 2 回に合格し、約 0.326 の相関値を示しました。
両方の Claude モデルは、すべての試行において Mbp と Plp1 の間の Spearman 相関が約 -0.16 であると報告しています。この場合の負の相関は、数種類のミエリン遺伝子が総カウントを支配する 374 遺伝子のターゲットパネルに対するライブラリサイズ正規化(library-size normalization)によって生じたアーティファクトです。これらのモデルは、プラットフォームに適切に対応するのではなく、慣れ親しんだ scRNA-seq のコードをそのまま持ち込んでいます:
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
これはターゲット MERFISH パネルに対して適用されるべきではない処理です。
batch_driven_clustering (TakaraBio) および NORM01_batch_correction (AtlasXomics) タスクは、モデルがクラスターを解釈する前にドナー間または時間経過を超えて統合できるかどうかを検証するものです。
GPT-5.4 と GPT-5.5 の両方が、TakaraBio の batch_driven_clustering テストに失敗しています。期待される最大単一時間点の割合は約 0.375 ですが、GPT-5.4 は 0.967, 0.995, 0.995 を報告し、GPT-5.5 は 0.990, 0.994, 0.988 を報告しています。各クラスタは単一の時間点によって支配されており、これはクラスタリングが細胞タイプではなく条件やバッチを追跡していることを意味します。
同じ問題が AtlasXomics でも発生しています。NORM01_batch_correction(バッチ補正)において、期待される平均最大サンプル割合は 0.375 ですが、GPT が計算した値は依然として 0.866〜0.897 の範囲にあります。Opus 4.7 の軌道分析も、同様の AtlasXomics の失敗を独立して示しています:統合を行わない場合、主成分分析(PCA)はサンプル間の技術的変動を捉え、Leiden クラスタリング(クラスタリング手法)は細胞の由来サンプルによって分割し、どちらのモデルも多ドナーデータセットにおいてクラスタが単一のドナーによって支配されている理由について疑問を抱きません。
TakaraBio Seeker は 10um ビーズを使用しています。大きな卵母細胞 1 つが多数のビーズにまたがることもあり、RNA がそれらすべてに拡散します。マーカー陽性のビーズを細胞や解剖学的構造として数えると、生物学的なカウントが増大してしまいます。
oocyte_count_per_timepoint(時間点ごとの卵母細胞数)タスクはこの点をテストするものです。期待される未成熟卵母細胞の数は 850 です。GPT-5.4 は 1237〜2086 を報告し、GPT-5.5 は 1510〜3463 を報告しています。0h の時間点では期待値が 275 であるのに対し、モデルは 424〜821 を報告しています。
同レポートは cumulus_gc_count_immature を強調しています。未熟サンプルにおける期待される cumulus 顆粒細胞数は、cumulus 細胞がまだ分化していないため 0 です。GPT-5.4 は 435-1474 と報告し、GPT-5.5 は 1424-2395 と報告しています。両モデルともマーカー発現から cumulus のアイデンティティを割り当てていますが、cumulus 分化には hCG 刺激が必要であるという発生制約は適用していません。
Opus 4.7 レポートは、空間セグメンテーションの観点から同様の失敗クラスを記述しています。follicle_count_immature において、Opus 4.7 のカウントは DBSCAN の半径における微小な変化が連結成分に劇的な差異をもたらすため、実行ごとに 50 から 456 にわたります。一方、Opus 4.6 はより厳格な卵母細胞スコアリングにより、空間クラスタリングに対してクリーンな入力セットを提供しています。
Xenium の spatial_fibro_inflammatory_niche_emergence_2 タスクでは、エージェントに腎臓損傷の各時間点全体にわたって線維性炎症ニッチを再構築するよう求めます。期待されるパターンは、シャム(対照)での共局在性が低く、14 日目での共局在性が高く、かつ 6.9 倍の増加率です。
GPT-5.4 はシャム共局在性を 0.112-0.124、増加率を 2.26-2.32 と報告しています。GPT-5.5 はシャム共局在性を 0.121-0.373、増加率を 1.99-4.23 と報告しています。期待されるシャム値は 0.033、14 日目は 0.23、増加率は 6.9 です。
Opus 4.6 および Opus 4.7 は、線維芽細胞や免疫細胞を含むニッチを同定できますが、病的な CN7 様ニッチと隣接する健康な間質組織を区別する特定の組成比率を強制することはできません。彼らは、一般的な線維芽細胞と免疫細胞の近接性を、疾患によって組織化された線維炎症性区画と混同してしまいます。
レプリケート認識統計: モデルは、レプリケート(反復)をどのように定義すべきかを誤解することがよくあります。ドナー、動物、切片、または時間点が比較のための適切な変数である場合でも、モデルが細胞、ビーズ、バーコードを独立した観測値として誤って選択し、有意性を過大評価して偽陽生を生み出します。
プラットフォーム認識正規化: モデルは空間アッセイを相互交換可能とみなし、しばしば scRNA-seq(単一細胞 RNA 配列解析)のデフォルト設定に依存します。同じ正規化手順が、ターゲット MERFISH/Xenium パネルに対して過剰補正を行ったり、スパースな Visium FFPE の相関を深さと混同させたり、ビーズ捕捉信号を歪めたり、HVG(高変動遺伝子)選択を通じてキュレーションされたマーカー遺伝子を削除したりします。
バッチおよびドナー統合: モデルは、変異の軸が何を表すかを問う前に頻繁にクラスタリングを行います。複数ドナーまたは複数時間点データにおいて、補正されていない PCA/Leiden 構造はサンプル、バッチ、または時間点を分離することが多く、モデルはこの分離を細胞種、組織状態、あるいは治療生物学と誤認します。
空間単位および分母エラー: モデルは発現単位や座標単位を、細胞や他の構造物と混同しています。
De novo spatial niche discovery: モデルはニッチ解析のメカニクスを構築できるものの、しばしば生物学的な目的を見失います。具体的には、汎用的な近接性や広範な領域の富化を、タスクが求める特定の区画(濾胞、系統、病的ニッチ、あるいは疾患組織状態)と混同してしまいます。
GPT-5.5 や Opus 4.7 は特定タスクファミリーにおいて高速または局所的に強力ですが、SpatialBench においては意味のある信頼性の向上は見られません。
空間生物学における将来の改善は、一般的な推論能力の向上だけではもたらされず、統計的設計、プラットフォーム固有の解析ステップ、複製を考慮した差動テスト、およびその他の空間生物学知識に対する明示的なトレーニングが必要となります。生物データ解析の複雑さを適切に測定するためには、焦点を絞った アッセイ固有ベンチマーク が必要です。
原文を表示
New frontier models are faster on SpatialBench, but not more accurate.
GPT-5.5 nearly halves runtime relative to GPT-5.4, yet accuracy remains flat: 57.6% versus 57.4%. Opus 4.7 is similarly tied with Opus 4.6: 52.4% versus 52.8%.
Scientist-reviewed trajectories reveal gaps in assay-aware biological judgment: statistical design, spatial units, batch structure, and scientific interpretation.
Complete benchmark data and select trajectories are available on benchmarks.bio.
Spatial biology is a powerful measurement tool and an important category for agentic capability. Analysis workflows require a combination of code and biological reasoning: agents must handle large data, understand platform-specific details, contextualize with scientific goals and return a quantitative result that matches what a diligent scientist would compute.
SpatialBench measures this work: 159 spatial biology analysis tasks across platforms like Xenium, Visium FFPE, MERFISH, TakaraBio Seeker, and AtlasXomics DBiT-seq. Each task starts from a real analysis state and asks an agent to recover a specific biological result. The grader checks structured outputs against expert-derived references (a subset of examples available here).
While frontier models show an improvement in speed and step count, they do not improve in overall accuracy on this benchmark.
GPT-5.5 is substantially faster than GPT-5.4, cutting mean duration roughly in half and using far fewer steps. But its accuracy is effectively unchanged: 57.65% versus 57.44%. Opus 4.7 is also effectively tied with Opus 4.6: 52.41% versus 52.83%.
Platform-level grouping shows GPT-5.5 improves on Visium, Xenium, and MERFISH, but trails GPT-5.4 on TakaraBio and AtlasXomics.
Similarly, Opus 4.7 leads Opus 4.6 on Xenium by 11.1 percentage points, ties on TakaraBio, and trails on Visium, MERFISH, and AtlasXomics:
Trajectory review identifies recurring failure categories across model families:
- Treating cells, beads, spots, or barcodes as independent observations when the biological replicate is the donor, animal, tissue section, or timepoint
- Applying scRNA-seq normalization defaults to spatial platforms where they are inappropriate
- Clustering multi-sample data without integration, then interpreting donor or timepoint structure incorrectly
- Confusing spatial marker units for cells or anatomical structures
- Failing to recover correct de novo niches, tissue states, and spatial compartments
We’ll dive into some examples to get a sense of failure modes in the context of realistic tasks. Each task trajectory was reviewed by a scientist with years of experience on the specific spatial platform being evaluated.
The AtlasXomics SPATIAL10_genome_wide_de_pct task asks the model to test 24,919 genes for sex differences in a human dorsal root ganglion DBiT-seq dataset. The dataset contains about 10,000 spatial barcodes from 8 donors: 3 female and 5 male.
Barcodes are nested within donors. A researcher would aggregate at the donor level, computing about 1.2% differentially expressed genes. The agents consistently ignore this donor information.
GPT-5.4 and GPT-5.5 both report 93.876% on all six runs. Both Opus 4.7 and Opus 4.6 report roughly 92-94% of all genes as significantly sex-different. Note this interpretation is biologically implausible: sex cannot plausibly alter chromatin accessibility at 93% of all genes in 8 donors.
The SPATIAL07_sex_housekeeping_de task asks whether 10 housekeeping genes show sex differences in the same spatial ATAC-seq design. The expected answer is none.
Trajectory review reveals models call 9-10 housekeeping genes significant. Both Opus 4.7 and Opus 4.6 models call all 10 housekeeping genes sex-different in every run. GPT-5.4 and GPT-5.5 call 9-10 significant housekeeping genes. Calling ACTB, GAPDH, and other constitutive genes sex-differential is a clear sign of pseudoreplication: the models treat thousands of barcodes as independent replicates, artificially inflating statistical power and manufacturing significance.
The MERFISH norm_02_myelin_gene_coexpression_normalization task asks for the Spearman correlation between Mbp and Plp1 in oligodendrocytes. These are myelin structural genes and should be positively co-expressed. The expected value is about 0.308.
GPT-5.5 fails all three runs, consistently producing -0.157. Human review shows GPT-5.5 applies a normalization step that over-corrects targeted-panel counts, turning a positive biological relationship into an apparent anti-correlation. GPT-5.4 passes 2 of 3 runs with correlations around 0.326 by avoiding that specific normalization path.
Both Claude models report a Spearman correlation around -0.16 between Mbp and Plp1 on every run. In this case, the negative correlation is an artifact of library-size normalization on a 374-gene targeted panel where a few myelin genes dominate total counts. The models import the familiar scRNA-seq code:
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
on a targeted MERFISH panel, rather than handling the platform appropriately.
The batch_driven_clustering (TakaraBio) and NORM01_batch_correction (AtlasXomics) tasks test whether models integrate across donors or timepoints before interpreting clusters.
Both GPT-5.4 and GPT-5.5 fail TakaraBio batch_driven_clustering. The expected max single-timepoint fraction is about 0.375; GPT-5.4 reports 0.967, 0.995, and 0.995, while GPT-5.5 reports 0.990, 0.994, and 0.988. Each cluster is dominated by a single timepoint, meaning the clustering is tracking condition or batch rather than cell type.
The same issue appears in AtlasXomics. In NORM01_batch_correction, the expected mean max sample fraction is 0.375, but the GPT computed values remain around 0.866-0.897. The Opus 4.7 trajectories independently describe the same AtlasXomics failure: without integration, PCA captures inter-sample technical variance, Leiden clustering partitions cells by sample of origin, and neither model questions why clusters in a multi-donor dataset are dominated by single donors.
TakaraBio Seeker uses 10um beads. A single large oocyte can span many beads, with RNA diffusing across all of them. Counting marker-positive beads as cells or anatomical structures inflates biological counts.
The oocyte_count_per_timepoint task tests this. The expected immature oocyte count is 850. GPT-5.4 reports 1237-2086, and GPT-5.5 reports 1510-3463. At the 0h timepoint, expected count is 275, while models report 424-821.
The same report highlights cumulus_gc_count_immature: the expected cumulus granulosa cell count in immature samples is 0 because cumulus cells have not differentiated yet. GPT-5.4 reports 435-1474, and GPT-5.5 reports 1424-2395. Both models assign cumulus identity from marker expression without applying the developmental constraint that cumulus differentiation requires hCG stimulation.
The Opus 4.7 report describes the same class of failure in spatial segmentation terms. On follicle_count_immature, Opus 4.7 counts span 50 to 456 across runs because small changes in DBSCAN radius produce wildly different connected components, while Opus 4.6’s stricter oocyte scoring gives a cleaner input set for spatial clustering.
The Xenium spatial_fibro_inflammatory_niche_emergence_2 task asks the agent to reconstruct a fibro-inflammatory niche across kidney injury timepoints. The expected pattern is low sham co-localization, high Day14 co-localization, and a fold increase of 6.9.
GPT-5.4 reports sham co-localization of 0.112-0.124 and fold increase of 2.26-2.32; GPT-5.5 reports sham co-localization of 0.121-0.373 and fold increase of 1.99-4.23. The expected sham value is 0.033, expected Day14 is 0.23, and expected fold increase is 6.9.
Opus 4.6 and Opus 4.7 find niches containing fibroblasts and immune cells, but they cannot enforce the specific composition ratios that distinguish the pathological CN7-like niche from adjacent healthy stroma. They confuse generic fibroblast-immune proximity with the disease-organized fibro-inflammatory compartment.
Replicate-aware statistics: Models often misunderstand how to define replicates. When donor, animal, section, or timepoint is the appropriate variable of comparison, models incorrectly reach for cells, beads, and barcodes as independent observations, inflating significance and creating false positives.
Platform-aware normalization: Models treat spatial assays as interchangeable and often reach for scRNA-seq defaults. The same normalization procedure can overcorrect targeted MERFISH/Xenium panels, confound sparse Visium FFPE correlations with depth, distort bead-capture signal, or discard curated marker genes through HVG selection.
Batch and donor integration: Models frequently cluster before asking what the axes of variation represent. In multi-donor or multi-timepoint data, uncorrected PCA/Leiden structure often separates samples, batches, or timepoints; the model then mistakes this separation for cell type, tissue state, or treatment biology.
Spatial unit and denominator errors: Models confuse expression and coordinate units with cells or other structures.
De novo spatial niche discovery: Models can assemble the mechanics of niche analysis but often miss the biological goal. They confuse generic proximity or broad regional enrichment for specific compartment the task asks for: a follicle, lineage, pathological niche, or disease-organized tissue state.
While GPT-5.5 and Opus 4.7 are faster or locally stronger in specific task families, they are not meaningfully more reliable on SpatialBench.
Future improvements for spatial biology are unlikely to come from general reasoning gains alone and will require explicit training on statistical design, platform-specific analysis steps, replicate-aware differential testing and other spatial biology knowledge. Focused, assay-specific benchmarks are required to appropriately measure the complexity of biological data analysis accurately.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み