モデルはもはやボトルネックではない(6 分読了)
Anthropic の一般モデルが化学分野の専用ソフトウェアを凌駕した結果は、科学 AI におけるボトルネックが「モデルの知能」から「ワークフローの構築」へと移行したことを示す画期的な転換点である。
キーポイント
一般モデルによる専門ツールの凌駕
化学専門の微調整を行っていない一般-purpose モデル(Opus 4.7)が、NMR スペクトル予測において長年使われてきた専用ソフトウェアを精度と速度で上回る結果を示した。
ボトルネックの転換点
科学 AI の最大の課題であった「モデル自体の能力不足」が解消され、現在はモデルを実用的な研究ワークフローに統合する仕組みこそが新たな制約要因となっている。
逆問題への対応能力
スペクトルから分子構造を推定する「逆問題」において、一般モデルは既存ツールが苦手とする複雑な結合環やスピロサイクルの解決にも高い成功率を示した。
影響分析・編集コメントを表示
影響分析
このニュースは、汎用 AI モデルの能力が特定のドメイン(化学)においても特化型ソフトウェアを凌駕し始めたことを示しており、科学技術分野における AI の実装パラダイムを根本から変える可能性を秘めています。今後は、モデル自体の性能向上よりも、これらの強力なモデルを実際の研究者のワークフローにどう組み込むかが競争の鍵となるでしょう。
編集コメント
専門分野の壁を「微調整」なしに破った事例は、汎用 AI の成熟度を象徴する重要なマイルストーンです。今後はツール開発からワークフロー設計への投資シフトが加速すると予想されます。
今週、Anthropic は科学者が AI をどう捉えるべきかを変えるべき静かな結果を発表しました。Claude を化学者にするという論文で、彼らは化学分野の専門的な微調整を施していない汎用モデルを、化学者が数十年にわたり依存してきた専用ソフトウェアと対決させました。その結果、汎用モデルは互角以上に立ち回り、いくつかの点ではそのソフトウェアを明確に上回りました。
多くの人はこれを headline として受け取るでしょうが、私たちはこれがより興味深い方向を示していると考えます。真の物語は「AI が化学を行えること」ではなく、問題の最も困難な部分が移動したことにあります。長年にわたり、科学分野における AI のボトルネックはモデル自体の生来の能力でした。しかしその時代はもう終わろうとしています。なぜなら、現在のモデルと実際の科学研究の間にあるものはもはや知能ではなく、それを巡って構築されたワークフローだからです。
化学に関する結果が実際に示したもの
*図 1. 順方向予測は構造からスペクトルへ、つまり専用ソフトウェアが構築されたタスクへと至ります。逆方向の構造決定はそれとは逆に、スペクトルから構造へと進みます。汎用モデルは前者では競合可能となり、後者でも能力を発揮できるようになりました。
Anthropic は、合成化学において最も一般的かつ時間のかかる分析タスクの一つである NMR(核磁気共鳴)において、3 つのモデルを ChemDraw と MestReNova に対してテストしました。その結果は率直に述べる価値があります。
前方予測においては、既知の構造から水素と炭素のピークがどこに現れるかを予測するタスクにおいて、最良のモデル(Opus 4.7)は水素に対してテストされた中で最も精度の高いツールであり、平均誤差は±0.079 ppmでした。また、炭素については MestReNova とほぼ同等の性能を示しました。ピークの形状、すなわち構造情報を担う分裂パターンやサブピークの間隔に関しては、3 つのモデルすべてが約 80% の確率で半ヘルツ以内の精度で間隔を予測できました。一方、従来のツールではその成功率は 26〜35% に留まりました。
次に、彼らは問題を逆方向に実行しました。分子式と 1D スペクトル(核磁気共鳴スペクトル)のみが与えられた場合、モデルはその構造を生成した分子の構造を提案できるでしょうか?これは逆問題であり、既存のソフトウェアでは主に人間に任されている課題です。このモデルは、スペクトルと分子式のみから、より単純なターゲット 8 つすべてをあらゆる試行で再現し、さらに出発物質を手がかりとして与えられた場合、より困難な縮合環やスピロサイクルを持つターゲットの多くも解決しました。
ここで重要なのは、Anthropic 自身が指摘している点です。これは化学に特化した訓練を行っていない汎用モデルであり、貼り付けられたスペクトルから、かつてはライセンスが必要で専門的かつ単機能のツールを必要としていたことを実行できるのです。
チームは、限界についても Refreshingly honest(率直に)述べています。評価規模は小さく、順方向タスクでは 20 化合物、逆方向タスクでは 15 化合物のみを対象とし、二次元実験や立体化学は範囲外でした。溶媒のカバレッジも限定的です。最も複雑な逆問題において、出発物質という手がかりがない場合、モデルは推論をループさせながら最終的な回答に到達しないことがありました。これらは現実的な注意すべき点ですが、最後の点は特に重要で、これは知識の問題ではなくワークフローの問題であり、後ほど再び取り上げます。
これは化学の物語ではない
これを化学の分野として片付けて次に進むのは魅力的に思えるかもしれません。しかしそれは誤りです。なぜなら、このパターンは科学全体で現れ始めているからです。
生物学でも同じことが見られました。BixBench-Verified-50(実際のバイオインフォマティクスタスクを整理したベンチマーク)において、汎用システムはベンチマーク用に調整されていないにもかかわらず 90% のスコアを記録し、専門的なエージェントを上回りました。化学における結果も、異なる分野で同じ形状を示しています。ドメインの専門家がある作業には専用ツールが必要だと想定していたものを、汎用モデルに任せてみると、競合するどころかむしろ優れた結果が出ることがあります。
この驚くべき結果が化学、生物学、そして次々と別のドメインでも現れるとき、それはもはや驚きではなくトレンドとなり、その能力は一般化されたものであり、すでに存在していることを意味します。
では、興味深い問いはもはや「モデルができるかどうか」ではなく、「答えが信頼でき、完全であり、再現可能であるためには何が真でなければならないか」という点にあります。これは非常に異なる問いであり、それに対する答えもまた全く異なります。
答えと結果の間のギャップ
*図2. チャットボットは妥当な答えで止まります。研究結果にはその背後にある証拠の連鎖全体が必要であり、モデルはその連鎖における一つのリンクに過ぎません。
チャットの応答は研究結果ではありません。研究結果とは、適切なソースから引き出された正しいデータ、選択され実行された正しい方法、既知の事柄と比較して検証された出力、そして防衛・再現可能な最終的な答えという証拠の連鎖です。モデルはその連鎖における一つのリンクに過ぎませんが、しかし極めて重要な役割を果たします。
Anthropic が報告した失敗をもう一度見てみましょう。モデルは最も困難な構造に対してループし続け、決定を下すことができません。これは化学知識の欠落ではなく、モデルを取り巻くシステムが存在しないためです。そのシステムは意思決定を強制し、候補をスペクトラムに対してテストし、一つの選択肢が生き残るまで他の選択肢を排除するものです。
有能なモデルに行動する能力を与え、ケミインフォマティクスコードを実行し、構造データベースを検索し、提案された構造を自身の予測スペクトラムと照合させることで、ループは閉じられます。つまり、ボトルネックは化学そのものではなく、それを支える足場(scaffolding)にありました。
これは分野が常に過小評価している部分です。私たちはモデルにもっと賢くなってほしいと求め続けていますが、実際には必要なのは、それらを運用可能な状態にすることです。科学における AI の最前線の研究は、現在、最先端のモデルと、それが実際の作業を行えるようにするシステムの間の接合部にあります:
- 重みの中にあるものだけでなく、実際のデータにアクセスすること。250 を超えるデータベース、構造化されていない補足情報、ネイティブ形式の機器ファイル。
- 実際の分析を実行すること。コードが何をするかを叙述するのではなく、コードを書き実行すること。
- 主張するのではなく検証すること。候補となる回答を証拠と照合し、それが成立した場合のみ確定すること。
- 人間が監査可能な出力を生み出すこと。自信に満ちた段落だけでなく、手法、データ、スクリプト、図表を含むこと。
⟦CODE_0⟧
⟦CODE_1⟧
Anthropic のロードマップ自体がまさにこの方向を指し示しています。彼らが次に挙げるボトルネック、すなわち化学構造の読み取りとレンダリング、逆合成および合成推論、メカニズムの解明、そして実際に出版された化学文献の読解は、より賢い化学者を求める要請ではなく、統合と翻訳の問題です。つまりこれらはエージェント問題なのです。
賭けるべき価値
*図 3. ワークフロー層こそが、最先端モデルを実証可能な科学へと変換するものです。より能力の高いモデルは、この層を不要にするのではなく、その上限を引き上げるのです。
これが私たちの研究の前提です。最先端モデルはエンジンですが、決定的な優位性は、そのエンジンを完成された科学へと変換し、実データに接続し、実際にコードを書き実行させ、計測機器が実際に生成するファイルを読み取り、査読に耐える出力を約束するシステムから生まれます。K-Dense Web は設計上モデル非依存であり、利用可能な最強の最先端モデル上で動作するように構築されています。Claude もその一例ですが、これはもはや利点が特定の単一モデルにあるのではなく、その周囲のすべてにあるからです。
それが、化学論文が脅威ではなく希望に満ちたものである理由でもあります。より能力の高いベースモデルはワークフロー層を不要にするのではなく、むしろワークフローが達成できることの上限を引き上げるからです。モデル内の NMR 推論能力が高まれば、構造の解明や経路の提案、有望な副生成物の指摘、そしてエンドツーエンドで文書化された結果の返却が可能になる化学エージェントが実現します。つまり、モデル自体が向上することは、その上位レイヤーにとってこれ以上ない好機なのです。
共に構築する
Anthropic は、Claude が役立つ問題に取り組む研究者を招待し、AI for Science プログラムを化学分野へと拡大させることでポストを締めくくりました。それを使用する人々と対話しながらモデルとその実世界での応用を開発するというこの直感は、まさに正しいものです。
今後数年間の AI for Science における最も価値ある進展は、単に大規模なモデルから生まれるものでもなく、単なる巧妙なスキャフォールディング(構造化支援)から生まれるものでもありません。それは、モデルの推論能力を高める人々と、その推論を実証可能な研究へと転換する人々が共に手を携えて構築されることで実現されます。
⟦CODE_0⟧
私たちも同じように捉えており、それがすでに私たちの構築方法に反映されています。現在私たちは Google と緊密に協力しており、フロンティアモデルを構築するすべてのラボに対して、同様の協力の枠組みを広げていきたいと考えています。今、重要なのは、能力のあるモデルと完成した再現可能な結果の間に存在するレイヤーにおける進歩であり、このレイヤーを正しく実現することに真剣に取り組む方々とパートナーシップを結べることを嬉しく思います。対話を始める最も簡単な方法は contact@k-dense.ai までご連絡いただくことです。
原文を表示
This week Anthropic published a quiet result that should change how scientists think about AI. In Making Claude a chemist, they put a general-purpose model with no chemistry fine-tuning up against the dedicated software that chemists have relied on for decades, and it held its own, beating that software outright in several places.
Most people will take that as the headline, but we think it points somewhere more interesting. The real story is not that an AI can do chemistry, it is that the hardest part of the problem has moved. For years the limiting factor in scientific AI was the raw capability of the model itself, and that era is now ending, because what stands between today's models and real scientific work is no longer intelligence but the workflow built around it.
What the chemistry result actually showed
*Figure 1. Forward prediction goes from structure to spectrum, the task dedicated software was built for. Inverse elucidation runs it backward, from spectrum to structure. A general model is now competitive at the first and capable at the second.*
Anthropic tested three models against ChemDraw and MestReNova on NMR, one of the most common and most time-consuming analytical tasks in synthetic chemistry, and the results are worth stating plainly.
On forward prediction, taking a known structure and predicting where every hydrogen and carbon peak will fall, the best model (Opus 4.7) was the most accurate tool tested on hydrogen, with an average error of ±0.079 ppm, and was effectively tied with MestReNova on carbon. On the shape of the peaks, the splitting patterns and sub-peak spacing that carry structural information, all three models predicted the spacing to within half a hertz roughly 80% of the time, against 26 to 35% for the classical tools.
Then they ran the problem backwards. Given only a molecular formula and a 1D spectrum, could the model propose the structure that produced it? This is the inverse problem, the one existing software largely leaves to the human. The model recovered all eight of the simpler targets on every attempt from spectra and formula alone, and solved most of the harder fused-ring and spirocycle targets when given the starting material as a hint.
The point that matters here is the one Anthropic makes themselves: this is a general model with no chemistry-specific training, and it does from a pasted spectrum what used to require licensed, specialized, single-purpose tools.
The team is also refreshingly honest about the limits. The evaluation was small, with 20 compounds for the forward task and 15 for the inverse, two-dimensional experiments and stereochemistry were out of scope, and solvent coverage was narrow. On the densest inverse problems, without the starting material as a clue, the model would sometimes loop through its reasoning without ever committing to a final answer. These are real caveats, but that last one is worth holding onto, because it is not a knowledge problem but a workflow one, and we will come back to it.
This is not a chemistry story
It is tempting to file this under chemistry and move on. That would be a mistake, because the same pattern is showing up across the sciences.
We saw it in biology. On BixBench-Verified-50, a cleaned benchmark of real bioinformatics tasks, a generalist system scored 90%, ahead of specialized agents, without being tuned for the benchmark. The chemistry result is the same shape in a different field. A general model, asked to do work that a domain expert assumed required a dedicated tool, turns out to be competitive or better.
When the same surprising result appears in chemistry, in biology, and in domain after domain, it stops being a surprise and becomes a trend, which means the capability is general and it is already here.
So the interesting question is no longer whether the model can do it, because increasingly the answer is yes, but what has to be true for the answer to be trustworthy, complete, and reproducible, and that turns out to be a very different question with a very different answer.
The gap between an answer and a result
*Figure 2. A chatbot stops at a plausible answer. A research result requires the whole chain of evidence behind it, and the model is only one link in that chain.*
A chat response is not a research result. A research result is a chain of evidence, made up of the right data pulled from the right sources, the right method chosen and run, the output checked against what is already known, and a final answer you can defend and reproduce, and the model is only one link in that chain, however crucial.
Look again at the failure Anthropic reported, the model looping on the hardest structures without committing. That is not a gap in chemical knowledge but the absence of a system around the model that forces a decision, tests the candidates against the spectrum, and rules options out until one survives. Give a capable model the ability to act, to run cheminformatics code, to query a structure database, and to cross-check a proposed structure against its own predicted spectrum, and the loop closes, which is to say the bottleneck was never the chemistry but the scaffolding around it.
This is the part the field consistently underweights. We keep asking models to be smarter when what we actually need is for them to be operationalized. The frontier work in AI for science now lives in the seam between a frontier model and the system that lets it do real work:
- Reaching real data, not just what is in the weights. The 250-plus databases, the unstructured supporting information, the instrument files in their native formats.
- Executing real analysis. Writing and running code, not narrating what the code would do.
- Verifying instead of asserting. Checking a candidate answer against evidence, and committing only when it holds up.
- Producing outputs a human can audit. The method, the data, the script, the figure, not just a confident paragraph.
Anthropic's own roadmap points in exactly this direction. The next bottlenecks they name, reading and rendering chemical structures, retrosynthesis and synthetic reasoning, mechanism, and reading the chemical literature as it is actually published, are not requests for a smarter chemist but integration and translation problems, which is to say they are agent problems.
The bet worth making
*Figure 3. The workflow layer is what turns a frontier model into reproducible science. A more capable model raises the ceiling rather than making that layer redundant.*
This is the premise our work is built on. The frontier models are the engine, but the decisive advantage comes from the system that turns that engine into finished science, connecting it to real data, letting it write and run real code, reading the files instruments actually produce, and holding it to outputs that survive inspection. K-Dense Web is model-agnostic by design, built to run on the strongest frontier models available, Claude among them, precisely because the leverage is no longer in any single model but in everything around it.
That is also why the chemistry paper is encouraging rather than threatening, because a more capable base model does not make the workflow layer redundant, it raises the ceiling on what the workflow can deliver. Better NMR reasoning in the model means a chemistry agent that can elucidate a structure, propose a route, flag a likely byproduct, and hand back a documented result from end to end, so the model getting better is the best thing that can happen to the layer above it.
Building it together
Anthropic closed their post by inviting researchers working on problems where Claude could help, and by expanding their AI for Science program toward chemistry. That instinct, to develop a model and its real-world applications in conversation with the people who use them, is exactly the right one.
The most valuable progress in AI for science over the next few years will not come only from larger models, and it will not come only from clever scaffolding, but from the two being built together, with the people who push the model's reasoning working alongside the people who turn that reasoning into reproducible research.
We see it the same way, and it already shapes how we build. We work closely with Google today, and we would like to open that same kind of collaboration to every lab building frontier models. The progress that matters now lives in the layer between a capable model and a finished, reproducible result, and we are glad to partner with anyone serious about getting that layer right. The easiest way to start a conversation is contact@k-dense.ai.
関連記事
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
Claude Fable 5 と Mythos 5 の能力に関する記事
Anthropic は、Claude Fable 5 が米政府から不正アクセス(ジャイルブレイク)の懸念によりリリース後わずか3日で利用停止を命じられたと報じています。この措置により、多くのユーザーが失った機能への愛着を表明しています。
OpenAI や Anthropic の安価な代替案に賭ける 130 億ドル規模の AI スタートアップ
TLDR AI が報じた記事によると、OpenAI や Anthropic に代わる低コストソリューションへ巨額の投資を行う 130 億ドル規模の AI スタートアップが注目されています。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み