2026年2月1日ScienceLLMsの推測、証明、挑戦:2026年2月
GPT-5.2が粒子物理学の新しい公式を推測し証明したことで、AIが科学的発見プロセスに直接貢献する可能性を示した研究が発表された。
キーポイント
AIによる科学的発見の貢献
GPT-5.2が人間研究者が発見できなかった閉形式の公式を推測し、独立して証明したことで、AIが科学的発見プロセスに直接貢献する可能性を示した。
粒子物理学における具体的成果
グルーオン散乱振幅の特定の運動学的領域(半共線極限)で、従来ゼロと仮定されていた振幅が非ゼロであることを示す公式を発見・証明した。
人間とAIの役割分担の明確化
問題設定と理論的枠組みは人間研究者が提供し、AIはパターン認識と数式簡略化を担当するという、効果的な協業モデルが示された。
検証と信頼性の確保
結果は既存の理論(Berends-Giele再帰関係とソフト定理)に対して解析的に検証され、科学的厳密性が確保された。
LLMの科学的応用としてのパターン認識
LLMは複雑な数式から構造を見つけ出す能力があり、理論物理学において単純な形式が隠れた複雑な式を簡潔な閉形式で表現できる。これにより、例えば重力子振幅の計算など、さらなる研究が可能になる。
数学問題評価の課題と限界
OpenAIは未公開の数学問題10問中6問を解いたと主張するが、一部の問題は事前に解決済みだったり、具体的な証明戦略のヒントが与えられていたりして、AIの真の能力評価には課題がある。
AI評価の新たなフロンティア
AI評価は、明確に定義された問題を解決することから、どの問題を解決すべきかという問いを生成することへと移行する必要がある。
影響分析・編集コメントを表示
影響分析
この研究は、AIが単なる計算ツールを超えて科学的発見プロセスに直接貢献できる可能性を示しており、科学研究の方法論に変革をもたらす可能性がある。特に、複雑な数式のパターン認識と簡略化においてAIが人間を補完・拡張する新しい協業モデルを提示している。
編集コメント
AIが科学的発見の「推測」段階で直接貢献した初めての明確な事例として、AI研究の新たなマイルストーンとなる可能性がある。人間とAIの役割分担が明確に定義されている点が実用的なモデルとして評価できる。
Field Notesへようこそ。これは、AIと科学研究の交差点における注目すべき進展を定期的にまとめたレポートです。私たちは機関やツールを横断した研究を扱います。重要なのは科学と方法論であり、どの組織がモデルを構築したかではありません。
GPT-5.2が素粒子物理学で新たな公式を推測し、内部モデルがそれを証明:
…真に新しい結果ですが、問題はこの手法がどこまで一般化するかです…
OpenAIは、高等研究所、ヴァンダービルト大学、ケンブリッジ大学、ハーバード大学の物理学者たちとの共同研究によるプレプリントを公開し、長らく「木レベルではゼロになると考えられてきた」あるクラスのグルーオン散乱振幅が、実際には「半共線(half-collinear)」極限と呼ばれる特定の運動学的領域において非ゼロであることを示しました。
手法:人間の著者たちは、少数のグルーオンについての振幅を手計算し、超指数的に複雑さが増す式を得ました。GPT-5.2 Proはこれらの式を大幅に簡略化し、基底ケース間のパターンを見出し、全てのnに対して有効な閉形式の公式を推測しました。その後、スキャフォールディングされたバージョンのGPT-5.2が同じ公式を独立して導出し、約12時間の推論を経て形式的な証明を生成しました。この結果は、Berends-Giele再帰関係およびソフト定理を用いて解析的に検証されました。
これは、人間の綿密な監督下でClaudeが計算を実行したMatt Schwartzの「感触物理学(vibe physics)」研究で見られたパターンを超える、意味のある一歩です。今回、モデルは人間の著者たちが自力では見出せなかったもの、すなわち簡略化された閉形式の式を提供しました。人間は依然として問題を特定し、枠組みを設定し、結果を検証しましたが、推測そのものはモデルによるものです。
GPT-5.2が実際に貢献した点:役割分担を正確に理解することが重要です。重要な科学的洞察——「単一マイナス振幅がツイスター空間の特殊な点でサポートされること」、そして「半共線領域が調査に値すること」——は、モデルの貢献ではありません。プレプリント自体も、この観察はWitten、およびRoiban、Spradlin、Volovichによる以前の研究に遡ると記しています。人間の物理学者が問題と運動学的領域を特定しました。GPT-5.2が貢献したのは、結果として得られる式を簡略化し、閉形式の公式を推測したこと——構造化された記号出力に対するパターン認識です。これは真に有用ではありますが、どこを探すべきかという概念的飛躍とは異なるものです。
これが重要な理由——科学的手段としてのパターン認識:この問題は、LLMが最も得意とするもの——複雑な記号表現の中から構造を見つけ出すこと——に非常によく適合していました。これは理論物理学において真に有用な能力です。複雑な式が単純な基本形を隠していることは頻繁にあるからです。簡略化された公式がなくとも、この論文は興味深いものだったでしょう——非ゼロ振幅の物理学が主たる結果です。しかし、明確な閉形式の式を得たことで、さらなる研究が可能になりました(著者らは、同じアプローチを用いて重力子振幅の計算が既に行われたと報告しています)。今後の課題は、「人間が問題を特定し、モデルが簡略化と一般化を行う」というこのパターンが、式の代数的構造がより少ない設定にどこまで拡張できるかです。
続きを読む:OpenAI for Science (2026年2月13日). arXiv上のプレプリント。
数学者たちがフロンティアAI向けの真に「未見」のテストを構築。OpenAIは10問中6問の正解を主張:
…First Proofはこの分野が必要とする種類の評価ですが、問題がどのように解決されたかの詳細が非常に重要です…
スタンフォード大学、コロンビア大学、EPFL、インペリアル・カレッジ・ロンドン、テキサス大学オースティン校、イェール大学、バークレー校、シカゴ大学、ハーバード大学などの数学者グループが「First Proof」を構築しました。これは、提案者には解法が知られているが未発表の、研究レベルの数学問題10問からなります。問題は、代数的組合せ論、スペクトルグラフ理論、代数トポロジー、確率解析、シンプレクティック幾何学、表現論などを含みます。重要な特性は、これらが現在数学者たちが実際に解いている問題の分布からサンプリングされていることです。
OpenAIの試み:OpenAIは内部モデル(「現在訓練中」と説明される)でこの課題に挑戦させ、解法の試みを公開し、10問中6問の正解を主張しました。Jakub Pachockiはこの取り組みを「1週間で実行された混沌としたサイドスプリント」と表現し、その方法論は「多くの改善の余地がある」と指摘しました。
「10問中6問」に関する重要な背景:課題が公開される前に、いくつかの問題はGPT-5.2 Proによって既に解決されていたようで、「未見」という枠組みを複雑にしています。また、少なくともいくつかのプロンプトには実質的な数学的ガイダンスが含まれていました。例えば、問題6(スペクトルグラフ理論の結果)に対する解法は、「BSSバリア型の議論を使ってみてください。それを推し進めるためには、設定と帰納的枠組みについて深く考える必要があるでしょう」というプロンプトで促されました。これは探索空間を意味的に狭める非常に具体的なヒントです。「AIが問題を解決」と「AIがよくヒントを与えられた証明戦略を実行」の間の境界線は極めて重要です。
これが重要な理由——能力だけでなく創造性を評価する:First Proofは、おそらく私たちが目にした中で最も生態学的妥当性の高い数学ベンチマークです。これは、一部の人間が答えを見つけたが、他の多くの人間にはまだ伝えていない、最先端の科学的問題です。もしAIシステムがここで良い結果を出すなら、人間の創造的飛躍を近似する能力について、何か現実的なことを教えてくれます。しかし、著者らは重要な点を指摘しています。現代の研究の大部分は、明確に定義された問題を解くことではありません。実際に問うべき問題が何であるかを理解することです。AI評価のフロンティアは、問題を解くことから、どの問題を解くべきかについての問題を生成することへと移行しなければならないでしょう。
続きを読む:First Proof (arXiv). OpenAIの解法試み (PDF).
テレンス・タオがSAIRを共同設立、AIにはより多くの計算資源だけでなく科学的基盤が必要と主張:
…AI-for-scienceのための制度的インフラを構築する、異例に高資格な取り組み…
科学財団(The Foundation for Science and
…AI支援による文献統合への道は、科学を機械可読(machine-readable)にすることから始まります…
最近のプレプリントでは、論文から結果を抽出する機械自動化アプローチが開発され、eLifeコーパス全体で機械レビューとピアレビューを直接比較するために使用されました。結果は構造的な問題を示しています:もしAIが科学的文献統合に有意義に支援することを望むなら、科学情報がどのように普及するかを見直す必要があります。著者らは、出版システムは、データと結果の普及(機械可読であるべき)と、新しいアイデアの伝達(人間の散文が有益)を別々に最適化すべきだと主張しています。
これが重要な理由:科学におけるAIに関する議論のほとんどは、結果の生成に焦点を当てています。しかし、下流の問題——既存の科学的知識の体系を厳密で検証可能な方法でAIシステムにアクセス可能にすること——は、同様に重要であり、はるかに議論されていません。
続きを読む:科学は機械可読であるべきです(bioRxiv)。
Field Notesは定期的なシリーズです。AIと科学研究の交差点で何かに取り組んでおり、私たちが取り上げるべきだと思う場合は、ぜひお知らせください。
関連コンテンツ
AIの労働市場への影響:新しい尺度と初期の証拠
Claude Opus 3のモデル廃止に関するコミットメントの更新
ペルソナ選択モデル
原文を表示
LLMs Conjecture, Prove, and Challenge: February 2026
Welcome to Field Notes, a recurring roundup of notable developments at the intersection of AI and scientific research. We cover work across institutions and tools—what matters is the science and the methodology, not who built the model.
GPT-5.2 conjectures a new formula in particle physics, and an internal model proves it:
…A genuinely new result, but the question is how far the method generalizes…
OpenAI has published a preprint with physicists at the Institute for Advanced Study, Vanderbilt, Cambridge, and Harvard showing that a class of gluon scattering amplitudes—long assumed to vanish at tree level—are in fact nonzero in a specific kinematic regime called the “half-collinear” limit.
How it worked: The human authors computed amplitudes for small numbers of gluons by hand, obtaining expressions whose complexity grows superexponentially. GPT-5.2 Pro simplified these expressions substantially, spotted a pattern across the base cases, and conjectured a closed-form formula valid for all n. A scaffolded version of GPT-5.2 then independently derived the same formula and produced a formal proof after roughly 12 hours of reasoning. The result was verified analytically against the Berends-Giele recursion relation and the soft theorem.
This is a meaningful step beyond the pattern we saw with Matt Schwartz’s vibe physics work, where Claude executed calculations under close human supervision. Here, the model contributed something the human authors hadn’t found on their own: the simplified closed-form expression. The humans still identified the problem, set up the framework, and verified the result—but the conjecture itself came from the model.
What GPT-5.2 actually contributed: It’s worth being precise about the division of labor. The key scientific insight—that single-minus amplitudes are supported at a special point in twistor space and that the half-collinear regime is worth investigating—was not the model’s contribution. The preprint itself notes that this observation traces back to earlier work by Witten and by Roiban, Spradlin, and Volovich. The human physicists identified the problem and the kinematic regime. What GPT-5.2 contributed was simplifying the resulting expressions and conjecturing the closed-form formula—pattern recognition over structured symbolic output, which is genuinely useful but a different thing than the conceptual leap of knowing where to look.
Why this matters—pattern recognition as a scientific instrument: The problem was well-suited to what LLMs do best: spotting structure in complicated symbolic expressions. This is a genuinely useful capability for theoretical physics, where complex expressions frequently hide simple underlying forms. The paper would have been interesting with or without the simplified formula—the physics of the nonzero amplitude is the main result. But having a clean closed-form expression enables further work (the authors report that graviton amplitudes have already been computed using the same approach). The question going forward is how far this pattern—humans identify the problem, models simplify and generalize—extends to settings where the expressions are less algebraically structured.
Read more: OpenAI for Science (February 13, 2026). Preprint on arXiv.
Mathematicians build a genuinely held-out test for frontier AI. OpenAI claims 6 out of 10:
…First Proof is the kind of eval the field needs, but the details of how the problems were solved matter a lot…
A group of mathematicians from Stanford, Columbia, EPFL, Imperial College, UT Austin, Yale, Berkeley, Chicago, Harvard, and elsewhere have built First Proof: ten research-level math problems whose solutions are known to the proposers but had not been published. The problems span algebraic combinatorics, spectral graph theory, algebraic topology, stochastic analysis, symplectic geometry, representation theory, and more. The key property: these are sampled from the actual distribution of questions working mathematicians are currently solving.
OpenAI’s attempt: OpenAI ran an internal model (described as one “currently in training”) against the challenge and published solution attempts, claiming correct answers on six of ten problems. Jakub Pachocki described the effort as a “chaotic side-sprint executed in a week” and noted the methodology “leaves a lot to be desired.”
Important context on the “6/10”: Some of the problems had apparently already been solved by GPT-5.2 Pro before the challenge was published, complicating the “unseen” framing. And at least some prompts included substantive mathematical guidance. For example, the solution to Problem 6 (a spectral graph theory result) was prompted with: “Try using a BSS barrier type argument. You will have to think hard about the setup and the inductive framework to push it through.” That’s a very specific hint that meaningfully narrows the search space. The line between “AI solves problem” and “AI executes a well-hinted proof strategy” matters enormously.
Why this matters—evaluating creativity, not just competence: First Proof is arguably the most ecologically valid math benchmark we’ve seen. These are frontier scientific problems for which some humans have figured out answers but haven’t told many other humans yet. If AI systems do well here, it tells us something real about approximating human creative leaps. But the authors make a crucial point: most of modern research is not about solving well-specified problems. It’s about figuring out what the question actually is. The frontier of AI evaluation will have to move from solving problems to generating questions about which problems to solve.
Read more: First Proof (arXiv). OpenAI solution attempts (PDF).
Terence Tao co-founds SAIR, a foundation arguing AI needs scientific foundations, not just more compute:
…An unusually credentialed effort to build institutional infrastructure for AI-for-science…
The Foundation for Science and AI Research (SAIR) launched in early 2026 with Fields Medalist Terence Tao as co-founder, alongside Nobel laureate Barry Barish, Turing Award winner Richard Sutton, and senior AI leaders from Amazon AWS, Microsoft Research, NVIDIA, and OpenAI.
The intellectual thesis: SAIR’s founding essay argues that reaching more capable AI requires scaling our scientific understanding of intelligence, not just model parameters. The analogy: current models are like incandescent bulbs—brighter with more power, but fundamentally limited without the material science that enabled LEDs. Tao frames the core challenge: we lack a unified mathematical framework connecting the empirical performance of neural networks with a fundamental understanding of how intelligence emerges from them. Deriving scaling laws from first principles, the way physics derives fluid dynamics from particle interactions, remains an open problem.
On the role of the scientist: A second essay makes a complementary argument. The concern is not that AI replaces scientists but that it eliminates the entry-level work—the “sandbox”—where researchers develop the deep intuition needed to verify and direct AI outputs. Without that training ground, we risk a future where no one understands the fundamental principles behind the machine. SAIR’s proposed solution: redefine the scientist as “architect of verification,” shifting from executing every calculation to high-level validation and logical architecture. This resonates strongly with what Matt Schwartz found in practice—domain expertise becomes more valuable, not less, when the model handles the grunt work.
Operational model: Three pillars: direct research grants, a corporate partnership program connecting Fortune 500 companies with researchers, and a conference series. The foundation kicked off at UCLA on February 10, co-organized with IPAM and UCLA Physical Sciences.
Why this matters—the field is building institutions: Whether SAIR becomes consequential will depend on whether it translates its star-powered board into sustained research funding and genuine cross-disciplinary output. But the fact that people of this caliber are organizing around the thesis that AI needs deeper scientific foundations—not just more compute—is itself a signal. The AI-for-science space is moving from scattered individual efforts toward institutional infrastructure, and SAIR is positioning itself explicitly in the gap between fragmented academic funding and industry’s focus on scaling.
Read more: sair.foundation. Blog posts on scaling intelligence and science and AI.
DOE outlines AI-driven science for the Genesis space mission:
…The unsexy, essential problems that will determine whether AI actually transforms experimental science…
The U.S. Department of Energy published a detailed roadmap for the Genesis mission, framing AI as central to the next generation of space-based fundamental physics experiments. The document identifies areas where machine learning could accelerate analysis of data from particle detectors in space, improve real-time anomaly detection, and optimize mission design under tight mass and power budgets.
Why this matters—from proofs-of-concept to infrastructure: While less flashy than an LLM conjecturing a theorem, this kind of institutional planning document matters. It signals that federal science agencies are moving beyond AI pilot projects toward integrating AI into the design phase of major scientific infrastructure. The specific technical challenges—operating ML models under radiation constraints, validating AI-driven analysis against physics priors, handling Earth-space communication latency—are exactly the sort of problems that will determine whether AI transforms experimental science or remains a supplement to it.
Read more: Genesis Mission: Science and Technology Challenges (U.S. Department of Energy).
LLMs as peer reviewers—a new preprint compares machine and human review across the entire eLife corpus:
…The path to AI-assisted literature synthesis starts with making science machine-readable…
A recent preprint developed a machine-automated approach for extracting results from papers and used it to directly compare machine and peer review across the entire eLife corpus. The results point toward a structural argument: if we want AI to meaningfully assist with scientific literature synthesis, we need to rethink how scientific information is disseminated. The authors argue that publication systems should optimize separately for disseminating data and results (which should be machine-readable) versus conveying novel ideas (which benefit from human prose).
Why this matters: Most discussion of AI in science focuses on generating results. But the downstream problem—making the existing body of scientific knowledge accessible to AI systems in a rigorous, verifiable way—is arguably as important and much less discussed.
Read more: Science should be machine-readable (bioRxiv).
Field Notes is a recurring series. If you’re working on something at the intersection of AI and scientific research that you think we should cover, we’d like to hear about it.
Related content
Labor market impacts of AI: A new measure and early evidence
An update on our model deprecation commitments for Claude Opus 3
The persona selection model
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み