OpenAI のアレックス・ルパスカスカ氏:GPT-5.5 の限界はさらに先へ
OpenAI の Alex Lupsasca は、GPT-5 が数日かかる理論物理学の計算を11分で再現できることを示し、科学の最前線における AI の推論能力が劇的に進化したと指摘している。
キーポイント
GPT-5 の推論能力の飛躍的向上
Alex Lupsasca は、GPT-5 が自身の難解な論文をわずか11分で再現できることを実証し、科学的最前線での AI 能力が劇的に拡大したと述べている。
一般ユーザーと研究者の認識ギャップ
メール作成やコード生成などの日常的タスクでは改善が限定的に見える一方、複雑な推論が必要な分野では限界が大幅に後退しており、この変化は目に見えにくい。
プロンプト工学による性能発現
教科書の予備問題を提示する「プリミング(priming)」手法を用いることで、GPT-5 はトレーニングデータに含まれていない最新の研究成果も正確に再現可能になった。
理論物理学研究のパラダイムシフト
OpenAI への移籍を機に、AI が物理学者の思考プロセスを加速させる新たなツールとして確立されつつあり、研究速度が劇的に向上する可能性を示唆している。
ChatGPT が未解決の物理問題を短期間で解決
研究者たちが1年以上取り組んで進展が見られなかった「単一マイナスグルーントリー振幅」の問題を、ChatGPT はわずか1週間で解き、非ゼロとなる条件と公式を導き出した。
新しい物理的洞察の生成
モデルは複雑な計算結果を「半コリンニアル(half-collinear)極限」という直感的に理解しやすいケースに帰着させることで、難解な式を簡潔な公式へと圧縮する手法を見出した。
未知の証明技法による検証
導き出された公式の証明において、ChatGPT は著者たちが知らなかった新しい数学的技法を用いて証明を行い、その結果を再現・確証した。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI の能力評価基準を「業務効率化」から「高度な科学推論」へとシフトさせる重要な転換点を示しています。特に OpenAI の研究者自身が実証した GPT-5 の性能は、学術界における AI 受容の加速と、理論物理学を含む基礎科学分野の研究パラダイムが劇的に変化する兆候を強く示唆しており、今後の技術開発や研究手法に大きな影響を与えるでしょう。
編集コメント
一般ユーザーには目立たない変化が、科学の最前線では革命を起こしているという事実は、AI の真のポテンシャルを理解する上で極めて重要です。
GPT-5.5 を巡って、一部の人が狂喜しているようです。ある人にとっては。これは「ジャグド・フロンティア(不整の最前線)」の話です。AI を使ってメールを書いたり、コードの実装を行ったりする人々にはその効果は中程度に感じられる一方で、モデルの限界に挑戦する人々は、その限界がさらに外側へ広がっていることに気づき始めています。
アレックス・ルプサスカ氏はこの限界を一年半にわたって追跡しています。「GPT-5 が登場した際、私が非常に長い時間をかけて完成させた論文の一つを、わずか 30 分で再現できる能力を持っていました。」
しかし、アレックスはまた、この変化はほとんど目に見えなかったと指摘します。
GPT-5 が登場した時のことを覚えています… Twitter での反応は冷ややかでした。多くの人々は「もっと期待していたのに」とか、「メール作成の能力が向上していない」といった意見でした。私はその時、「なるほど、GPT-3 でもメールは書けるし、メール作成でどれほど改善できるのか?それが本質ではない」と考えていました。しかし、科学の最前線では、その能力が本当に飛躍的に伸びていました。
今日の Science pod では、彼の論文やその他の話題について一緒に詳しく掘り下げていきます!こちらでご覧ください。
「物理学におけるオスカー賞」
アレックスは、ブラックホールに関する理解を深める画期的な成果によって、キャリアの初期から注目を集めました。また、「Black Hole Explorer(ブラックホール・エクスプローラー)」や、一般の人々にとってブラックホールの視覚化を楽しくインタラクティブにする iPhone アプリでも知られています。アレックスは 2024 年の「ニュート・ホライズンズ・イン・ファンダメンタル・フィジックス・ブレイクスルー・プライズ(基礎物理学における新地平賞)」を受賞しました。「物理学のオスカー」とも呼ばれるこの賞は、初期段階の理論物理学者が受賞できる中で最も権威ある賞の一つと言えます。1
Alex は、o3 に研究の助けを求めたことをきっかけに、理論物理学における AI の可能性を初めて認識しました。ポッドキャストの中で Alex は、数日かかる計算を GPT に手伝ってもらった際、わずか 11 分で結果を得たと振り返っています。

tweets
彼の物理学者の同僚たちや、より広いコミュニティが冷ややかな反応や懐疑的な態度を示していたにもかかわらず、Alex はすぐに AI が自身の研究に与えるインパクトを直感しました。
AI と物理学における「ムーブ 37」の瞬間
GPT-5 がちょうどリリースされたばかりで、Alex は直近発表された論文の問題解決を試みました。しかし GPT-5 は回答不能と返しました。その後、OpenAI の CRO(最高責任者)である Mark Chen がさらに強く働きかけ、教科書のウォームアップ問題をモデルに与えることで Alex に「プリミング」を施させました。するとモデルはそれを容易に解決しました2。この「プリミング」というトリックを用いると、GPT-5 は 11 分で彼の完全な結果を再現できました(なお、論文の発表日はモデルの学習カットオフ日後でした)。
"これはすべてを変えます。" Alex は、理論物理学における推論に巨大な変化が起きる瀬戸際にあるように感じると指摘しています。1 年前には LLM(大規模言語モデル)はまだ正しい数学を処理し始めたばかりでしたが、今や ChatGPT はコーヒーを一杯飲むほどの時間で、彼の最も難しい論文を再現できるようになりました。
Alex はバンダービルト大学で休暇中でしたが、物理学の加速における AI の能力の限界を広げるために OpenAI へ加わりました。
「飛行機が着陸する前に AI が問題を解決した」
Alex は GPT に試行を重ね、行き詰まっている問題について同僚たちに相談しました。彼の旧博士課程の指導教官(ハーバード大学の Andrew Storminger 教授)は、「シングルマインス・グルーオン・ツリー振幅」と呼ばれる特定の物理量に関する洞察を持っていました。
@the_IAS, @VanderbiltU, @Cambridge_Uni, および @Harvard。これは、多くの物理学者が起きないと予想していたグルーオンの相互作用が、特定条件下で生じうることを示しています。
あるケースでは、これら振幅は以前に常に消滅することが示されていたにもかかわらず、非ゼロとなり得ることがあります。チームはこの直感をさらに推し進め、非ゼロであるように見えるこれらの量に対する公式を導き出しましたが、それ以外は完全に扱いにくいものでした。

論文から得られた重要な方程式は半ページにわたっており、32 項の和から成り立っています。各項は 4 つの項の積であり、それぞれが複雑な数式を符号化しています。この計算を手作業で行うだけでも、主著者によるヘラクレス級の努力が必要でした!
この問題に取り組んで 1 年以上経過しましたが、実質的な進展はありませんでした。
Storminger 教授は、最初の会話が始まった翌週に OpenAI を訪問してこの問題に取り掛かる予定でした。しかし、そのたった 1 週間のうちに ChatGPT は完全に問題を解決しました。Alex の回想によれば、Storminger 教授の飛行機が着陸する前にもう完了していたそうです。
興味深いのは、ChatGPT がこの問題を解決したという事実だけでなく、その解決方法です。モデルは瞬く間に限界ケース( hindsight で見ると直感的に理解しやすい「半共線領域」として知られる)を見つけ出しました。この極限を適用すると、複雑怪奇な結果がシンプルで直感的な公式へと収束しました!
最後のステップはこの直感的な公式の証明でした。チームは新しいセッションを開始し、以前学んだ内容を文脈として含めたプロンプトを与え、モデルに任せることにしました。ChatGPT は単に以前の結果を再現できただけでなく、著者たちには知られていなかった手法を用いてその証明を行うことにも成功しました!
Vibe Physics の瞬間
具体的な成功を収めた後、チームは ChatGPT を用いてゼロから新しい物理学を生成できるかどうかを尋ねました。彼らは自分たちがより難しい課題だと感じた問題に取り組み、重力と量子力学を組み合わせる際に現れるはずの提案された粒子であるグラビトンに注目しました。5 グルオンに関する論文と同じ研究をチャットボットに行わせるが、今回はグラビトンのためのものだというシンプルなプロンプトを作成し、実行を開始しました!
次に起こったことはまさに「バイブス物理学」であり、ChatGPT は 110 ページにわたる新規の物理学、新しい計算手法、そして新たな技術を生み出しました。これは一日の間に達成され、コーディングエージェントを利用する誰もが慣れ親しんでいるパターンに従って、ほとんどの対話が行われました:
GPT: これがあなたの . です。
を実行しましょうか?
Alex: はい、お願いします!
GPT: そして深く考察する方々へ、これは単にグルオンとグラビトンの直接的な 1-1 マッピングではありませんでした。ChatGPT はグラビトンの性質上必要となった新しい技術を導入し、それを完璧に使用しました。

context
彼らは次の 3 週間ですべての結果を検証しました。そして、見事!量子重力における新規な結果を特徴とする新しい論文が、合計で 3 日未満のうちに生成されました。まさに「AGI の瞬間を感じる」体験でした。

興味のある方のために、最初のプロンプトから最終論文に至るまでの完全な議事録を掲載したブログ記事があります。物理学の知識が全くなくても、"Yes calculate outside of SD first. This is the first step."(はい、まずSDの外で計算してください。これが第一段階です)といった単純なプロンプトから正しい計算ページが次々と現れる様子を見ると、驚きを通り越しています。
ドメイン外=新たな知識
Vibe Physics と Vibe Coding の間にある質的に異なる点は、Vibe Physics が実際に人類の知識のフロンティアを拡張するものであるという点です。Gluon(グルオン)と Graviton(重力子)の結果を見ると、後から振り返れば、これらは物理学や数学における多くの結果と同様に、私たちがすでに知っていることの自然な延長のように思えます。実はこれが、それらが美しい理由の一部でもあります。しかしこれは、ドメインの専門家たちを1年間も悩ませ続けていた問題でした。確かに再結合的な側面が少し残っていますが、このことがこれまでに行われたことはありません。
AI が得意としない問題の大きなクラスや、AI が考えつくかもしれないアプローチが存在する可能性もあります。これが皆が話題にしている「味」です。アレックスは、これらの能力によって、より野心的な問題を解決するために多くの可能な道筋を探求できると語りました。AI が結果をほぼ私たちが想像し検証できる速度で出力できるようになったことで、一人の理論物理学者が達成できると期待する範囲が、これまでよりもはるかに大きく広がったのです。
このポッドキャストの研究のために AI にこの状況かどうかを尋ねたところ、IUPAP 賞(国際純粋応用物理学連合賞)を提案されました。実はアレックスも 2024 年にこの賞を受賞しています。
これは興味深いプロンプトのテクニックです。より簡単だが関連する問題を解くことで、モデルを正しい方向へ思考させるのです。
厳密に言えば、「3+1 次元時空」、つまり私たちの現実をモデル化する時空においては、元の主張は依然として真です。ここで得られた洞察は、2 つの時間次元と 2 つの空間次元を持つ場合、数学に何らかの奇跡が起き、元の仮定が破綻するという点にあります。2 つの時間次元と 2 つの空間次元を持つとはどういうことでしょうか?これは残念ながら時間を割いて議論できなかった楽しい話題です。
専門家にとっては、これは 1 つの粒子が n-1 の他の粒子に崩壊する現象に相当します。
この粒子については多くの文献があり、本ブログよりも優れた参照資料が存在します。ただし、本稿に関連するのは、グラビトンが重力におけるグルオンのアナログであるという点と、ヘリシティの概念はより複雑であるものの、グルオンに関する論文に対する意味のあるアナログを依然として定義できるという点です。
原文を表示
Some people are going crazy over GPT 5.5. Some people. This is the story of the Jagged Frontier. People who use AI to write emails or even code implementation work find the lift moderate whereas people pushing the limits of the model are figuring out that the limits just moved outwards.
Alex Lupsaska has been tracking this limit for a year and a half now. “When GPT5 came out, it was able to reproduce one of my best papers (that took a very long time to come up with) in 30 minutes.”
But Alex also notes that this shift was mostly invisible.
I remember when GPT-5 came out… on Twitter, the reception was lukewarm. A lot of people were like, well, we expected a lot more, and it’s not better at writing email. And I remember thinking, well, okay, GPT-3 could write email. How much better can it get at writing email? That’s not the point. But at the science frontier, the capabilities were really taking off.
We walk through his paper and more with him in today’s Science pod! Watch here.
The “Oscar for physics”
Alex made an early splash in his career with breakthroughs in our understanding of black holes. He’s also known for Black Hole Explorer and an iPhone app that makes visualizing black holes fun and interactive to regular audiences. Alex won the 2024 New Horizons in Fundamental Physics Breakthrough Prize. Known as the “Oscar for physics” this is arguably the most prestigious prize an early stage theoretical physicist can win.1
Alex first saw promise for AI in theoretical physics after he asked o3 for help on his research. In the podcast, Alex recalls asking GPT for help with a calculation that would have taken days, and getting a result in eleven minutes.

tweets
He immediately recognized how impactful AI would be for his work even as though his physicist colleagues and the larger community gave it a lukewarm or skeptical reception.
The Move 37 Moment for AI x Physics
GPT-5 had just been released, and Alex tried asking it to solve a problem in a just published paper. GPT-5 said no answer. But Mark Chen, CRO of OpenAI, pushed a bit harder, and had Alex prime the model with a textbook warmup problem, which it easily solved2. After using this “priming” trick, GPT-5 was able to reproduce his full result in eleven minutes (yes, the paper was released after the model’s training cutoff).
“This changes everything.” Alex notes that we seem to be on the edge of a massive change in theoretical physics reasoning. A year prior LLMs were just starting do correct math. Now ChatGPT could reproduce his hardest paper in the time it takes to get a coffee.
Alex was on sabbatical at Vanderbilt, and he joined OpenAI to start pushing the boundary of AI’s ability to accelerate physics.
“AI solved the problem before the plane landed”
Alex began to put GPT through it’s paces, reaching out to colleagues for problems they were stuck on. His old PhD advisor (Prof. Andrew Storminger at Harvard) had an insidght about certain physical quantities known as “single-minus gluon tree amplitudes”.
@the_IAS, @VanderbiltU, @Cambridge_Uni, and @Harvard. It shows that a gluon interaction many physicists expected would not occur can arise under specific","username":"OpenAI","name":"OpenAI","profile_image_url":"https://pbs.substack.com/profile_images/1885410181409820672/ztsaR0JW_normal.jpg","date":"2026-02-13T19:19:07.000Z","photos":[],"quoted_tweet":{},"reply_count":949,"retweet_count":1489,"like_count":9539,"impression_count":4520424,"expanded_url":null,"video_url":null,"belowTheFold":true}" data-component-name="Twitter2ToDOM">
In certain cases, these amplitudes may be non-zero when previously shown to always vanish3. The team pushed this intuition forward, and came up with a formula for these quantities that appeared nonzero, but which was otherwise completely intractable.

A key equation from the paper spans a quarter of a page, involving a sum of 32 terms, each of which is a product of four terms, each encoding a complicated formula. Just computing this by hand was a Herculean effort by the lead author!
Spending over a year on this problem, no real progress was made.
Prof. Storminger planned to visit OpenAI to work on the problem the week after the initial conversation started. In that one week ChatGPT fully solved the problem, as Alex recalled, before Prof. Storminger’s plane even landed.
What was interesting is not only that ChatGPT solved this problem, but how it solved it. The model quickly realized found a limiting case (known as the “half-collinear regime”), that in hindsight has a nice intuitive explanation4. Taking this limit, the gnarly results collapsed down to a simple and intuitive formula!
The last step was to prove this intuitive formula. The team started with a fresh session, gave a prompt with the context of what they previously learned, and let the model loose. Not only was ChatGPT able to reproduce the previous result, it was able to prove it using a technique unknown to the authors!
The Vibe Physics moment
With a concrete success in the bag, the team asked if they could generate new physics from scratch using ChatGPT. They took on what they felt to be a harder problem, looking at the graviton, a proposed particle that should appear when one combines gravity and quantum mechanics.5 They wrote up a simple prompt asking ChatGPT to perform the same research as the gluon paper but instead for gravitons. And then hit go!
What came next was truly “vibe physics”, with ChatGPT pushing out 110 pages of novel physics, new calculations, and novel techniques. This was over the course of a day, with most interactions the familiar following the now familiar pattern for anyone who uses a coding agent:
GPT: Here's your <long, detailed, awesome result>.
Would you like me to do <another really cool thing>?
Alex: Yes, please do!
GPT: <does the really cool thing>And for those who look deeply, this really was not just a direct 1-1 mapping between gluons and gravitons. ChatGPT imported new techniques that were necessary due to the nature of gravitons, and used them flawlessly.

context
They spent the next three weeks verifying all the results. And voila! A new paper featuring novel results in quantum gravity, generated in less than three days total. Truly a “Feel the AGI moment”.

For those interested, there’s a blog post with the full transcript from initial prompt to final paper. Even if you know no physics, it’s crazy seeing pages of correct calculations fall out of simple prompts such as “Yes calculate outside of SD first. This is the first step.”
Out-of-domain = new knowledge
The thing that is qualitatively different between Vibe Physics and Vibe Coding is that Vibe Physics means actually extending the frontier of human knowledge. Looking at the Gluon and Graviton results, they seem in retrospect, like many results in physics and math, like natural extensions of what we already know. This is in fact part of what makes them beautiful. But this was a problem that stumped experts in the domain for a year. Although it does still have a bit of a recombinant flavor, this thing has never been done before.
It may be that there are still large classes of problems that AI won’t do well on, and approaches that an AI might not think to take. This is the “taste” that everyone has been talking about. Alex told us that these capabilities, however, allow him to explore many possible avenues in order to map out much more ambitious problems to tackle. With AI able to output results basically as fast as we can conceive and validate them, the scope of what one theorist can hope to achieve has just gotten a lot, lot bigger.
1When doing research for this podcast, we asked AI if this was the case, and it suggested the IUPAP award, which it turns out Alex also won in 2024.
2This is an interesting prompting trick. Get the model thinking along the right lines by solving an easier, but related problem.
3To be pedantic, the original claim is still true in the case of “3+1 dimensional spacetime”, the spacetime that models our reality. The insight here was that if we have two dimensions of time and two dimensions of space, some magic happens with the math which breaks the original assumption. What does it mean to have two time dimensions and two space dimensions? This is a fun discussion we unfortunately didn’t have time to get into.
4For experts, this is the equivalent to one particle decaying into n-1 other particles.
5Much has been written about this particle, and there are better references than this blog. The only thing relevant for this is that gravitons are an analog to gluons, but for gravity. And that the concept of helicity is more complicated, but one can still define a meaningful analog to the gluon paper.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み