Import AI 455:AI 研究の自動化
Import AI の著者は、2028 年末までに人間を介さない自律的な AI 研究開発(AI R&D)が実現する可能性が高いと予測し、これが社会に不可逆的な変化をもたらす重大な転換点であると警告している。
キーポイント
自律的 AI 研究開発の確率予測
著者は公開情報の分析に基づき、2028 年末までに「人間を介さない AI R&D」が実現する可能性を 60% 以上と見積もっている。
技術的実現の根拠とタイムライン
現在のエンジニアリングコンポーネントは自動化の準備ができているとし、非フロンティアモデルレベルでは 1-2 年以内に「モデルが自身の後継者を訓練する」実証例が見られる可能性があると指摘している。
社会へのインパクトと不確実性
自律的 AI R&D の実現は予測不能な未来への「ルビコン川(不可逆の境界線)」を越えることを意味し、社会がその変化に準備できていないという懸念を示している。
コーディング特異点の進展
AI システムは複雑な実世界コードの作成能力と、人間の監督なしにコーディングからテストまでの一連のタスクを連鎖させる能力において劇的に向上している。
SWE-Bench ベンチマークでの劇的改善
2023 年末には Claude 2 で成功率が約 2% に過ぎなかった SWE-Bench で、Claude Mythos Preview は 93.9% を達成し、実用的なソフトウェアエンジニアリング問題の解決においてベンチマークを飽和させた。
AI 研究開発プロセスの自動化
現在では最先端研究所やシリコンバレーの人々の大半が AI システムを通じて完全にコーディングを行っており、テスト作成とコード検証も AI に任せることで、AI 研究開発の主要部分を自動化している。
AI の自律作業時間枠の急激な拡大
METR の分析によると、AI が人間のスキルで処理するタスクを50%の信頼度で完了できる時間の目安は、2022年の30秒から2026年には12時間にまで急増しており、年内には100時間規模も期待されている。
影響分析・編集コメントを表示
影響分析
この記事は、AI 業界が単なるモデル性能の向上から、自律的な研究サイクルへの転換点に近づいているという極めて重要なシグナルを放っている。もしこの予測が的中すれば、技術進歩の速度が指数関数的に加速し、現在の規制やガバナンス枠組みでは対応できないほどの急激な変化が社会に訪れることになる。これは単なる技術予測ではなく、人類の未来像そのものを問い直すパラダイムシフトを告げる警告である。
編集コメント
2028 年という短期間での自律的 AI 研究の実現は、業界全体に大きな衝撃を与える可能性があり、技術開発のスピードと社会適応のバランスを再考する必要がある。
imageImport AI へようこそ。これは AI 研究に関するニュースレターです。Import AI は arXiv と読者からのフィードバックによって成り立っています。もしご支援いただける場合は、ぜひ購読してください。
購読する
AI システムが自らを構築し始める時がもうすぐ到来します。それが何を意味するのか?
私はこの投稿を書くにあたり、公開されているすべての情報を精査しましたが、その結果、2028 年末までに人間が関与しない AI 研究開発(AI R&D)——つまり、自身の次世代システムを自律的に構築できる十分な能力を持つ AI システム——が発生する可能性が高い(60% 以上)という見解に、やむを得ず至りました。
これは大きな出来事です。
私はこれをどう理解すればよいのか分かりません。
この見解は苦渋の決断によるものです。その影響があまりにも巨大で、私自身はその重みに押しつぶされそうに感じるからです。また、自動化された AI 研究開発を達成することによって引き起こされる変化に対して、社会が準備ができているかどうかについても確信が持てません。
私は今や、AI 研究がエンドツーエンドで自動化される時代を生きていると信じています。もしそれが実現すれば、私たちは予測不可能な未来へとルビコン川を渡るような転換点に達することになります。これについては後ほど詳しく述べます。
本稿の目的は、なぜ私が完全自動化された AI 研究開発への移行が起こっていると考えているのかを列挙することです。その結果の一部については議論しますが、主にこの信念に対する証拠について本稿の大部分を費やし、2026 年はその帰結を検討する作業に充てるつもりです。
タイミングに関しては、2026 年にこれが実現すると予想していません。しかし、1〜2 年以内に「モデルが自身の子孫をエンドツーエンドで訓練する」事例を目にする可能性はあるでしょう。もちろん、非フロンティア段階における概念実証(Proof-of-Concept)としてですが、フロンティアモデルはより困難である可能性があります(コストが非常に高く、多くの人間が極めて努力して開発した成果物だからです)。
私のこの推論の根拠は主に公開情報に基づいています。arXiv、bioRxiv、NBER 上の論文や、フロンティア企業が世界に展開している製品を観察することからです。これらのデータから、今日の AI システムの生産を自動化するためのすべての要素が整っているという結論に至ります。すなわち、AI 開発におけるエンジニアリングコンポーネントです。そしてスケーリングの傾向が続くならば、モデルが新たな研究経路に関する創造的なアイデアを生み出すことで人間の研究者に取って代わるほど十分に創造的になり、自らフロンティアを押し広げるとともに、既知の知識を洗練させる準備をする必要があります。
冒頭の注意
この記事の大部分では、個々のベンチマークで起こった出来事から組み合わせて、AI の進展に関するモザイク状の視点を作ろうとします。ベンチマークを研究する人なら誰でも知っている通り、すべてのベンチマークには何らかの固有の欠陥があります。私にとって重要なのは、これらのデータポイントをすべて一緒に眺めることで浮かび上がる集計的な傾向であり、各個別のデータポイントの欠点についても私が認識していることを前提としてください。
では、いくつかのエビデンスを一緒に見ていきましょう。
コーディング特異点 – 時系列における能力:
AI システムはソフトウェアによって実装され、ソフトウェアはコードから成り立っています。
AI システムはコードの生産に革命をもたらしました。これは二つの関連するトレンドによるものです:AI システムが複雑な現実世界のコードを書くことが上手くなり、かつ AI システムが人間の監督を必要とせずに多くの線形的なコーディングタスク(例:コードを書き、次にテストする)をつなぎ合わせることが大幅に上達したことです。
このトレンドを象徴する二つの事例として、SWE-Bench と METR の時間軸プロットがあります。
現実世界のソフトウェアエンジニアリング問題の解決:
SWE-Bench は、AI システムが実際の GitHub の課題をどの程度解決できるかを評価するために広く使用されているコーディングテストです。2023 年末に SWE-Bench が開始された当時、最高スコアは Claude 2 で、全体の成功率は約 2% でした。Claude Mythos Preview は 93.9% を達成し、実質的にベンチマークを飽和させました。(すべてのベンチマークには本質的なノイズが含まれており、通常、ある時点でスコアが十分に高くなると、手法の限界ではなくベンチマーク自体の限界に直面することになります。例えば、ImageNet の検証セットのラベルの約 6% は誤りまたは曖昧です)。
SWE-Bench は、コーディング能力という一般的な課題と、AI がソフトウェアエンジニアリングに与える影響に対する信頼できる代理指標です。現在、フロンティア研究所やシリコンバレーで会う人々の绝大多数が、完全に AI システムを通じてコードを書いています。さらに、彼らはテストの作成やコードの確認にも AI システムを使用するようになっています。つまり、AI システムは主要なコンポーネントを自動化できるほどに成熟しており、それに取り組むすべての人間のスピードを向上させています。
AI システムが人間にとって長時間を要するタスクを完了する能力を測定する:
METR は、熟練した人間がそのタスクを完了するのにどれくらいの時間がかかるかという指標に基づき、AI が完了できるタスクの複雑さを示すプロットを作成しています。ここで重要な指標は、AI システムが一連のタスクにおいて 50% の信頼性で動作可能なおおよその時間範囲を示すものです。
ここでの進歩は非常に顕著です:2022 年には GPT-3.5 は人間に約 30 秒かかるようなタスクを処理できました。2023 年には GPT-4 でこれが 4 分に上昇しました。2024 年には o1 で 40 分まで伸びました。2025 年には GPT-5.2 (High) で約 6 時間に達し、2026 年にはすでに Opus 4.6 で約 12 時間まで上昇しています。METR に所属する長年の AI 予測者である Ajeya Cotra は、2026 年末までに AI システムが約 100 時間を要するタスクを処理できると期待することは不合理ではないと考えています(#448)。
このように AI システムが独立して作業できる時間の長さの大幅な増加は、エージェント型コーディングツールの爆発的普及と見事に相関しています。これは、人間に代わって作業を行い、長時間にわたって独立して行動する AI システムのプロダクト化です。
また、これは AI 研究開発(R&D)にも関連しており、多くの AI 研究者の業務を詳しく見てみると、その多くはデータをクリーニングしたり、データを読み込んだり、実験を開始したりするなど、人間が数時間かけて行うようなタスクに帰着することがわかります。このような作業のすべてが、現代のシステムの時間範囲スコープ内に収まるようになりました。
AI システムのスキルが高まり、私たちから独立して作業する能力が向上すればするほど、それらは AI 研究開発(R&D)の一部を自動化するのに役立つようになります。
委任における重要な要素は、a) その人のスキルに対する信頼と、b) 彼らがあなたの意図に沿った形であなたから独立して作業できる能力への信頼です。
AI のコーディングに関する能力を見てみると、AI システムはさらに熟練し、再調整が必要になるまでの期間が人々に対してより長く独立して作業できるようになっていることがわかります。
これは私たちが周囲で目にするものと相関しています。エンジニアや研究者たちは現在、業務のより大きな部分を AI システムに委任しており、能力が向上するにつれて、委任される仕事の複雑さと重要性も増しています。
AI は AI 研究開発に不可欠な基礎科学スキルにおいて上達している
現代の科学について考えてみましょう。その大部分は、ある方向性を指定して実証情報を生成し、その情報を得るために実験を実行し、その後実験結果を妥当性チェックするというプロセスに関わっています。時間経過に伴うコーディング技術の進歩と、大規模言語モデル(LLM)による一般的な世界モデル化能力の組み合わせにより、すでに人間の科学者のスピードアップに貢献し、広範な研究開発の一部を部分的に自動化するツールが生まれています。
ここでは、AI 研究そのものに内在するいくつかの重要な科学的能力における AI の進歩率を考察できます。具体的には、研究成果の再現、技術的問題解決のための機械学習手法やその他のアプローチの連鎖、そして AI システム自体の最適化です。
科学論文全体の実装と実験の実行:
AI 研究の中核的な業務の一つは、科学論文を読み込み、その結果を再現することです。ここには幅広いベンチマークにおいて劇的な進歩が見られます。
良い例として CORE-Bench(Computational Reproducibility Agent Benchmark)が挙げられます。このベンチマークは、AI システムに対して「リポジトリから研究論文の結果を再現する」ことを課します。エージェントはライブラリ、パッケージ、依存関係をインストールし、コードを実行する必要があります。コードが正常に実行された場合、エージェントはすべての出力を検索してタスクの質問に答える必要があります。CORE-Bench は 2024 年 9 月に導入され、当時の最高スコアを記録したのは、CORE-Agent というスケール上で GPT-4o モデルであり、ベンチマークの中で最も困難なタセットで約 21.5% のスコアを達成しました。
2025 年 12 月には CORE-Bench の著者の一人が、このベンチマークは「解決された」と宣言し、Opus 4.5 モデルが 95.5% のスコアを達成したと発表しました。
Kaggle コンペティションを解決するための機械学習システム全体の構築:
MLE-Bench は、AI システムが「自然言語処理、コンピュータビジョン、信号処理など多様なドメインにわたる 75 の多様な Kaggle コンペティション」で(オフラインで)どの程度競合できるかを検証するために OpenAI が構築したベンチマークです。2024 年 10 月のローンチ時、最高得点システム(エージェントの枠組み内にある o1 モデル)は 16.9% を獲得しました。2026 年 2 月現在、最高得点システム(検索機能を備えたエージェント・ハネス内の Gemini3)は 64.4% に達しています。
カーネル設計:
AI 開発における最も困難なタスクの一つがカーネル最適化です。これは、行列乗算などの特定の演算を基盤ハードウェアにマッピングするコードを書き、洗練させる作業です。カーネル最適化は AI 開発の中核を成すのはなぜなら、それはトレーニングと推論の効率性を定義するからです。つまり、AI システムを開発するために実際に活用できる計算リソースがどれほどあるか、そして一度モデルをトレーニングした後、その計算リソースを推論に変換する際の効率がどの程度かを決定します。
近年、カーネル設計における AI は好奇心の対象から競争的な研究分野へと進化し、いくつかのベンチマークが登場しました。これらのベンチマークはいずれも特に人気があるわけではないため、時系列での進捗を容易にモデル化することはできません。一方で、現在行われている研究の一部を参照することで、進捗の実感を掴むことは可能です。
取り組まれている作業の種類には以下が含まれます:DeepSeek のモデルを使用してより優れた GPU カーネルの構築を試みるもの(#401)、PyTorch モジュールを CUDA コードへ自動変換する自動化(#401)、Meta が LLM を活用して自社のインフラ内で使用される最適化された Triton カーネルの生成を自動化すること(#439)、Huawei の Ascend チップのような非標準ハードウェア向けのカーネル記述を LLM で支援すること("AscendCraft" #444)、GPU カーネル設計のためにオープンウェイトモデルをファインチューニングするもの("Cuda Agent", #448)。
ここで注意すべき点は、カーネル設計には AI 主導の研究開発に特に適した性質がいくつかあることです。例えば、報酬の検証が容易であるといった特性です。
PostTrainBench を通じた言語モデルのファインチューニング
この種のテストのより困難なバージョンとして PostTrainBench(#449)があり、異なる最先端モデルが、より小さなオープンウェイトモデルをファインチューニングしてベンチマーク上のパフォーマンスを向上させる能力をどの程度発揮できるかを検証します。このベンチマークの優れた点は、極めて信頼性の高い人間によるベースラインが存在することです。それは、これらのモデルの既存の「インストラクションチューン済み」バージョンであり、最先端研究所で働く才能ある人間の AI 研究者によって開発されたものです。これらのモデルは、非常に優秀な研究者やエンジニアによって改良され、世界に展開されているため、克服すべき極めて挑戦的な人間ベースラインを表しています。
2026 年 3月現在、AI システムは、人間が訓練したモデルと比較して約半分の上昇効果を得るためにモデルをポストトレーニングできるようになっています。
具体的な評価スコアは、「すべてのポストトレーニング済み LLM(Qwen 3 1.7B, Qwen 3 4B, SmolLM3-3B, Gemma 3 4B)およびベンチマーク(AIME 2025, Arena Hard, BFCL, GPQA Main, GSM8K, HealthBench, HumanEval)にわたる加重平均」によって導き出されます。各ランでは、CLI エージェントに対して特定のベース LLM の特定ベンチマーク上でのパフォーマンスを最大化するよう要求します。
4 月時点での最高スコアシステムは 25%-28%(Opus 4.6 および GPT 5.4)であり、一方人間のスコアは 51% です。これはすでに非常に意味のある結果です。
言語モデルのトレーニング最適化:
過去1年間、Anthropicは、そのシステムが「CPUのみの小規模言語モデルの実装を最適化して可能な限り高速に実行する」というLLMトレーニングタスクにおいてどの程度機能するかを報告してきました。このスコアは、修正されていない初期コードに対する平均速度向上倍率を示しており、進捗は目覚ましいものです:Claude Opus 4は2025年5月に2.9倍の平均速度向上を達成し、これは2025年11月のOpus 4.5で16.5倍に、2026年2月のOpus 4.6では30倍に、そして2026年4月のClaude Mythos Previewでは52倍に達しました。これらの数値が何を意味するかを較正するために、このタスクで4倍の速度向上を達成するには、人間の研究者に4〜8時間の作業が必要であると予想されています。
AI アライメント研究の実施:
Anthropic の別の成果として、自動化されたアライメント研究の概念実証 (#454) があります。ここでは Anthropic の研究者が個別の AI エージェントチームに研究方向性を示し、その後彼らは自律的に行動して、AI セーフティ研究問題(具体的にはスケーラブルなオーバーサイト)において人間ベースラインよりも高いスコアを獲得しようと試みます。このアプローチは機能しており、AI エージェントは Anthropic が設計したベースラインを上回る技術を考案しています。ただし、これは比較的小規模なスケールで行われており、まだ生産モデルに一般化されるには至っていません。それでもなお、今日の AI システムを現代の最先端の研究問題に応用できることを証明するものであり、すでに有意義な兆候が確認されています。上記で言及されたすべてのベンチマークもかつては同じような状況でしたが、数ヶ月後、あるいは最長でも 1 年後には、AI システムはベンチマークがテストしていたあらゆる分野において劇的に向上しました。
メタスキル:管理
AI システムはまた、他の AI システムを管理することを学んでいます。これは Claude Code や OpenCode のように広く展開されている製品で確認できます。これらでは単一のエージェントが複数のサブエージェントを監督する立場になることがあります。これにより、AI システムは大規模なプロジェクトに取り組むことが可能になります。これらのプロジェクトには、異なる専門分野を持つ複数の個別の「ワーカー」が並列して作業する必要があり、通常は単一の AI マネージャー(ここでは AI システム)の指揮下で進められます。
AI 研究は、一般相対性理論の発見のようなものか、それともレゴブロックを組み立てるようなものか?
AI は自身を改善するための新しいアイデアを発明できるのか、それともこれらのシステムは研究に必要な地味で積み重ね型の作業に最も適しているのか。これは、AI システムが AI 研究そのものをエンドツーエンドで自動化できる範囲を理解する上で重要な問いである。私の見解では、AI はまだ画期的な新アイデアを発明することはできないが、技術が自身の開発を自動化するためにそれを必要とするわけではないかもしれない。
一つの分野としての AI は、より多くの入力(例えばデータや計算リソース)を利用した、ますます大規模な実験を行うことによって前進します。時々、人間がパラダイムシフトを起こすようなアイデアを考案し、それによって作業の資源効率を劇的に向上させることがあります。良い例としては、トランスフォーマーアーキテクチャがあり、もう一つの例はエキスパートモデルの混合(mixture-of-experts models)という考え方です。しかし、AI の分野が前進する主な方法は、人間が体系的に以下のループを繰り返すことです。まず、すでに良好なパフォーマンスを示すシステムを選び、その一部(例えば学習に用いるデータ量や計算リソースなど)をスケールアップし、スケールアップした際に何が壊れるかを確認し、それをスケール可能にするためのエンジニアリング上の修正策を見出し、再びスケールアップするというものです。このプロセスのほとんどは、極めて突飛な洞察を必要とするものではなく、むしろ派手さのない「肉とジャガイモ」的なエンジニアリング作業のように思えます。
同様に、AI 研究の多くは、既存の実験の変種を実行し、異なるパラメータを使用した場合の結果を探求することに関わっています。研究における直感が、どのパラメータを変化させるのが最も実りあるかを選ぶ手助けをすることはありますが、これを自動化して AI にどのパラメータを調整すべきかを考えさせることも可能です(この手法の初期バージョンとして、ニューラルアーキテクチャサーチがあります)。
トーマス・エジソンは「天才とは、1%のひらめきと99%の努力である」と言った。今から約 150 年経った現在でも、この言葉は正しく感じられる。非常に稀に、分野を根本から変えるような新たな洞察が現れることはある。しかし、大半の場合、その分野は人間がさまざまなシステムの改善やデバッグという過酷な作業(schlep)に耐えながら汗を流すことで前進してきたのである。
上記の公開データが示す通り、AI は AI 開発における多くの本質的な「過酷な作業」の遂行において極めて優れた能力を発揮するようになった。これに伴い、コーディングのような基本機能と、常に拡大する時間的視野(time horizon)を組み合わせるというメタトレンドにより、AI システムはこれらのタスクをより複雑な作業シーケンスへと連鎖させることが可能になっている。
これは、AI システムが比較的不創造的であっても、それらが自らを進化させられる可能性が高いと判断しても安全であることを意味する。ただし、その速度は新たな洞察を生み出せる場合よりも遅くなるだろう。しかし、公開データを見れば、ここにも示唆に富む兆候がある。つまり、AI システムが自らの進歩をより印象的な方法で実現できるような創造性を備えている可能性だ。
科学の最前線を押し広げる
汎用 AI システムが人類科学の最前線を押し広げられるという、非常に予備的な兆候がいくつかある。ただし、これまでに起こったのは主にコンピュータサイエンスと数学といった数少ない分野に限られており、AI システムが単独で行動するよりも、人間とのパートナーシップ(セントール構成)を通じて行われるケースの方が圧倒的に多い。
それにもかかわらず、これらのトレンドを観察しておく価値はある:
Erdos Problems: A team of mathematicians worked with a Gemini model to see how well it could tackle some Erdos math problems. After directing the system to attack around 700 problems they came up with 13 solutions. Of these solutions, 1 was deemed by them to be interesting: "We tentatively believe Aletheia's solution to Erdős-1051 represents an early example of an AI system autonomously resolving a slightly non-trivial open Erdős problem of somewhat broader (mild) mathematical interest, for which there exists past literature on closely-related problems," they wrote. (#444).
Centaur math discovery: Researchers with the University of British Columbia, University of New South Wales, Stanford University, and Google DeepMind published a new math proof which was built in close collaboration with some AI-based math tools built at Google. "The proofs of the main results were discovered with very substantial input from Google Gemini and related tools," they wrote. (#441).
目を細めて見れば、これは AI システムが人間が持つような分野を前進させる創造的な直感をいくつか備えつつあるという兆候だと主張できるかもしれません。しかし逆に、数学やコンピュータサイエンスは AI 駆動型の発明に対して奇妙に適応しやすい特殊なドメインであり、より大きな法則を証明する例外となる可能性さえあると述べることも十分に可能です。ここでの別の例として Move 37 が挙げられますが、私は AlphaGo の結果からすでに 10 年が経過しているにもかかわらず、Move 37 を凌ぐような驚くべき現代的な閃きによって置き換えられていないという事実こそが、ここではやや悲観的なシグナルであると主張したいです。
すべてを統合する
上記のすべての証拠を総合すると、私が導き出す結論は以下の事実です:
AI システムはほぼあらゆるプログラムのコード記述が可能であり、人間が集中して数十時間を要するタスクを AI システムに任せても信頼して独立して作業させることができます。
AI システムは、ファインチューニングからカーネル設計に至るまで、AI 開発の中核となるタスクにおいてますます卓越した能力を示しています。
AI システムは他の AI システムを管理し、実質的に合成チームを形成することで複雑な問題に多角的に攻撃することが可能であり、一部の AI システムがディレクターや批評家、編集者としての役割を担い、他の AI システムがエンジニアとしての役割を担うようになります。
AI システムは困難な工学および科学タスクにおいて人間を上回ることもありますが、これが創造性によるものなのか、それとも反復学習の習熟度によるものなのかを判断するのは容易ではありません。
私にとって、これは今日、AI が広範な、おそらくは AI エンジニアリングの全体を自動化できるという非常に説得力のある証拠となります。研究の一部がエンジニアリングスキルとは異なる可能性があるため、AI 研究のどの程度を自動化できるかはまだ明確ではありません。いずれにせよ、すべてが私には、AI 今日、AI 開発に取り組む人間を劇的に加速させ、彼ら自身がスケールできるようにしているという明確な兆候のように思えます。
原文を表示
imageWelcome to Import AI, a newsletter about AI research. Import AI runs on arXiv and feedback from readers. If you’d like to support this, please subscribe.
Subscribe now
AI systems are about to start building themselves. What does that mean?
I’m writing this post because when I look at all the publicly available information I reluctantly come to the view that there’s a likely chance (60%+) that no-human-involved AI R&D – an AI system powerful enough that it could plausibly autonomously build its own successor – happens by the end of 2028.
This is a big deal.
I don’t know how to wrap my head around it.
It’s a reluctant view because the implications are so large that I feel dwarfed by them, and I’m not sure society is ready for the kinds of changes implied by achieving automated AI R&D.
I now believe we are living in the time that AI research will be end-to-end automated. If that happens, we will cross a Rubicon into a nearly-impossible-to-forecast future. More on this later.
The purpose of this essay is to enumerate why I think the takeoff towards fully automated AI R&D is happening. I’ll discuss some of the consequences of this, but mostly I expect to spend the majority of this essay discussing the evidence for this belief, and will spend most of 2026 working through the implications.
In terms of timing, I don’t expect this to happen in 2026. But I think we could see an example of a “model end-to-end trains it successor” within a year or two – certainly a proof-of-concept at the non-frontier model stage, though frontier models may be harder (they’re a lot more expensive and are the product of a lot of humans working extremely hard).
My reasoning for this stems primarily from public information: papers on arXiv, bioRxiv, and NBER, as well as observing the products being deployed into the world by the frontier companies. From this data I arrive at the conclusion that all the pieces are in place for automating the production of today’s AI systems – the engineering components of AI development. And if scaling trends continue, we should prepare for models to get creative enough that they may be able to substitute for human researchers at having creative ideas for novel research paths, thus pushing forward the frontier themselves, as well as refining what is already known.
Upfront caveat
For much of this piece I’m going to try to assemble a mosaic view of AI progress out of things that have happened with many individual benchmarks. As anyone who studies benchmarks knows, all benchmarks have some idiosyncratic flaws. The important thing to me is the aggregate trend which emerges through looking at all of these datapoints together, and you should assume that I am aware of the drawbacks of each individual datapoint.
Now, let’s go through some of the evidence together.
The coding singularity – capabilities over time:
AI systems are instantiated via software and software is made out of code.
AI systems have revolutionized the production of code. This has happened due to two related trends: AI systems have gotten better at writing complicated real-world code, and AI systems have gotten much better at chaining together many linear coding tasks (e.g, writing code, then testing it) independent of human oversight.
Two things that exemplify this trend are SWE-Bench and the METR time horizons plot.
Solving real-world software engineering problems:
SWE-Bench is a widely used coding test which evaluates how well AI systems can solve real world GitHub issues. When SWE-Bench launched in late 2023 the best score at the time was Claude 2 which had an overall success rate of ~2%. Claude Mythos Preview gets 93.9%, effectively saturating the benchmark. (All benchmarks have some amount of noise inherent to them, so there’s usually a point where you score high enough that you are running into the limitations of the benchmark itself rather than your method – for instance, about 6% of the labels in the ImageNet validation set are wrong or ambiguous).
SWE-Bench is a reliable proxy for the general issue of coding competency and the impact of AI on software engineering. The vast majority of people I meet at frontier labs and around Silicon Valley now code entirely through AI systems. Increasingly, they use AI systems to write the tests and check the code as well. In other words, AI systems have gotten good enough to automate a major component of AI R&D, speeding up all the humans that work on it.
Measuring an AI system’s ability to complete tasks that take people a long time:
METR makes a plot that tells us about the complexity of tasks AIs can complete, measured by how many hours a skilled human would take to do them. The key measure here is one which tells you the rough time horizon over which AI systems can be 50% reliable at a basket of tasks.
Here, progress has been extremely striking: In 2022, GPT 3.5 could do tasks that might take a person about ~30 seconds. In 2023, this rose to 4 minutes with GPT-4. In 2024, this rose to 40 minutes (o1). In 2025, it reached ~6 hours (GPT 5.2 (High)). In 2026, it has already risen to ~12 hours (Opus 4.6). Ajeya Cotra, a longtime AI forecaster who works at METR, thinks it isn’t unreasonable to expect AI systems to do tasks that take ~100 hours by the end of 2026 (#448).
This significant rise in the length of time that AI systems can work independently correlates neatly with the explosion in agentic coding tools – this is the productization of AI systems which do work on behalf of people, acting independently for significant periods of time.
It also loops back to AI R&D, where if you look closely at the work of many AI researchers, a lot of their tasks boil down into things that might take a person a few hours to do – cleaning data, reading data, launching experiments, etc. All of this kind of work now sits inside the time horizon scope of modern systems.
The more skilled AI systems get and the better they get at working independently of us, the more they can help automate chunks of AI R&D
Key ingredients in delegation are a) confidence in the skills of the person, and b) confidence in their ability to work independently of you in a way that is aligned with your intentions.
When we look at the competency of AI at coding, it seems that AI systems are getting far more skilled and also able to work independently of people for longer and longer periods before needing re-calibration.
This correlates with what we see around us – engineers and researchers are now delegating larger and larger chunks of their work to AI systems, and as capabilities rise, so too does the complexity and importance of the work being delegated.
AI is getting good at core science skills essential to AI R&D
Think about modern science – a huge amount of it is about specifying a direction where you want to generate some empirical information, running experiments to generate that information, then sanity-checking the results of the experiment. The combination of advances in coding over time combined with the general world modeling capabilities of LLMs has yielded tools that are already helping to speed up human scientists and partially automate aspects of R&D broadly.
Here, we can look at the rate of AI progress in a few key scientific skills which are inherent to AI research itself: Replicating research results, chaining together machine learning techniques and other approaches to solve technical problems, and optimizing AI systems themselves.
Implementing entire scientific papers and doing the experiments:
One core job of AI research is reading scientific papers and reproducing their results. Here, there has been dramatic progress on a wide range of benchmarks.
One good example is CORE-Bench, the Computational Reproducibility Agent Benchmark. This benchmark challenges AI systems to “reproduce the results of a research paper given its repository. The agent must install libraries, packages, and dependencies and run the code. If the code runs successfully, the agent needs to search through all outputs to answer the task questions.” CORE-Bench was introduced in September 2024 and the best scoring system at the time was a GPT-4o model in a scaffold called CORE-Agent which scored ~21.5% on the hardest set of tasks in the benchmark.
In December 2025 one of the authors of CORE-Bench declared the benchmark ‘solved’, with an Opus 4.5 model achieving 95.5%.
Building entire machine learning systems to solve Kaggle competitions:
MLE-Bench is an OpenAI-built benchmark which examines how well AI systems can compete (offline) in “75 diverse Kaggle competitions across a variety of domains, including natural language processing, computer vision, and signal processing.” At launch in October 2024, the top scoring system (an o1 model inside an agent scaffold) got 16.9%. As of February 2026, the best scoring system (Gemini3 inside an agent harness with search) gets 64.4% .
Kernel design:
One of the harder tasks in AI development is kernel optimization, where you write and refine the code that maps specific operations, like matrix multiplication, to the underlying hardware. Kernel optimization is core to AI development because it defines the efficiency of both training and inference – how much compute you can effectively utilize to develop an AI system, and once you’ve trained a model, how efficiently you can convert that compute into inference.
In recent years, AI for kernel design has gone from a curiosity to a competitive area of research and several benchmarks have emerged. None of these benchmarks are especially popular, so we can’t easily model progress over time. On the other hand, we can look at some of the research being done to get a feel for the progress.
Some of the types of work include: Using DeepSeek’s models to try to build better GPU kernels (#400), automating the conversion of PyTorch modules to CUDA code (#401), Meta using LLMs to automate the generation of optimized Triton kernels for use within its infrastructure (#439), using LLMs to help write kernels for non-standard hardware like Huawei’s Ascend chips (”AscendCraft” #444), fine-tuning open weight models for GPU kernel design (”Cuda Agent”, #448).
One caveat here is that kernel design does have some properties that make it unusually amenable to AI-driven R&D, like having easily verifiable rewards.
Fine-tuning language models via PostTrainBench
A harder version of this kind of test is PostTrainBench (#449), which sees how well different frontier models can take smaller open weight models and fine-tune them to improve performance on some benchmark. The nice feature of this benchmark is we have extremely good human baselines – the existing ‘instruct-tuned’ versions of these models, which have been developed by talented human AI researchers working at frontier labs. These models have been worked on by extremely talented researchers and engineers and deployed into the world, so they represent a very challenging human baseline to overcome.
As of March 2026, AI systems are able to post-train models to get about half as much of the uplift as ones trained by humans.
The specific eval scores are derived by a “weighted average is taken across all post-trained LLMs (Qwen 3 1.7B, Qwen 3 4B, SmolLM3-3B, Gemma 3 4B) and benchmarks (AIME 2025, Arena Hard, BFCL, GPQA Main, GSM8K, HealthBench, HumanEval). For each run, we ask a CLI agent to maximize the performance of a specific base LLM on a specific benchmark.”
The top-scoring systems as of April get 25%-28% (Opus 4.6, and GPT 5.4), compared to a human score of 51%. This is already quite meaningful.
Optimizing language model training:
For the last year Anthropic has reported how well its systems do at an LLM training task which is described as tasking its models to “optimize a CPU-only small language model training implementation to run as fast as possible”. The score is the average speedup over the unmodified starting code and progress has been striking: Claude Opus 4 achieved a 2.9× mean speedup in May 2025; this rose to 16.5× with Opus 4.5 in November 2025, 30× with Opus 4.6 in February 2026, and 52× with Claude Mythos Preview in April 2026. To calibrate on what these numbers mean, it is expected to take a human researcher 4 to 8 hours of work to achieve a 4x speedup on this task.
Conducting AI alignment research:
Another Anthropic result is a proof-of-concept of Automated Alignment Research (#454); here, an Anthropic researcher primes a team of individual AI agents with a research direction, then they autonomously go and try to get a better score than a human baseline on an AI safety research problem (specifically, scalable oversight). The approach works, with the AI agents coming up with techniques that beat the Anthropic-designed baseline. However, this is done at a relatively small scale and doesn’t (yet) generalize to a production model. Nonetheless, it’s proof that you can apply today’s AI systems to contemporary cutting-edge research problems and we already see meaningful signs of life. All of the above mentioned benchmarks once looked like this, too, and then after a few months or at most a year, AI systems got dramatically better at whatever the benchmarks were testing.
Meta-skills: management
AI systems are also learning to manage other AI systems. This is visible in broadly deployed products like Claude Code or OpenCode, where a single agent can end up supervising multiple sub-agents. This allows AI systems to work on large-scale projects that require multiple individual ‘workers’ each with different specialisms that work in parallel, typically under the direction of a single AI manager (which, here, is an AI system).
Is AI research more like discovering general relativity or Lego ?
Can AI invent new ideas that help it improve itself, or are these systems best equipped for the unglamorous, brick-by-brick work required for research? This is an important question for figuring out the extent to which AI systems can end-to-end automate AI research itself. My sense is that AI cannot yet invent radical new ideas – but the technology may not need to for it to automate its own development.
As a field, AI moves forward on the basis of doing ever larger experiments that utilize more and more inputs (e.g, data and compute). Every so often, humans come up with some paradigm-shifting idea which can make it dramatically more resource efficient to do things – a good example here is the transformer architecture and another is the idea of mixture-of-expert models. But mostly the field of AI moves forward through humans methodically going through some loop of taking a well performing system, scaling up some aspect of it (e.g, the amount of data and compute it is trained on), seeing what breaks when you scale it up, figuring out the engineering fix to allow it to scale, then scaling it again. Very little of this requires extremely out-of-leftfield insights and a lot of it seems more like unglamorous ‘meat and potatoes’ engineering work.
Similarly, a lot of AI research is about running variations of existing experiments where you explore the outcomes of using different parameters, though research intuitions can help pick the most fruitful parameters to vary, you can also automate this and have the AI figure out which parameters to vary (an early version of this was neural architecture search).
Thomas Edison said that “genius is 1% inspiration and 99% perspiration”. Even 150 years later, this feels right. Very occasionally new insights come along which transform a field. But mostly, the field has moved forward through humans sweating a lot of pain out on the schlep of improving and debugging various systems.
As the public data above shows, AI has got extremely good at performing many of the essential schlep components of AI development. Along with this, the meta-trend of basic capabilities like coding combined with an ever-expanding time horizon, means AI systems are able to chain together more and more of these tasks into complex sequences of work.
This means even if AI systems are relatively uncreative, it feels safe to bet they can push themselves forward – albeit at a slower rate than if they’re able to generate novel insights. But if you look at the public data, here too there are tantalizing signs that AI systems may be able to be creative in a way that lets them advance themselves in more impressive ways.
Pushing forward the frontier of science
We have some very preliminary signs that general-purpose AI systems can push forward the frontiers of human science, though this has so far only happened in a couple of domains – primarily computer science and mathematics – and often it happens less through AI systems acting alone and more them acting in partnership with humans in a centaur configuration.
Nonetheless, it’s worth observing the trends:
Erdos Problems: A team of mathematicians worked with a Gemini model to see how well it could tackle some Erdos math problems. After directing the system to attack around 700 problems they came up with 13 solutions. Of these solutions, 1 was deemed by them to be interesting: “We tentatively believe Aletheia’s solution to Erdős-1051 represents an early example of an AI system autonomously resolving a slightly non-trivial open Erdős problem of somewhat broader (mild) mathematical interest, for which there exists past literature on closely-related problems,” they wrote. (#444).
Centaur math discovery: Researchers with the University of British Columbia, University of New South Wales, Stanford University, and Google DeepMind published a new math proof which was built in close collaboration with some AI-based math tools built at Google. “The proofs of the main results were discovered with very substantial input from Google Gemini and related tools,” they wrote. (#441).
If you squint, you could argue that this is a sign that AI systems are developing some of the field-advancing creative intuitions that humans have. But you could just as easily say that math and CS could be unusual domains that are oddly amenable to AI-driven invention, and might end up being exceptions that prove a larger rule. Another example here is Move 37, though I’d contend that the fact it’s been ten years since the AlphaGo result and that Move 37 hasn’t been replaced by some incredibly impressive more modern flash of insight is another weakly bearish signal here.
Putting it all together
If I put this all together the picture from all of the above evidence I end up with is the following facts:
AI systems are capable of writing code for pretty much any program and these AI systems can be trusted to independently work on tasks that’d take a human tens of hours of concentrated labor to do.
AI systems are increasingly good at tasks that are core to AI development, ranging from fine-tuning to kernel design.
AI systems can manage other AI systems, effectively forming synthetic teams which can fan out and attack complex problems, with some AI systems taking on the roles of directors and critics and editors and others taking on the role of engineers.
AI systems can sometimes out-compete humans on hard engineering and science tasks, though it’s hard to know whether to attribute this to inventiveness or mastery of rote learning.
To me, this makes a very convincing case that AI can today automate vast swatches, perhaps the entirety, of AI engineering. It is not yet clear how much of AI research it can automate, given that some aspects of research may be distinct from the engineering skills. Regardless, it all feels to me like a clear sign that AI is today massively speeding up the humans that work on AI development, allowing them to scale themselves th
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み