AIサイエンティスト:完全自動化されたAI研究に向けて、Nature誌に掲載
Sakana AI、ブリティッシュコロンビア大学、Vector Institute、オックスフォード大学の共同研究チームは、基盤モデルを活用したAIエージェント「The AI Scientist」が機械学習研究の全ライフサイクルを自律的に実行し、査読付き国際会議ワークショップで人間の平均受容スコアを上回る論文を生成した成果をNature誌に発表した。
キーポイント
Nature誌掲載による学術的承認
AIによる完全自律的な研究プロセスと論文生成の成果が、査読付きトップジャーナルNatureに掲載され、学術界から正式な承認を得た。
査読プロセスでの人間超えパフォーマンス
AI Scientist-v2が生成した論文がICLR 2025ワークショップの厳格な査読で平均スコア6.33を獲得し、人間執筆論文の55%以上を上回り、受容閾値を超えた。
研究プロセスの完全自律化実証
アイデア生成、実験設計・実行、論文執筆、査読評価(Automated Reviewer)まで、機械学習研究の全ライフサイクルをエンドツーエンドで自動化する可能性を初めて実証した。
国際共同研究とオープンアクセス
Sakana AI、UBC、Vector Institute、オックスフォード大学の国際共同研究による成果で、論文はオープンアクセス、コードと生成論文はGitHubで公開されている。
Automated Reviewer matches human performance
The Automated Reviewer achieves balanced accuracy comparable to human reviewers and exceeds inter-human agreement F1-scores, demonstrating reliability in evaluating AI-generated papers.
Scaling law for AI-generated science quality
Paper quality increases with improved foundation models, suggesting future AI Scientists will become substantially more capable as model capabilities grow.
Current limitations of The AI Scientist
The system still produces naive ideas, struggles with methodological rigor and complex code, and is susceptible to hallucinations and factual errors.
影響分析・編集コメントを表示
影響分析
この成果は、AIが単なる研究支援ツールから自律的な研究者へ進化する転換点を示す。科学研究の生産性革命と民主化を促す一方で、研究倫理、著者性、人間の役割の再定義など、学術界全体の構造変革を迫る可能性がある。
編集コメント
Nature掲載という権威ある媒体での発表が、AI生成科学の「正統性」を大きく高めた。査読プロセスでの人間超えスコアは、AIの研究能力が量的評価で既に人間と同等以上になり得ることを示す衝撃的事実だ。
-->
私たちが最初のプレプリントでThe AI Scientistを紹介した際、野心的なビジョンを掲げました。それは、機械学習研究のライフサイクル全体を実行可能なファウンデーションモデルによって駆動されるエージェントです。その後すぐに、歴史的な進展を共有しました。改良版のAI Scientist-v2が、厳格な人間による査読プロセスを通過した初の完全AI生成論文を生み出したのです。
本日、この研究の全容と新たな知見をまとめた論文がNature誌に掲載されたことをお知らせできることを嬉しく思います。
この重要なマイルストーンは、Sakana AI、ブリティッシュコロンビア大学(UBC)およびVector Institute、オックスフォード大学の研究者たちによる緊密かつ実り多い共同研究の成果です。
これまでのオープンソース公開を基盤とするこのオープンアクセスのNature論文は、システムのアーキテクチャを包括的に詳述し、いくつかの新たなスケーリング結果を概説するとともに、AI生成科学の可能性と課題について論じています。
Nature論文全文はこちら:https://www.nature.com/articles/s41586-026-10265-5
GitHubでコードと生成論文を探索する:AI Scientist-v1, AI Scientist-v2

査読プロセスを通過したThe AI Scientist生成論文の例(トップ国際AIカンファレンスのワークショップ向け)。
これまでの歩み
本論文掲載に至る道のりは、ファウンデーションモデルの発展とシステム改良によって特徴づけられる明確な段階を経た、1年半に及ぶプロセスでした:
可能性の実証:最初のリリースでは、The AI Scientistに開始用コードテンプレート(nanoGPTの単純な学習実行のようなもの)を与えました。システムは自律的に新規アイデアを生成し、それらを検証する実験を作成・実行し、完全な論文を執筆しました。さらに、論文の品質を評価するThe Automated Reviewerを開発・確立しました。この研究は、機械学習研究プロセス全体のエンドツーエンド自動化が可能であることを初めて示したものです。
科学の「チューリング・テスト」:第二のアップデートでは、システムにAI研究における広範に定義されたあらゆるトピックを調査する大幅な自由度を与えました。そして、システムに究極のテストを課しました。編集を一切加えていない完全AI生成論文を、ICLR 2025 "I Can't Believe It's Not Better" (ICBINB) ワークショップの厳格なブラインド人間査読プロセスに投稿したのです。ある論文は平均スコア6.33(個別スコア: 6, 7, 6)を獲得し、人間論文の平均採択閾値を上回りました。これは人間執筆論文の上位55%に相当するスコアです。プロセス全体を通じてワークショップ主催者の許可を得ており、採択された場合は出版前に論文を撤回することを事前に決定しており、実際にそうしました。
今回のNature論文は、これらのブレークスルーを統合し、それを可能にした基盤となるファウンデーションモデルの改良について深く掘り下げています。内部では、広範な研究方向性を与えられた後、システムは自律的に新規研究アイデアを生成し、関連文献を検索・読解し、並列化されたエージェント的ツリーサーチを通じて実験を設計・プログラミング・実施し、(LaTeXで、図へのフィードバックは視覚能力を持つファウンデーションモデルから得て)論文全体を執筆します。

The AI Scientistのワークフローの概念図。研究アイデアの考案、実験の実装と実行、論文執筆、査読を含む。
新たな成果:The Automated Reviewer と 科学のスケーリング則
人間の査読者に負担をかけることなく、AI生成科学を大規模に評価するため、私たちはThe Automated Reviewerを構築しました。エリアチェアとして振る舞うよう促し、公式NeurIPSガイドラインに基づいて5つの独立したレビューを統合して最終判断を下すようにしました。このThe Automated Reviewerを、OpenReviewデータセットに含まれる何千件もの実際の人間の判断に対してベンチマークしました。その結果、The Automated Reviewerは人間の性能に匹敵しました。69%のバランス精度(人間の査読者に匹敵)を達成し、F1スコアは有名なNeurIPS 2021一貫性実験で測定された人間間の一致率を実際に上回りました。

The Automated Reviewerは、トップカンファレンス(ICLR)で発表されたAI論文に対する人間の査読判断と一致します。これは、モデルの学習後に発表された論文(その「知識カットオフ」後)も含みます。これらの結果は、新しく執筆されたAI論文に対して査読スコアを提供する点で、The Automated Reviewerが人間の査読者と同程度に信頼できることを示唆しています。
重要なことに、この査読者を用いて異なるファウンデーションモデルで生成された論文を評価した結果、明確なスケーリング則を発見しました。基盤となるファウンデーションモデルが改善されるにつれ、生成される論文の品質も比例して向上するのです。これは、コンピュートコストが低下し、モデル能力が指数関数的に向上し続ける中で、The AI Scientistの将来のバージョンが飛躍的に能力を増すことを強く示唆しています。

The Automated Reviewerによる評価によれば、The AI Scientistが生成する論文の品質は、より新しく、より知的なファウンデーションモデルを使用することで向上します。
限界と今後の展望
人間による査読を通過したことは画期的な成果ですが、The AI Scientistはまだ発展の初期段階にあります。Nature論文で述べているように、現システムにはいくつかの限界があります:
時折、素朴または未熟なアイデアを生み出すことがある。
高度な方法論的厳密性や複雑なコード実装に苦戦することがある。
不正確な引用の生成や付録での図の重複など、幻覚や明らかな誤りが生じやすい。
しかし、機械学習には明確な傾向があります。新たな能力が機能し始めると、たとえ明確な限界があっても、驚くほど短期間で人間を超える性能に達するのです。これは、スケールとより優れたコアモデルによって、人間の性能レベルが急速に突破されるためです。現在、The AI Scientistは計算実験に限定されています。しかし、私たちが公開したプレイブックが他の分野に適応され、真にオープンエンドな発見を通じて科学的進歩を触媒することを期待しています。
科学的発見のパラダイムシフト
論文生成の自動化能力は、査読システムの圧迫から研究者資格のインフレに至るまで、深遠な倫理的・社会的問題を提起します。私たちはこの技術の責任ある開発に取り組んでおり、それはAI生成論文が可能であること、そして場合によっては人間の性能に匹敵し得ることを公に知らせる必要性も含みます。私たちは採択されたAI投稿を積極的に撤回し、実験にはIRB承認を得ました。また、すべての論文に透かしを入れ、それらがAI生成であることを明確にしています。これはコミュニティが採用すべき慣行であると考えます。さらに、科学コミュニティがAI生成研究をどのように扱うかについて、明確な規範を確立することを推奨します。
このプロジェクトへの貴重な貢献に対して、素晴らしい共同研究者であるJeff Clune(ブリティッシュコロンビア大学、Vector Institute、CIFAR Chair)とJakob Foerster(オックスフォード大学)に心からの感謝を申し上げます。
このNature掲載は、発見のプロセスがもはや人間だけの営みではなくなる新たな時代の到来を示しています。AIエージェントが疲れを知らない協働者として働くことで、科学的ブレークスルーのペースを劇的に加速できる未来へと、私たちは急速に向かっています。安全に進められれば、The AI Scientistのようなシステムは、あらゆる病気の治療や万人への豊かさの提供から、環境保護や星々の探査に至るまで、あらゆる可能性を開くかもしれません。
The AI Scientistについてさらに学ぶには、Nature論文をご覧いただくか、GitHubのオープンソースコードをチェックしてください。

Sakana AI
私たちと一緒に働きませんか?
詳細は、キャリア募集ページをご覧ください。

原文を表示
-->
When we first introduced The AI Scientist in our initial preprint, we shared an ambitious vision: an agent powered by foundation models capable of executing the entire machine learning research lifecycle. Soon after, we shared a historic update: the improved AI Scientist-v2 produced the first fully AI-generated paper to pass a rigorous human peer-review process.
Today, we are happy to announce that a paper describing all of this work and that includes new insights has been published in Nature.
This substantial milestone is the result of a close and fruitful collaboration between researchers at Sakana AI, the University of British Columbia (UBC) and the Vector Institute, and the University of Oxford.
Building upon our previous open-source releases, this open-access Nature publication comprehensively details our system’s architecture, outlines several new scaling results, and discusses the promise and challenges of AI-generated science.
Read the full Nature paper here: https://www.nature.com/articles/s41586-026-10265-5
Explore the code and generated papers on GitHub: AI Scientist-v1, AI Scientist-v2

Example sections of a paper produced by The AI Scientist that passed the peer-review process for a workshop at a top-tier international AI conference.
The Journey So Far
Our journey to this publication has been a 1.5-year process with distinct phases shaped by foundation model developments and our improvement to the system:
Proving It’s Possible: In our first release, we gave The AI Scientist a starting code template (like a simple training run for nanoGPT). It autonomously generated novel ideas, created and ran experiments to test those ideas, and wrote a full paper. Additionally, we developed and established The Automated Reviewer, which scored the quality of the paper. This work, for the first time, highlighted that end-to-end automation of the entire Machine Learning research process was possible.
The “Turing Test” of Science: In our second update, we gave the system much more freedom to investigate any broadly defined topic in AI research. We then put the system to the ultimate test. We submitted unedited, fully AI-generated papers to the rigorous, blind, human peer-review process of the ICLR 2025 I Can’t Believe It’s Not Better (ICBINB) workshop. One manuscript achieved an average score of 6.33 (individual scores: 6, 7, 6), surpassing the average human acceptance threshold! The paper scored higher than 55% of human-authored papers. Throughout the process, we received permission from the workshop organizers. We had predetermined that we would withdraw the paper prior to publication if accepted, which we did.
This new Nature paper consolidates these breakthroughs and dives deep into the underlying foundation model improvements that makes them possible. Under the hood, after being given a broad research direction, it autonomously generates of novel research ideas, searches for and reads the relevant literature, designs, programs, and conducts experiments via parallelized agentic tree search, and writes the entire paper (in LaTeX, with feedback on its figures coming from a foundation model with vision capabilities).

Conceptual overview of The AI Scientist workflow, including coming up with research ideas, implementing experiments, executing those experiments, writing the paper, and reviewing it.
New Results: The Automated Reviewer & Scaling Laws of Science
To evaluate AI-generated science at scale without exhausting human reviewers, we built an Automated Reviewer. We prompted it to act as an Area Chair, ensembling five independent reviews into a final decision based on official NeurIPS guidelines. We benchmarked this Automated Reviewer against thousands of actual human decisions from the OpenReview dataset. The Automated Reviewer matches human performance. It achieved a balanced accuracy of 69% (comparable to human reviewers) and an F1-score that actually exceeded the inter-human agreement measured in the famous NeurIPS 2021 consistency experiment.

The Automated Reviewer matches human review judgments on AI papers published at a top conference (ICLR), including papers published after the model was trained (its “knowledge cutoff”). These results suggest The Automated Reviewer is as reliable as human reviewers at providing review scores for newly written AI papers.
Crucially, by using this reviewer to grade papers generated by different foundation models, we discovered a clear scaling law: as the underlying foundation models improve, the quality of the generated papers increases correspondingly. This strongly implies that as compute costs decrease, and model capabilities continue to exponentially increase, future versions of The AI Scientist will be substantially more capable.

The quality of papers generated by The AI Scientist increases when using newer, more intelligent foundation models, as judged by the Automated Reviewer.
Limitations and the Road Ahead
While passing human peer review is a breakthrough, The AI Scientist is still in its early days. As we describe in the Nature paper, the system currently exhibits several limitations:
It occasionally produces naive or underdeveloped ideas.
It can struggle with deep methodological rigor and complex code implementation.
It is susceptible to hallucinations or obvious mistakes, such as generating inaccurate citations or duplicating figures in the appendix.
However, there is a clear trend in machine learning: once a new capability starts to work, even with clear limitations, it becomes superhuman surprisingly soon. That is because scale and better core models rapidly push it past human performance levels. Currently, The AI Scientist is limited to computational experiments. But we expect the playbook we’ve published will be adapted to other domains and catalyze scientific advances by making truly open-ended discoveries.
A Paradigm Shift for Scientific Discovery
The ability to automate paper generation raises profound ethical and societal questions—from overwhelming peer-review systems to artificially inflating research credentials. We are committed to developing this technology responsibly, which we feel includes the need to inform the public that AI-generated papers are not only possible, but in some cases match human performance. We proactively withdrew our accepted AI submissions and obtained IRB approval for our experiments. We also watermark all of our papers so it is clear they were AI-generated, a practice we recommend the community adopt. Additionally, we recommend that the scientific community establish clear norms regarding how to treat AI-generated research.
We extend our deepest gratitude to our incredible collaborators, Jeff Clune (University of British Columbia, the Vector Institute, and a CIFAR Chair) and Jakob Foerster (University of Oxford), for their invaluable contributions to this project.
This Nature publication marks the dawn of a new era where the process of discovery is no longer a solely human pursuit. With AI agents acting as tireless companions, we are accelerating toward a future where we can dramatically speed up the pace of scientific breakthroughs. If done safely, systems like The AI Scientist could thus potentially enable everything from curing all diseases and providing abundance for all humans to protecting our environment and exploring the stars.
To learn more about The AI Scientist, please read our Nature paper or check out the open-source code on GitHub.

Sakana AI
Interested in joining us?
Please see our career opportunities for more information.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み