AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
AI Snake Oil·2024年9月18日 23:32·約9分で読める

AIは計算の再現性を自動化できるか?

#計算機再現性#ベンチマーク評価#AI エージェント#Sakana AI
TL;DR

Sakana AI の「AI 科学者」の欠陥を踏まえ、計算機研究の再現性を評価する新ベンチマーク CORE-Bench が導入され、AI による科学自動化の実現可能性と経済的影響に関する認識が再構築された。

AI深層分析2026年5月3日 04:18
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

Sakana AI の「AI 科学者」への批判的検証

完全自動的な科学発見を謳う Sakana AI のシステムは、新奇性のチェック欠如や人間のレビュー不在により、既存研究の焼き直しや質の低い論文生成という重大な欠陥を抱えていることが指摘された。

2

新ベンチマーク CORE-Bench の発表

AI がコードとデータが利用可能な状態で既存の研究をどれだけ正確に再現できるかを測定するための「CORE-Bench」が新たに導入され、AI エージェントの真の実力を評価する指標として機能する。

3

科学自動化への現実的なアプローチ転換

汎用的な科学発見の自動化は未だ遠いとする見解の下、論文検証やベースライン実装など、スコープを限定した計算機再現性の自動化に AI を活用することで、研究効率を劇的に向上させる道筋が示された。

4

AI による科学評価の課題と可能性

2022年の機械学習再現性チャレンジで専門家でさえも論文の約3割が再現できなかったという事実を踏まえ、AI がこの困難なタスクを自動化できれば、査読プロセスや学術誌の信頼性向上に寄与すると期待されている。

5

CORE-Bench の作成と難易度

90 の学術論文から構築されたベンチマークであり、言語と視覚能力の両方を必要とする3段階の難易度を備えている。

6

汎用型エージェントからのタスク特化型への改良

AutoGPT に数日間の修正を加えるだけで精度が倍増する CORE-Agent が開発され、汎用モデルを少量の工数で実用的なツールへ変換できる可能性を示した。

7

AI における「汎用性」の見直し

経済的インパクトの観点からは、ゼロから完全な汎用 AI を待つよりも、特定のタスクに数日〜数年かけて適応させた方が実用的である可能性が示唆されている。

影響分析・編集コメントを表示

影響分析

この記事は、過度な期待を持たれていた AI による科学発見の完全自動化に対して冷静な批判を加え、代わりに「計算機再現性」という具体的な課題に焦点を当てた評価基準(CORE-Bench)の確立を提案しています。これは、AI エージェントの実用性を測るための客観的指標が欠如している現状への対応であり、今後の AI 科学分野における研究開発の方向性と投資判断に大きな影響を与えるでしょう。

編集コメント

「AI が科学を完全に自動化する」という楽観論に対し、再現性という地味だが重要な課題に目を向け、客観的な評価基準を設ける姿勢は非常に健全です。今後の AI 研究開発において、実用性の検証プロセスがより重視される転換点となる記事と言えます。

先月、Sakana AI は「完全自動的な科学発見のための最初の包括的システム」と同社が呼ぶ「AI 科学者」をリリースしました。これは人間の限界に苦しむことなく科学を加速できると称賛されました。

残念ながら、「AI 科学者」には多くの欠点があります。新規性のチェックがないため、生成された論文は過去の作業の焼き直しになる可能性があります。また、Sakana は生成された論文に対して人間によるレビュー(専門家による「ピアレビュー」に至るまで)を行っていませんでした—そのため、これらの論文が実際に良いものかどうかは不明です(明らかに良くないようです)。これらの欠陥は Sakana のケースでは特に顕著ですが、適切な評価の欠如はほとんどの AI エージェントに影響しており、その実世界への影響を測定することを困難にしています。

本日、既存の計算研究をいかによく再現できるかを測定するための新しいベンチマークを紹介します。また、このプロジェクトが「一般知能」や AI の潜在的な経済的影響についての私たちの考え方をどのように変えたかについても共有します。論文をご覧ください。

CORE-Bench: 研究再現のための AI を評価する新たなベンチマーク

科学の自動化を目的とした AI のビジョンは魅力的ですが、まだ到達可能な範囲にはなく、欠陥のある科学へと導きます。一方、計算の再現性を検証するなど、範囲が明確に定義されたタスクに AI を活用することで、多くの時間を節約し、より生産的な科学的活動に努力を振り向けることができます。AI はまた、関連する文献の発見や、アイデアを迅速にテストするためのコード作成、その他の計算タスクの実行にも役立つ可能性があります。

新しい論文において、私たちは CORE-Bench(Computational Reproducibility Agent Benchmark)を紹介しました。これは、コードとデータが利用可能な場合に論文の発見を再現する能力、つまり計算的な再現性を AI がどの程度自動化できるかを測定するためのベンチマークです。著者は Zachary S. Siegel, Sayash Kapoor, Nitya Nadgir, Benedikt Stroebl, Arvind Narayanan です。CORE-Bench は、難易度の高い研究タスクの自動化における進歩を厳密に評価するというより大きなプロジェクトへの第一歩となります。

計算的な再現は、人間を対象とした実験などを再実行する必要がある「複製(replication)」というタスクに比べると、はるかに限られた範囲の作業です。しかし、この限定的な再現性のタスクでさえも困難です:2022 年の機械学習再現性チャレンジでは、論文を再現する専門家であってもコードとデータが利用可能だったにもかかわらず、論文の約 3 分の 1 は再現できませんでした。

image
image

もし AI がこの平凡でありながら重要なタスクを自動化できれば、研究者はベースラインの実装を自動化できるようになり、査読者は論文に欠陥がないかをより容易に評価でき、ジャーナルやカンファレンスは提出された論文や公開された論文が再現可能かどうかをより簡単に検証できるようになります。

CORE-Bench は、科学論文とそれらに付随するコードおよびデータリポジトリを用いて作成されました。再現可能性が高い論文を入手するために Code Ocean を利用しました。コンピュータサイエンス、医学、社会科学から 90 の論文を手動で再現し、各論文に対して回答を検証するための質問セットを整備しました。

CORE-Bench は 3 つの難易度レベルで公開されています。すべてのレベルのタスクでは、言語機能とビジョン機能の両方の使用が必要です。最も難しいバージョンは現実世界の再現試行に非常に近く、ベンチマークでの改善が実際に科学者にとって有用なエージェントにつながると期待しています。

ベースラインを実装するために、汎用型 AutoGPT エージェントをテストするとともに、AutoGPT に対するタスク固有の修正版である CORE-Agent を実装しました。タスク固有バージョンは精度を大幅に向上させましたが、依然として改善の余地が非常に大きく、最良のエージェント(CORE-Agent with GPT-4o)でも CORE-Bench-Hard における精度は 22% に留まります。

一般性への再考

計算の再現可能性には、コード環境を正しく設定し、コードを実行し、それが論文で報告された結果と同じかどうかを確認することが必要です。シェルやその他のツールの正しい使用は、LLM(大規模言語モデル)にとって依然として難しい課題です。AutoGPT などの汎用型エージェントを評価した際、その精度の低さ(CORE-Bench-Hard で 10% 未満)に驚きはしませんでした。

しかし、数人日の努力をかけることで、AutoGPT を修正して CORE-Agent を構築することができました。これにより、最も困難なレベルでの精度が倍以上に向上しました。また、ゼロからタスク固有のエージェントも構築しましたが、AutoGPT を修正する方がはるかに時間がかからず、かつより強力なエージェントを実現できました。私たちは、このアプローチを実践で有用となる十分な性能を持つエージェントを生み出すためにさらに発展させられる可能性について、慎重に楽観視しています。

image
image

シンプルなタスク固有の修正により、CORE-Agent は AutoGPT を上回ることができます。

このように汎用型エージェントを容易に適応させてタスク固有のエージェントを生み出すというパターンが他の分野でも成り立つのであれば、それは「汎用性」について再考させるべきでしょう。汎用性とはおおよそ、同じモデルまたはエージェントを変更せずにさまざまなタスクを実行できる能力を指します。この汎用性の概念は、人工一般知能(Artificial General Intelligence、AGI)が通常どのように理解され、それに伴う希望や恐怖が形成されるかの基盤となっています。

しかし、少なくとも経済的影響の観点から見れば、一般性という概念は誤解を招くものかもしれません。専門家たちが毎年数百万時間を費やしている計算の再現性のようなタスクにおいて、それを自動化できることは、AI システムが箱出しでその機能を備えているか、あるいは数人日(あるいは場合によっては 1 人年)のプログラマによる努力を経て実現されるかにかかわらず、極めて大きなインパクトを持つでしょう。

『AI Snake Oil』という書籍では、一般性をタスク固有性の逆数として定義し、AI(およびコンピューティング)の歴史を、徐々に一般性が高められていく追求として捉えることができることを分析しています。一般性が高まるということは、特定のタスクを実行する AI システムを構築するために必要な人間の努力が減少することを意味します。この観点からすれば、AutoGPT などのシステムは、多くの人々(私たち自身を含む)が認めていた以上に、より一般的である可能性があります。

しかしながら、AGI(汎用人工知能)の定義では通常、単一のシステムが箱出しですべてのことを実行できることを要求します。タスク固有の AI を構築するために必要な人間の努力が時間とともにどのように変化しているかを追跡する体系的な取り組みは存在しません。AI の進歩を過大評価する誤った一般性の概念に反対してきたように、AI の進歩を過小評価する誤った一般性の概念も避けるべきです。

CORE-Bench 論文はこちらで読むことができます。

さらに読むべき文献

最近の論文『AI Agents That Matter』において、私たちは AI エージェントの評価におけるいくつかの欠陥を見つけました。CORE-Bench を構築する過程で、これらの欠陥がベンチマークの設計に反映されました。

私たちは最近、有用かつ信頼性の高い AI エージェントに関するオンラインワークショップを主催し、主要な専門家がより優れたエージェントの設計と評価についての見解を共有しました。ワークショップの動画はオンラインで利用可能です。

Ben Bogin 氏らのチームは、SUPER ベンチマークを発表しました。これは、AI エージェントが研究論文に付随するリポジトリからタスクを設定して実行できるかを評価するためのものです。これは、AI エージェントの研究自動化能力を測定するための別の興味深いベンチマークです。CORE-Bench とは多くの点で異なります:

CORE-Bench は科学分野全体(コンピュータサイエンス、医学、社会科学)にわたるタスクで構成されていますが、SUPER は AI 分野からのタスクのみで構成されています。

CORE-Bench では、ビジョン言語モデルと言語モデルの両方の使用が必要であり、複数のプログラミング言語(Python と R)を含みます。一方、SUPER は言語モデルと Python のみを使用します。

SUPER のタスクでは Jupyter ノートブックへのアクセスが必要です。対照的に、CORE-Bench のタスクではシェルアクセスが必要で、エージェントがサンドボックスを任意に修正できることが許可されています。

原文を表示

Last month, Sakana AI released an "AI scientist", which the company called "the first comprehensive system for fully automatic scientific discovery". It was touted as being able to accelerate science without suffering from human limitations.

Unfortunately, the "AI Scientist" has many shortcomings. It has no checks for novelty, so generated papers could rehash earlier work. And Sakana did not perform any human review (let alone expert “peer” review) of the generated papers—so it is unclear if the papers are any good (apparently they are not). While these flaws are particularly flagrant in Sakana's case, the lack of good evaluation affects most AI agents, making it hard to measure their real-world impact.

Today, we introduce a new benchmark for measuring how well AI can reproduce existing computational research. We also share how this project has changed our thinking about “general intelligence” and the potential economic impact of AI. Read the paper.

CORE-Bench: A new benchmark for evaluating AI for reproducing research

Visions of AI automating science are enticing, but aren’t within reach, and lead to flawed science. In contrast, using AI for well-scoped tasks such as verifying computational reproducibility can save a lot of time and redirect effort towards more productive scientific activity. AI could also help find relevant literature, write code to rapidly test ideas, and perform other computational tasks.

In a new paper, we introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark for measuring how well AI can automate computational reproducibility, that is, reproducing a paper’s findings when the code and data are available. The authors are Zachary S. Siegel, Sayash Kapoor, Nitya Nadgir, Benedikt Stroebl, and Arvind Narayanan. CORE-Bench is a first step in a larger project to rigorously evaluate progress in automating research tasks of increasing difficulty.

Computationally reproducing a study is a far more limited task than replication, which requires re-running experiments that might involve human subjects. Even the limited reproducibility task is hard: In the 2022 Machine Learning Reproducibility Challenge, over a third of the papers could not be reproduced even when experts reproducing the papers had the code and data.

image
image

If AI could automate this mundane yet important task, researchers could automate the implementation of baselines, reviewers could more easily assess if a paper has flaws, and journals and conferences could more easily verify if submitted and published papers are reproducible.

We created CORE-Bench using scientific papers and their accompanying code and data repositories. We used Code Ocean to source papers that were likely to be reproducible. We manually reproduced 90 papers from computer science, medicine, and social science, and curated a set of questions for each paper to be able to verify the answers.

We release CORE-Bench with three difficulty levels. Tasks in all three levels require the use of both language and vision capabilities. The hardest version closely resembles real-world reproduction attempts, and we expect that improvements on the benchmark will translate to agents that are actually useful to scientists.

To implement baselines, we tested the generalist AutoGPT agent and also implemented a task-specific modification to AutoGPT, which we call CORE-Agent. While the task-specific version improved accuracy significantly, there is still massive room for improvement: the best agent (CORE-Agent with GPT-4o) has an accuracy of 22% on CORE-Bench-Hard.

Rethinking generality

Computational reproducibility requires setting up the code environment correctly, running the code, and seeing if it produces the same results as reported in the paper. Using the shell and other tools correctly is still tricky for LLMs. When we evaluated generalist agents like AutoGPT, we weren't surprised by their poor accuracy (less than 10% on CORE-Bench-Hard).

Yet, with a few person-days of effort, we were able to build CORE-Agent by modifying AutoGPT, which more than doubled accuracy on the hardest level. We also built a task-specific agent from scratch, but modifying AutoGPT was far less time consuming while also resulting in a stronger agent. We are cautiously optimistic that this approach can be pushed to yield agents that perform well enough to be useful in practice.

image
image

Simple task-specific modifications allow CORE-Agent to outperform AutoGPT.

If this pattern of being able to easily adapt a generalist agent to produce a task-specific agent holds in other areas, it should make us rethink generality. Generality roughly translates to being able to use the same model or agent without modification to perform a variety of tasks. This notion of generality underpins how Artificial General Intelligence (or AGI) is usually understood and the hopes and fears that accompany it.

But at least from the point of view of economic impacts, generality might be a red herring. For a task such as computational reproducibility on which expert humans collectively spend millions of hours every year, being able to automate it would be hugely impactful — regardless of whether the AI system did so out of the box, or after a few person days (or even a person year) of programmer effort.

In the AI Snake Oil book, we define generality as the inverse of task-specificity, and analyze how the history of AI (and computing) can be seen as the pursuit of gradually increasing generality. Increasing generality means decreasing the human effort it takes to build an AI system to perform a given task. From this perspective, systems like AutoGPT may be more general than most people (including us) gave them credit for.

Yet, definitions of AGI typically insist that a single system be able to do everything out of the box. There is no systematic effort to track how the human effort needed to build task-specific AI is changing over time. Just as we’ve argued against flawed conceptions of generality that overestimate AI progress, we should avoid flawed conceptions of generality that underestimate it.

Read the CORE-Bench paper here.

Further reading

In our recent paper, AI Agents That Matter, we found several shortcomings with AI agent evaluations. While building CORE-Bench, these shortcomings informed the design of our benchmark.

We recently organized an online workshop on useful and reliable AI agents where leading experts shared their views on better agent design and evaluation. The workshop videos are available online.

Ben Bogin et al. released the SUPER benchmark to evaluate if AI agents can set up and execute tasks from repositories accompanying research papers. It is another interesting benchmark for measuring AI agents' capability to automate research tasks. It differs from CORE-Bench in many ways:

CORE-Bench consists of tasks across scientific disciplines (computer science, medicine, social science) whereas SUPER consists of tasks from AI.

CORE-Bench requires the use of both vision-language and language models, and consists of multiple languages (Python and R) as opposed to SUPER (language models, Python).

Tasks in SUPER require access to a Jupyter notebook. In contrast, tasks in CORE-Bench require shell access and allow the agent to modify the sandbox arbitrarily.

この記事をシェア

関連記事

LayerX Tech Blog★32026年6月10日 18:19

AIエージェント時代の権限管理が、いまアツい

The Verge AI★42026年6月9日 23:18

Apple の AI 約束がいよいよ、ほぼ、あるいは少しだけ実現した

Apple は開発者会議で AI に関する大胆な約束を表明したが、CEO ティム・クックが述べた新技術の導入よりも、むしろ「Siri AI」を中心とした発表は他社に追いつくためのものだった。

Latent Space★42026年6月9日 15:12

[AINews] FrontierCode:コードの質を評価するベンチマーク「Slop」への対抗

Latent Space が、AI 生成コードの質を測定する新ベンチマーク「FrontierCode」を発表し、低品質な出力(Slop)との戦いを開始した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む