AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
AI Snake Oil·2024年6月4日 03:34·約13分で読める

科学者はAIを神託ではなく道具として使うべきである

#機械学習#科学技術#再現性危機#データリーケージ
TL;DR

AI Snake Oil の著者は、機械学習における「リーケージ」や再現性危機が深刻化している現状を分析し、AI を万能な予言者として扱うべきではないと警告している。

AI深層分析2026年5月3日 05:10
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

AI 研究におけるリーケージの蔓延

機械学習版「テスト対策」であるデータリーケージが 30 の分野で発見され、約 650 件の論文に影響を与えている可能性があり、これは実際にはさらに多いと推測される。

2

再現性危機の根本原因

出版偏重文化やネガティブ結果の発表困難さなど、学術界全体の構造的欠陥が、データ不備やコード未公開といった再現性の失敗を招いている。

3

AI への過度な信頼の危険性

「理解なき発見」を謳う機械学習の特性上、誤りが生じやすく、Nature に掲載された材料発見論文のような大規模な誤り事例が頻発している。

4

ML 特有の再現性リスク

機械学習モデルの評価は不確実性の定量化など未解決課題が多く、コードが複雑かつ標準化されていないため、レビューでバグが発見されにくい。

5

過剰な期待と懐疑心の欠如

研究者の楽観的なバイアスが原因で、モデルの失敗を自己のミスと誤解したり、成功時にデータリークなどの欠陥を見逃したりする傾向がある。

6

悪循環による研究の質の低下

過剰な期待が flawed な研究を生み、それが修正されないまま「最先端」基準として定着し、真に良い研究が発表できなくなる負のスパイラルが生じている。

7

ML 科学の再現性向上の可能性

ML ベースの研究は人間を対象とした実験を伴わないため、コードとデータの共有による検証が比較的容易であり、統計学の誤用よりも再現性の危機を緩和できる可能性がある。

影響分析・編集コメントを表示

影響分析

この記事は、AI 技術の急速な普及に伴い、その限界を無視した過度な期待と誤った実装が科学界に深刻な混乱をもたらしていることを浮き彫りにしています。研究者や企業に対して、AI の出力を盲信せず、厳密な検証プロセスと再現性確保の重要性を再認識させる重要な警鐘となっています。

編集コメント

AI が科学の「答え」を即座に提示するツールとして扱われすぎている現状に対し、根本的な検証プロセスの欠如を指摘する鋭い分析です。技術導入においては、ツールの限界を理解した上での慎重な利用が求められます。

AI の過剰な期待を生み出しているのは誰か。『AI スネークオイル』という書籍で議論した通り、それは企業やメディアだけでなく、AI 研究者自身も含まれるのである。例えば、2023 年 12 月に『Nature』誌に掲載された一連の広く報道された論文では、AI を用いて 220 万種以上の新素材を発見し、そのうち 41 種をロボットによって合成したと主張していた。残念ながら、これらの主張はすぐに否定された。「生成された [41] 種の素材のほとんどが誤って同定されており、残りのものもすでに知られていた」というのだ。また、大規模データセットについても、250 種類の化合物をサンプリングして調査した結果、その大部分がゴミであることが判明した。

機械学習(Machine Learning)の中核的な売り文句は「理解なき発見」であり、これが機械学習に基づく科学において誤りが特に頻繁に起こる理由となっている。3 年前、私たちは「リーケージ」と呼ばれる誤り——テスト対策のための教育を機械学習版にしたようなもの——が広範に存在し、17 の分野から数百の論文に影響を与えていることを示す証拠を集めた。それ以来、私たちはこの問題をより深く理解し、解決策を考案しようとしてきた。

本稿はその更新である。要するに、状況は改善される前にさらに悪化するだろうと我々は考えているが、地平線には希望の兆しも見えている。

惨禍は続く

最新の集計において、研究者が公開された研究データに漏洩(リーケージ)を発見した分野の数が 30 に達しました。その大半は医学分野であり、これは医療研究における誤りが特に重大な結果を招く可能性があるため、医学分野ではベストプラクティスの確立や過去の研究成果に対する批判的レビューにより多くの努力が払われているという事実によるものだと強く推測しています。全分野にわたって約 650 の論文が影響を受けており、これは実際には大幅な過小評価である可能性が高いと仮説を立てています。なぜなら、研究者が体系的に漏洩を検索した場合、多くの分野でサンプル調査された研究の大半がこの漏洩という誤りを犯していることが発見されるからです。

リーケージは再現性失敗の原因の一つに過ぎません。機械学習(ML)に基づく科学のあらゆる段階——データ収集から前処理、結果報告に至るまで——には広範な欠陥が存在します。再現不可能性を招く可能性のある問題としては、ベースラインとの不適切な比較、代表性のないサンプル、特定のモデル選択に対して結果が敏感に反応すること、そしてモデルの不確実性の報告不足などが挙げられます。また、研究者がコードやデータを公開しないという基本的な問題も存在し、これが再現性を阻害しています。例えば、Gabelica らは 2019 年 1 月に BioMed Central にインデックスされたオープンアクセスジャーナル 333 を調査しましたが、その結果、データ共有を要請に応じて行うと約束した 1,800 の論文のうち、93% が実際にそれを行っていなかったことが判明しました。

その根源は深い

機械学習以前から、多くの科学分野は再現性と反復可能性の危機に直面していました。その根本原因には、科学界における「出版せねば淘汰される」という文化、陽性の結果を出版する強いバイアス(陰性の結果を出版することはほぼ不可能)、誤った研究を否定するためのインセンティブの欠如、そして粗末な作業を出版しても何の制裁もないという状況が挙げられます。例えば、誤りのある論文はほとんど撤回されません。同業者たちは再現性の失敗に気づいてさえいないようです——ある論文が再現できなくなった後でも、それを引用する記事のうち、その再現試行を言及したのはわずか 3% だけです。1 科学コミュニケーション担当者は「科学は自己修正する」と主張するのが好きですが、私たちの経験では自己修正は実質的に存在しません。

これらの文化的要因は、機械学習に基づく科学においてもすべて存在しています。しかし、機械学習は、出版された結果を懐疑的に見るべき追加的な理由をいくつももたらします。性能評価は notoriously 厄介で(非常に難しい)、その多くの側面、例えば不確実性の定量化などは未解決の研究領域です。また、機械学習のコードは従来の統計モデリングに比べてはるかに複雑で標準化されていません。コードレビューが査読者の職務ではないため、コーディングエラーはほとんど発見されません。

しかし、研究の質が低い最大の理由は、研究者の間で疑いの心という科学的好ましい実践の根幹をなすものが欠如していることにつながる、広範な過剰な期待(ハイプ)にあると考えています。私たちは、研究者が過度に楽観的な期待を抱き、機械学習モデルのパフォーマンスが悪い場合に、自分が何か間違えたと思い込んでモデルを調整する一方で、実際には予測可能性に対する本質的な限界に直面した可能性を強く考慮すべきだと観察しました。逆に、モデルのパフォーマンスが良い場合には、彼らは容易に信じ込みがちですが、実際にはデータリークやその他の欠陥に対して警戒を怠るべきではありません。そして、モデルが予想以上に優れたパフォーマンスを示した場合、人間が考えもしなかったパターンをデータが発見したと仮定し、AI を異星の知性とする神話がその説明をすぐに妥当なものに見せるのです。

image
image

これはフィードバックループです。過度な楽観主義が欠陥のある研究を助長し、その分野の他の研究者に対して AI が何を成し得るべきで何を成し得ないべきかについてさらに誤解を与えます。実際、私たちが frustrated な研究者との非公式なやり取りで遭遇した極端な事例では、欠陥のある研究が修正されないため、「最先端」を上回るモデルにならない限り良い研究を出版することが文字通り不可能になっています。

ツールがより強力になり、ブラックボックス化するほど、エラーや過信の潜在的可能性は高まります。心理学や医学などにおける再現性の危機は、単純な統計手法の誤用による結果でした。機械学習(ML)が比較的新しい分野であることを考慮すると、我々の推測では、機械学習に基づく科学における再現性の危機は、改善が始まるまでしばらくの間さらに悪化するでしょう。そして今、科学者たちは大規模言語モデルや生成 AI を受け入れており、これらは理解の錯覚のような多くの新たな落とし穴を開いています。

あなたは「AI スネークオイル」というブログを読んでいます。これは我々の書籍に関するブログです。新しい投稿を受け取るには購読してください。

希望の兆し

機械学習ベースの科学の良い点の一つは、通常、人々に対する実験ではなくデータ分析のみを伴うことです。したがって、他の研究者は原則として、論文のコードとデータをダウンロードして、報告された結果を再現できるかどうかを確認できます。また、コード内のエラーや問題のある選択についてもレビューできます。これは時間がかかりますが、心理学や医学における研究の複製に比べればはるかに少ない負担です。後者の場合、通常は元の研究とほぼ同等のコストがかかるからです。

もう一つの良い点は、研究者が何を注意すべきかを知っていれば、誤りのほとんどを回避できることです。これに対し、統計科学における再現性危機への対策(事前登録など)は、効果に関する記録がばらつきが大きく、必ずしも成功しているわけではありません。

したがって、私たちはこの問題は、研究者が体系的により慎重に作業を行う文化への変化と、再現性研究に対するインセンティブの創出によって大幅に緩和できると考えています。機械学習手法コミュニティはすでに、共通タスク法(数十年の歴史を持つ)や再現性チャレンジ(より近年のもの)を通じてこの方向へと進んでいますが、機械学習ベースの科学、つまり機械学習モデルを用いて各自の分野での知識を進展させる医学や心理学などの分野では、まだそのような変化は起きていません。

私たちはこれを改善するためのいくつかの取り組みを主導してきました。まず、漏洩に関する論文は一定の影響を与えています。この論文は、研究者がモデルをどのように構築しているかを明確にし、漏洩がないことを文書化・実証するために使用されています。また、公開された研究における漏洩を検出しようとする研究者によっても利用されており、漏洩の研究の重要性を強調し、分野固有のガイドラインを作成する手段としても活用されています。

漏洩以外にも、私たちはコンピュータサイエンス、データサイエンス、社会科学、数学、生物医学研究にわたる19名の研究者グループを率いて、機械学習(ML)に基づく科学のための「REFORMS チェックリスト」を開発しました。これは32項目からなるチェックリストで、機械学習に基づく科学における8種類の一般的な落とし穴を検出するのに役立ちます。そのうち漏洩は1つに過ぎません。このチェックリストは最近『Science Advances』誌に掲載されました。もちろん、文化の変革が伴わなければチェックリストだけでは効果はありませんが、これまでの反響を踏まえると、私たちは慎重に楽観視しています。

結びの言葉

私たちの主張は、AI が科学者にとって無意味だということではありません。私たち自身も、AI に関する研究以外でも頻繁に AI をツールとして使用しています。キーワードは「ツール」です。AI は革命ではありません。また、人間の理解を代替するものでもありません。そう考えることは、科学の本質を見失うことになります。AI が研究に内在する困難な作業や挫折への近道を提供するわけではありません。AI は予言者ではなく、未来を見ることもできません。

残念ながら、科学のほとんどの分野は AI の過剰な期待に屈し、常識の停止を招いています。例えば、政治学のある研究ラインでは、内戦の発生を 90% を大きく上回る精度で予測できると主張しましたが、これは一見して不可能な数字です。(実際にはデータリークが原因であり、それがこの研究ライン全体に関心を持つきっかけとなりました。)

私たちは科学史において興味深い瞬間にいます。さまざまな分野における AI の採用状況を示すこれらのグラフをご覧ください:3

image
image

分野別 AI 関連論文の割合、1985–2023 年。(出典:Duede et al. 2024)

これらのホッケースティックグラフは好ましいニュースではありません。むしろ恐ろしいべきものです。AI の導入には科学の認識論における変化が必要です。4 どの科学分野も、数年という時間スケールでこれを実現する能力を持っていません。これはツールや手法が有機的に採用された際に起こる現象ではありません。これは科学者たちが資金獲得のために流行に飛びつくときに起こることです。現在の過剰な期待レベルを考えると、科学者が AI を導入するために追加のインセンティブは必要ありません。つまり、AI による科学研究への資金プログラムは状況を悪化させている可能性があります。欠陥のある研究が雪崩のように押し寄せるのを完全に止めることはできないかもしれませんが、少なくとも AI による科学研究への資金の一部を、より良いトレーニング、批判的探究、メタサイエンス、再現性、およびその他の品質管理活動に振り向けることで、混乱を最小限に抑えることができるでしょう。

私たちの著書『AI Snake Oil』は現在予約注文が可能です。当ブログをお楽しみいただき、私たちの活動を支援したいとお考えの場合は、Amazon、Bookshop、またはお気に入りの書店を通じて予約注文をお願いいたします。

1 明確にするために、再現性の失敗が必ずしも元の研究に欠陥があることを意味するわけではありません。本稿で懸念しているのは、主にリーケージのような比較的明白なエラーです。

2 ここでいう精度とは、AUC という指標を指します。一方の結果(平和)が他方(戦争)よりもはるかに一般的である場合でも、ベースラインの AUC は 50% です。

3 論文は、異なる種類の AI「関与」をひとくくりにしています。この関与には、新たな AI 理論やアプローチ、技術、あるいは応用の開発が含まれる可能性があります(これに限定されません)、ドメイン固有のタスクに対する AI モデルの一般的な利用、そして哲学や倫理学などの分野における学術的議論に代表されるような、AI への批判的な関与などが挙げられます。これは私たちの目的にとっては不幸なことです。なぜなら、私たちが懸念しているのは、第二のカテゴリー、つまりドメイン固有のタスクに対する AI の利用のみだからです。コンピュータサイエンスや哲学のような一部の分野を除けば、ほとんどの AI への関与はこのカテゴリーに分類されると私たちは考えています。

4 特に、「すべてのモデルは誤りであるが、有用なモデルもある」という言葉があるように、モデルに基づいて世界について結論を導き出せるかという問いに対する明確な答えはありません。したがって、妥当性は各分野および各タイプのモデルにおいて再検討されなければなりません。

原文を表示

Who produces AI hype? As we discuss in the AI Snake Oil book, it is not just companies and the media but also AI researchers. For example, a pair of widely-publicized papers in Nature in December 2023 claimed to have discovered over 2.2 million new materials using AI, and robotically synthesized 41 of them. Unfortunately, the claims were quickly debunked: “Most of the [41] materials produced were misidentified, and the rest were already known”. As for the large dataset, examining a sample of 250 compounds showed that it was mostly junk.

A core selling point of machine learning is discovery without understanding, which is why errors are particularly common in machine-learning-based science. Three years ago, we compiled evidence revealing that an error called leakage — the machine learning version of teaching to the test — was pervasive, affecting hundreds of papers from 17 disciplines. Since then, we have been trying to understand the problem better and devise solutions.

This post presents an update. In short, we think things will get worse before they get better, although there are glimmers of hope on the horizon.

The carnage continues

In our most recent compilation, the number of disciplines where researchers have uncovered leakage in published work has reached 30. The majority are medical fields, which we strongly suspect is due to the fact that since errors in medical research can be particularly consequential, medical fields seem to put much more effort into establishing best practices and critically reviewing previously published work. About 650 papers across all fields are affected, which we hypothesize is a vast underestimate — when researchers look for leakage systematically, in many fields they find that the majority of sampled studies commit the error of leakage.

Leakage is one of many reasons for reproducibility failures. There are widespread shortcomings in every step of ML-based science, from data collection to preprocessing and reporting results. Problems that might lead to irreproducibility include improper comparisons to baselines, unrepresentative samples, results being sensitive to specific modeling choices, and not reporting model uncertainties. There is also the basic problem of researchers failing to publish their code and data, precluding reproducibility. For example, Gabelica et al. examined 333 open-access journals indexed on BioMed Central in January 2019 and found that out of the 1,800 papers that pledged to share data upon request, 93% did not do so.

The roots run deep

Even before ML, many scientific fields have been facing reproducibility and replicability crises. The root causes include the publish-or-perish culture in science, the strong bias for publishing positive results (and the near-impossibility of publishing negative results), the lack of incentives for debunking faulty studies, and the lack of consequences for publishing shoddy work. For example, faulty papers are almost never retracted. Peers don’t even seem to notice replication failures — after a paper fails to replicate, only 3% of citing articles cited the replication attempt.1 Science communicators love to claim that science self-corrects, but self-correction is practically nonexistent in our experience.

All of these cultural factors are also present in ML-based science. But ML introduces a bunch of additional reasons why we should be skeptical of published results. Performance evaluation is notoriously tricky and many aspects of it, such as uncertainty quantification, are unresolved research areas. Also, ML code tends to vastly more complex and less standardized than traditional statistical modeling. Since it is not peer reviewers’ job to review code, coding errors are rarely discovered.

But we think the biggest reason for the poor quality of research is pervasive hype, resulting in the lack of a skeptical mindset among researchers, which is a cornerstone of good scientific practice. We’ve observed that when researchers have overoptimistic expectations, and their ML model performs poorly, they assume that they did something wrong and tweak the model, when in fact they should strongly consider the possibility that they have run up against inherent limits to predictability. Conversely, they tend to be credulous when their model performs well, when in fact they should be on high alert for leakage or other flaws. And if the model performs better than expected, they assume that it has discovered patterns in the data that no human could have thought of, and the myth of AI as an alien intelligence makes this explanation seem readily plausible.

image
image

This is a feedback loop. Overoptimism fuels flawed research which further misleads other researchers in the field about what they should and shouldn’t expect AI to be able to do. In fact, we’ve encountered extreme versions of this in private correspondence with frustrated researchers: since flawed research goes uncorrected, it becomes literally impossible to publish good research since it will result in models that don’t beat the “state of the art”.

The more powerful and more black-box the tool, the more the potential for errors and overconfidence. The replication crises in psychology, medicine, etc. were the result of misapplication of plain old statistics. Given how relatively new ML is, our guess is that the reproducibility crisis in ML-based science will get worse for a while before it starts to get better. And now scientists are embracing large language models and generative AI, which open up many new pitfalls such as the illusion of understanding.

You’re reading AI Snake Oil, a blog about our book. Subscribe to get new posts.

Glimmers of hope

One good thing about ML-based science is that it usually involves only data analysis, not experimenting on people. So other researchers should in principle be able to download a paper’s code and data and check whether they can reproduce the reported results. They can also review the code for any errors or problematic choices. This is time consuming, but much less so than replicating a study in psychology or medicine, which is typically almost as costly as the original study.

Another good thing is that the vast majority of errors can be avoided if the researchers know what to look out for. In contrast, mitigations for the replication crisis in statistical science, such as pre-registration, have a much more spotty track record of effectiveness.

So we think that the problem can be greatly mitigated by a culture change where researchers systematically exercise more care in their work and reproducibility studies are incentivized. The ML methods community has already moved in this direction via the common task method (which is decades old) and the reproducibility challenge (which is more recent), but this has not yet happened in ML-based science, that is, in disciplines like medicine or psychology that use ML models to advance knowledge in their respective fields.

We have led a few efforts to change this. First, our leakage paper has had an impact. It has been used by researchers to clarify how they build models and document and demonstrate the absence of leakage. It has been used by researchers trying to find leakage in published work. It has also been used as a way to underscore the importance of studying leakage and coming up with discipline-specific guidelines.

Beyond leakage, we led a group of 19 researchers across computer science, data science, social sciences, mathematics, and biomedical research to develop the REFORMS checklist for ML-based science. It is a 32-item checklist that can help researchers catch eight kinds of common pitfalls in ML-based science, of which leakage is only one. It was recently published in Science Advances. Of course, checklists by themselves won’t help if there isn’t a culture change, but based on the reception so far, we are cautiously optimistic.

Concluding thoughts

Our point isn’t that AI is useless to scientists. We ourselves frequently use AI as a tool, even in our research that’s not about AI. The key word is tool. AI is not a revolution. It is not a replacement for human understanding — to think so is to miss the point of science. AI does not offer a shortcut to the hard work and frustration inherent to research. AI is not an oracle and cannot see the future.

Unfortunately, most scientific fields have succumbed to AI hype, leading to a suspension of common sense. For example, a line of research in political science claimed to predict the onset of civil war with an accuracy2 of well over 90%, a number that should sound facially impossible. (It turned out to be leakage, which is what got us interested in this whole line of research.)

We are at an interesting moment in the history of science. Look at these graphs showing the adoption of AI in various fields:3

image
image

Percentage of AI-engaged papers by field, 1985–2023 by field. (Source: Duede et al. 2024)

These hockey stick graphs are not good news. They should be terrifying. Adopting AI requires changes to scientific epistemology.4 No scientific field has the capacity to accomplish this on a timescale of a couple of years. This is not what happens when a tool or method is adopted organically. It happens when scientists jump on a trend to get funding. Given the level of hype, scientists don’t need additional incentives to adopt AI. That means AI-for-science funding programs are probably making things worse. We doubt the avalanche of flawed research can be stopped, but if at least a fraction of AI-for-science funding were diverted to better training, critical inquiry, meta-science, reproducibility, and other quality-control efforts, the havoc can be minimized.

Our book AI Snake Oil is now available to preorder. If you have enjoyed our blog and would like to support our work, please preorder via Amazon, Bookshop, or your favorite bookseller.

1To be clear, replication failures don’t necessarily imply flaws in the original study. Our concern in this post is primarily about relatively clear-cut errors such as leakage.

2Accuracy here refers to a metric called AUC; the baseline AUC is 50% even when one outcome (peace) is much more common than the other (war).

3The paper clubs together different types of AI “engagement”: Engagement could include (but is not limited to) the development of novel AI theory and approaches, technologies, or applications; the general use of AI models for domain-specific tasks; and critical engagement with AI, as typified by academic discourse in fields like philosophy and ethics. This is unfortunate for our purposes, as our concern is solely about the second category, the use of AI for domain-specific tasks. We do think that outside of a few fields like computer science and philosophy, most AI engagement falls into this category.

4In particular, as the saying goes, “all models are wrong but some models are useful”. There is no straightforward answer to the question of when we can draw conclusions about the world based on a model, so validity has to be re-litigated in every field and for every type of model.

この記事をシェア

関連記事

MarkTechPost★42026年6月9日 03:57

ClawHub セキュリティシグナル:AI スキルデータセットを用いたエンドツーエンドのセキュリティ分析と判定分類のためのコーディングガイド

MarkTechPost は、Hugging Face からデータを取得し、異なるセキュリティスキャナが AI スキルや関連ファイルをどのように評価するかを調査するチュートリアルを提供しています。また、スキャナの不一致パターンを分析した上で、SKILL.md テキストと組み合わせた実用的な機械学習パイプラインの構築方法を解説しています。

AI News★42026年6月3日 21:29

E.ON が SAP S/4HANA を活用し AI で送電網を近代化

エネルギー大手 E.ON は、SAP S/4HANA でグリッドデータを標準化することでインフラの近代化を実現し、AI 導入を推進している。

MIT ML News★32026年5月20日 13:00

化学原理を理解する AI モデルの構築

MIT のコンナー・コリー准教授らは、10^20 から 10^60 と推定される化合物の中から創薬候補を特定するため、実験に代わる人工知能を活用した研究を進めている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む