研究リポジトリ ArXiv、AI に全作業を任せた著者を1年間投稿禁止とする方針を発表
学術プレプリントサーバー arXiv は、LLM 生成結果の検証不足が判明した場合に著者を 1 年間禁止する厳格なルールを導入し、AI 利用における著者の責任を明確化しました。
キーポイント
厳罰化された ban ルールの導入
LLM 生成結果の検証不足(幻覚的な参考文献や AI との対話履歴など)が確認された場合、著者は arXiv からの 1 年間の利用禁止および今後の投稿先審査義務を課される。
AI 利用の完全責任原则
LLM の使用自体は禁止されないが、生成されたコンテンツ(誤り、偏見、盗用など)に対する著者の責任は絶対的であり、生成手段に関わらず著者が全責任を負う。
運用プロセスと救済措置
これは「ワンストライク」ルールだが、モデレーターによる指摘とセクション議長による証拠確認が必要であり、著者は決定に対する異議申し立て権を持つ。
LLMによる捏造引用の増加
最近の査読済み研究により、生物医学分野におけるLLM(大規模言語モデル)が原因と見られる捏造された引用が増加していることが判明した。
科学者以外の事例も存在
科学者だけでなく、AIによって作成された架空の法的引用を使用していたAnthropicの弁護士が謝罪を余儀なくされるなど、他の分野でも同様の問題が発生している。
影響分析・編集コメントを表示
影響分析
arXiv のこの措置は、AI 生成コンテンツが溢れる中で学術界の信頼性を維持するための重要な転換点となる。著者に対して「ツールを使うこと」だけでなく「結果を検証・責任を持つこと」を強く義務付けることで、研究コミュニティ全体の AI リテラシーと倫理基準の引き上げを促す効果がある。
編集コメント
arXiv が AI 利用の「責任所在」を明確化し、実質的な運用ルールとして機能させる点は、今後の学術界における AI ガイドラインの標準モデルとなり得る重要な動きです。
ArXiv は、プレプリント研究のために広く利用されているオープンリポジトリですが、科学論文における大規模言語モデルの無責任な使用に対してより厳しく取り締まる動きを強めています。
査読を受ける前にサイト上に投稿される論文もありますが、アーカイブ("archive" と発音)として知られる arXiv は、コンピュータサイエンスや数学などの分野で研究成果が流通する主要な手段の一つとなっており、同サイト自体も 科学的研究の動向に関するデータソース となっています。
ArXiv はすでに、低品質な AI 生成論文が増加する傾向に対処するため、例えば新規投稿者に対して 確立された著者からの推薦状を取得することを義務付ける などの措置を講じています。また、20年以上にわたりコーネル大学によって運営されてきた同組織は、独立した非営利団体へと移行しようとしており、これにより AI による低品質なコンテンツ("AI slop")といった課題に対処するための資金調達をより容易にする ことが期待されています。
最新の動きとして、arXiv のコンピュータサイエンスセクションの議長であるトーマス・ディーターリッチ氏は 木曜日 に投稿し、「提出物に大規模言語モデル(LLM)による生成結果を著者が確認していないことを示す疑いの余地のない証拠が含まれている場合、それは論文内のあらゆるものを信頼できないことを意味する」と述べました。
ディーターリッチ氏によると、この疑いの余地のない証拠には「幻覚的な参考文献」や LLM へのコメント、LLM から送られたコメントなどが含まれる可能性があります。そのような証拠が見つかった場合、論文の著者らは「arXiv からの 1 年間の利用停止処分を受け、その後の arXiv への提出物はまず信頼できる査読付き刊行物で承認される必要がある」という措置に直面します。
これは LLM の使用を全面的に禁止するものではなく、ディーターリッチ氏が述べたように、「コンテンツがどのように生成されたかに関わらず」、著者がコンテンツに対して「完全な責任」を負うことを求めるものです。したがって、研究者が LLM から不適切な言語、盗用されたコンテンツ、偏ったコンテンツ、誤り、間違い、不正確な参考文献、または誤解を招くコンテンツをそのままコピー&ペーストした場合でも、その責任は依然として著者にあります。
ディーターリッチ氏は 404 Media に対し、これは「ワンストライク(一発退場)ルール」になると語りましたが、モデレーターが問題を指摘し、セクション議長が証拠を確認した上で処罰を科す必要があります。著者側も決定に対して異議申し立てを行うことができます。
最近の査読付き研究により、生物医学研究において 捏造された引用が増加している00603-3/fulltext?ref=404media.co) ことが判明しました。これはおそらく大規模言語モデル(LLM)によるものですが、公平を期すために言えば、科学者だけが AI が作成した 捏造された引用を使用している ことで捕まっているわけではありません。
*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは当社の編集の独立性には影響しません。
Anthony Ha は TechCrunch の週末編集者です。以前は Adweek でテクノロジー記者、VentureBeat でシニアエディター、Hollister Free Lance で地方政府担当記者、そしてベンチャーキャピタル企業でコンテンツ担当副社長を務めました。現在はニューヨーク市に住んでいます。
Anthony への連絡や、彼からのアウトリーチの検証については、anthony.ha@techcrunch.com までメールを送ってください。
原文を表示
ArXiv, a widely used open repository for preprint research, is doing more to crack down on the careless use of large language models in scientific papers.
Although papers are posted to the site before they are peer-reviewed, arXiv (pronounced “archive”) has become one of the main ways that research circulates in fields like computer science and math, and the site itself has become a source of data on trends in scientific research.
ArXiv has already taken steps to combat a growing number of low-quality, AI-generated papers, for example by requiring first-time posters to get an endorsement from an established author. And after being hosted by Cornell for more than 20 years, the organization is becoming an independent nonprofit, which should allow it to raise more money to address issues like AI slop.
In its latest move, Thomas Dietterich — the chair of arXiv’s computer science section — posted Thursday that “if a submission contains incontrovertible evidence that the authors did not check the results of LLM generation, this means we can’t trust anything in the paper.”
That incontrovertible evidence could include things like “hallucinated references” and comments to or from the LLM, Dietterich said. If such evidence is found, a paper’s authors will face “a 1-year ban from arXiv followed by the requirement that subsequent arXiv submissions must first be accepted by a reputable peer-reviewed venue.”
Note that this isn’t an outright prohibition on using LLMs, but rather an insistence that, as Dietterich put it, authors take “full responsibility” for the content, “irrespective of how the contents are generated.” So if researchers copy-paste “inappropriate language, plagiarized content, biased content, errors, mistakes, incorrect references, or misleading content” directly from an LLM, then they’re still responsible for it.
Dietterich told 404 Media that this will be a “one-strike” rule, but moderators must flag the issue and section chairs must confirm the evidence before imposing the penalty. Authors will also be able to appeal the decision.
Recent peer-reviewed research has found that fabricated citations are on the rise00603-3/fulltext?ref=404media.co) in biomedical research, likely due to LLMs — though to be fair, scientists aren’t the only ones getting caught using citations that were made up by AI.
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Anthony Ha is TechCrunch's weekend editor. Previously, he worked as a tech reporter at Adweek, a senior editor at VentureBeat, a local government reporter at the Hollister Free Lance, and vice president of content at a VC firm. He lives in New York City.
You can contact or verify outreach from Anthony by emailing anthony.ha@techcrunch.com.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み