AI翻訳がWikipedia記事に「幻覚」を追加している
Wikipedia編集者は、非営利団体OKAがAI翻訳を用いて記事を作成した結果、出典の捏造や誤訳といった「ハルシネーション」が多数発見されたため、AI翻訳者の活動制限と新規ポリシーを導入した。
キーポイント
AI翻訳によるハルシネーションの発覚
OKAが提供するAI翻訳記事において、出典のページ番号の誤りや無関係なソースの貼り付けなど、事実と異なる「ハルシネーション」が多数確認された。
作業プロセスと人的要因の問題
OKAはグローバルサウスからの安価な契約労働者にLLMへの入力とコピペを指示しており、翻訳者の英語力不足やチェック漏れが品質低下の主因となった。
Wikipediaのガバナンスによる対応
編集者は問題のある翻訳を特定し、AIを用いた有料翻訳者の貢献を制限する新たなポリシーを導入することで、知識の信頼性を守る取り組みを行った。
OKA翻訳者の使用AIツールとガイドライン
OKA翻訳者はGeminiやChatGPTを使用して記事のリード部を改善するよう指示されており、以前はGrokも使用していたが精度の問題で変更された。
誤りの多い翻訳者への制裁措置
6ヶ月以内に4件の検証失敗警告を受けた翻訳者は無警告でブロックされ、その追加コンテンツは責任者がいない限り削除される可能性がある。
報酬体系と品質への主張の対立
求人票では月給397ドルで週5-20記事の公開が期待されるとされる一方、OKA創設者は時給制であり品質を重視し、問題事例は個人の熱情によるもので組織的な圧力ではないと主張している。
AIによる二重チェックの導入
OKAは独立したLLMを用いた第2のレビュー工程を追加し、原文との不一致や省略を検出する比較プロンプトを実装した。
影響分析・編集コメントを表示
影響分析
この事象は、生成AIをコンテンツ制作に組み込む際の「品質保証」の重要性を浮き彫りにしています。特に、LLMが生成したコンテンツを検証するプロセスがない場合、誤情報の拡散リスクが高まることを示唆しており、企業やメディアがAIを活用する際は、人間の監査プロセスを必須とすべきです。また、Wikipediaのような信頼性の高いプラットフォームがAI利用に制限を設けることは、他のオープンソースプロジェクトや知識共有プラットフォームにも影響を与える可能性があります。
編集コメント
LLMの出力をそのまま公開するのではなく、人間による厳格な検証プロセス(Human-in-the-loop)が不可欠であることを示す良い事例です。特に「出典の捏造」はLLM特有の深刻なリスクであり、ビジネス利用時も注意が必要です。
imageウィキペディアの編集者は、AI による翻訳が結果として生じた記事に AI の「ハルシネーション(幻覚)」、つまり誤りを追加していることを発見した後、報酬を得て既存のウィキペディア記事を他の言語へ翻訳するために AI を使用していた多くの貢献者に対して新たな方針を施行し、その活動に制限を加えました。
この新しい制限は、インターネット全体で生成 AI が溢れる中、世界最大の知識の貯蔵庫であるウィキペディアの信頼性が損なわれるのを防ぐために、編集者がいまだに戦い続けていることを示しています。また、この出来事は、ウィキペディアの拡大を意図した取り組みであっても、それが生成 AI に依存している場合いかに誤りを生じやすいか、そしてウィキペディアのオープンガバナンスモデルによってどのようにその誤りが修正されるかを浮き彫りにしています。
今回の問題の発端は、「Open Knowledge Association(OKA)」と呼ばれる団体です。これはウィキペディアやその他のオープンプラットフォームの改善に専念する非営利組織です。
「私たちは、フルタイムの貢献者や翻訳家に対して月額手当を提供することでそれを実現しています」と OKA のサイトには記載されています。「また、AI(大規模言語モデル)を活用して業務の大部分を自動化しています。」
問題は、編集者たちがこれらの翻訳の一部が記事に誤りをもたらしていることに気づき始めたことです。例えば、フランスの王家であるラ・ブルドナヤ家についての記事の下書き翻訳では、その家の起源について議論する際に特定の書籍とそのページ番号を引用しています。ウィキペディアの編集者で、ウィキペディア上では「Chaotic Enby」という名前で活動しているイリアス・ルブロは、その出典を確認したところ、その本の該当ページには「ラ・ブルドナヤ家について全く言及されていない」ことを発見しました。
「誤りの発生率を測定するために、私は議論の最中に最初の数件の翻訳を対象にランダムチェックを行うことに決めましたが、すでにいくつかの誤りを見つけたので、これは単なる都合の良い事例の選択の問題ではありません」とルブロは私に語りました。「一部の articles では出典が入れ替わったり、説明なしで根拠のない文が追加されたりしており、1879 年のフランス上院選挙に関する記事では、全く無関係な資料から段落を引用して追加されていたケースさえあります!」
ウィキペディアの編集者たちが OKA(注:原文ママ)による翻訳された記事をさらに多く確認するにつれ、より多くの問題が発見されました。
「多くの結果が非常に問題があり、明らかに英語能力が極めて低い多数の編集者が自分の作業を読み通さず(あるいは問題に気づくことができず)、リンクなどを追加していない」と、OKA 翻訳について議論しているウィキペディアのページには記されています。同じウィキペディアのページではまた、場合によっては OKA の翻訳者たちのコピー&ペーストという性質が、一部の articles で書式を崩壊させていることも指摘しています。
ウィキペディアの編集者は、OKA がどのように運営されているかを調査し、それが主にグローバルサウスにある請負業者からの安価な労働力に依存していること、そしてこれらの請負業者が記事のコピー&ペーストを人気のある大規模言語モデル(LLM)に行わせるよう指示されていたことを発見しました。
例えば、OKA の翻訳者がどの記事を翻訳しているかを追跡するために使用されている公開スプレッドシートには、「記事を選び、リードセクションを Gemini または ChatGPT にコピーし、提案の一部が可読性の向上につながるかどうかを確認せよ。提案がリードの意味を変更せず、可読性を向上させる場合にのみウィキペディアの記事に編集を加えること。Gemini の内容が正しいことを確認しない限り、内容は変更してはならない」という指示が記載されています。
Lebleu 氏は私に語り、他の編集者もこの問題に関する公開のサイト内議論で指摘している通り、これらの同じ指示は以前、OKA の翻訳者に Elon Musk 氏の LLM である Grok を同じ目的で使用するように求めていました。Wikipedia に対する完全に自動化された代替案である Grokepedia も生成する Grok は、その出力を検証するために人間を使用しないため、誤りが生じやすいのです。
「Grok の使用は論争を呼びました。特に最近 Grok がニュースになった理由がその理由であり、直近の社内調査では ChatGPT と Claude の方がより正確に動作することが示されたため、数日前に切り替えましたが、それでも複雑でテンプレートが多い記事を扱う経験豊富な編集者にとっては『価値がある』として Grok を推奨し続けています」と Lebleu 氏は語りました。
最終的に編集者たちは、複数の誤りを犯した OKA 翻訳者に対して制限を設ける方針を決めたが、OKA による翻訳そのものを原則として禁止する決定は下さなかった。
「6 ヶ月以内に、検証に失敗したコンテンツについて 4 つの(正しく適用された)警告を受けた OKA 翻訳者については、さらに別の事例が見つかった場合、追加の警告なしにブロックされる」とウィキペディアの編集者は記述している。「検証に失敗して後にブロックされた OKA 翻訳者が追加したコンテンツは、責任を持って引き受けてくれる誠実な編集者がいない限り、原則として削除される可能性がある [...]」。
OKA が募集する「ウィキペディア翻訳者」の求人では、週最大 40 時間勤務で月額 397 ドルが提示されている。この求人情報には、「(記事の規模に応じて)週に 5〜20 記事を公開することが期待される」と記載されている。
「彼らは機械翻訳を活用してプロセスを加速させています。すでに 1500 篇以上の記事を公開しており、その数は毎日増加しています」と求人ページは述べている。
「この不安定な状況ゆえに、翻訳者の業務内容における不確実性が増大すれば、責任の過負荷につながる恐れがあり、これは独立請負業者が有給従業員と同じ保護措置を必ずしも享受できないため、懸念される」と Lebleu は、OKA に関するウィキペディア上の公開討論で記述している。
OKA の創設者兼社長であり、ウィキペディア上では「7804j」というハンドルネームを使用する Jonathan Zimmermann は、翻訳者は記事数ではなく時間給で支払われており、固定された記事数のノルマはないと私に語った。
「私たちはスピードよりも品質を重視しています」と、ジマーマンはメールで私に語りました。「実際、問題のあるケースのいくつかは、費やされた時間に対して異常に高い出力量を含んでおり、後から見れば警告信号でした。これらのケースは、組織的な圧力ではなく、個人の情熱と速度によって引き起こされたものです。」
ジマーマンは私に、「間違いが絶対に発生しないわけではありません」と伝えましたが、OKA のプロセスには人間のレビューが含まれており、翻訳者は引用された資料に対して自分のコンテンツを確認することを義務付けられており、「シニア編集者が定期的にサンプルをレビューし、特に新しい翻訳者からのものを重点的にチェックしています」とも述べています。
「最近の議論を受けて、私たちはセキュリティ対策を強化しました」とジマーマンは私に語りました。「現在、2 つ目の独立した LLM(大規模言語モデル)レビューステップを導入中です。翻訳者は、完成したドラフトを、ソーステキストとの比較において潜在的な相違点、欠落、または不正確さを特定するために設計された専用の比較プロンプトを使用した別のモデルに通す必要があります。初期の調査結果では、この手法が潜在的な問題を検出する上で非常に効果的であることが示されています。」
ジマーマンはさらに、この方法が不十分であることが証明された場合、OKA は正式なピアレビュー(相互審査)メカニズムの導入を検討しているとも付け加えました。
AI の出力を AI でチェックしてエラーを検出する方法は、歴史的にエラーが発生しやすい手法です。例えば、私たちは最近、生徒向けに生成された質問を AI でチェックするために AI を使用した私立学校について報告しました。内部テストでは、少なくとも 10 パーセントの失敗率があることが判明しています。
「AI を使って AI をチェックすることには絶対的に失敗する可能性があり、文脈によっては非常に高い確率で失敗すると私も同意します。二次モデルが単独で信頼できるとは仮定していません」とジマーマンは述べた。「重要な点は、人間の検証を自動化された検証に置き換えているわけではないということです。第二のモデルは手動レビューの補完であり、それを代替するものではありません。」
「協調的なプロジェクトが AI ツールを使用し、大規模に運営される場合、それは注目を集めることになります。編集者がそれを詳しく検討する理由も理解できます。最終的に、議論で正式化された結果は、既存の内部方針と大きく整合した期待を形成しました」とジマーマンは付け加えた。「ただし、これらの制限は OKA 翻訳者にのみ適用されます。基準が全員に平等に適用されることを望みますが、組織化され資金提供された取り組みにはより高い基準が課されることも認識しています。」
原文を表示
imageWikipedia editors have implemented new policies and restricted a number of contributors who were paid to use AI to translate existing Wikipedia articles into other languages after they discovered these AI translations added AI “hallucinations,” or errors, to the resulting article.
The new restrictions show how Wikipedia editors continue to fight the flood of generative AI across the internet from diminishing the reliability of the world’s largest repository of knowledge. The incident also reveals how even well-intentioned efforts to expand Wikipedia are prone to errors when they rely on generative AI, and how they’re remedied by Wikipedia’s open governance model.
The issue in this case starts with an organization called the Open Knowledge Association (OKA), a non-profit organization dedicated to improving Wikipedia and other open platforms.
“We do so by providing monthly stipends to full-time contributors and translators,” OKA’s site says. “We leverage AI (Large Language Models) to automate most of the work.”
The problem is that editors started to notice that some of these translations introduced errors to articles. For example, a draft translation for a Wikipedia article about the French royal La Bourdonnaye family cites a book and specific page number when discussing the origin of the family. A Wikipedia editor, Ilyas Lebleu, who goes by Chaotic Enby on Wikipedia, checked that source and found that the specific page of that book “doesn't talk about the La Bourdonnaye family at all.”
“To measure the rate of error, I actually decided to do a spot-check, during the discussion, of the first few translations that were listed, and already spotted a few errors there, so it isn't just a matter of cherry-picked cases,” Lebleu told me. “Some of the articles had swapped sources or added unsourced sentences with no explanation, while 1879 French Senate election added paragraphs sourced from material completely unrelated to what was written!”
As Wikipedia editors looked at more OKA-translated articles, they found more issues.
“Many of the results are very problematic, with a large number of [...] editors who clearly have very poor English, don't read through their work (or are incapable of seeing problems) and don't add links and so on,” a Wikipedia page discussing the OKA translation said. The same Wikipedia page also notes that in some cases the copy/paste nature of OKA translators’ work breaks the formatting on some articles.
Wikipedia editors investigated how OKA was operating and found that it was mostly relying on cheap labor from contractors in the Global South, and that these contractors were instructed to copy/paste articles to popular LLMs to produce translations.
For example, a public spreadsheet used by OKA translators to keep track of what articles they’re translating instructs them to “pick an article, copy the lead section into Gemini or chatGPT, then review if some of the suggestions are an improvement to readability. Make edits to the Wiki articles only if the suggestions are an improvement and don't change the meaning of the lead. Do not change the content unless you have checked that what Gemini says is correct!”
Lebleu told me, and other editors have noted in their public on-site discussion of the issue, that these same instructions previously told OKA translators to use Grok, Elon Musk’s LLM, for the same purpose. Grok, which also produces an entirely automated alternative to Wikipedia called Grokepedia, is prone to errors precisely because it does not use humans to vet its output.
“The use of Grok proved controversial, notably given the reasons for which Grok has been in the news recently, and a recent in-house study showed ChatGPT and Claude perform more accurately, leading them to switch a few days ago, although they still recommend Grok as ‘valuable for experienced editors handling complex, template-heavy articles,’” Lebleu told me.
Ultimately the editors decided to implement restrictions against OKA translators who make multiple errors, but not block OKA translation as a rule.
“OKA translators who have received, within six months, four (correctly applied) warnings about content that fails verification will be blocked without further warning if another example is found,” the Wikipedia editors wrote. “Content added by an OKA translator who is subsequently blocked for failing verification may be presumptively deleted [...] unless an editor in good standing is willing to take responsibility for it.”
A job posting for a “Wikipedia Translator” from OKA offers $397 a month for working up to 40 hours per week. The job listing says translators are expected to publish “5-20 articles per week (depending on size).”
“They leverage machine translation to accelerate the process. We have published over 1500 articles and the number grows every day,” the job posting says.
“Given this precarious status, I am worried that more uncertainty in the translator duties may lead to an overloading of responsibilities, which is worrying as independent contractors do not necessarily have the same protections as paid employees,” Lebleu wrote in the public Wikipedia discussion about OKA.
Jonathan Zimmermann, the founder and president of OKA, and who goes by 7804j
on Wikipedia, told me that translators are paid hourly, not per article, and that there is no fixed article quota.
“We emphasize quality over speed,” Zimmerman told me in an email. “In fact, some of the problematic cases involved unusually high output relative to time spent — which in retrospect was a warning sign. Those cases were driven by individual enthusiasm and speed rather than institutional pressure.”
Zimmerman told me that “errors absolutely do occur,” but that OKA’s process includes human review, requires translators to check their content against cited sources, and that “senior editors periodically review samples, especially from newer translators.”
“Following the recent discussion, we have strengthened our safeguards,” Zimmerman told me. “We are now rolling out a second, independent LLM review step. Translators must run the completed draft through a separate model using a dedicated comparison prompt designed to identify potential discrepancies, omissions, or inaccuracies relative to the source text. Initial findings suggest this is highly effective at detecting potential issues.”
Zimmerman added that if this method proves insufficient, OKA is considering introducing formal peer review mechanisms
Using AI to check the output of AI for errors is a method that is historically prone to errors. For example, we recently reported on an AI-powered private school that used AI to check AI-generated questions for students. Internal testing found it had at least a 10 percent failure rate.
“I agree that using AI to check AI can absolutely fail — and in some contexts it can fail at very high rates. We’re not assuming the secondary model is reliable in isolation,” Zimmerman said. “The key point is that we’re not replacing human verification with automated verification. The second model is a complement to manual review, not a substitute for it.”
“When a coordinated project uses AI tools and operates at scale, it’s going to attract attention. I understand why editors would examine that closely. Ultimately, the outcome of the discussion formalized expectations that are largely aligned with our existing internal policies,” Zimmerman added. “However, these restrictions apply specifically to OKA translators. I would prefer that standards apply equally to everyone, but I also recognize that organized, funded efforts are often held to a higher bar.”
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み