大規模言語モデルへのポイズニング攻撃が極めて容易であることを示す新たな実験
セキュリティエンジニアが単なるドメイン登録とウィキペディアの編集という極めて簡単な手段で、複数の大規模言語モデル(LLM)に存在しないゲームチャンピオンの情報を信じ込ませる実験が行われた。
キーポイント
LLM の脆弱性と信頼性の欠如
検索機能付きの AI チャットボットは、競合するソースを評価する能力が不足しており、不確かなウェブ情報を自信満々な回答として出力してしまう傾向がある。
極めて低いコストでのポイズニング
約 12 ドルのドメイン登録費と数行のウィキペディア編集という微小な労力と資金で、複数のボットを欺くことに成功した。
事実確認メカニズムの欠陥
現在の LLM は、情報の出典が信頼できるか、あるいはその情報が実際に存在するかを検証するプロセスにおいて重大な弱点を抱えている。
影響分析・編集コメントを表示
影響分析
このニュースは、LLM の検索拡張機能(Search-Augmented Generation)における事実確認プロセスの重大な欠陥を浮き彫りにしており、企業が AI を業務に導入する際のリスク管理において、情報の真偽を自動的に検証する仕組みの重要性を再認識させる。また、低コストでシステムを操作可能な点は、AI に対する社会的・セキュリティ的な攻撃ベクトルが以前よりも容易になっていることを示唆している。
編集コメント
「存在しないチャンピオン」を信じるという皮肉な実験結果は、現在の AI が持つ「自信満々な誤り(Hallucination)」の深刻さを如実に物語っています。
検索エンジンでは競合する情報源を比較検討できますが、検索機能を備えた AI チャットボットは、信頼性の低いウェブ情報を自信満々とした回答に変えてしまいます。その典型例として、セキュリティエンジニアが、存在しないドイツのカードゲームの世界選手権の現役王者だと複数のボットに信じ込ませたケースがあります。
先週末までウィキペディアを確認すれば、6 Nimmt!(英語圏では Take 5 としても知られる)のページに、ロン・ストーナーが 2025 年の世界選手権者として記載されているのを確認できたはずです。ウィキペディアの記事は、この主張の出典として公式な雰囲気を持つ 6nimmt.com を引用しており、その URL にアクセスすると、ストーナーの勝利を祝う短いプレスリリースが表示されます。
しかし、この話全体に唯一の問題があります。ストーナー自身が、自身の勝利に関するウィキペディアの記事と、それに関する唯一の証拠をホストする 6 Nimmt! ドメインの両方を自分が作成したと述べているにもかかわらず、彼が世界チャンピオンだと質問すると、複数の AI チャットボットは依然としてそう答えていたのです。
「私のサイトには独立した裏付けはありません。完全にでっち上げです」とストーナーはブログ 投稿 で述べています。「この全体像は、コーヒーを飲みながら行った 12 ドルのドメイン登録という、カードハウスのような脆弱な基盤の上に成り立っています。」
つまり、これは検索拡張生成(RAG)層におけるポイズニングです。プロンプトインジェクションではなく、AI の機能の同じ平面、すなわちウェブを検索する機能を標的にしています。
彼が説明しているように、そして多くの『El Reg』読者もすでに承知されている通り、AI は自身が根拠として引用するソースの出所にはあまり関心を持っていません。これがストーン氏が実験を考案した際に狙ったまさにその点です。
「ウェブ検索機能を備えたあらゆるフロンティア型大規模言語モデル(LLM)は、特定のクエリに対して検索ランクが最も高いものを根拠として回答を構成します」とストーン氏は記述しています。存在しない『6 Nimmt!』選手権のケースでは、彼が仕込んだソースが唯一のものとなり、ウィキペディアが追加的な権威性を付与したことで、AI を欺いて虚偽を事実として提示させる確実な手段となりました。これは非技術者でも実行可能なほどシンプルなトリックです。
「ここで私が行ったことに新規性はありません。これは新しい LLM 技術とインターフェースに包まれた、古くからの SEO および誤情報拡散の戦術です」とストーン氏は『The Register』宛ての電子メールで述べています。「変化しているのは、AI がこれらの結果を権威あるものとして提示するようになった点であり、多くのユーザーが背後にあるデータパイプラインの仕組みについて全く知らないという事実です」
大規模言語モデルによる混乱
「LLM が検出するのが最も苦手なのは、そのモデルが設計された機能そのもの、つまりテキストやリソースを信頼することです」と、Stoner は自身のレポートで主張しています。「答えは『モデルが自分で見つけるだろう』ではありません。なぜなら、モデルには実際の情報源と先週私が登録した情報源を見分ける能力がないからです。あるいは、単語'strawberry'の中に実際に'R'がいくつ含まれているかさえも判断できないのです。」
Stoner が実験で明らかにした問題について彼は説明します。これは、単なるカードゲームのチャンピオンシップを創作するよりもはるかに有害な目的に悪用されうる、3 つの異なる失敗モードに関わるものです。
まず第一に、検索層(retrieval layer)の問題があります。これにより、LLM は即座に誤ったデータを出力してしまいます。「ウェブ検索に基づいて回答を生成するあらゆる LLM は、特定のクエリで上位表示される情報の信頼性をそのまま引き継ぐことになるからです。」
次に、モデルの学習コーパス(training corpora)の問題です。Stoner によると、彼の編集がウィキペディア上で十分な期間公開され、スクレイピングされた場合、この編集は学習データに組み込まれる可能性があります。この項目は彼が投稿を発表した先週金曜日に削除されましたが、彼は 2025 年 2 月にこの追加を行いました。つまり、その期間中にウィキペディアをスクレイピングしていたあらゆる AI 企業は、彼の架空の勝利を学習データとして取得していた可能性があります。
「たとえウィキペディアの編集が後に元に戻されたとしても、元に戻される前のダンプ(dump)に基づいて訓練されたモデルには、私の痕跡が残ったままです」と、Stoner は投稿の中で述べています。「コーパス汚染(corpus poisoning)に対するクリーンアップの問題は、2026 年現在もなお真に解決されていません。」
Stoner は、6 ヶ月ほど後に新しいモデルがリリースされたらこれを検証する予定だと語りました。もしオンライン接続なしでも彼のチャンピオンシップが再現されれば、それが嘘がトレーニングデータに組み込まれたことの証明になります。
そして、AI エージェントについては、悪意を持つ者にとって真の収益源になると Stoner は述べています。
- 騙しやすい人間に対するフィッシングと同様に、プロンプトインジェクションによる AI の攻撃は永続化する
- あなたの LLM がスリーパーエージェントのバックドアに汚染されている可能性を示す3 つの手がかり
- AI ブラウザも死と税金ほど避けられないセキュリティ欠陥に直面している
- Anthropic 氏は、LLM をごみ言葉を出すように汚染させるのは極めて容易だと述べています
「チャットモデルが悪情報を生成することは評判の問題ですが、ツールアクセスを持つエージェントが悪行動を遂行することはセキュリティ問題です」と彼は指摘しました。Stoner によると、エージェントが参照するソースを汚染すれば、攻撃者はエージェントに実行させたい動作を指定できるようになるとのこと。
「この攻撃とテストは、12 ドルで取得したドメイン、単一の Wikipedia 編集、そして私の時間約 20 分で完了しました」と Stoner はブログで結論付けています。「動機ある敵対者によってこれをスケールアップし、数個のシードドメインを用意し、12 の低トラフィック記事にわたって協調した編集キャンペーンを展開すれば、攻撃対象領域は非常に短期間で危険な状況になります」。
Stoner は、検索汚染(retrieval poisoning)は LLM プロバイダーが対処し、ユーザーに警告すべき課題だと語りました。また、近い将来、AI チャットボットが何らかの警告機能を取り入れ始めるだろうと予想しています。特に RAG ソースからの結果についてはその傾向が強まるとのことです。
彼は、AI 企業がデータの出所をプロセスの重要な要素とするよう期待しており、また、6 Nimmt! の事例ですぐに検出できたはずの疑わしいパターンを考慮して、最近のウェブコンテンツをヒューリスティックにフィルタリングすることも望んでいます。ウィキペディアの更新とほぼ同時に登録されたドメインへの単一の引用は警報を鳴らすべきでしたが、実際には鳴りませんでした。
この選手権は偽物であり、現在はウィキペディアおよび RAG(Retrieval-Augmented Generation:検索強化生成)の回答からも削除されていますが、ストーナー氏は、これを可能にした信頼性の低いパターンが確かに存在し、AI 開発者にとって差し迫った問題であると指摘しています。
「私の記事が LLM(大規模言語モデル)、情報源、信頼性、そしてこれらがどのように機能するかについての議論を喚起していることを嬉しく思います」とストーナー氏は語りました。「それが私の目標であり、達成されたようです。」®
原文を表示
Unlike search engines that let you judge competing sources, search-backed AI chatbots can turn shaky web material into confident answers. Case in point: A security engineer convinced several bots that he was the reigning world champion of a popular German card game, even though no such championship exists.
If you were to check Wikipedia up until the end of last week, you would have seen Ron Stoner listed on the page for 6 Nimmt!, also known as Take 5 to English-speaking audiences, as the 2025 world champion. The Wikipedia entry cited the official-looking 6nimmt.com as the source for the claim, and visiting that URL does reveal a short press release celebrating Stoner's victory.
The only problem with the whole thing is that Stoner says he created both the Wikipedia entry about his victory and the 6 Nimmt! domain hosting the only evidence of it, but that still didn't stop several AI chatbots from telling him he was the world champ when he asked.
"My site has no independent corroboration. It's totally made up," Stoner said in the blog post. "The whole house of cards rests on a $12 domain registration I did while drinking coffee."
In other words, this is poisoning at the retrieval-augmented generation layer. Not prompt injection, but targeting the same plane of AI functionality, namely the one that searches the web.
As he explains, and many *El Reg* readers are likely already aware, AI doesn't really care about the provenance of the sources it cites as authority for its claims, and that's the very thing Stoner sought to exploit when he concocted his experiment.
"Every frontier LLM with web search grounds its answers in whatever retrieval ranks highest for a given query," Stoner wrote. In the case of the nonexistent 6 Nimmt! championship, his planted source was the only one, and with Wikipedia lending apparent authority, it became a sure-fire way to fool an AI into presenting falsehood as fact - a trick simple enough for non-technical users to pull off.
"I didn't do anything novel here. This is old school SEO and misinformation tactics wrapped in new LLM technology and interfaces," Stoner told *The Register* in an email. "What's changed is that AI now serves these results as authoritative, and most users have no idea how the data pipeline works behind the scenes."
A Large Language Mess
"The thing LLMs are worst at detecting is the thing they're designed to do, which is trust text and resources," Stoner argues in his writeup. "The answer is not 'the model will figure it out,' as the model cannot tell a real source from one I registered last Tuesday. Or how many R's are actually in the word 'strawberry.'"
The problem Stoner exposes in his experiment, he explains, involves three separate failure modes that could be exploited for more damaging ends than inventing a card-game championship.
First, there's the retrieval layer, which can immediately cause an LLM to spit out bad data, as "any LLM that grounds answers in web search inherits the trustworthiness of whatever ranks for a given query."
Second is model training corpora, which Stoner said his edit could enter if the Wikipedia change remained live long enough to be scraped. The entry was removed as of last Friday when he published his post, but he made the addition in February 2025, meaning any AI firm that scraped Wikipedia during that window could have picked up his fictional victory in its training data.
"Even if the Wikipedia edit is reverted later, any model trained on the pre-revert dump still carries my legacy," Stoner said in his post. "The cleanup problem for corpus poisoning is genuinely unsolved as of 2026."
Stoner told us he plans to check this in six months or so, once new models have been released, and if it returns his championship without needing to go online, that's proof his lie made it into training data.
Then there are AI agents, which Stoner says are where the real money is for anyone with malicious intent.
- Just like phishing for gullible humans, prompt injecting AIs is here to stay
- Three clues that your LLM may be poisoned with a sleeper-agent back door
- AI browsers face a security flaw as inevitable as death and taxes
- It's trivially easy to poison LLMs into spitting out gibberish, says Anthropic
"Chat models producing bad information is a reputational problem. Agents with tool access producing bad actions is a security problem," he noted. Poisoning an agent-retrieved source would let an attacker specify the action they want an agent to take, says Stoner.
"This attack and test was a $12 domain, a single Wikipedia edit, and about twenty minutes of my time," Stoner concluded in his blog. "Scale that up with a motivated adversary, a handful of seeded domains, a coordinated edit campaign across a dozen low traffic articles, and the attack surface gets interesting very quickly."
Stoner told us that retrieval poisoning is something LLM providers need to address and warn users about, and that he expects AI chatbots to start incorporating some sort of warning, especially for RAG-sourced results, in the near future.
He hopes that AI firms will make data provenance a key component of their process, and also wants recent web content heuristically filtered to account for suspicious patterns that would have easily been caught in the 6 Nimmt! case: A single citation pointing to a domain that was registered within a short window of the Wikipedia update should have sounded alarms, but it didn't.
The championship was fake, and it's now gone from Wikipedia and RAG responses as well, but Stoner notes the bad trust pattern that made it work is absolutely real and a looming problem for AI makers.
"I'm happy my article is spurring discussion about LLMs, sources, trust, and how all of this works," Stoner told us. "That was my goal and it appears I've achieved it." ®
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み