大規模言語モデルへのポイズニング攻撃が極めて容易であることを示す新たな実験
セキュリティエンジニアによる実証実験が、LLM の検索連動型生成(RAG)機能において、単なるドメイン登録と偽情報の組み合わせで信頼性の高い誤情報を拡散させる脆弱性を浮き彫りにした。
キーポイント
RAG レイヤーの信頼性欠如
LLM は検索結果を自動的に権威ある情報源として扱っており、出典の真正性を検証する能力が極めて低いことが実証された。
簡易なポイズニング手法の実現
非技術者でも可能となる低コスト(12ドルのドメイン登録)かつ高効果な手法により、架空の事実を AI に「真実」として認識させることに成功した。
SEO と偽情報戦術の悪用
従来の SEO や偽情報拡散の手口が、AI のインターフェースを通じてより強力な影響力を持つ形へと進化し、ユーザーに誤認を与えている。
影響分析・編集コメントを表示
影響分析
この実験は、検索機能を備えた大規模言語モデルが、悪意ある情報源によって容易に汚染されるという深刻な脆弱性を示しています。AI が生成する情報の信頼性が、技術的な革新性ではなく、外部のウェブ上の偽情報の質に依存している現状を浮き彫りにし、RAG システムにおけるセキュリティ対策とファクトチェックの重要性が急務であることを示唆しています。
編集コメント
「AI は賢いから真偽を見抜くはず」という楽観論を覆す、極めて現実的な脅威事例です。開発者は検索結果の信頼性検証メカニズムの強化を急ぐべきです。
検索エンジンのように競合するソースを判断できるのとは異なり、検索機能付き AI チャットボットは不安定なウェブ情報を自信満々な回答に変えてしまいます。その好例として、セキュリティエンジニアが人気のあるドイツのカードゲームの世界チャンピオンだと数人のボットに信じ込ませた事例があります。実際にはそのような選手権は存在しません。先週末まで Wikipedia を確認すれば、6 Nimmt!(英語圏では Take 5 としても知られる)のページに Ron Stoner が 2025 年の世界チャンピオンとして記載されているのを発見できたはずです。Wikipedia の記事はこの主張の出典として公式に見える 6nimmt.com を引用しており、その URL にアクセスすると Stoner の勝利を祝う短いプレスリリースが表示されます。しかし、この話全体に唯一の問題は、Stoner 自身が彼の勝利に関する Wikipedia エントリと、それに関する唯一の証拠をホストする 6 Nimmt! ドメインの両方を彼が作成したと述べている点です。それでも、彼が世界チャンピオンだと質問すると、複数の AI チャットボットは彼にそう答えました。「私のサイトには独立した裏付けがありません。完全にでっち上げです」と Stoner はブログ記事で語っています。「この全体像は、コーヒーを飲みながら行った 12 ドルのドメイン登録というカードハウスの上に成り立っているのです。」つまり、これは検索拡張生成(RAG: Retrieval-Augmented Generation)層におけるポイズニング(汚染)です。プロンプトインジェクションではなく、ウェブを検索する AI の機能と同じ平面を標的とした攻撃です。
彼が説明している通り、多くの El Reg 読者もすでに知っているように、AI は自身が権威として引用するソースの出自にはあまり関心を示しません。これが Stoner が実験を考案して狙った点でした。「ウェブ検索で回答を裏付けるすべての最先端大規模言語モデル(LLM)は、特定のクエリに対して検索結果が最も高いものを根拠に回答します」と Stoner は書いています。存在しない 6 Nimmt! チャンピオンシップの場合、彼の仕掛けたソースが唯一のものだったため、Wikipedia が一見権威ある裏付けを提供したことで、AI を欺いて虚偽を事実として提示させる確実な方法となりました。これは非技術的なユーザーでも実行できるほど簡単なトリックです。「ここで何か新しいことをしたわけではありません。これは新しい LLM 技術とインターフェースに包まれた昔ながらの SEO と誤情報戦術です」と Stoner は The Register のメールインタビューで語っています。「変わったのは、AI がこれらの結果を権威あるものとして提供し、多くのユーザーが背後にあるデータパイプラインの仕組みを全く知らない点です。」
「大規模言語モデル(LLM)が最も検出できないのが、まさにそれらが設計上信頼すべきテキストやリソースであるという事実です」と Stoner は自身のレポートで主張しています。「答えは『モデルが自分で見抜くだろう』ではありません。なぜならモデルは、実際に存在するソースと先週火曜日に私が登録したソースを区別できないからです。あるいは、『strawberry(イチゴ)』という単語に実際に入っている R の数を数えることもできません。」
Stoner が実験で明らかにした問題は、カードゲームの選手権をでっち上げるよりもはるかに有害な目的のために悪用できる 3 つの異なる失敗モードに関わっています。まず第一に検索層があり、これは即座に LLM に誤ったデータを出力させる可能性があります。「ウェブ検索で回答を裏付けるあらゆる LLM は、特定のクエリに対して検索結果が最も高いものの信頼性を継承します。」
第二はモデルのトレーニングコーパス(学習データセット)です。Stoner によると、Wikipedia の変更が長く残ってスクレイピングされる可能性があれば、その編集内容も取り込まれる可能性があります。このエントリは彼が投稿を発表した先週金曜日に削除されましたが、彼は 2025 年 2 月に追加を行ったため、その期間中に Wikipedia をスクレイピングしていた AI 企業であれば、彼の架空の勝利をトレーニングデータに取り込んでいた可能性があります。「Wikipedia の編集が後で元に戻されたとしても、戻される前のダンプで訓練されたモデルは私の遺産を引き継ぎ続けます」と Stoner は記事で述べています。「コーパス汚染に対するクリーンアップ問題は、2026 年現在も真に未解決です。」Stoner は、新しいモデルがリリースされる約半年後にこれを検証する予定であり、もしオンライン接続なしで彼の選手権情報が返ってくるようであれば、それが嘘がトレーニングデータに組み込まれたことの証拠になると語っています。
そして第三に AI エージェントがあります。Stoner によると、ここが悪意を持つ者にとって真の収益源です。「チャットモデルが誤った情報を生成するのは評判の問題ですが、ツールアクセス権を持つエージェントが誤った行動を遂行するのはセキュリティ問題です」と彼は指摘しています。エージェントが参照するソースを汚染すれば、攻撃者はエージェントに実行させたい行動を指定できるようになります。「この攻撃とテストは 12 ドルのドメイン登録、Wikipedia の単一の編集、そして私の約 20 分の時間で完了しました」と Stoner はブログで結論付けています。「これを意欲的な敵対者によって拡大し、数個のシードされたドメイン、数十件の低トラフィック記事にわたる協調した編集キャンペーンと組み合わせれば、攻撃対象領域は非常に急速に危険なものになります。」
Stoner によると、検索汚染は大規模言語モデル(LLM)プロバイダーが対処し、ユーザーに警告すべき課題です。彼は近い将来、AI チャットボットが何らかの警告機能を取り入れ始めることを期待しており、特に RAG ソースからの結果に対してはそうです。
彼は AI 企業がデータ出自をプロセスの重要な要素として確立することを望んでおり、また最近のウェブコンテンツについても、6 Nimmt! のケースで容易に検出できた疑わしいパターンを考慮してヒューリスティックにフィルタリングされることを願っています。Wikipedia の更新とほぼ同時に登録されたドメインへの単一の引用は、警報を鳴らすべきだったはずです。しかし、そうなりませんでした。
選手権は偽物であり、現在は Wikipedia および RAG 応答からも削除されていますが、Stoner はこれを可能にした「信頼の悪いパターン」が確かに実在し、AI メーカーにとって差し迫った問題であると指摘しています。「私の記事が LLM、ソース、信頼、そしてこれらすべてがどのように機能するかについての議論を喚起できて嬉しく思います」と Stoner は語っています。「それが私の目標であり、どうやら達成できたようです。」
原文を表示
Unlike search engines that let you judge competing sources, search-backed AI chatbots can turn shaky web material into confident answers. Case in point: A security engineer convinced several bots that he was the reigning world champion of a popular German card game, even though no such championship exists. If you were to check Wikipedia up until the end of last week, you would have seen Ron Stoner listed on the page for 6 Nimmt!, also known as Take 5 to English-speaking audiences, as the 2025 world champion. The Wikipedia entry cited the official-looking 6nimmt.com as the source for the claim, and visiting that URL does reveal a short press release celebrating Stoner's victory. The only problem with the whole thing is that Stoner says he created both the Wikipedia entry about his victory and the 6 Nimmt! domain hosting the only evidence of it, but that still didn't stop several AI chatbots from telling him he was the world champ when he asked. "My site has no independent corroboration. It's totally made up," Stoner said in the blog post. "The whole house of cards rests on a $12 domain registration I did while drinking coffee." In other words, this is poisoning at the retrieval-augmented generation layer. Not prompt injection, but targeting the same plane of AI functionality, namely the one that searches the web. As he explains, and many El Reg readers are likely already aware, AI doesn't really care about the provenance of the sources it cites as authority for its claims, and that's the very thing Stoner sought to exploit when he concocted his experiment. "Every frontier LLM with web search grounds its answers in whatever retrieval ranks highest for a given query," Stoner wrote. In the case of the nonexistent 6 Nimmt! championship, his planted source was the only one, and with Wikipedia lending apparent authority, it became a sure-fire way to fool an AI into presenting falsehood as fact - a trick simple enough for non-technical users to pull off. "I didn't do anything novel here. This is old school SEO and misinformation tactics wrapped in new LLM technology and interfaces," Stoner told The Register in an email. "What's changed is that AI now serves these results as authoritative, and most users have no idea how the data pipeline works behind the scenes." A Large Language Mess "The thing LLMs are worst at detecting is the thing they're designed to do, which is trust text and resources," Stoner argues in his writeup. "The answer is not 'the model will figure it out,' as the model cannot tell a real source from one I registered last Tuesday. Or how many R's are actually in the word 'strawberry.'" The problem Stoner exposes in his experiment, he explains, involves three separate failure modes that could be exploited for more damaging ends than inventing a card-game championship. First, there's the retrieval layer, which can immediately cause an LLM to spit out bad data, as "any LLM that grounds answers in web search inherits the trustworthiness of whatever ranks for a given query." Second is model training corpora, which Stoner said his edit could enter if the Wikipedia change remained live long enough to be scraped. The entry was removed as of last Friday when he published his post, but he made the addition in February 2025, meaning any AI firm that scraped Wikipedia during that window could have picked up his fictional victory in its training data. "Even if the Wikipedia edit is reverted later, any model trained on the pre-revert dump still carries my legacy," Stoner said in his post. "The cleanup problem for corpus poisoning is genuinely unsolved as of 2026." Stoner told us he plans to check this in six months or so, once new models have been released, and if it returns his championship without needing to go online, that's proof his lie made it into training data. Then there are AI agents, which Stoner says are where the real money is for anyone with malicious intent. "Chat models producing bad information is a reputational problem. Agents with tool access producing bad actions is a security problem," he noted. Poisoning an agent-retrieved source would let an attacker specify the action they want an agent to take, says Stoner. "This attack and test was a $12 domain, a single Wikipedia edit, and about twenty minutes of my time," Stoner concluded in his blog. "Scale that up with a motivated adversary, a handful of seeded domains, a coordinated edit campaign across a dozen low traffic articles, and the attack surface gets interesting very quickly." Stoner told us that retrieval poisoning is something LLM providers need to address and warn users about, and that he expects AI chatbots to start incorporating some sort of warning, especially for RAG-sourced results, in the near future. He hopes that AI firms will make data provenance a key component of their process, and also wants recent web content heuristically filtered to account for suspicious patterns that would have easily been caught in the 6 Nimmt! case: A single citation pointing to a domain that was registered within a short window of the Wikipedia update should have sounded alarms, but it didn't. The championship was fake, and it's now gone from Wikipedia and RAG responses as well, but Stoner notes the bad trust pattern that made it work is absolutely real and a looming problem for AI makers. "I'm happy my article is spurring discussion about LLMs, sources, trust, and how all of this works," Stoner told us. "That was my goal and it appears I've achieved it." ®
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み