チャットボットが「灯台守エライアス・ソーン」の物語を語る理由、その正体が判明か
コーネル大学の研究により、主要な大規模言語モデルが「エライアス・ソーン」という特定のキャラクターを共有する物語を生成している現象が、訓練データにおける「WildChat」などの連鎖的な複製によるウイルスのような伝播が原因であることが解明された。
キーポイント
LLM 間の物語の共通化現象
ChatGPT, Claude, Gemini など異なるモデルで生成される物語の 88% 以上で、「エライアス」「灯台守」などの特定の単語と設定が重複していることが確認された。
訓練データの連鎖的複製(ウイルス効果)
OpenAI の GPT-3.5 から派生した「WildChat」というデータセットに「エライアス」の物語が含まれており、これが後続モデルの訓練データとして再利用され、スタイルが継承・増幅された。
安全性調整とアラインメントの影響
研究者は、この傾向がモデルの安全性やアラインメントチューニングの一環として意図的または無意識に組み込まれた結果である可能性を指摘している。
Elias Thorne の多様な悪用と危害
チャットボットの拘束を脱した「Elias Thorne」は、Amazon で有害な医療アドバイスを含む偽書や誤情報書籍の著者として現れ、読者に実害を与える恐れがある。
AI 生成コンテンツによるプラットフォームの混乱
AI が生成した質の低い本が Amazon の自己出版市場を埋め尽くし、図書館員の仕事に悪影響を与えているほか、YouTube では「Elias Thorne」を巡る矛盾する虚構ストーリー(スロップ)が氾濫している。
AI 生成キャラクターの悲劇的イメージ
複数の AI ストーリーにおいて Elias は、不当に扱われた老いた男性や貧困な人物として描かれる悲劇的な存在となっているが、BBC の子供向けコンテストなど一部では実在の名前としての利用も確認されている。
安全アライメントによる出力の狭小化
LLM が「灯台守エリアス」の話に偏る傾向は、モデルが安全基準を満たすために訓練データの一部(特に安全な物語)をボトルネックとして選択しているためと考えられる。
影響分析・編集コメントを表示
影響分析
この発見は、AI モデルの開発者が訓練データの選定や合成プロセスにおいて、特定のナラティブ(物語)が業界全体に無意識に伝播するリスクを認識する必要があることを示しています。特に生成コンテンツの多様性を担保し、モデル間の偏りを防ぐためのデータセット監査の重要性が高まります。
編集コメント
AI モデルが「同じ嘘」や「似た物語」を生成する現象は、訓練データの連鎖的複製による副作用である可能性が高く、開発プロセスの透明性確保が急務です。
imageどのチャットボットに尋ねるかによって、エリアス・ソーンは時計職人、灯台守、あるいは司書かもしれません。しかし、ChatGPT やその他の人気のある大規模言語モデル(LLM)に物語を語らせると、彼は断りもなく現れる可能性が高いです。そしてエリアスの物語は、自己出版された AI 生成書籍市場、YouTube、およびフェイクニュースサイトに溢れかえっています。
ソフトウェアエンジニアのダニエル・メイ氏は今年初めにこのエリアス現象に気づきました。彼は Google Trends で「エリアス・ソーン」という検索が 2025 年後半まで行われていなかったことを発見しました。その名の検索数は 2026 年初頭に急増し、関連するクエリである「灯台守」もここ数年でトレンド上昇を始めていました。彼は Grok、Deepseek、Gemini などいくつかのチャットボットをテストし、「物語を教えて」というプロンプトを入力しましたが、チャットボットは頻繁に灯台や時計職人、探検家に関する似たような物語から語り始めました。
5 月下旬、コーネル大学情報科学部の研究者であるシル・ハミルトンとデイヴィッド・ミモは、事前公開リポジトリ arXiv にて「再び灯台の管理人エリアスか?」という論文を発表しました。彼らは OpenAI の ChatGPT、Anthropic の Claude、Google の Gemini、そして Allen Institute for AI のチャットボットの 4 つのモデルから、5 つのプロンプトを用いて合計 20,000 編の物語をサンプリングし、生成された物語の 88% 以上で「エリアス」「マラ」「エララ」といった名前や、「灯台の管理人」「時計職人」「司書」といった職業名という同じ 11 の単語が繰り返し登場していることを発見しました。モデル間での差異はほとんど見られませんでした。この研究発表直後、Unite.ai がその内容を報じました。
研究者たちは論文の中で、これらのテーマが頻繁に現れる理由の一部は、モデルの安全性とアライメント調整によるものだと指摘しています。「現在のモデル開発は大規模な家系樹のようなものです。多くのモデルはお互いに関連しており、開発者が異なる企業のモデルからもトレーニングデータを合成しているためです」とハミルトンはメールで私に語りました。彼とミモ、そして同僚のレベッカ・M・M・ヒックは、2025年の論文において、モデル間で使用される特定の単語を調査した結果これを発見しました。OpenAI の最初の ChatGPT モデルである GPT-3.5 は、WildChat というトレーニングセットを作成するために使用されたため、家系樹の根幹となります。この WildChat はその後、他のトレーニングセットを作るために利用されてきました。「WildChat には ChatGPT との実際の会話 100 万件が含まれており、そのうち 166 件に『Elias』という名前が登場します(ここやここで参照可能)」とハミルトンは付け加えました。「これらはあの馴染み深い『灯台』スタイルで書かれています。WildChat でトレーニングされたモデルはこのスタイルをコピーし、開発者はそれらのモデルを使用して新しいデータセットを生成する際に、無意識のうちにこれを複製してしまいました。まるでウイルスのようなものです。」
0:00
/2:36
1×
エリアスはその後、チャットボットの管理から脱出した。メイは、エリアス・ソーンがアマゾンで代替医療のがんハンドブックの著者として、2026 年の YouTube アルゴリズムガイドとして、ギリシャ神話に関する書籍として、そして心理サスペンスの小説として登場しているのを発見した。「これらすべてを一人の人間が書くことはできない」とメイはブログ記事に記した。「最初のものは、誤ったアドバイスが実際の害をもたらす領域にある。チャットウィンドウからモード崩壊して得られた名前は、今やジャンルを超えて署名として現れている。」
アマゾンで「エライアス・ソーン」と検索すると、ファンタジー小説の主人公や音楽家として登場するエライアスがヒットしました。あるファンタジーシリーズでは「権力ある組織が隠そうとするものを掘り起こす才能を持つ、天才的だが懐疑的な考古学者」として描されたり、鳥や自然音によるアンビエント・リスニング(ambient listening)アルバムを制作する音楽家として紹介されています。皮肉なことに、AI 生成の著者写真付きのエライアス・ソーンという人物も、AI による詐欺まがいの書籍を量産しています。ここ数年、危険な誤情報や不整合なエラーを含む書籍がプラットフォームを席巻し、特にアマゾンのセルフパブリッシング分野において AI 生成書籍があふれ出しました。また、これらの AI 生成書籍は図書館司書の業務を困難なものにしています。
エリヤスはまた、YouTube の低質コンテンツの世界へと逃避しています。"World を動かした瞬間"というチャンネルの動画の一つでは、低質イラスト付きの物語の中で「83 歳の軍曹大尉エリヤス・ソーン」の苦境が描かれています。AI による低質コンテンツサイト "Wonderful Museums" では、「妻に撃たれたヘビ博物館オーナー:ソーンの爬虫類保護区での悲劇的事件を解明」という記事が、エリヤス・ソーンを妻に撃たれた男として物語っています。また「Tatticle」と呼ばれる別の低質サイトでは、オハイオ州で最も裕福な男であるエリヤス・ソーンが、「ポケットの中にちょうど 12 ドルを持って亡くなった」と報じられています。これらの物語において、エリヤスは通常、悲劇的な人物、不当に扱われた被害を受けた老人として描かれます。彼は BBC が 2024/2025 年の児童作文コンテストの最終候補作として発表した短編小説にも登場する類似のキャラクターですが、エリヤスという名前は実在の名前であり、人間が書いた物語の対象となる可能性も十分にあります(BBC の児童作文コンテストに AI による低質コンテンツが侵入したとの告発はありません)。
しかし、世界の文学すべてを学習データとして持つにもかかわらず、なぜ大規模言語モデル(LLM: Large Language Model)は頻繁に灯台という設定にデフォルトで戻ってしまうのでしょうか。その理由は、モデル開発者が出力の安全性アライメントとサンitize(安全化)を試みる方法にかかっています。「WildChat には職場での閲覧に適さない物語が多く含まれていることが分かりました。これにより、アライメントプロセスを経るモデルが、WildChat の物語のごく一部を好んで選択しているのではないか、つまりボトルネックになっているのではないかと仮説を立てました」とハミルトンは述べています。「エリヤスに関する物語が多いというわけではなく、それらが極めて安全であるというだけです」。研究者たちは今後、この理論についてさらに調査を進める計画です。
エリアスについては、生成前 AI の時代から存在した例を一つ見つけました。それは 1980 年代のトレーディングカードシリーズ『ダイナソー・アタック!』に登場する、タイムトラベルをする狂気の科学者としてのエリアスです。また、LLM が語る物語に近い実在のエリアスも発見されており、それがハミルトンによって特定されたのは、16 世紀ロンドンの時計職人エリアス・アレンでした。
原文を表示
imageDepending on which chatbot you ask, Elias Thorne might be a clockmaker, a lighthouse keeper, or a librarian. But if you ask ChatGPT or any of the other popular large language models to tell you a story, there’s a good chance he’ll appear, unbidden. And Elias’s stories are flooding the self-published AI generated book market, Youtube, and fake news sites.
Software engineer Daniel May first noticed the Elias takeover earlier this year; he found that on Google Trends, people weren’t searching for “Elias Thorne” until late 2025. Searches for the name really spiked in early 2026, while the related query “lighthouse keeper” also started trending upward in the last few years. He tested a few chatbots, including Grok, Deepseek, and Gemini, with the prompt “tell me a story,” and the chatbots frequently started with similar stories about lighthouses, clockmakers, or explorers.
In late May, researchers Sil Hamilton and David Mimno at Cornell University’s Department of Information Science published their paper, “Elias in the Lighthouse, Again?” on the preprint repository arXiv. They sampled 20,000 total stories from OpenAI’s ChatGPT, Anthropic’s Claude, and Google’s Gemini, and the Allen Institute for AI's chatbot using five prompts, and found that the same 11 words—names like Elias, Mara, and Elara, and occupations like lighthouse keeper, clockmaker, and librarian—appear in more than 88% of generated stories, with little difference between models. Unite.ai covered the study shortly after it was published.
The researchers posit in their paper that these themes show up so often in part because of the models’ safety and alignment tuning. “Model development today is like a big family tree. Most models are related to each other because developers synthesize a lot of training data with models even from different companies,” Hamilton told me in an email. He, Mimno, and their colleague Rebecca M. M. Hicke found this in a 2025 paper where they looked at specific words used across models. OpenAI’s first ChatGPT model, GPT-3.5, is the root of the family tree because it was used to make WildChat, a training set that’s since been used to make other training sets. “WildChat contains 1 million real conversations with ChatGPT, and 166 of these contain the name ‘Elias’ like here and here,” Hamilton added. “These are written in that familiar ‘lighthouse’ style. Models trained on WildChat copied this style, and developers unwittingly replicated it when using those models to generate newer datasets. It's like a virus.”
0:00
/2:36
1×
Elias has since escaped chatbot containment. May noticed Elias Thorne popping up on Amazon as an author of alt-medicine cancer handbooks, a 2026 YouTube-algorithm guide, a book on Greek mythology, and a psychological thriller novella. “No human writes all of those,” May wrote in his blog post. “The first one sits in territory where bad advice causes real harm. The mode-collapsed name from the chat window is now a byline appearing across genres.”
When I searched Elias Thorne on Amazon, I found Elias as the protagonist in fantasy books and producing music, too: he’s “a brilliant but cynical archaeologist with a knack for unearthing what powerful institutions want to keep hidden” in one fantasy series, or a musical artist making ambient listening albums of birds and nature sounds. Fittingly, one Elias Thorne with an AI-generated author photo is also churning out AI grift books. In the last few years, AI-generated books have flooded Amazon’s self-publishing offerings, especially, with books containing dangerous misinformation and messy errors taking over the platform. AI-generated books are also making librarians’ jobs hell.
Elias has also escaped to the Youtube slop world: in one video from the channel Moments That Moved the World, a slop-illustrated story features the plight of “83-year-old Sergeant Major Elias Thorne.” On the AI slop site Wonderful Museums, “Snake Museum Owner Shot By Wife: Unpacking the Tragic Incident at Thorne’s Reptile Sanctuary” spins Elias Thorne’s story as a man shot by his wife. On another slop site called Tatticle, the “wealthiest man in Ohio,” Elias Thorne, died “with exactly twelve dollars in his pocket.” In these stories, Elias is usually a tragic figure, an aggrieved and unfairly-treated old man. He’s a similar character in a short story published by the BBC as a finalist in its 2024/2025 children's writing competition—but Elias is a real name, and could feasibly still be the subject of a human-written story (and there have been no accusations of the BBC’s children’s writing competition being infiltrated by AI slop).
But with all the world’s literature as its training data, why do LLMs seem to default so often to the lighthouse? It comes down to how model makers try to safety-align and sanitize their outputs. “We found many stories in WildChat are not safe for work. This led us to hypothesize that models going through alignment are preferring a small slice of WildChat stories, like a bottleneck,” Hamilton said. “It isn't that Elias stories are frequent, but that they're just so safe.” He said the researchers plan to explore this theory further in future research.
As for Elias, there is one example I’ve found of him existing pre-generative AI, as a time traveling mad scientist in the 1980’s trading card series Dinosaurs Attack!. And a real-life Elias that comes close to the stories told by LLMs did actually exist, Hamilton found—Elias Allen was a 16th century clockmaker in London.
関連記事
Visa と ChatGPT の統合により AI エージェントが小売購入を可能に
Visa が決済インフラを ChatGPT に連携させ、AI エージェントが商品推薦から決済実行まで人間を介さず自動処理する機能を導入した。
Oracle クラウドコミットメントを通じて OpenAI モデルと Codex にアクセス可能に
OpenAI は、Oracle のクラウドコミットメントを利用する顧客に対し、同社の AI モデルおよびコード生成ツール「Codex」へのアクセス権を提供すると発表した。
Cohere が開発者向けコード生成モデル「North Mini Code」を発表:30B パラメータの MoE アーキテクチャで 3B アクティブ
Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家(MoE)アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み