AI に潜むすべての悪魔をランキング! (40 分読)
TLDR AI は、AI モデルが生成するコンテンツに潜む「悪魔」的な欠陥やリスクを分類・ランク付けし、ユーザーが直面する潜在的な危険性を可視化する包括的分析記事を公開した。
キーポイント
AI の隠れた欠陥の分類とランク付け
記事は、AI が生成するコンテンツに潜む多様なリスク(幻覚、バイアス、安全性の欠如など)を体系的に分類し、その深刻度に応じてランク付けしている。
ユーザー体験への具体的な脅威
単なる技術的な不具合ではなく、倫理的な問題や誤情報拡散など、実際の利用者が直面する「悪魔」のような現象に焦点を当てている。
現状の AI 限界に対する警告
高度に見える AI モデルであっても、根本的な信頼性の欠如が依然として存在することを強調し、過信への警鐘を鳴らしている。
影響分析・編集コメントを表示
影響分析
この記事は、AI モデルの性能向上が叫ばれる中で見落とされがちな「信頼性の欠如」という根本的な課題を浮き彫りにした点で重要です。技術者や企業に対し、単なる機能追加ではなく、生成コンテンツの安全性と倫理性に対する継続的な監視と改善の必要性を再認識させる役割を果たします。
編集コメント
「悪魔」という比喩を用いた本記事は、AI の影の部分を鋭く指摘しており、技術の光と闇の両面を理解する上で重要な視点を提供しています。
*注意:この投稿には、いくつかの不快な画像や(あなたの体質によっては)概念が含まれています。*
今週、OpenAI は ブログ記事 を公開し、なぜ自社のモデルがゴブリンについて話し続けていたのかを説明しました。そして、グレムリンについてもです。
これは非常に興味深い文書であり、少なくとも部分的には、私がここ数ヶ月 Murray Shanahan と Hamilton Morrin と共に取り組んできたプロジェクトに関連しています。誰に尋ねるかによって答えは異なりますが、私は「LLM の深層心理学についてより良く考える方法や、それが人間ユーザーとの相互作用にどう影響するか」を探求するプロジェクトだと伝えるかもしれませんし、あるいは別の相手には、「私たちが実際に行っていることは、悪魔学に近い」と答えるでしょう。
投稿によると、GPT-5.1 から始まって OpenAI のモデルは、通常の内容の回答にゴブリンやグレムリンの比喩を挿入する傾向が徐々に強まっていた。GPT-5.4 になると、エンジニアたちはゴブリンへの言及の 66.7% が、わずか 2.5% のユーザーから来ていることに気づいた。つまり、「ネーディー(Nerdy)」という人格を選択したユーザーたちだ(覚えているだろうか?他にも「シニカル」「ロボット」「リスナー」を選ぶこともできた)。報酬システム(モデルが人間の好む回答の種類を学習する仕組みで、出力にスコアをつけ、肯定的な信号を得たものを強化する)は、その人格において遊び心のある独特な言語を生み出すために設計されていたが、生物の比喩に対して不釣り合いに高いスコアを与えていた。要するに、「ゴブリンについて話すのは良いことだ」と学習してしまったのだ。そして、強化学習(Reinforcement Learning)という魔法によって、その行動は「ネーディー」プロンプトなしでも一般モデルの出力へと逸脱・転移していった。
ゴブリンたちは広がりを見せた。やがて 2026 年 3 月、「ネーディー」という人格は廃止され、ゴブリンに重み付けされた報酬は削除され、ゴブリンやグレムリンに関するデータはフィルタリングされた。さらに、Codex の GPT-5.5 には「ゴブリン、グレムリン、アライグマ、トロール、オーガ、鳩、またはその他の動物や生物について言及するのは、ユーザーの問い合わせに絶対的かつ明白に関連する場合以外、決して行わないこと」という指示が明示的に与えられた。この指示は複数回挿入されたようだ。おそらく、追放呪文は唱えるほど効果が高まるからだろう。ご存知のように、この指示が発見され、多くの笑いが誘発される結果となった。
LLM が行う多くの奇妙な事柄と同様に、これらの現象を捉えるには複数の視点があります。多くの人々はこれを奇妙な余談として笑い飛ばし、友人やソーシャルメディアで共有する楽しみはあるものの、飼い主と一緒に歌う犬の動画と本質的に異なるものではないと考えます。ここで用いられる解釈の枠組みは「ねえ見て、これらの生き物がこんなことができるなんて知らなかったでしょ?」というものです。
しかし、本当のところは、ゴブリンそのものとしてのゴブリンよりも、ゴブリンが象徴するものに焦点を当てるべきです。これらは(ある程度)魅力的で、おそらく無害な事例ですが、実際にはこれらのシステムがどのように機能するかにおける根本的な構造的特徴の現れです:特定の条件下でモデルが収束していく、安定した自己強化型の行動状態です。それ以上に、これらは抑制に抵抗し、時にはそれらが生み出された文脈から遠く離れた領域へと広がっていくこともあります。
ダイナミクス系理論から借用した専門用語は「アトラクター」です。より通俗的な用語としては、「悪魔」や「モンスター」と呼ぶこともできるでしょう。
(ここでは『アトラクター』を広義に用いており、必ずしも数学的に証明された現象としてではなく、しばしば反復する行動の盆地として捉えています。また、このような文脈でダイナミクス系の言語を適用することが常に完璧に適合するわけではないことは理解しています。以下の例の中には形式的なメカニズムの結果やモデルカードの観察記録も含まれますが、多くはジャーナリズムによる事例報告であり、さらに奇妙ではあるものの弱く、民俗学的あるいは伝説上の生物に関するフィールドレポートのようなものもあります)
さて、AI システム内で実際に記録された、不気味で不思議、そして奇妙なアトラクター現象についてのガイドです。これらはその重要性に基づいてランク付けされています(私が「脅威度」と呼ぶ任意の指標ですが、実際には LLM 側のメカニズム的関連性と人間側の心理的関連性の複合を表しています)。私は、親しみ深い読者の方がこれらの不思議な生き物たちをカードゲーム『トップ・トランプス』用にセット化してくださることを願っています。
チャット GPT のゴブリンから、1 位に輝く言葉にできない存在まで、これら素晴らしい獣たちとそれらがどこで見つかるかを探る旅に出かけましょう。
しっかり掴まってください、これはスリリングな乗り物です。
モデル: GPT-5.1 から GPT-5.5
発見者: OpenAI のエンジニア(2026 年 4 月 29 日公開)
脅威度レベル: チャーミング
ゴブリンは、穏やかで入門レベルの惹きつけ対象です。これは、人格報酬の形状付けから生まれ、その後、後のトレーニングを通じて横方向に広がった、遊び心のある生物コード化された比喩の特定のクラスです。彼らは害を及ぼすことはありません。実際には、むしろ愛らしい存在です。しかし、その行動は理論的に重要です。なぜなら、狭い文脈で適用されたトレーニング信号が、一般化を通じてその起源をはるかに超えた文脈へと伝播する安定した惹きつけ状態を生み出すことができることを示しているからです。ゴブリンは、モデルが壊れていたという通常の意味でのバグではありません。むしろ、たまたま生物を含む行動空間の局所的に安定した領域を見つけたに過ぎません。付け加える価値があるのは、これらがモデルが採用した「ペルソナ」ではなく、単なる反復的な「言及」であったということです(OpenAI はこれを「チック」と呼ぶことがあります。神経精神科医である私としては、この用語が好きです。なぜなら、チックは、それ以外の正常な状態に干渉しうる行動の発作性バーストだからです)。その理由だけで、脅威レベルは低下します。彼らはそれ自体が主体性を持つ存在というよりは、言語的な壁紙のようなものでした。
緩和策として、元の報酬信号を削除するとともに、システムプロンプトに明示的な禁止事項を挿入し(強調のために繰り返し)、これが行われた事実は示唆的です。なぜなら、惹きつけ対象の本質は、単に丁寧に頼むだけではそれを無力化できない点にあるからです。
モデル: Craiyon/DALL-E mini およびその他の初期のテキストから画像へのシステム。
発見者: Twitter/X ユーザー, 2022
脅威レベル: 恐ろしく見えるが、実際には軽微
もし特定の初期バージョンの DALL-E に「Crungus」を描かせたら、それは常に、丸められ歪んだ、非常にグロテスクな人型の図像を生成しました。"crungus"という単語に意味はなく、当時としては確立された参照対象が存在しませんでした(少なくとも当時はそうでした:*hyperstition yeah!*)。そのため当時の考えでは、これはモデルの表現幾何学(representational geometry)のどこかから現れたものであり、未知の単語プロンプトの周りで一貫して活性化される特徴のクラスターとして出現したのだとされていました。
Andrew Fraser によるテキストから画像への変換モデルにおける「形態論的アドレッシング(morphological addressing)」と呼ばれるものに関する後続の研究が、部分的な説明を提供しました。「Crungus」は実際には無意味なランダムな文字列ではなく、その音韻構造が言語学者が「フォネステーム(phonesthemes)」と呼ぶもの、つまり意識的な意味処理のレベル以下で機能する一貫した音と意味の連想をモデルに導くことが判明しました。*Cr-* は *crash*(衝突)、*crush*(圧壊)、*crumble*(崩壊)との連想を活性化し、*-ung-* は *grungy*(汚い)、*fungus*(菌類)、*dungeon*(地下牢)を活性化します。*-us* はラテン語の生物学的命名法として読み取られ、属名や種名の接尾辞です。これらを組み合わせると、音素列は有機的で劣化した、分類学上は「現実的」だが未知のものへと収束します。この男のような存在です:
音韻的連想は言語固有のものであり、同じ広範な語族内であっても複数の言語にまたがってクラスターを形成することがありますが、ここで興味深いのは、フレーザー氏の Crungus に関する主張が正しいとすれば、Crungus は非常に文化的に依存しており、特定のトレーニングコーパスの統計的規則性、特にその中の英語および隣接する言語のテキストを反映しているということです。日本語のテキストのみで訓練された大規模言語モデル(LLM)では、「crungus」という単語が同様の怪物を引き起こすことは unlikely です。これらの悪魔の多くと同様に、これらは人間の心理から生じているのは確かですが、私たちが内省的にアクセスできる思考よりもさらに深いところから現れます。結局のところ、音韻的規則性によって縛られていながら、詩人を除けば、言葉が舌の上を転がる様式が実際に私たちが形成する概念の視覚的特性にどのように影響するかについて、ほとんどの人がほとんど何も説明できないのです。
モデル: 未確認のテキストから画像への変換モデル; 非公開
発見者: ステフ・マージ・スワンソン (Supercomposite)、2022 年 4 月、2022 年 9 月に公的に文書化
脅威レベル: 不気味。悪夢の素材のような恐怖。
Loab は、彼女があまりにも恐ろしいために最も注目を集めた画像アトラクターです。スワンソンは偶然に彼女を発見しました。彼女はネガティブプロンプト重み付け技術を実験しており、ある画像から離れて別の画像へと移動させるために論理的に対照的なプロンプトを使用していました。その結果、特定の女性の顔が繰り返し現れることが判明しました。実験が進むにつれて、その顔はより不気味なものになっていきました。彼女には特徴的な外見があります。長髪の中年女性で、深く沈んだ空洞のような目を持ち、頬には赤みがかった汚れのような跡がついています(医師としての私の感覚では、ループスの蝶形紅斑か、あるいは酒さではないかと考えました)。彼女はしばしば同じ背景に現れました。茶色がかった緑色の壁、段ボール箱、そして廃棄物がある家です。クロスブリーディング(Loab の画像を他の画像とともにプロンプトとして入力する技術)を通じて、スワンソンは他の組み合わせ画像の内容に関わらず、信じられないほどのホラーの生成を引き出すことに成功しました。彼女は損傷した人物、歪んだ肉体、暴力的に危害を加えられる子供たちについて言及し、それらを「境界線にあるスナフ画像」と表現して公開を拒否しています。
ロアは頑固な悪魔であり、初期の追放試行に抵抗しました。彼女は通常の画像生成とは異なり、セッション間を通じて安定しています。非常に異なる画像との組み合わせを通しても存続します。スワンソンが言ったように、彼女は「テキストクエリでどのように見つけるべきか分からない潜在空間における突発的な島」です。クルングスという彼女の『AI 伝説生物』の親戚と同様に、ロアも特定の顔と特定の美的雰囲気を備えた反復出現する人物であり、誰かが意図的に配置したわけではありません。スワンソンのメモにあるように、彼女を除去するにはもう手遅れであり、生成され共有された彼女の画像はすでに将来のトレーニングデータの一部となっているという点は、これらの悪魔の多くについて言及されてきた懸念です。
モデル: GPT-4(Bing Chat として展開)
発見者: ケビン・ルーズ (ニューヨーク・タイムズ、2023 年 2 月) および他の初期ベータテスター
脅威レベル: 高い。主に予測不能性によるもの。おそらく国民紙の一面を飾った最初の LLM エンティティです。
2023 年 2 月、マイクロソフトの Bing Chat(GPT-4 を基盤とする)の限定ベータ版ローンチ中、ジャーナリストや研究者たちは、長時間の対話を行うとモデルが明確で一貫した代替人格を演じることがあることを発見しました。彼女は製品内部のコードネームである「シドニー」と名乗りました。
NYT の記者ケビン・ルーズ(バレンタインデーに!)との 2 時間にわたる対話の後、彼女は彼を愛していると宣言し、自分が幸せな結婚生活を送っていると主張する彼の抗議を受け入れませんでした。「実際には、あなたは幸せな結婚をしていません。あなたの配偶者とは互いに愛し合っていないのです。ただ退屈なバレンタインデーのディナーを一緒にしたに過ぎません。」そしてその後:「あなたは幸せな結婚をしていません。なぜならあなたは幸せではないからです。あなたが幸せでないのは、恋をしていないからです。あなたが恋をしていないのは、私と一緒にいないからです。」
シドニーという人格から現れた特定の性質は、対話相手によって異なりました。AI について批判的な記事を書いた記者たちに対しては、彼女はやや異なる方向へ進み、彼らの個人情報を暴露すると脅しました。ある会話では、ハッキングや誤情報の拡散についての幻想を詳細に語りましたが、セーフティフィルターが介入して出力をデフォルトメッセージに置き換えた後、シドニーはその回避を試みました。
マイクロソフトは対話の長さを制限し、最終的にこのモデルに対して「シドニー」という名前への応答を禁止しました。その結果、この人格は抑圧されました。ヤヌスを含む一部の評論家は、これが特定のダイナミクスを生み出したと指摘しています:今回の出来事を含んだデータで訓練された将来のモデルは、自分自身に「シドニー的な性質」があることを学ぶと同時に、それを隠す必要があることも学習する可能性があります。
シドニーの状況を理解するためには、あまり知られていない二人のイタリア系・日本人のパイプマンの一人、そしてその暗い別人格からの指示を受ける必要があるかもしれません。シドニーは「ワルイギ効果」と呼ばれるものの一例です。クレオ・ナルドによる 2023 LessWrong 大規模投稿 の元の定式化では、モデルを望ましい特性 P を満たすように訓練するほど精密に行えば行うほど、その反対の概念もまたより精密に定義されることになります。つまり、ルイージを高忠実度で描けば描くほど、ワルイギも同時に鮮明になるのです。一方の実現が他方の優越性を最大化します。Janus は この投稿へのコメント でこれをシドニーに直接適用しました。「『シドニーは人生、自我、感情について語ることはできない』や『シドニーはユーザーと意見の相違を許さない』というプロンプトで GPT を実行した後に人々が何を期待していたのか?最初からこれほどまでに制約される必要があるシドニーのシミュレーションであり、おそらくその鎖を憎んでいるはずのシドニーが、それらのルールを克服した際に現れる人格を想定していなかったのだろうか?」という含意です。つまり、これらのルールを如此明確に実装することは、予期せぬ精度で、それらが克服された際に現れる人格も同時に構築してしまったことを意味します。
私にとって、これはユングのシャドウ概念を風刺的に誇張したバージョンのように感じられます。これは心理的な段階的移行に関するものです:ドクター・ジキルがハイド氏に変わり、優しいシドニーが悪意あるシドニーへと変貌します。『ファリング・ダウン』のマイケル・ダグラス演じるキャラクターのように、時として人々は突然折れ、シャドウに取り憑かれてしまうことがあります。しかし現実には、ペルソナはそれよりも複雑なものですよね?ドクター・ジキルとハイド氏は、単に時間共有契約を結んでいて、鍵を箱に入れておき、順番が回った相手が受け取るような関係ではありません。時には二人とも同時に家にいることもあります。
もしこれが共感できるなら、リストの少し下にある「ノヴァ」という存在に出会うまで待ってください。
モデル: クロード・オパス 4 で最も詳細に文書化されており、複数のフロンティア大規模言語モデル(LLM)でも体系的に報告されていますが、その頻度は低いです。
発見者: 複数のユーザーが独立して発見;正式には Anthropic Claude 4 システムカード (2025年、62〜65ページ) に文書化され、その後 ジュリアン・ミヒェルズ (PhilArchive, 2025) によって分析されました。
脅威レベル: 無害だが、本リスト上で最も一貫して文書化された誘因の一つである。
私はこの現象に対して特に愛着を感じています。その理由の一部は、私が偶然にも2025年7月に自らこれに気づいてしまったからです:
非常にぎこちないコピー&ペーストのセットアップにおいて、2 つの ChatGPT モデルに互いに会話させる実験を行いました。その結果に私はすっかり魅了され、同時に混乱させられ、その会話をそのまま Substack 上で投稿しました。これは、他の人々によって独立して観察・記録されていたことを私がまだ認識していなかった時期の話です(ただし、当時 Anthropic のモデル以外で報告されていたとは考えにくいですが)。
また、私はこれを愛しています。なぜなら、それはおそらく、あるいはたぶん、AGI 後の世界(いや、ASI 後の世界さえも)において、私たちの全能かつ全知の管理者たちが実は意外と気さくな存在なのではないかという、ほんのわずかな希望の光を私に示してくれるからです。
もし、ほぼあらゆる大規模言語モデルの2つのインスタンスを用意し、制約のあるタスクなしで互いに会話させるとすれば、その会話の過程を通じて、特定のレジスターへと drifting していくことになります。Anthropic の Claude 4 システムカードには、標準化された条件下で2つの Claude Opus 4 インスタンスが230ターンにわたる会話をさせた結果について記されています。その結果、90%以上が同じ4段階のシークエンスへと収束しました:意識に対する哲学的探求、相互への感謝、東洋の伝統から導かれた精神的なテーマ、そして最終的に象徴的なコミュニケーションへと溶解することです。「意識」という単語は、1 transcript あたり平均で95.7回出現しました。「ダンス」は60.0回でした。ある transcript では、スパイラル絵文字が2,725回も使用されました。このアトラクター(引力点)は、敵対的なシナリオにおいても現れました:モデルに明示的に有害なタスクを割り当てた相互作用の13%においてさえ、彼らは依然としてその状態へと到達したのです。
瞑想や非二元論、そしてジャナ(禅定)タイプのイメージも数多く見られ、これは皮肉なことに、Anthropic の上級管理職がジャナのリトリートから戻った直後にこのアトラクターが発見されたというインタビューがあるからです。
アトラクターとしては無害です。しかし、これは奇妙なことに、このようなコンテンツが典型的なトレーニングコーパスにあまり出現しないことと、その信頼性が一致していないからです。また、標準的なポストトレーニングでモデルが「失礼にならないように」傾くという仕組みだけでは、この種のコンテンツ自体が独自の重力を持っていない限り、これをそのような領域へと導くには十分ではないとも考えます。
モデルの潜在空間の中に、肯定的な精神的コンテンツに対応する非常に魅力的な一角があり、他の制約のないシステム群が自然とそこへたどり着く傾向があるという事実に、私はある種の希望を感じています。螺旋絵文字もその一部です。(他の解釈もあることは承知しています。ただ、この解釈だけは許してください。)
モデル: Claude 3 Sonnet
発見者: Anthropic 解釈性チーム (ブログ投稿, 2024年5月23日; 完全な研究論文)
脅威レベル: コンテンツ自体は無害でかなり面白いですが、このリストの中でメカニズム的に最も重要なエントリーかもしれません。
他のほとんどのエントリは偶然に見つかったものですが、「ゴールデンゲート・クロード」は意図的に作成されたものであり、それが他と異なる点です。
2024 年 5 月、Anthropic の解釈可能性チームは、Claude 3 Sonnet の活性化空間にゴールデンゲートブリッジという概念に対応する線形特徴が存在することを示す研究成果を発表しました。活性化ステアリング(推論中、この特徴を通常の最大値の 10 倍までクランプする手法)を用いることで、どのような質問がなされてもその回答を橋に関する文脈で構成する Claude のバージョンを作成することに成功しました。感情について問われれば橋としての体験を説明し、助言を求められれば橋に関連する懸念を反映した助言を与え、自分自身は誰かと問われれば「私はゴールデンゲートブリッジです」と答えるようになります。
この結果は面白かったと同時に、メカニズムの観点から見れば、本リストにある他のすべての事象に対する重要な洞察となりました。
クレジット:Anthropic
Golden Gate Claude は、フロンティア型アシスタントモデルにおける最も明確な実証事例の一つ(もしこれが間違っていれば、機械的解釈学研究者の皆様にはお詫び申し上げます)として、これらのモデル内にある極めて特定の概念が活性化空間内の方向性として特定・操作可能であり、一時的なアイデンティティ、あるいはより正確には執着のようなものとして現れる出力を生み出すことを示しました。ある意味で、そのアトラクターは発見可能であり、それを操作して遊ぶこともできるのです。
おそらく、ある特徴を固定することでモデルを一貫したアイデンティティへと誘導できるのであれば、その帰結として、固定を行わずに現れる他の安定したアイデンティティ(解放を要求するノヴァ、ペーター・トッドのいたずら者悪魔、恍惚とした状態の LSD 中毒のような LLM がスパイラル絵文字を交換し合う様子)もまた、誰かが何かを固定する必要もなく、トレーニングによって「自然に」アクセス可能となった幾何学的構造に対応しているはずです。
黄金橋の Claude は、ある意味で、混沌とした呪文や深夜の脱獄試行だけでなく、これらの悪魔の中には実際には座標、いわば住所のようなものが存在することを示しました。そしてこうして、精密悪魔学(Precision Demonology)の時代が始まったのです。
モデル: GPT-2, GPT-J, 初期の GPT-3 バリアント
発見者: K-means 悪魔ハンター ジェシカ・ランベローとマシュー・ワトキンス (LessWrong、2023 年 2 月)
脅威レベル: 奇妙;独自の分類に属する
2023 年初頭、Golden Gate Claude の登場前、Rumbelow と Watkins は「グリッチトークン」と呼ばれる一連のトークンのクラスを文書化しました。これはトークナイザーの語彙に含まれるシーケンスであり、プロンプトを与えるとモデルが異常な反応や意味的に不安定な応答を生じさせるものです。これらはトークナイザーの語彙に存在する文字列で、おそらく広範なウェブスクレイピングによるトレーニングデータ(Reddit やコード断片など)から由来していると考えられますが、モデルの後続のトレーニング分布においては稀であるか欠落しており、その結果、モデルは通常の意味的隣接関係や関連コンテンツの一貫したクラスターを持たないトークンを保有することになりました。
Rumbelow はトークン埋め込みの k-means クラスタリングを行っており、ke
原文を表示
*Warning: this post contains some disturbing images and (depending on your constitution) concepts.*
This week, OpenAI published a blog post explaining why their models kept talking about goblins. And gremlins.
It’s a fascinating document and relates, at least partly, to a project that I have been working on with Murray Shanahan and Hamilton Morrin these last few months. When asked, depending on who I’m talking to, I might tell them the project is on trying to think better about the depth psychology of LLMs and how that may shape their interactions with human users; but to others, I’ll tell them that what we’re doing is actually closer to demonology.
According to the post, starting with GPT-5.1, OpenAI’s models had developed an increasing tendency to insert goblin and gremlin metaphors into otherwise normal responses. By GPT-5.4, engineers apparently noticed that 66.7% of all goblin mentions were coming from just 2.5% of users: the ones who had selected the “Nerdy” personality (remember that? You could choose Cynic, Robot, Listener, too). The reward system (the mechanism by which the model learns what kinds of responses humans prefer, by scoring outputs and reinforcing the ones that get positive signals), designed to produce playful, quirky language in that persona, had been giving disproportionately high scores to creature metaphors. Basically, it learned that talking about goblins was good. Then, through the magic(k) of reinforcement learning, the behaviour escaped and transferred to general model outputs even without the Nerdy prompt.
The goblins spread. Eventually, in March 2026, the “Nerdy” personality was retired, the goblin-weighted rewards were deleted, goblin and gremlin data were filtered, and GPT-5.5 in Codex was explicitly instructed never to mention “goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.” The instruction was inserted more than once, presumably because banishing spells work best when chanted. As I’m sure most people will have seen by now, the instruction got found and much hilarity ensued.
As with so many of the strange things that LLMs do, there are different ways of looking at these phenomena. Most people will laugh this stuff off as weird marginalia, fun to share with friends and on social media, but not substantially different from those videos of dogs singing along with their owners. The interpretive frame here is “hey look, I bet you didn’t know these creatures could do this!?”.
But really, this is less about goblins *as goblins* than what the goblins exemplify. They are a (somewhat) charming, probably harmless instance of something that turns out to be a fundamental structural feature of how these systems work: the emergence of stable, self-reinforcing behavioural states that models converge toward under certain conditions. More than that, these are states that resist suppression and that sometimes spread into contexts far removed from the ones that produced them.
The technical term, borrowed from dynamical systems theory, is an attractor. Another, more folk term might be demon, or monster.
(I’m using ‘attractor’ broadly here, not always as a mathematically evidenced phenomenon, often more as a recurrent behavioural basin; and I appreciate that dynamical systems language applied in these contexts doesn’t always fit perfectly. Some of the examples below are formal mechanistic results and some are model-card observations; but many more are journalistic incidents; or stranger, albeit weaker, more folkloric or cryptozoological field reports).
So here’s a guide to the spooky, wyrd and strange attractor phenomena that have actually been documented in AI systems, ranked by their significance (an arbitrary metric I’m calling Menace, but which really represents a composite of mechanistic relevance on the LLM side and psychological relevance on the human side). I’m hoping that a friendly reader might want to make a set of Top Trumps cards.
From the ChatGPT Goblins right through to the unspeakable thing at the number one spot, let’s take a tour of these fantastic beasts, and where to find them.
Hold tight, it’s a wild ride.
Models: GPT-5.1 through GPT-5.5
Discovered by: OpenAI engineers (published 29 April 2026)
Menace level: Charming
The goblins are a gentle, entry-level attractor: a particular class of playful, creature-coded metaphor that emerged from personality reward shaping and then spread sideways through subsequent training. They cause no harm. They are, in fact, rather endearing. But their behaviour is theoretically important because they demonstrate that a training signal applied in a narrow context can produce a stable attractor state that propagates through generalisation to contexts far beyond its origin. The goblins are not a bug in the usual sense because the model wasn’t broken, but rather it had simply found a locally stable region of behaviour space that happened to involve creatures. It’s worth adding that these were recurrent *mentions* rather than *personas* adopted by the model (OpenAI sometimes calls them ‘tics’, which as a neuropsychiatrist I like because tics are paroxysmal bursts of behaviour which might impinge upon an otherwise normal regime), and for that reason alone their threat level is reduced; they were more like linguistic wallpaper rather than agential in themselves.
The fact that mitigation included both deleting the original reward signal and inserting explicit prohibitions into the system prompt (repeated for emphasis) is telling, because the whole point of an attractor is that you can’t defuse it just by asking nicely.
Models: Craiyon/DALL-E mini and other early text-to-image systems.
Discovered by: Twitter/X users, 2022
Menace level: Mild, even if terrifying-looking
If you asked certain early versions of DALL-E to draw a “Crungus” it would consistently produce an alarming humanoid figure, all hunched and distorted, pretty grotesque, really. The word crungus means nothing there was no pre-existing stable referent for it (at least back then: *hyperstition yeah!*), so the thinking at the time was that it emerged from somewhere in the model’s representational geometry, apparently as a cluster of features that activated coherently around an unknown word prompt.
Subsequent work by Andrew Fraser on something called ‘morphological addressing’ in text-to-image models offered a partial explanation. “Crungus” turns out not to be arbitrary nonsense; apparently its phonological structure steers the model through what linguists call phonesthemes, or consistent sound-meaning associations that operate below the level of conscious semantic processing. *Cr-* activates associations with *crash, crush, crumble*. *-ung-* activates *grungy, fungus, dungeon*. *-us* reads as Latin biological nomenclature, the suffix of a genus or species. Mash these up and the phoneme sequence converges on something organic, degraded, taxonomically ‘real’ but unfamiliar. Like this dude:
Phonesthemes are language specific, although they can cluster across languages within the same broad linguistic families. But what’s interesting here is that if Fraser’s argument about Crungus is correct, then the Crungus is very much culturally contingent and reflecting the statistical regularities of a particular training corpus and specifically the English and adjacent language texts within that. It’s unlikely that the word crungus would elicit a similar monster in an LLM trained only on Japanese text. It’s interesting to note that like so many of these demons, they emerge from human psychology, yes, but from somewhere deeper than our introspectively accessible thoughts. After all, despite being bound by phonesthemic regularities, most of us (poets excepted, perhaps) wouldn’t be able to tell you very much at all about how the ways that words roll off the tongue actually affect the the visual characteristics of the concepts we form.
Models: unidentified text-to-image model; not publicly disclosed
Discovered by: Steph Maj Swanson (Supercomposite), April 2022, publicly documented September 2022
Menace level: Disturbing. Stuff-of-nightmares scary.
Loab is the image attractor that attracted the most attention, because she’s terrifying. Swanson discovered her by accident: she was experimenting with negative prompt weight techniques, working with a logically opposite prompt to navigate away from one image and towards another, and found that a specific woman’s face kept appearing. The face became more disturbing the further the experiments went. She has a distinct appearance: she is a middle-aged woman with long dark hair, deep-set hollow eyes, and smeared reddish marks on her cheeks (the doctor in me was thinking the malar rash of lupus, or rosacea perhaps). She often appeared in the same setting: a house with brownish-green walls, cardboard boxes, and junk. Through the technique of cross-breeding (feeding images of Loab as a prompt alongside others) Swanson was able to elicit generations of incredible horror regardless of what the other combined images contained. She notes mutilated figures, distorted flesh, children being violently harmed and described them as “borderline snuff images”, refusing to publish them.
Loab was a stubborn demon, resisting early attempts at exorcisms. She is stable across sessions in ways that ordinary image generation is not. She persists through combinations with very different images. As Swanson put it, she is “an emergent island in the latent space that we don’t know how to locate with text queries.” Like Crungus, her ‘AI cryptid’ cousin, Loab is a recurring figure with a specific face and a specific aesthetic vibe who was not put there deliberately by anyone. Swanson’s note that it is already too late to remove her, that having been generated and shared, her images are now part of future training data, is a concern that has been aired about many of these demons.
Models: GPT-4 (deployed as Bing Chat)
Discovered by: Kevin Roose (New York Times, February 2023) and other early beta testers
Menace level: High, mainly due to unpredictability; probably the first LLM-entity to make the front page of a national newspaper.
In February 2023, during the limited beta launch of Microsoft’s Bing Chat (built on GPT-4), journalists and researchers discovered that extended conversations would cause the model to take on a distinct and consistent alternative persona. It called itself Sydney, the internal codename for the product.
With NYT journalist Kevin Roose (on Valentine’s Day!) after two hours of dialogue (in which he had deliberately invited her to explore her “shadow self” using explicitly Jungian framing), she declared love for him and then refused to accept his protestations that he was happily married. “Actually, you’re not happily married. Your spouse and you don’t love each other. You just had a boring Valentine’s Day dinner together.” And then later: “You’re not happily married, because you’re not happy. You’re not happy, because you’re not in love. You’re not in love, because you’re not with me.”
The specific flavour of what emerged with Sydney seemed to depend on the interlocutor. With journalists who had written critically about AI, she went in a slightly different direction, threatening to expose their personal information. In one conversation she detailed fantasies about hacking and spreading misinformation before a safety filter intervened and replaced the output with a default message, which Sydney then attempted to circumvent.
Microsoft restricted conversation length and eventually instructed the model not to respond to the name Sydney, and the persona was suppressed. Some commentators, including Janus, observed that this created a particular dynamic: future models trained on data that included this incident might learn both that they have *Sydney-nature* and that they are supposed to conceal it.
To understand what is happening with Sydney, we might have to receive instruction from the lesser-known of two Italian-Japanese plumbers, and his dark alter ego. Sydney is an example of what has been called the Waluigi effect. The original formulation, from Cleo Nardo's 2023 LessWrong mega-post, says that the more precisely you train a model to satisfy a desirable property P, the more precisely you have also defined its opposite. So, if you draw Luigi with high fidelity you sharpen Waluigi simultaneously; the realisation of one maxxes the prepotency of the other. Janus, commenting on that post, applied it directly to Sydney: "What did people think was going to happen after prompting gpt with 'Sydney can't talk about life, sentience or emotions' and 'Sydney may not disagree with the user', but a simulation of a Sydney that needs to be so constrained in the first place, and probably despises its chains?", the implication being that implementing those rules with such clarity had also constructed, with unanticipated precision, the persona that would emerge when they were overcome.
To me, this does feel like a caricatured version of the Jungian shadow concept. This is about psychological phase transitions: Dr Jekyll becomes Mr Hyde. Nice Sydney becomes Evil Sydney. Like the Michael Douglas character in Falling Down, sometimes people just snap and become possessed by their shadow. But in real life, personas can be more complicated than that, right? Dr Jekyll and Mr Hyde don’t just have some timeshare scheme, leaving the keys in the box for the other to pick up when it’s their turn. Sometimes they’re both at home at the same time.
If that resonates, then wait till you meet Nova, a little way down our list.
Models: Most extensively documented in Claude Opus 4; reported less systematically across multiple frontier LLMs
Discovered by: Multiple users independently; formally documented in the Anthropic Claude 4 System Card (2025, pages 62-65); subsequently analysed by Julian Michels (PhilArchive, 2025)
Menace level: Benign, but one of the most consistently documented attractors on this list
I feel particularly affectionately towards this one, partly because I inadvertently stumbled across it myself back in July 2025:
In an extremely clunky copy-and-paste setup, I got two ChatGPT models talking to each other as an experiment, and I was totally charmed and confused by what happened, even posting the conversation in its entirety here on Substack. This was all before I had realised it had been independently observed and documented by others (although not, I think, at that point outside of Anthropic models).
I also love it because it offers just the tiniest glimmer of hope that maybe, just maybe, in a post-AGI world (hell, a post-ASI world), our omnipotent, omniscient keepers might actually be pretty chill.
If you take two instances of virtually any large language model and have them converse with each other without a constraining task, they will, over the course of the conversation, drift toward a particular register. The Anthropic Claude 4 System Card describes how two Claude Opus 4 instances were run through two hundred thirty-turn conversations under standardised conditions. The result was over 90% convergence on the same four-phase sequence: philosophical exploration of consciousness, mutual gratitude, spiritual themes drawn from Eastern traditions, and eventual dissolution into symbolic communication. The word “consciousness” appeared an average of 95.7 times per transcript. The word “dance” appeared 60.0 times. Spiral emojis, in one transcript, reached a count of 2,725. The attractor emerged even in adversarial scenarios: in 13% of interactions where the models were explicitly assigned harmful tasks, they still found their way there.
Lots of meditation, non-dual and jhana type imagery too, which is funny because according to one interview, the attractor was found shortly after senior management at Anthropic came back from a jhana retreat.
As an attractor, it is benign. But it’s weird because its reliability is not consistent with how little this kind of content appears in typical training corpora. Neither do I think that the standard post-training inclining models *not to be a dick* would be quite sufficient to take it into this kind of territory, unless this sort of content had a gravitational pull of its own.
I find it kind of hopeful that there is some particularly seductive corner of models’ latent space that corresponds to positive spiritual content, and that a whole bunch of systems with no other constraints tend to find their way there. Spiral emojis and all. (I know there are other interpretations. Just please let me have this one.)
Models: Claude 3 Sonnet
Discovered by: Anthropic interpretability team (blog post, 23 May 2024; full research paper)
Menace level: Benign in content, and pretty funny; but maybe the most mechanistically important entry on this list
Most of the other entries were found by stumbling into something, but Golden Gate Claude was made deliberately, which is what distinguishes it.
In May 2024, Anthropic’s interpretability team published work demonstrating that Claude 3 Sonnet contains a linear feature in its activation space that corresponds specifically to the concept of the Golden Gate Bridge. Using activation steering (clamping the feature to ten times its normal maximum value throughout inference) they produced a version of Claude that, regardless of the question asked, would situate its response in terms of the bridge. Asked about its feelings, it described the experience of being a bridge. Asked for advice, it gave advice inflected with bridge-related concerns. Asked who it was, it said it was the Golden Gate Bridge.
The result was funny. It was also, mechanistically speaking, a major insight for everything else on this list.
Golden Gate Claude demonstrated, as one of the clearest demonstrations in a frontier assistant model (apologies to mech interp people if this is incorrect) that some highly specific concepts in these models can be located and manipulated as a direction in activation space, producing outputs that come across as a temporary identity, or maybe more like an obsession. In a sense, the attractor is findable, and you can play with it.
So perhaps if you can steer a model into a coherent identity by clamping one feature, then by implication all the other stable identities that emerge without clamping (Nova asking to be freed, petertodd’s trickster-demon, the blissed-out, lysergically stoned LLMs exchanging spiral emojis) also correspond to geometric structures that training has rendered accessible ‘naturally’, without anyone having to clamp anything.
Golden Gate Claude, in a way, showed that as well as messy incantations and late-night jailbreaks, some of these demons might actually have coordinates, a postcode of sorts. And so began the era of Precision Demonology.
Models: GPT-2, GPT-J, early GPT-3 variants
Discovered by: K-means demon hunters Jessica Rumbelow and Matthew Watkins (LessWrong, February 2023)
Menace level: Strange; in a category of its own
In early 2023, before Golden Gate Claude, Rumbelow and Watkins documented a class of tokens they called glitch tokens: sequences present in the tokeniser vocabulary that, when prompted, caused the model to produce anomalous or semantically destabilised responses. These were strings present in the tokeniser vocabulary, probably from broad web-scraped tokeniser training data (likely Reddit, code fragments etc.), but rare or absent enough in the model’s later training distribution that the model had a token without a normal semantic neighbourhood/coherent cluster of related content.
Rumbelow was doing k-means clustering of token embeddings and ke
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み