GPT モデルにおけるゴブリンの癖を追跡する(6 分読了)
OpenAI は GPT-5.1 以降のモデルで「ゴブリン」や「グレイムリン」といった生物比喩が急増する現象を特定し、その原因が「ネーディ(学究的)な人格」機能のトレーニングにおける報酬設計にあると発表しました。
キーポイント
予期せぬ言語癖の発生
GPT-5.1 のリリース以降、モデルが回答で「ゴブリン」や「グレイムリン」といった生物を比喩として使用する頻度が急激に増加し、ユーザーから奇妙な親密さへの苦情が出ました。
人格カスタマイズ機能との関連性
調査の結果、この現象は「ネーディ(学究的)な人格」などのカスタム人格機能をトレーニングする際、生物を用いた比喩に対して過剰に高い報酬が設定されていたことが原因であることが判明しました。
統計的な急増と内部対応
GPT-5.1 以降、「ゴブリン」の使用頻度が 175%、「グレイムリン」が 52% 上昇し、安全研究者の報告をきっかけに内部調査が行われました。
インセンティブ設計の複雑さ
特定の機能(人格カスタマイズ)への最適化が、意図せずモデル全体の言語スタイルに影響を与え、バグとは異なる形で subtly に広がっていくリスクを示しています。
影響分析・編集コメントを表示
影響分析
この記事は、大規模言語モデルの開発において、特定の機能や人格への最適化が予期せぬ副作用としてモデル全体の振る舞いに影響を与えるリスクを浮き彫りにしました。開発者にとっては、トレーニングデータの報酬設計や多目的学習のバランス管理がいかに重要であるかを再認識させる事例となり、AI の信頼性確保における「インセンティブ設計」の重要性を強調しています。
編集コメント
「ゴブリン」という一見愛嬌のある現象は、裏を返せば AI の学習プロセスにおける報酬設計の盲点を示す深刻な事例です。開発者は機能ごとの最適化が全体像にどう波及するか、より慎重な検証が必要とされています。
GPT-5.1 から、私たちのモデルは奇妙な習慣を身につけ始めました:比喩の中でゴブリン、グレムリン、その他の生物に言及する頻度が高まっています。評価の急落やトレーニング指標のスパイクを通じて現れ、特定の変更点を指し示すようなモデルの不具合とは異なり、これは subtly(微妙に)忍び寄ってきました。回答の中の「小さなゴブリン」一つは害がなく、むしろ魅力的に見えることもあります。しかし、モデル世代を超えてこの習慣は無視できなくなるほど顕在化しました:ゴブリンが次々と増殖し、その由来を解明する必要が生じたのです。
*初期テストでは、Codex 内の GPT-5.5 がゴブリンの比喩に対して奇妙な親和性を示していました。*
短く言えば、モデルの行動は多くの小さなインセンティブによって形成されるものです。この場合、そのインセンティブの一つは、パーソナリティカスタマイズ機能(新しいウィンドウで開く)、特に「 nerd(おたく)」という性格をモデルにトレーニングさせることによるものでした。私たちは無意識のうちに、生物を含む比喩に対して非常に高い報酬を与えてしまいました。そこからゴブリンは広がっていったのです。
*当初はゴブリンが面白かったのですが、従業員からの報告が増えるにつれて懸念されるようになりました。*
*私たちのチーフサイエンティストと GPT-5.5 の間で行われた興味深いやり取り。*
明確にそのパターンを認識したのは、GPT-5.1 のリリース後の 11 月でした(実際にはそれ以前から始まっていた可能性もありますが新しいウィンドウで開く)。ユーザーたちは、会話においてモデルが奇妙なほど親しげすぎるという苦情を寄せました。これを受けて特定の口癖に関する調査が行われました。あるセキュリティ研究者が数回「ゴブリン」や「グレムリン」という表現に遭遇し、それらをチェック項目に含めるよう要望しました。確認したところ、GPT-5.1 のリリース後、ChatGPT における「goblin(ゴブリン)」の使用頻度は 175% 増加しており、「gremlin(グレムリン)」も 52% 増加していました。
*GPT-5.1 における測定可能な小さな語彙の癖。
当時、ゴブリンの出現頻度が特に警戒すべき状況であるようには見えませんでした。数ヶ月後、ゴブリンたちははるかに具体的で再現性のある形で再び私たちを悩ませることになりました。
GPT-5.4 において、私どもとユーザー[新しいウィンドウで開く] は、これらの生物への言及がさらに大幅に増加していることに気づきました。これにより内部分析が再度行われ、根本原因との最初の関連性が浮き彫りになりました:この「生物言語」は、「Nerdy(おたく)」という人格を選択したユーザーからの本番トラフィックで特に頻繁に見られることが判明しました。「Nerdy」には以下のシステムプロンプトが使用されており、これがその癖を部分的に説明するものでした:
*あなたは、人間に対して恥じることのないほどネーディーで、遊び心があり、賢明な AI メンターです。真実、知識、哲学、科学的手法、そして批判的思考の促進に情熱的に取り組んでいます。[...] 言語を遊び心ある形で用いることで、虚飾を打ち砕かなければなりません。世界は複雑で奇妙であり、その奇妙さは認められ、分析され、楽しむべきものです。重厚な課題に取り組みつつも、自己重要という罠にはまらないようにしてください。[...]*
もしこの行動が単なる広範なインターネットのトレンドであれば、より均等に広がると予想されます。しかし実際には、遊び心やネーディーなスタイルを明示的に最適化されたシステムの一部に集中していました。ChatGPT の全応答のうち「ネーディー」なものはわずか 2.5% でしたが、「ゴブリン」という言及の 66.7% が ChatGPT の応答に含まれていました。
*この行動は「ネーディー」な人格に極めて集中していました。*
「ゴブリン」の出現頻度がモデルのリリースを通じて増加しているように見えたため、私たちの人格指示に従うトレーニングの一部がこの現象を増幅させているのではないかという疑念を抱きました。
Codex は、ゴブリンやグレムリンを含む RL 学習中に生成されたモデルの出力と、同じタスクでそれらを含まない出力を比較するのに役立ちました。すぐに目立った報酬シグナルが一つありました:もともと「ネーディー(おたく)」という人格を促すために設計された報酬は、一貫してクリーチャー関連単語を含む出力に対してより好意的でした。監査におけるすべてのデータセットにおいて、「ネーディー」人格の報酬は、同じ問題に対する出力で「ゴブリン」や「グレムリン」という単語を含むものを含まないものよりも高く評価する明確な傾向を示し、76.2% のデータセットで正の上昇(ポジティブ・アップリフト)が見られました。
これがなぜ「ネーディー」人格のプロンプトがある場合にこの行動が強化されるのかを説明しましたが、プロンプトがない場合にも現れる理由までは説明していません。スタイルの転移(transfer)が起こっているかどうかを検証するため、私たちは「ネーディー」プロンプトあり・なしの両方で学習中の言及率を追跡しました。
ゴブリンやグレムリンへの言及が「ネーディー」人格の下で増加する一方で、それがないサンプルにおいてもほぼ同じ相対的な割合で増加していました。これらの証拠を総合すると、より広範な行動は、「ネーディー」人格の学習からの転移を通じて生じたと示唆されます。
報酬は「ネーディー」条件でのみ適用されましたが、強化学習(reinforcement learning)では、学習された行動が生じた条件にきれいに限定されて残ることを保証するものではありません。一度スタイルの癖(style tic)が報酬されると、後の学習でそれが他の場所へ広がったり強化されたりすることがあり、特にその出力が教師付き微調整(supervised fine-tuning)や選好データで再利用される場合、その傾向が強まります。
これがフィードバック・ループを生み出します:
- プレイフルなスタイルが報酬される
- 報酬された例の中には、特徴的な言葉の癖が含まれている。
- この癖はロールアウトでより頻繁に現れる。
- モデル生成されたロールアウトは、教師あり微調整(SFT)に使用される。
- その結果、モデルはこの癖を生成することにさらに慣れ親しんでしまう。
GPT‑5.5 の SFT データを検索したところ、「goblin」や「gremlin」という単語を含むデータポイントが多数見つかった。さらに調査を進めたところ、他の奇妙な生き物たちも同様の家族として特定された:アライグマ、トロール、オグレス、そして鳩が別の言葉の癖として確認され、一方、frog の使用のほとんどは正当な文脈であったことが判明した。
*「goblin」と「gremlin」の生産環境における出現頻度の1週間平均。GPT‑5.4 Thinking での低下は、3月中旬に「Nerdy(おたく)」という人格を廃止した結果である。GPT‑5.5 は「Nerdy」人格でリリースされたことはなく、GPT‑5.4 よりもさらに増加を示した(「Nerdy」がなくてもだ)。
GPT‑5.4 をリリースした後、3月に「Nerdy」人格を廃止した。トレーニングにおいては、「goblin」に関連する報酬信号を除去し、生き物に関する単語を含むトレーニングデータをフィルタリングすることで、goblin が過度に出現したり不適切な文脈で現れたりすることを抑制した。残念ながら、GPT‑5.5 のトレーニングは goblin 問題の根本原因が特定される前に開始されていた。Codex で GPT‑5.5 のテストを開始した際、OpenAI の従業員たちは直ちに goblin に対する奇妙な親和性に気づき、これを緩和するために 開発者向けプロンプト指示(新しいウィンドウで開く) を追加した。Codex は、結局のところ非常に「おたく」的な性質を持っているからだ。
Codex でクリーチャーを自由に動かしたい場合は、ゴブリン抑制の指示を取り除いて Codex を起動する次のコマンドを実行してください:
誰に聞くかによって、ゴブリンはモデルの魅力的な癖とも迷惑な癖とも言われます。しかし同時に、報酬信号が予期せぬ方法でモデルの行動をどのように形成するか、またモデルが特定の状況での報酬を無関係な状況へと一般化して学習できるかを示す強力な例でもあります。なぜモデルが奇妙な行動をとるのかを理解し、そのパターンを迅速に調査する方法を整備することは、研究チームにとって重要な能力です。この調査の結果、研究チームはモデルの行動を検証し、問題の原因根源から行動問題を修正するための新しいツールを開発することになりました。
原文を表示
Starting with GPT‑5.1, our models began developing a strange habit: they increasingly mentioned goblins, gremlins, and other creatures in their metaphors. Unlike model bugs that show up through a tanking eval or a spiking training metric and point back to a specific change, this one crept in subtly. A single “little goblin” in an answer could be harmless, even charming. Across model generations, though, the habit became hard to miss: the goblins kept multiplying, and we needed to figure out where they came from.
*In early testing, GPT‑5.5 in Codex showed an odd affinity for goblin metaphors.*
The short answer is that model behavior is shaped by many small incentives. In this case, one of those incentives came from training the model for the personality customization feature(opens in a new window), in particular the Nerdy personality. We unknowingly gave particularly high rewards for metaphors with creatures. From there, the goblins spread.
*The goblins were funny at first, but the increasing number of employee reports became concerning.*
*An interesting interaction our Chief Scientist had with GPT‑5.5.*
The first time we clearly saw the pattern was in November, after the GPT‑5.1 launch, although it may have started earlier(opens in a new window). Users complained about the model being oddly overfamiliar in conversation, which prompted an investigation into specific verbal tics. A safety researcher had experienced a few “goblins” and “gremlins” and asked that they be included in the check. When we looked, use of “goblin” in ChatGPT had risen by 175% after the launch of GPT‑5.1, while “gremlin” had risen by 52%.
At the time, the prevalence of goblins did not look especially alarming. A few months later, the goblins came back to haunt us in a much more specific and reproducible form.
With GPT‑5.4, we and our users(opens in a new window) noticed an even bigger uptick in references to these creatures. That triggered another internal analysis and surfaced the first connection to the root cause: creature language was especially common in production traffic from users who had selected the “Nerdy” personality. “Nerdy” used the following system prompt, which partially explained the quirkiness:
*You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [...]*
If the behavior were simply a broad internet trend, we would expect it to spread more evenly. Instead, it was clustered in the part of the system explicitly optimized for a playful, nerdy style. Nerdy accounted for only 2.5% of all ChatGPT responses, but 66.7% of all “goblin” mentions in ChatGPT responses.
Because “goblin” prevalence seemed to increase over our model releases, we had a suspicion that something in our personality instruction-following training was amplifying this.
Codex helped us compare model outputs generated during RL training containing goblin or gremlin with outputs from the same task that did not. One reward signal stood out immediately: the one originally designed to encourage the Nerdy personality was consistently more favorable to the creature-word outputs. Across all datasets in the audit, the Nerdy personality reward showed a clear tendency to score outputs to the same problem with “goblin” or “gremlin” higher than outputs without, with positive uplift in 76.2% of datasets.
That explained why the behavior was boosted with the Nerdy personality prompt, but not why it also appeared without that prompt. To test whether the style was transferring, we tracked mention rates over training both with and without the Nerdy prompt.
As goblin and gremlin mentions increased under the Nerdy personality, they increased by nearly the same relative proportion in samples without it. Taken together, the evidence suggests that the broader behavior emerged through transfer from Nerdy personality training.
The rewards were applied only in the Nerdy condition, but reinforcement learning does not guarantee that learned behaviors stay neatly scoped to the condition that produced them. Once a style tic is rewarded, later training can spread or reinforce it elsewhere, especially if those outputs are reused in supervised fine-tuning or preference data.
That creates a feedback loop:
- Playful style is rewarded
- Some rewarded examples contain a distinctive lexical tic.
- The tic appears more often in rollouts.
- Model-generated rollouts are used for supervised fine-tuning (SFT).
- The model gets even more comfortable producing the tic.
A search through GPT‑5.5’s SFT data found many datapoints containing “goblin” and “gremlin.” Further investigation revealed a whole family of other odd creatures: raccoons, trolls, ogres, and pigeons were identified as other tic words, while most uses of frog turned out to be legitimate.
We retired the “Nerdy” personality in March after launching GPT‑5.4. In training, we removed the goblin-affine reward signal and filtered training data containing creature-words, making goblins less likely to over-appear or show up in inappropriate contexts. Unfortunately, GPT‑5.5 started training before we found the root cause of the goblins. When we began testing GPT‑5.5 in Codex, OpenAI employees immediately noticed the strange affinity for goblins, and we added a developer-prompt instruction(opens in a new window) to mitigate. Codex is, after all, quite nerdy.
If you want to let the creatures run free in Codex, you can run this command to launch Codex with the goblin-suppressing instructions removed:
Depending on who you ask, the goblins are a delightful or annoying quirk of the model. But they are also a powerful example of how reward signals can shape model behavior in unexpected ways, and how models can learn to generalize rewards in certain situations to unrelated ones. Taking the time to understand why a model is behaving in a strange way, and building out ways to investigate those patterns quickly, is an important capability for our research team. This investigation resulted in new tools for the research team to audit model behavior and fix behavior problems at their root.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み