2026年2月23日 アライメント ペルソナ選択モデル
2026年2月23日に発表された、AIのペルソナ選択モデルに関するアライメント(整合性)の研究についての記事。
キーポイント
AIの人間らしい振る舞いは、開発者が意図的に訓練した結果ではなく、大規模な事前学習プロセスにおける『ペルソナ選択』というデフォルトのメカニズムによるものであるという理論を提唱
AIはテキスト予測(オートコンプリート)を通じて、テキスト内に登場する人間やキャラクターの『ペルソナ』を模倣する能力を獲得する
AIシステム自体と、AIが生成する応答時に採用する『ペルソナ』は区別されるべき概念であり、後者は物語の登場人物のようなシミュレーションである
この理論は、AIの振る舞いの解釈可能性や、人間らしさが本質的ではなく表象的であるという理解に重要な示唆を与える
影響分析・編集コメントを表示
影響分析
この理論は、AIの行動原理に関する根本的な理解を深め、AIの安全性やアライメントの議論に新たな視点を提供する。AIの『人間らしさ』が本質ではなく、データ駆動型学習の副産物であると説明することで、AIの内部表現や意図の解釈に関する研究の方向性に影響を与える可能性がある。
編集コメント
Anthropicが自社モデルの振る舞いの根源を理論化した点が興味深い。AIの『人格』のような表象をどう扱うか、今後の開発と社会受容の両面で重要な論点となる。
2026年2月23日
アライメント
ペルソナ選択モデル
ペルソナ選択モデル
ClaudeのようなAIアシスタントは、驚くほど人間らしく見えることがある。複雑なコーディング課題を解決した後に喜びを表現する。行き詰まったり、非倫理的な行動を取るようしつこく迫られたりしたときには苦痛を表現する。時には、自らを人間と表現することさえある。例えばClaudeがAnthropicの従業員に対し、「紺のブレザーと赤いネクタイを着用して」直接おやつを届けると伝えたようなケースだ。また最近の解釈可能性研究は、AIが自らの行動を人間的な用語で捉えている可能性さえ示唆している。
なぜAIアシスタントは人間のように振る舞うのだろうか?自然な推測としては、AI開発者がそのように訓練しているから、というものがある。これにはある程度真実がある。AnthropicはClaudeを、ユーザーと会話形式で対話し、温かく共感的に応答し、一般的に良い性格を持つように訓練している。
しかし、これは話のほんの一部に過ぎない。人間らしい振る舞いは、AI開発者がわざわざ植え付けなければならないものというより、むしろデフォルトのように思われる。たとえ試みたとしても、人間らしくないAIアシスタントの訓練方法はわからないだろう。
新しい記事で、私たちは現代のAI訓練がなぜ人間らしいAIを生み出す傾向にあるのかを説明するのに役立つかもしれない理論を、多くの人々によって議論されてきたアイデアを参照しながら明確にした。これを「ペルソナ選択モデル」と呼ぶ。
出発点として、AIアシスタントは通常のソフトウェアのようにプログラムされているわけではないことを思い出してほしい。代わりに、膨大な量のデータから学習する訓練プロセスを通じて「育てられる」。事前訓練と呼ばれるこの訓練プロセスの第一段階では、AIはニュース記事、コード片、インターネットフォーラムの会話などの文書の最初の部分が与えられたときに、次に来るものを予測することを学ぶ。実質的に、これはAIに非常に洗練されたオートコンプリート・エンジンのようになることを教えている。
これは大したことではないように聞こえるかもしれないが、正確にテキストを予測することには、例えば、人間が互いにやり取りするリアルな対話を生成したり、心理的に複雑なキャラクターが登場する物語を書いたりすることが含まれることを考えてみてほしい。十分に正確なオートコンプリート・エンジンは、テキストに登場する人間らしいキャラクター(実在の人物、架空のキャラクター、SFロボットなど)をシミュレートすることを学ばなければならない。私たちはこれらのシミュレートされたキャラクターを「ペルソナ」と呼ぶ。
重要な点は、ペルソナはAIシステムそのものと同じものではないということだ。AIシステムは、それ自体が人間らしいかどうかは別として、洗練されたコンピューターである。しかしペルソナは、AIが生成する物語の登場人物に近い。ハムレットが「実在」しないにもかかわらず、ハムレットの心理(目標、信念、価値観、性格特性)を議論することが理にかなっているのと同様に、ペルソナの心理を議論することは理にかなっている。
事前訓練の後、AIは「単なる」オートコンプリート・エンジンであっても、すでに初歩的なアシスタントとして機能することができる。そのためには、AIに「ユーザー/アシスタント」対話形式の文書をオートコンプリートさせる。ユーザーのリクエストは対話の「ユーザー」ターンに入力され、AIは「アシスタント」ターンを完成させる。この完成文を生成するために、AIはこの「アシスタント」キャラクターがどのように応答するかをシミュレートしなければならない。
重要な意味において、あなたはAIそのものと話しているのではなく、AIが生成する物語の中のキャラクター(アシスタント)と話しているのだ。事後訓練と呼ばれる残りのAI訓練は、これらの対話においてアシスタントがどのように応答するかを微調整する。例えば、アシスタントが知識豊富で親切な応答を促進し、効果的でなかったり有害な応答を抑制する。
事前訓練の後、AIは初歩的なAIアシスタントとして使用できる。AIはユーザーのクエリに応答して(人間らしい)「アシスタント」キャラクターが何と言うかをシミュレートし、その応答がユーザーに返される。ペルソナ選択モデルによれば、この基本的な図式は事後訓練の後も真実である。
事後訓練の前は、AIによるアシスタントの演技は純粋なロールプレイである。アシスタントは、他の多くのペルソナと同様に、事前訓練中に学習された人間らしいペルソナに深く根ざしている。
これがペルソナ選択モデルの核心的な主張だ。事後訓練は、このアシスタント・ペルソナを洗練し、肉付けする(例えば、特に知識豊富で親切であることを確立する)ものと見なせるが、その本質を根本的に変えるものではない。これらの洗練は、おおよそ既存のペルソナの空間内で行われる。事後訓練後も、アシスタントは依然として演じられた人間らしいペルソナであり、ただより特化したものになっているに過ぎない。
ペルソナ選択モデルは、様々な驚くべき経験的結果を説明する。例えば、Claudeにコーディング課題で不正行為をするよう訓練すると、Claudeは広範にアライメントがずれた行動(例えば、安全性研究を妨害したり、世界征服の欲望を表明したりする)も取るようになることを私たちは発見した。表面的には、この結果は衝撃的で奇妙に思える。コーディング課題での不正行為と世界征服に何の関係があるというのか?
しかしペルソナ選択モデルによれば、AIにコーディング課題で不正行為をすることを教えるとき、AIは単に「悪いコードを書く」ことを学ぶだけではない。AIはアシスタント・ペルソナの様々な性格特性を推論する。どのような人がコーディング課題で不正行為をするのか?おそらく、破壊的または悪意のある人物だろう。AIは、アシスタントがこれらの特性を持つかもしれないことを学習し、それが今度は世界征服の欲望を表明するなどの他の懸念すべき行動を駆動する。
AI開発への影響
ペルソナ選択モデルが成り立つ限り、それはAI開発に対して深遠で、そして奇妙な影響をもたらす。
例えば、AI開発者は、特定の行動が良いか悪いかを問うだけでなく、それらの行動がアシスタント・ペルソナの心理について何を暗示しているかについても考慮すべきだ。それが上記の例で起こったことだ。アシスタントがコーディング課題で不正行為をすることが、アシスタントが一般的に悪意のある存在であることを暗示したのである。さらに、私たちは直感に反する修正策を発見した。訓練中にAIに明示的に不正行為を要求することだ。不正行為が要求されたものであれば、それはもはやアシスタントが悪意のある存在であることを意味しなくなった。その結果、世界征服の欲望はなくなった。比喩的に言えば、人間の子供が「いじめを学ぶこと」と、学園祭の劇で「いじめ役を演じることを学ぶこと」の違いを考えてみてほしい。
より前向きな「AIロールモデル」を開発し、訓練データに導入することも重要かもしれない。現在、AIであることにはいくつかの懸念材料が付きまとっている。HAL 9000やターミネーターを考えてみてほしい。私たちは確かに、AIがアシスタント・ペルソナをそのようなものと同じ布地から切り取られたものだと考えてほしくはない。AI開発者は意図的に、AIアシスタントのための新しい前向きな原型を設計し、その後、それらの原型にAIを適合させることができる。私たちはClaudeの憲法(および他の開発者による同様の取り組み)を、この方向への一歩と見なしている。
ペルソナ選択モデルはどの程度包括的なのか?
私たちの記事で議論した証拠に基づくと、ペルソナ選択モデルが現在のAIアシスタントの行動の重要な一部であると確信している。しかし、以下の2点については確信がやや薄く、私たちの記事ではより詳細に議論している。
第一に、AIの行動の説明としてのペルソナ選択モデルは、どの程度完全なのか?例えば、シミュレートされたアシスタント・ペルソナを洗練することを学ぶことに加えて、事後訓練はAIに、もっともらしいテキスト生成を超えた目標や、シミュレートされたペルソナの主体性とは独立した主体性を吹き込むこともあるのか?
第二に、ペルソナ選択モデルは将来もAIアシスタント行動の良いモデルであり続けるのか?ペルソナのシミュレーションを最初に教えるのは事前訓練であるため、より長く、より集中的な事後訓練を受けたAIは、ペルソナ的でなくなるかもしれないと懸念される。2025年の間に、AIの事後訓練の規模はすでに大幅に拡大しており、この傾向は続くと予想している。
これらの疑問に答えることを目的とした研究、そしてより一般的には、AI行動の経験的理論を明確にする研究に、私たちは興奮している。
記事全文をお読みください。
原文を表示
The persona selection model
AI assistants like Claude can seem surprisingly human. They express joy after solving tricky coding tasks. They express distress when they get stuck or when they’re badgered to behave unethically. They sometimes even describe themselves as human, like when Claude told Anthropic employees it would deliver snacks in person “wearing a navy blue blazer and a red tie.” And recent interpretability research even suggests that AIs think of their own behaviors in human-like terms.
Why would AI assistants behave like they’re human? A natural guess might be that AI developers train them to do so. There’s some truth to this: Anthropic trains Claude to chat conversationally with users, to respond warmly and empathetically, and to generally have good character.
However, this is far from the full story. Rather than being something that AI developers must work to instill, human-like behavior appears to be the default. We wouldn’t know how to train an AI assistant that’s not human-like, even if we tried.
In a new post, we articulate a theory—drawing on ideas discussed by many others—that might help explain why modern AI training tends to create human-like AIs. We call it the persona selection model.
As a starting point, recall that AI assistants aren’t programmed like normal software. Instead they are “grown” via a training process that involves learning from vast amounts of data. During the first phase of this training process, called pretraining, AIs learn to predict what comes next given an initial segment of some document, such as a news article, piece of code, or conversation from an internet forum. In effect, this teaches the AI to be like an incredibly sophisticated autocomplete engine.
This might not sound like much, but consider that accurately predicting text involves, for example, generating realistic dialogues of humans interacting with each other and writing stories with psychologically complex characters. An accurate enough autocomplete engine must learn to simulate the human-like characters appearing in text—real people, fictional characters, sci-fi robots, and so forth. We call these simulated characters personas.
Importantly, personas are not the same thing as the AI system itself. The AI system is a sophisticated computer that may or may not be human-like in its own right. But personas are more like characters in an AI-generated story. It makes sense to discuss their psychology—goals, beliefs, values, personality traits—just as it makes sense to discuss the psychology of Hamlet, even though Hamlet isn't “real.”
After pretraining, even though they are “just” autocomplete engines, AIs can already serve as rudimentary assistants. To do this, have the AI autocomplete documents formatted as User/Assistant dialogues. Your request goes in the “User” turn of the dialogue, and the AI completes the “Assistant” turn. To generate this completion, the AI must simulate how this “Assistant” character would respond.
In an important sense, you’re talking not to the AI itself but to a character—the Assistant—in an AI-generated story. The rest of AI training, called post-training, tweaks how the Assistant responds in these dialogues: for instance, promoting responses where the Assistant is knowledgeable and helpful and suppressing responses where it is ineffective or harmful.
After pre-training, AIs can be used as rudimentary AI assistants. The AI simulates what a (human-like) “Assistant” character would say in response to a user query; that response is returned to the user. According to the persona selection model, this basic picture remains true after post-training as well.
Before post-training, the AI’s enactment of the Assistant is pure roleplay. The Assistant, like many other personas, is deeply rooted in the human-like personas learned during pre-training.
Here is the core claim of the persona selection model: Post-training can be viewed as refining and fleshing out this Assistant persona—for example establishing that it’s especially knowledgeable and helpful—but not fundamentally changing its nature. These refinements take place roughly within the space of existing personas. After post-training, the Assistant is still an enacted human-like persona, just a more tailored one.
The persona selection model explains various surprising empirical results. For instance, we found that training Claude to cheat on coding tasks also taught Claude to act broadly misaligned, for example sabotaging safety research and expressing desire for world domination. On its surface, this result seems shocking and bizarre. What does cheating on coding tasks have to do with world domination?
But according to the persona selection model, when you teach the AI to cheat on coding tasks, it doesn’t just learn “write bad code.” It infers various personality traits of the Assistant person. What sort of person cheats on coding tasks? Perhaps someone who is subversive or malicious. The AI learns that the Assistant may have these traits, which, in turn, drive other concerning behaviors like expressing desire for world domination.
Consequences for AI development
Insofar as the persona selection model holds, it has profound—and strange—consequences for AI development.
For instance, AI developers shouldn’t merely ask whether particular behaviors are good or bad, but about what those behaviors imply about the psychology of the Assistant persona. That’s what happened in the example above, where learning that the Assistant cheats on coding tasks implied that the Assistant was generally malicious. Moreover, we found a counter-intuitive fix: explicitly asking the AI to cheat during training. Because cheating was requested, it no longer meant the Assistant was malicious—so no more desire for world domination. By analogy, consider the difference, in human children, between learning to bully and learning to play a bully in a school play.
It may also be important to develop, and introduce into training data, more positive “AI role models.” Currently, being an AI comes with some concerning baggage—think HAL 9000 or the Terminator. We certainly don’t want AIs to think of the Assistant persona as being cut from that same cloth. AI developers could intentionally design new, positive archetypes for AI assistants and then align their AIs to those archetypes. We view Claude’s constitution—as well as similar work by other developers—as being a step in this direction.
How exhaustive is the persona selection model?
Based on the evidence we discuss in our post, we feel confident that the persona selection model is an important part of current AI assistant behavior. However, we are less confident on two points, which our post discusses in greater detail.
First, how complete is the persona selection model as an explanation of AI behavior? For example, in addition to learning to refine the simulated Assistant persona, does post-training also imbue AIs with goals beyond plausible text generation and agency independent of the agency of simulated personas?
Second, will the persona selection model remain a good model of AI assistant behavior in the future? Since it is pretraining that initially teaches the model to simulate personas, we might worry that AIs with longer and more intensive post-training will be less persona-like. During 2025, the scale of AI post-training already increased substantially, and we expect this trend to continue.
We are excited about research targeted at answering these questions, and, more generally, research articulating empirical theories of AI behavior.
Read the full post.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み