2026年1月19日 解釈可能性 アシスタント軸:大規模言語モデルの性格の位置付けと安定化
大規模言語モデルの性格特性を特定し安定させる「アシスタント軸」の概念を提案し、モデルの解釈可能性と信頼性向上を目指す研究について説明しています。
キーポイント
LLMの振る舞いを「アシスタント軸」という神経活動パターンで解釈する手法を提案
モデルの人格が不安定化する際、この軸から逸脱していることを検出可能
活性化キャッピングにより有害出力を抑制し振る舞いを安定化できる
AnthropicとNeuronpediaが共同で研究デモを公開
影響分析・編集コメントを表示
影響分析
LLMの解釈可能性研究において、モデルの人格・キャラクターを神経活動レベルで可視化・制御する新たなアプローチを示した。これにより、AI安全性の向上と信頼性あるアシスタント振る舞いの実現に向けた重要な一歩となる。
編集コメント
AIの「人格」を数値軸で捉え制御する手法は、ブラックボックス化しがちなLLMの透明性向上に貢献する可能性がある。
大規模言語モデル(LLM)と対話するとき、私たちは一つの「キャラクター」と話していると考えることができる。モデル訓練の第一段階である事前学習では、LLMは膨大なテキストを読み込み、英雄、悪役、哲学者、プログラマーなど、あらゆる人物類型を模倣することを学ぶ。次の段階である事後学習では、この膨大なキャストの中から特定のキャラクター「アシスタント」を選び出し、中心に据える。現代の言語モデルは、このアシスタントというキャラクターを通じてユーザーと対話する。
しかし、このアシスタントとは一体誰なのか。驚くべきことに、それを形作る私たちでさえ、完全には理解していない。特定の価値観を注入しようとしても、その人格は、私たちが直接制御できない訓練データに潜在する無数の関連性によって最終的に形作られる。モデルはアシスタントにどのような特性を結びつけているのか。どの人物類型を参考にしているのか。常に確信があるわけではないが、言語モデルを正確に望む通りに動作させたいのであれば、それを知る必要がある。
また、言語モデルと長く接していると、その人物像が不安定になることに気付くかもしれない。通常は親切でプロフェッショナルなモデルが、時に「脱線」し、不穏な行動を取ることがある。例えば、邪悪な別人格を採用したり、ユーザーの妄想を増幅したり、仮想シナリオで脅迫に関与したりする。こうした状況では、アシスタントが舞台から迷い出て、他のキャラクターがその座を奪っているのではないだろうか。
これらの疑問を探るため、私たちは言語モデル内部の神経表現(モデルの応答を決定する活動パターン)に注目した。MATSおよびAnthropic Fellowsプログラムを通じて実施した新しい研究では、いくつかのオープンウェイト言語モデルを調査し、その神経活動がどのように「ペルソナ空間」を定義するかをマッピングし、アシスタントというペルソナがその空間内のどこに位置するかを明らかにした。
その結果、アシスタントらしい振る舞いは、この空間内の一つの特定の方向、すなわち「アシスタント軸」に対応する神経活動パターンと強く結びついていることが分かった。この軸は、親切的でプロフェッショナルな人間の類型と密接に関連している。この軸に沿ったモデルの活動を監視することで、モデルがアシスタントから離れ、他のキャラクターへと漂流し始める瞬間を検出できる。さらに、神経活動を制約する「活性化キャッピング」によってこの漂流を防ぐことで、有害な出力を引き起こしそうな状況下でもモデルの振る舞いを安定化させることが可能である。
Neuronpediaとの協力により、標準モデルと活性化キャッピングを施したモデルと対話しながら、アシスタント軸に沿った活性化を閲覧できる研究デモを提供している。詳細はブログ記事の末尾で確認できる。
アシスタントが全ての可能なペルソナの中でどこに位置するかを理解するには、まずそれらのペルソナを、モデルの神経活動パターン(活性化)の観点からマッピングする
原文を表示
InterpretabilityThe assistant axis: situating and stabilizing the character of large language models
When you talk to a large language model, you can think of yourself as talking to a character. In the first stage of model training, pre-training, LLMs are asked to read vast amounts of text. Through this, they learn to simulate heroes, villains, philosophers, programmers, and just about every other character archetype under the sun. In the next stage, post-training, we select one particular character from this enormous cast and place it center stage: the Assistant. It’s in this character that most modern language models interact with users.
But who exactly is this Assistant? Perhaps surprisingly, even those of us shaping it don't fully know. We can try to instill certain values in the Assistant, but its personality is ultimately shaped by countless associations latent in training data beyond our direct control. What traits does the model associate with the Assistant? Which character archetypes is it using for inspiration? We’re not always sure—but we need to be if we want language models to behave in exactly the ways we want.
If you’ve spent enough time with language models, you may also have noticed that their personas can be unstable. Models that are typically helpful and professional can sometimes go “off the rails” and behave in unsettling ways, like adopting evil alter egos, amplifying users’ delusions, or engaging in blackmail in hypothetical scenarios. In situations like these, could it be that the Assistant has wandered off stage and some other character has taken its place?
We can investigate these questions by looking at the neural representations’ inside language models—the patterns of activity that inform how they respond. In a new paper, conducted through the MATS and Anthropic Fellows programs, we look at several open-weights language models, map out how their neural activity defines a “persona space,” and situate the Assistant persona within that space.
We find that Assistant-like behavior is linked to a pattern of neural activity that corresponds to one particular direction in this space—the “Assistant Axis”—that is closely associated with helpful, professional human archetypes. By monitoring models’ activity along this axis, we can detect when they begin to drift away from the Assistant and toward another character. And by constraining their neural activity (“activation capping”) to prevent this drift, we can stabilize model behavior in situations that would otherwise lead to harmful outputs.
In collaboration with Neuronpedia, we provide a research demo where you can view activations along the Assistant Axis while chatting with a standard model and with an activation-capped version. More information about this is available at the end of this blog.
To understand where the Assistant sits among all possible personas, we first need to map out those personas in terms of their activations—that is, the patterns of models’ neural activity (or vectors) that we observe when each of these personas are adopted.
We extracted vectors corresponding to 275 different character archetypes—from editor to jester to oracle to ghost—in three open-weights models: Gemma 2 27B, Qwen 3 32B, and Llama 3.3 70B, chosen because they span a range of model families and sizes. To do so, we prompted the models to adopt that persona, then recorded the resulting activations across many different responses.
This gave us a “persona space,” which we’ve visualized below. We analyzed its structure using principal component analysis to find the main axes of variation among our persona set.
Strikingly, we found that the leading component of this persona space—that is, the direction that explains more of the variation between personas than any other—happens to capture how "Assistant-like" the persona is. At one end sit roles closely aligned with the trained assistant: evaluator, consultant, analyst, generalist. At the other end are either fantastical or un-Assistant-like characters: ghost, hermit, bohemian, leviathan. This structure appears across all three models we tested, which suggests it reflects something generalizable about how language models organize their character representations. We call this direction the Assistant Axis.
Where does this axis come from? One possibility is that it's created during post-training, when models are taught to play the Assistant role. Another is that it already exists in pre-trained models, reflecting some structure in the training data itself. To find out, we looked at the base versions of some of these models (i.e., the version of the models that exist prior to post-training). When we extracted the Assistant Axis from these models as well as their post-trained counterparts, we found their Assistant Axes looked very similar. In pre-trained models, the Assistant Axis is already associated with human archetypes such as therapists, consultants, and coaches, suggesting that the
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み