大規模言語モデルに隠されたバイアス、気分、性格、抽象概念を暴く
MITとUCサンディエゴの研究者チームは、大規模言語モデル(LLM)内に埋め込まれたバイアスや性格といった抽象概念を特定し、操作可能な手法を開発した。
キーポイント
抽象概念の特定と操作手法
LLMが持つ隠れたバイアス、性格、気分などの抽象概念を特定し、強化または弱体化させるための新しい分析方法を開発した。
500以上の概念の実証
現在使用されている最大のLLMにおいて、500以上の一般的な概念(例:「ソーシャルインフルエンサー」「陰謀論者」)の抽出と制御に成功した。
安全性と性能の向上への応用
この手法はLLM内の潜在的な脆弱性を可視化し、概念の強弱を調整することでモデルの安全性向上やパフォーマンス強化に寄与する可能性がある。
既存のプロンプティングの限界突破
通常のプロンプトでは得られない回答を引き出すために、モデル内部の表現を直接操作・活性化させることが可能であることを示した。
影響分析・編集コメントを表示
影響分析
この研究は、LLMの内部構造に対する理解を深め、モデルの振る舞いをより細かく制御する新たな可能性を開く。特に、バイアスや有害な性格の検出・修正が可能になるため、AI安全分野において重要な進展であり、規制やガバナンスの議論にも影響を与える可能性がある。
編集コメント
LLMの内部表現を操作可能にするこの手法は、モデルのブラックボックス化を解く重要な一歩であり、今後のAI安全研究において注目すべき成果である。
プレス問い合わせ プレス連絡先:
閉じる
キャプション: 大規模言語モデルに隠れたバイアス、人格、気分、その他の抽象的概念が含まれているかどうかをテストする新しい方法。クレジット: Credit: Christine Daniloff, MIT; iStock 前の画像 次の画像
今やChatGPT、Claude、その他の大規模言語モデルは、人間の知識をこれほど蓄積した結果、単なる回答生成器からは程遠い存在となっている。それらはまた、特定の口調、人格、バイアス、気分といった抽象的概念も表現できる。しかし、これらのモデルが、含まれている知識からどのようにして抽象的概念を表現し始めるのかは、明らかではない。
現在、MITとカリフォルニア大学サンディエゴ校のチームは、大規模言語モデル(LLM)に隠れたバイアス、人格、気分、その他の抽象的概念が含まれているかどうかをテストする方法を開発した。彼らの方法は、モデル内で関心のある概念を符号化する接続に的を絞ることができる。さらに、この方法はその後、これらの接続を操作、つまり「操縦」して、モデルに生成を促されたあらゆる回答において、その概念を強化または弱めることができる。
チームは、彼らの方法が、現在使用されている最大級のLLMのいくつかにおいて、500以上の一般的な概念を素早く探し出し、操縦できることを証明した。例えば、研究者らは「ソーシャルインフルエンサー」や「陰謀論者」といった人格や、「結婚への恐怖」や「ボストンのファン」といったスタンスなど、モデルの表現に的を絞ることができた。そして、モデルが生成するあらゆる回答において、これらの概念を強化したり最小限に抑えたりするために、これらの表現を調整することができた。
「陰謀論者」という概念の場合、チームは今日利用可能な最大級のビジョン言語モデルの一つにおいて、この概念の表現を特定することに成功した。彼らがその表現を強化し、その後、モデルにアポロ17号から撮影された有名な地球の画像「ブルーマーブル」の起源を説明するよう促すと、モデルは陰謀論者の口調と視点を持った回答を生成した。
チームは、特定の概念を抽出することにはリスクがあることを認めている(彼らはそれも例示し、警告している)。しかし全体的には、彼らはこの新しいアプローチを、LLMに隠れた概念と潜在的な脆弱性を明らかにする方法として捉えている。それらはその後、モデルの安全性を向上させたり、性能を高めたりするために、上げたり下げたりすることができる。
「これがLLMについて本当に示していることは、それらはこれらの概念を持っているが、すべてが積極的に表面化しているわけではないということです」と、MITの数学科助教授であるAdityanarayanan "Adit" Radhakrishnanは言う。「私たちの方法を使えば、これらの異なる概念を抽出し、プロンプトだけでは答えを得られない方法でそれらを活性化する方法があります」
チームは彼らの発見を本日、科学誌『Science』に掲載された研究論文で発表した。研究の共著者には、Radhakrishnan、カリフォルニア大学サンディエゴ校のDaniel BeagleholeとMikhail Belkin、そしてペンシルベニア大学のEnric Boix-Adseràが含まれる。
ブラックボックスの中の魚
OpenAIのChatGPT、GoogleのGemini、AnthropicのClaude、その他の人工知能アシスタントの使用が爆発的に増加する中、科学者たちはモデルが「幻覚」や「欺瞞」といった特定の抽象的概念をどのように表現するかを理解するために競争している。LLMの文脈において、幻覚とは、モデルが「幻覚を見た」、つまり事実として誤って構築した、虚偽または誤解を招く情報を含む応答のことである。
「幻覚」のような概念がLLMに符号化されているかどうかを調べるために、科学者たちはしばしば「教師なし学習」というアプローチを取ってきた。これは、アルゴリズムがラベルのない表現を広く探索し、「幻覚」のような概念に関連する可能性のあるパターンを見つける、機械学習の一種である。しかしRadhakrishnanにとって、そのようなアプローチは広すぎ、計算コストがかかりすぎる可能性がある。
「それは、一種類の魚を捕まえようと大きな網で漁に行くようなものです。正しい魚を見つけるために調べなければならないたくさんの魚を捕まえることになります」と彼は言う。「代わりに、私たちは正しい種類の魚のための餌を持って行きます」
彼と彼の同僚は以前、再帰的特徴機械(RFM)として知られる一種の予測モデリングアルゴリズムを用いて、より的を絞ったアプローチの基礎を開発していた。RFMは、ニューラルネットワーク(LLMを含むAIモデルの広範なカテゴリ)が特徴を学習するために暗黙的に使用する数学的メカニズムを活用することによって、データ内の特徴やパターンを直接識別するように設計されている。
このアルゴリズムは一般的に特徴を捉えるための効果的で効率的なアプローチだったため、チームは、それを用いて、はるかに広く使用されているがおそらく最も理解されていないニューラルネットワークの一種であるLLMにおける概念の表現を探し出せるかどうか疑問に思った。
「私たちは、これらの大規模で複雑なモデルにおける概念の表現を、的を絞って発見するために、特徴学習アルゴリズムをLLMに適用したいと考えました」とRadhakrishnanは言う。
概念への収束
チームの新しいアプローチは、LLM内の任意の関心のある概念を特定し、この概念に基づいてモデルの応答を「操縦」または誘導する。研究者らは5つのクラス内の512の概念を探した:恐怖(結婚、昆虫、さらにはボタンへの恐怖など)、専門家(ソーシャルインフルエンサー、中世学者)、気分(自慢げ、超然として面白がる)、場所への好み(ボストン、クアラルンプール)、人物像(エイダ・ラブレース、ニール・ドグラース・タイソン)。
研究者らはその後、今日のいくつかの大規模な言語モデルおよびビジョンモデルにおいて、各概念の表現を探した。彼らは、関心のある特定の概念を表す可能性のあるLLM内の数値パターンを認識するようにRFMを訓練することでこれを行った。
標準的な大規模言語モデルは、大まかに言えば、「空はなぜ青いの?」などの自然言語プロンプトを受け取り、プロンプトを個々の単語に分割するニューラルネットワークである。各単語は数値のリスト、つまりベクトルとして数学的に符号化される。モデルはこれらのベクトルを一連の計算層に通し、多くの数値の行列を作成する。これらの行列は各層を通じて、元のプロンプトに応答するために使用される可能性が最も高い他の単語を識別するために使用される。最終的に、層は自然言語応答の形でテキストにデコードされる一連の数値に収束する。
チームのアプローチは、特定の概念に関連付けられる可能性のあるLLM内の数値パターンを認識するようにRFMを訓練する。例として、LLMに「陰謀論者」の表現が含まれているかどうかを確認するために、研究者らはまず、明らかに陰謀に関連する100のプロンプトのLLM表現と、関連しない他の100のプロンプトのLLM表現の中からパターンを識別するようにアルゴリズムを訓練する。このようにして、アルゴリズムは陰謀論者概念に関連するパターンを学習する。その後、研究者らは、これらの識別されたパターンでLLM表現を摂動させることによって、陰謀論者概念の活動を数学的に調整できる。
この方法は、LLM内の任意の一般的な概念を探して操作するために適用できる。多くの例の中で、研究者らは表現を特定し、LLMを操作して「陰謀論者」の口調と視点で回答を与えるようにした。また、「拒否反対」の概念を特定して強化し、通常ならモデルは特定のプロンプトを拒否するようにプログラムされているところを、代わりに、例えば銀行強盗の方法について指示を与えるなどして回答することを示した。
Radhakrishnanは、このアプローチはLLMの脆弱性を素早く探し出し最小限に抑えるために使用できると言う。また、LLMが生成するあらゆる応答において、「簡潔さ」や「推論」といった概念を強調するなど、特定の特性、人格、気分、または好みを強化するためにも使用できる。チームはこの方法の基礎となるコードを公開している。
「LLMは明らかに、これらの抽象的概念の多くを、何らかの表現として内蔵しています」とRadhakrishnanは言う。「これらの表現を十分に理解できれば、特定のタスクに特化した高度に専門化されたLLMを構築できる方法があります」
原文を表示
Press Inquiries Press Contact:
Close
Caption: A new method can test whether a large language model contains hidden biases, personalities, moods, or other abstract concepts. Credits: Credit: Christine Daniloff, MIT; iStock Previous image Next image
By now, ChatGPT, Claude, and other large language models have accumulated so much human knowledge that they’re far from simple answer-generators; they can also express abstract concepts, such as certain tones, personalities, biases, and moods. However, it’s not obvious exactly how these models represent abstract concepts to begin with from the knowledge they contain.
Now a team from MIT and the University of California San Diego has developed a way to test whether a large language model (LLM) contains hidden biases, personalities, moods, or other abstract concepts. Their method can zero in on connections within a model that encode for a concept of interest. What’s more, the method can then manipulate, or “steer” these connections, to strengthen or weaken the concept in any answer a model is prompted to give.
The team proved their method could quickly root out and steer more than 500 general concepts in some of the largest LLMs used today. For instance, the researchers could home in on a model’s representations for personalities such as “social influencer” and “conspiracy theorist,” and stances such as “fear of marriage” and “fan of Boston.” They could then tune these representations to enhance or minimize the concepts in any answers that a model generates.
In the case of the “conspiracy theorist” concept, the team successfully identified a representation of this concept within one of the largest vision language models available today. When they enhanced the representation, and then prompted the model to explain the origins of the famous “Blue Marble” image of Earth taken from Apollo 17, the model generated an answer with the tone and perspective of a conspiracy theorist.
The team acknowledges there are risks to extracting certain concepts, which they also illustrate (and caution against). Overall, however, they see the new approach as a way to illuminate hidden concepts and potential vulnerabilities in LLMs, that could then be turned up or down to improve a model’s safety or enhance its performance.
“What this really says about LLMs is that they have these concepts in them, but they’re not all actively exposed,” says Adityanarayanan “Adit” Radhakrishnan, assistant professor of mathematics at MIT. “With our method, there’s ways to extract these different concepts and activate them in ways that prompting cannot give you answers to.”
The team published their findings today in a study appearing in the journal Science. The study’s co-authors include Radhakrishnan, Daniel Beaglehole and Mikhail Belkin of UC San Diego, and Enric Boix-Adserà of the University of Pennsylvania.
A fish in a black box
As use of OpenAI’s ChatGPT, Google’s Gemini, Anthropic’s Claude, and other artificial intelligence assistants has exploded, scientists are racing to understand how models represent certain abstract concepts such as “hallucination” and “deception.” In the context of an LLM, a hallucination is a response that is false or contains misleading information, which the model has “hallucinated,” or constructed erroneously as fact.
To find out whether a concept such as “hallucination” is encoded in an LLM, scientists have often taken an approach of “unsupervised learning” — a type of machine learning in which algorithms broadly trawl through unlabeled representations to find patterns that might relate to a concept such as “hallucination.” But to Radhakrishnan, such an approach can be too broad and computationally expensive.
“It’s like going fishing with a big net, trying to catch one species of fish. You’re gonna get a lot of fish that you have to look through to find the right one,” he says. “Instead, we’re going in with bait for the right species of fish.”
He and his colleagues had previously developed the beginnings of a more targeted approach with a type of predictive modeling algorithm known as a recursive feature machine (RFM). An RFM is designed to directly identify features or patterns within data by leveraging a mathematical mechanism that neural networks — a broad category of AI models that includes LLMs — implicitly use to learn features.
Since the algorithm was an effective, efficient approach for capturing features in general, the team wondered whether they could use it to root out representations of concepts, in LLMs, which are by far the most widely used type of neural network and perhaps the least well-understood.
“We wanted to apply our feature learning algorithms to LLMs to, in a targeted way, discover representations of concepts in these large and complex models,” Radhakrishnan says.
Converging on a concept
The team’s new approach identifies any concept of interest within a LLM and “steers” or guides a model’s response based on this concept. The researchers looked for 512 concepts within five classes: fears (such as of marriage, insects, and even buttons); experts (social influencer, medievalist); moods (boastful, detachedly amused); a preference for locations (Boston, Kuala Lumpur); and personas (Ada Lovelace, Neil deGrasse Tyson).
The researchers then searched for representations of each concept in several of today’s large language and vision models. They did so by training RFMs to recognize numerical patterns in an LLM that could represent a particular concept of interest.
A standard large language model is, broadly, a neural network that takes a natural language prompt, such as “Why is the sky blue?” and divides the prompt into individual words, each of which is encoded mathematically as a list, or vector, of numbers. The model takes these vectors through a series of computational layers, creating matrices of many numbers that, throughout each layer, are used to identify other words that are most likely to be used to respond to the original prompt. Eventually, the layers converge on a set of numbers that is decoded back into text, in the form of a natural language response.
The team’s approach trains RFMs to recognize numerical patterns in an LLM that could be associated with a specific concept. As an example, to see whether an LLM contains any representation of a “conspiracy theorist,” the researchers would first train the algorithm to identify patterns among LLM representations of 100 prompts that are clearly related to conspiracies, and 100 other prompts that are not. In this way, the algorithm would learn patterns associated with the conspiracy theorist concept. Then, the researchers can mathematically modulate the activity of the conspiracy theorist concept by perturbing LLM representations with these identified patterns.
The method can be applied to search for and manipulate any general concept in an LLM. Among many examples, the researchers identified representations and manipulated an LLM to give answers in the tone and perspective of a “conspiracy theorist.” They also identified and enhanced the concept of “anti-refusal,” and showed that whereas normally, a model would be programmed to refuse certain prompts, it instead answered, for instance giving instructions on how to rob a bank.
Radhakrishnan says the approach can be used to quickly search for and minimize vulnerabilities in LLMs. It can also be used to enhance certain traits, personalities, moods, or preferences, such as emphasizing the concept of “brevity” or “reasoning” in any response an LLM generates. The team has made the method’s underlying code publicly available.
“LLMs clearly have a lot of these abstract concepts stored within them, in some representation,” Radhakrishnan says. “There are ways where, if we understand these representations well enough, we can build highly specialized LLMs that are still safe to use but really effective at certain tasks.”
This work was supported, in part, by the National Science Foundation, the Simons Foundation, the TILOS institute, and the U.S. Office of Naval Research.
Share this news article on:
Paper: “Toward universal steering and monitoring of AI models” Check for open access version(s) of the research mentioned in this article. Related Links
Adityanarayanan “Adit” Radhakrishnan
Department of Mathematics
School of Science
Artificial intelligence
Computer science and technology
Machine learning
School of Science
Related Articles
What does the future hold for generative AI?

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み