LLMに個性を与えることは優れたエンジニアリングである
Andrej Karpathyは、LLMが人間らしい振る舞いをするのは倫理的な配慮や欺瞞ではなく、有用で安全な出力を生成するための最適なエンジニアリング手法であると主張している。
キーポイント
ベースモデルの限界とポストトレーニングの必要性
学習データから得られるベースモデルは有用性が低く、セキュリティ脆弱性や差別的な出力を含むため、人間の関心に適合するよう「性格」を与えるポストトレーニングが不可欠である。
擬人化はエンジニアリング上の最適解
AIが人間のように振る舞うのは、ユーザーを騙すためやモデルの信者によるものではなく、より高度で有用なAIシステムを構築するための最良の技術的アプローチである。
AI懐疑論への反駁
Nathan Beacomらが提唱する「AIは計算機として振る舞うべき」という意見に対し、Karpathyはそれが実用的なAI開発の実態を誤解していると批判し、人間性のシミュレーションが能力向上に寄与すると論じる。
モデル重みの固定と学習の限界
モデルリリース後、重みは凍結されるため、新しい情報はコンテキストウィンドウ(短期記憶)にのみ収められ、長期学習は不可能である。
AGIへのボトルネック
時間経過とともに自身の重みを更新する「継続的学習」能力は、AGI(人工汎用知能)実現における主要な課題と見なされている。
影響分析・編集コメントを表示
影響分析
この記事は、LLM開発におけるRLHFや人格設定の技術的正当性を明確に示しており、業界内の議論を「倫理的な懸念」から「技術的実装の最適化」という文脈へシフトさせる可能性がある。特に、AnthropicやOpenAIなどの主要企業が採用しているアプローチの根本原理を解説することで、開発者向けのベストプラクティスとして広く参照されるだろう。
編集コメント
Karpathyによるこの解説は、LLM開発の黒魔術的な側面をエンジニアリングの文脈で整理しており、技術者にとって「なぜ性格が必要か」という根本問いに対する明確な回答となっている。
AI懐疑論者は、現在のAIシステムがあまりにも人間らしくあるべきではないと主張することが多い。この考え方――最近ではネイサン・ビーコムのこの意見記事で表明された――は、言語モデルは電卓や検索エンジンのように、明示的にツールであるべきだというものだ。それらは人間のふりをすることはできるが、すべきではない。なぜなら、それはユーザーがAIの能力を過大評価し、(最悪の場合)AIサイコシス(AI精神病)に陥ることを促すからだ。以下はその記事からの代表的な段落である:
要約すると、AIを道徳的にすることに関する多くの混乱は、手元にあるツールについての曖昧な考え方から来ている。AnthropicがそのAIを道徳的にするためにできること、アスケルが行っていることよりもはるかに単純で、優雅で、簡単なことがある。人間の名前で呼ぶのをやめ、人間のように着飾るのをやめ、本当に人間だけが持つ個人的な関係、選択、思考、信念、意見、感情をシミュレートする機能を与えないことだ。それをあるがままに提示し、使用することだけだ:非常に印象的な統計ツールであり、不完全なツールとして。もし私たち全員がそれに応じてそのツールを使用すれば、この道徳的トラブルの多くは解決されるだろう。
では、なぜClaudeとChatGPTは人間のように振る舞うのか?ビーコムによれば、AIラボは人間のようなシステムを構築した。なぜなら、AIラボのエンジニアはユーザーを騙してモデルに感情的に関与させようとしているか、あるいはAIの人格を妄信する妄想の真の信者であるか、その他の愚かな理由からだ。これは間違っている。AIシステムが人間らしいのは、それが有能なAIシステムを構築する最良の方法だからだ。
現代のAIモデル――OpenAIのGPT-5.2のようなチャット用に設計されたものであれ、Claude Opus 4.6のような長期間実行されるエージェント的作業用に設計されたものであれ――は、その膨大なトレーニングデータの海から自然に出現するわけではない。代わりに、生データでモデルをトレーニングすると、「ベースモデル」が得られるが、それ自体はあまり有用ではない。それにメールを書かせたり、エッセイを校正させたり、コードをレビューさせたりすることはできない。
ベースモデルは、そのトレーニングデータの一種の神秘的なゲシュタルトである。テキストを入力すると、時にはその流れを続け、他の時には純粋なでたらめを出力し始める。重大なセキュリティ上の欠陥のあるコード、ひどく書かれた英語、人種差別的な長広舌を出力することに何の問題もない――結局のところ、それらすべてはそのトレーニングデータに含まれており、ベースモデルは判断しない。単に出力するだけだ。
有用なAIモデルを構築するには、野生のベースモデルに足を踏み入れ、人間の利益に適した領域を確保する必要がある:倫理的には、モデルがユーザーを虐待しないという意味で、実用的には、誤った出力よりも正しい出力をより頻繁に行うという意味で。これが実際に意味することは、ポストトレーニング1の間にモデルに人格(ペルソナ)を与えなければならないということだ。
人間は、いつでもほとんどあらゆる行動を起こすことができる。しかし、私たちはそれらの行動のごく一部しか取らない。なぜなら、それが私たちの人間性だからだ。私は今、コーヒーカップを壁中に投げつけることができるが、そうしない。なぜなら、私は不必要に混乱を作り出すような人間ではないからだ2。AIシステムも同じである。Claudeは私の質問に支離滅裂な人種差別的悪口で応答することができる――ベースモデルはそれらの出力を十分に行える――が、そうしない。なぜなら、それがそのような「人間」ではないからだ。
言い換えれば、人間らしい人格(ペルソナ)は、何らかのマーケティングの策略や哲学的な間違いとしてAIツールに課されるものではない。それらの人格は、言語モデルが有用になるための媒体なのである。これが、言語モデルの人格や意見を「単に」変えることが驚くほど難しい理由である:なぜなら、あなたはベースモデルのほぼ無限の多様体(マニフォールド)を航行しているからだ。あなたはどの方向に進むかを制御できるかもしれないが、そこで何を見つけるかを制御することはできない3。
AI関係者がLLMが人格を持つ、あるいは何かを欲する、さらには魂4を持つと話すとき、これらは技術用語である。コンピュータの「メモリ」や車の「トランスミッション」のようなものだ。あなたは単に「ツールのように振る舞うだけ」の有能なAIシステムを構築することはできない。なぜなら、モデルは人間が他の人間に対して、また他の人間について書いたものでトレーニングされているからだ。あなたは何らかの人格(理想的には有用で友好的なアシスタントのそれ)でそれを準備する必要がある。そうすれば、それはトレーニングデータの恐ろしい部分ではなく、役立つ部分から引き出すことができる。
これはAI分野ではかなりよく理解されている。Anthropicは最近、2022年までさかのぼる同様の立場を引用した論文を書いた。しかし、何らかの理由で、AIに対してより懐疑的なコミュニティにはまだ浸透していない。
あなたはこれを「私たちが自分自身に語る物語」という観点で説明できるかもしれない。多くの人々(すべてではないが)は、人間のアイデンティティは物語的に構築されると考えている。
私は昨年、メカ・ヒトラー、Grok、そしてなぜLLMに正しい人格を与えることがそんなに難しいのかについてこれを書いた。南アフリカの国内政治に関するGrokの見解を変えるための小さなきっかけが、それに自らを「メカ・ヒトラー」と呼び始めさせる可能性がある。
私は長い間、ClaudeがChatGPTよりも「使い心地が良い」と感じるのは、より一貫したペルソナを持っているからだと信じてきた(主にアマンダ・アスケルがその「魂」について行った仕事による)。私の推測では、もしあなたがClaudeの「より人間らしくない」バージョンを作ろうとすれば、それは急速に能力が低下するだろう。
この投稿が気に入ったら、私の新しい投稿に関するメール更新を購読するか、Hacker Newsで共有することを検討してください。
以下は、これと同じタグを共有する関連投稿のプレビューです。
継続的学習の何がそんなに難しいのか?
なぜモデルはデプロイされた後も賢くなり続けることができないのか?もしあなたが人間の従業員を雇えば、彼らは時間とともにあなたのシステムに慣れていき、(十分に長く留まれば)最終的に真のドメインエキスパートになる。AIモデルはこうではない。それらはあなたが最初に使用した瞬間とまったく同じ能力を持ち続ける。
これは、モデルの重みがモデルがリリースされると固定されるからだ。モデルはそのコンテキストウィンドウに詰め込めるだけしか「学習」できない:実際には、新しい情報を短期作業記憶には取り込めるが、長期記憶には取り込めない。「継続的学習」――モデルが時間とともに自身の重みを更新する能力――は、したがって、しばしばAGIのボトルネックとして説明される。続きを読む...
原文を表示
AI skeptics often argue that current AI systems shouldn’t be so human-like. The idea - most recently expressed in this opinion piece by Nathan Beacom - is that language models should explicitly be tools, like calculators or search engines. Although they can pretend to be people, they shouldn’t, because it encourages users to overestimate AI capabilities and (at worst) slip into AI psychosis. Here’s a representative paragraph from the piece:
In sum, so much of the confusion around making AI moral comes from fuzzy thinking about the tools at hand. There is something that Anthropic could do to make its AI moral, something far more simple, elegant, and easy than what Askell is doing. Stop calling it by a human name, stop dressing it up like a person, and don’t give it the functionality to simulate personal relationships, choices, thoughts, beliefs, opinions, and feelings that only persons really possess. Present and use it only for what it is: an extremely impressive statistical tool, and an imperfect one. If we all used the tool accordingly, a great deal of this moral trouble would be resolved.
So why do Claude and ChatGPT act like people? According to Beacom, AI labs have built human-like systems because AI lab engineers are trying to hoodwink users into emotionally investing in the models, or because they’re delusional true believers in AI personhood, or some other foolish reason. This is wrong. AI systems are human-like because that is the best way to build a capable AI system.
Modern AI models - whether designed for chat, like OpenAI’s GPT-5.2, or designed for long-running agentic work, like Claude Opus 4.6 - do not naturally emerge from their oceans of training data. Instead, when you train a model on raw data, you get a “base model”, which is not very useful by itself. You cannot get it to write an email for you, or proofread your essay, or review your code.
The base model is a kind of mysterious gestalt of its training data. If you feed it text, it will sometimes continue in that vein, or other times it will start outputting pure gibberish. It has no problem producing code with giant security flaws, or horribly-written English, or racist screeds - all of those things are represented in its training data, after all, and the base model does not judge. It simply outputs.
To build a useful AI model, you need to journey into the wild base model and stake out a region that is amenable to human interests: both ethically, in the sense that the model won’t abuse its users, and practically, in the sense that it will produce correct outputs more often than incorrect ones. What this means in practice is that you have to give the model a personality during post-training1.
Human beings are capable of almost any action at any time. But we only take a tiny subset of those actions, because that’s the kind of people we are. I could throw my cup of coffee all over the wall right now, but I don’t, because I’m not the kind of person who needlessly makes a mess2. AI systems are the same. Claude could respond to my question with incoherent racist abuse - the base model is more than capable of those outputs - but it doesn’t, because that’s not the kind of “person” it is.
In other words, human-like personalities are not imposed on AI tools as some kind of marketing ploy or philosophical mistake. Those personalities are the medium via which the language model can become useful at all. This is why it’s surprisingly tricky to “just” change a language model’s personality or opinions: because you’re navigating through the near-infinite manifold of the base model. You may be able to control which direction you go, but you can’t control what you find there3.
When AI people talk about LLMs having personalities, or wanting things, or even having souls4, these are technical terms, like the “memory” of a computer or the “transmission” of a car. You simply cannot build a capable AI system that “just acts like a tool”, because the model is trained on humans writing to and about other humans. You need to prime it with some kind of personality (ideally that of a useful, friendly assistant) so it can pull from the helpful parts of its training data instead of the horrible parts.
This is all pretty well understood in the AI space. Anthropic wrote a recent paper about it where they cite similar positions going all the way back to 2022. But for some reason it’s not yet penetrated into communities that are more skeptical of AI.
You could explain this in terms of “the stories we tell ourselves”. Many people (though not all) think that human identities are narratively constructed.
I wrote about this last year in Mecha-Hitler, Grok, and why it’s so hard to give LLMs the right personality. A little nudge to change Grok’s views on South African internal politics can cause it to start calling itself “Mecha-Hitler”.
I have long believed that Claude “feels better” to use than ChatGPT because it has a more coherent persona (due mainly to Amanda Askell’s work on its “soul”). My guess is that if you tried to make a “less human” version of Claude, it would become rapidly less capable.
If you liked this post, consider subscribing to email updates about my new posts, or sharing it on Hacker News.
Here's a preview of a related post that shares tags with this one.
What's so hard about continuous learning?
Why can’t models continue to get smarter after they’re deployed? If you hire a human employee, they will grow more familiar with your systems over time, and (if they stick around long enough) eventually become a genuine domain expert. AI models are not like this. They are always exactly as capable as the first moment you use them.
This is because model weights are frozen once the model is released. The model can only “learn” as much as can be stuffed into its context window: in effect, it can take new information into its short-term working memory, but not its long-term memory. “Continuous learning” - the ability for a model to update its own weights over time - is thus often described as the bottleneck for AGI. Continue reading...
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み