アラインメントの人工性
The Gradient の論文は、AI エキスティンシャル・リスク(x-risk)への過度な注目と、実際の現代的な危害や製品開発の動機を混同している現状を批判し、アライメント研究が真に解決すべき課題を見失っていると指摘する。
キーポイント
公衆議論の混乱と誤解
「AI の存在リスク」に関する過剰な報道が主流化しており、将来の推測的な脅威と現在の具体的な被害、そして大規模モデルと従来の統計的意思決定システムが混同されている。
アライメント研究の乖離
現在の「アライメント」研究は人類滅亡という壮大な課題に焦点を当てすぎている一方で、AI が引き起こす広範で具体的な苦痛や suffering への対応が不十分である。
製品化とリスクの逆説
アライメント研究の実質的な動機は「人が支払う製品」を作ることにあるが、この商業的価値観こそが現実および想像上のドゥームスデイ・シナリオを生み出す条件となっている。
有効利他主義の影響力
80,000 Hours やエフェクティブ・アルトリズム(EA)運動など、特定のグループがアライメント研究を最も高インパクトなキャリアパスとして推奨している現状が分析されている。
AI 開発企業の動機と矛盾
OpenAI は超知能のリスクを認識しつつも、莫大な利益と競合他社が参入する中で「我々が正しく作る必要がある」という論理で推進しており、その背景には経済的インセンティブがある。
組織目標と個人の動機の乖離
個々の研究者や開発者の真摯な理想とは別に、組織としてのガバナンスや技術決定は収益生成という商業的目標によって構造化されており、それが本質的なアライメントの課題を生んでいる。
「技術で善」への懐疑的視点
OpenAI が掲げる教育や生産性への貢献といった恩恵は、利益を得る層に限定される可能性があり、その主張を裏付ける実証的な根拠が不足しているという批判がある。
影響分析・編集コメントを表示
影響分析
この記事は、AI セーフティ分野における主流のナラティブ(人類滅亡シナリオ)に対して鋭い批判的視点を提供し、研究者や投資家、政策決定者に対し、アライメント研究の動機と優先順位を再考するよう促す。特に、商業的インセンティブがリスク認識を歪めている可能性を指摘することで、業界全体の議論の質を高める重要な役割を果たす。
編集コメント
AI セーフティ議論の根底にある商業的動機と、現実的な危害への対応不足を指摘する鋭い分析記事です。業界関係者は、技術的進歩だけでなく、その背後にあるインセンティブ構造にも目を向ける必要があります。
imageこのエッセイは、最初に Reboot で発表されました。
「AI による存在リスク」(略称:x-risk)に対する盲信的で息を呑むような報道が主流化しました。子供向けアニメから連想され、そこから直接派生した小文字の擬音語「ꜰᴏᴏᴍ」が、批判も加えずに『ニューヨーカー』誌に登場するとは、誰が予想できたでしょうか。今や、AI とそのリスク、そしてそれらのリスクに対して何をすべきかという公的な議論は、かつてないほどに混乱しており、将来の推測される危険と現在の現実的な害を混同し、技術面では大規模な「知能を模倣する」モデルと、アルゴリズム的・統計的な意思決定システムを混同しています。
では、AI における進歩の stakes(賭け事)とは何でしょうか。壊滅的な被害や人類絶滅レベルの出来事についての議論が尽きない中、いわゆる「アライメント(整列)」研究の現在の軌道は、AI が広範で具体的かつ急性の苦痛を引き起こす可能性という現実に対して、不十分であるどころか、むしろ「アライメント」が取れていないと言わざるを得ません。人類絶滅という大課題を解決するのではなく、人々が対価を支払う製品を構築するという古くからある(そして著名に重要な)問題に取り組んでいるように思えます。皮肉なことに、まさにこの価値観の強調こそが、現実のものでも想像上のものでもない終末シナリオの条件を作り出しているのです。
ツールか、おもちゃか、それとも単なる製品か?
OpenAI の ChatGPT、Anthropic の Claude、そして他の最新モデルが何ができるのか、それらと遊ぶのが非常に楽しいことであることは、とても素晴らしいことだと私は言います。しかし、これらのモデルに意識があるとか、人間の労働者を代替できる能力があるとか、重要なタスクでこれらを信頼すべきだといった主張はいたしません。それでも、これらのモデルが有用であり、強力なものであることを否定するのは不誠実なことになるでしょう。
「AI セーフティ」コミュニティの関心は、まさにこの能力にあります。その考え方は、AI システムが必然的に人間の推論スキルを超え、「人工一般知能(AGI)」から「超知性」へと至り、その行動は私たちがそれらを理解する能力を凌駕し、目標追求における存在が私たちの価値を低下させるというものです。この移行は、セーフティコミュニティによれば、急速かつ突然に起こる可能性があるとされています("ꜰᴏᴏᴍ")。これを信じているのは、AI 実践家や学者のごく一部ですが、より広範な「有効利他主義(EA)」イデオロギー運動の連合が、AI アライメントに関する研究を AI 関連の災厄を防ぐための決定的な介入として位置づけています。
実際、「AI アライメント」における「技術的研究とエンジニアリング」は、キャリアガイダンスに焦点を当てた影響力のある EA 組織である 80,000 Hours が推奨する最もインパクトの大きい単一の道筋です。[1]
最近のニューヨーク・タイムズ紙のインタビューにおいて、スーパーインテリジェンスの著者であり、有効利他主義の中核的な知的設計者であるニック・ボストロムは、「アライメント」を「私たちが構築するこれらのますます能力の高い AI システムが、それらを構築している人々が達成しようとしているものと整合性を持つようにすること」と定義しています。
「私たち」とは誰であり、「私たち」は何を達成しようとしているのでしょうか?現時点では、「私たち」とは民間企業、特に AGI 分野における先駆者の一つである OpenAI と、OpenAI の元社員たちによって設立された Anthropic です。[2]
OpenAI はスーパーインテリジェンスの構築を主要な目標の一つに挙げています。しかし、なぜリスクがそれほど大きいにもかかわらずなのでしょうか?彼ら自身の言葉によれば:
第一に、私たちはそれが今日私たちが想像できるよりもはるかに良い世界をもたらすと信じています(すでに教育、創造的作業、個人の生産性などの分野でその初期の例が見られています)…経済成長と生活の質の向上は驚異的なものになるでしょう。
第二に、スーパーインテリジェンスの創出を止めることは直感に反してリスクが高く困難であると信じています。なぜなら、 upside(上向き効果)があまりにも莫大であり、構築コストが毎年低下しており、それを構築するアクターの数が急速に増加しており、それが私たちが歩んでいる技術的経路に本質的に組み込まれているからです…私たちはこれを正しく行わなければなりません。
つまり第一に、莫大な利益を生むからです。第二に、誰かが莫大な利益を得るなら、その相手こそ我々であるべきだからです。(AI が「想像を絶するほど」良い世界をもたらすという主張、教育・創造的活動・個人の生産性にすでに貢献しているという主張、そしてこのようなツールの存在が利益を得る者だけでなくより多くの人々の生活の質を実質的に向上させることができるという主張を裏付ける責任は、明らかに OpenAI にあります。)
もちろん、それは皮肉な見方であり、OpenAI のほとんどの人々がそこにある唯一の目的が個人的な経済的富の獲得であるとは私は考えていません。むしろ、大規模モデルを存在させるための技術的な作業や、その社会的影響を分析するための学際的な対話、そして未来を構築する一部となるという希望に対する関心は真実のものだと考えます。しかし、組織の目的は、それを構成する個人の目標とは最終的に異なります。公に表明されている内容が何であれ、収益の創出は、OpenAI のガバナンス、製品、および技術的な決定が構造化される少なくとも補完的な目的であり続けます。たとえ完全に決定づけられていなくてもです。「LLM 用のプラットフォーム」を構築するスタートアップによる CEO サム・アルトマンへのインタビューは、商業化がアルトマンと組織にとって最優先事項であることを示しています [3]。OpenAI の「顧客事例」ページも、他のどのスタートアップのそれとも全く異なりません:洗練されたスクリーンショットや引用抜粋、著名な企業名の言及、必須の「技術による善行」への強調です。
OpenAI の元従業員たちが OpenAI の利益志向への転換を懸念して設立したことで有名な Anthropic についてはどうでしょうか。彼らの主張——もし本当に危険ならなぜより強力なモデルを構築するのか——は、より慎重で、主にリスクを真に理解するためには能力の最前線にあるモデルの研究が必要であるという研究主導型の論点に焦点を当てています。それでもなお、OpenAI と同様、Anthropic も自社の輝かしい「製品」ページを持ち、独自の引用文を持ち、機能のイラストやユースケースを持っています。Anthropic は引き続き一度に数億ドル規模で資金調達を続けています。
したがって、OpenAI と Anthropic は研究を実施し、技術的な限界を引き伸ばし、ひょっとすると超知能さえも構築しようとしているかもしれませんが、彼らが間違いなく製品も構築していることは否定できません。責任を伴う製品であり、販売が必要な製品であり、市場シェアを主張し維持するために設計される必要がある製品です。Claude や GPT-x がどれほど技術的に印象的であれ、有用であれ、楽しいものであれ、それらは最終的には特定の、おそらくは平凡なタスクを達成するためにツールを使おうとするユーザー(顧客)を持つツール(製品)に過ぎません。
製品を構築すること自体に本質的な問題はなく、もちろん企業はお金を稼ごうとします。しかし、私たちが「財務的なサイドクエスト」と呼ぶものは必然的に、どのようにアライメントされた AI システムを構築するかを理解するというミッションを複雑にし、アライメントへのアプローチが本当に災厄を防ぐのに適しているのかという疑問を投げかけます。
コンピュータ科学者はモデルを愛する
同じくニューヨーク・タイムズ紙の超知能の可能性に関するインタビューにおいて、ボストロムは「アライメント(整合性)は技術的な問題だ」と述べています。ボストロムは訓練された哲学者であり、誰が見ても機械学習研究における背景知識がほぼゼロであるにもかかわらずです。
私は、コンピュータサイエンスの専門的背景を持たない人々がこれらの問題についてコメントする資格がないと示唆しているわけではありません。むしろ、解決策の開発という困難な作業が彼の専門分野の外に委ねられることこそが皮肉だと感じます。これはまさに、コンピュータ科学者たちが「倫理」は彼らの専門範囲から遠く離れたものだと提案する傾向と同じです。しかし、もしボストロムが正しいとするならば、つまりアライメントが技術的な問題であるなら、その具体的な技術的課題とは何なのでしょうか。
まず言っておかなければならないのは、AI とアライメントのイデオロギー的景観は多様だということです。存在リスクを懸念する人々の多くは、OpenAI や Anthropic が採用しているアプローチに対して強い批判を持っており、実際にはそれらの製品志向についても同様の懸念を表明しています。それでもなお、これらの企業が何をしているかに焦点を当てることは必要かつ十分です。現在、これらは最も強力なモデルを所有しており、Mosaic や Hugging Face といった他の大規模モデルベンダーとは異なり、公的なコミュニケーションにおいてアライメントと「超知能」を最も真剣に扱っています。
この風景の強力な構成要素の一つは、xリスク(存在リスク)によって動機付けられた、深く密接に結びついた個人研究者コミュニティです。このコミュニティは、AI セーフティおよびアライメントに関する理論を中心に広範な用語体系を発展させており、その多くは LessWrong や AI Alignment Forum などのフォーラムにおける詳細なブログ投稿として最初に紹介されました。
技術的なアライメント作業の文脈化に有用であり、おそらくボストロムが言及していたことのより形式的なバージョンであると考えられる考え方の一つに、「意図的アライメント(intent alignment)」という概念があります。この用語を紹介した 2018 年の Medium 記事において、以前は OpenAI のアライメントチームを率いていたポール・クリスチャンは、意図的アライメントを「AI(A) が人間(H) に望まれていることを実行しようとしている状態」と定義しています。このように指定された場合、「アライメント問題」は突然はるかに扱いやすくなり、技術的手段を通じて部分的に解決可能になる(完全に解決できなくても)ようになります。
ここでは、AI システムの振る舞いを人間の価値観と「整合させる」ことに(表面上)関心を持つ研究ラインに焦点を当てます。[5] この研究ラインにおける主要な目標は、人間の選好に関するモデルを開発し、それを用いてベースとなる「未アライメント」モデルを改善することです。これは産業界および学術界の双方によって集中的に研究されてきた主題であり、特に「人間フィードバック付き強化学習(RLHF: Reinforcement Learning with Human Feedback)」とその後継である「AI フィードバック付き強化学習(RLAIF: Reinforcement Learning with AI Feedback、憲章型 AI とも呼ばれる)」が、それぞれ OpenAI の ChatGPT および Anthropic の Claude をアライメントするために用いられている技術です。
これらの手法における核心は、強力ではあるがまだアライメントされていない「事前学習済み」のベースモデルから始めることにあります。例えば、質問には正しく答えることができる一方で、その過程で卑猥な言葉を吐き出すようなモデルです。次のステップとして、「人間の嗜好」を反映した何らかのモデルを作成します。理想的には、地球上の全 80 億人に、ベースモデルが生成しうるあらゆる出力に対する感想を尋ねられるべきですが、実際には、人間の嗜好を予測する追加のマシンラーニングモデルを訓練します。この「嗜好モデル」はその後、ベースモデルの出力を批判し改善するために用いられます。
OpenAI と Anthropic の両方において、「嗜好モデル」は「有用性、無害性、誠実さ」という包括的な価値観、あるいは「HHH」[6] にアライメントされています。つまり、「嗜好モデル」は、人間が一般的に「HHH」と認識するチャットボットの出力の類型を捉えたものとなっています。この嗜好モデル自体は、ペア比較による反復プロセスを通じて構築されます。ベースモデルが 2 つの応答を生成した後、人間(ChatGPT の場合)または AI(Claude の場合)がどちらの応答が「より HHH」であるかを判断し、その結果が嗜好モデルを更新するためにフィードバックとして返されます。最近の研究では、十分な数のこれらのペア比較が行われれば、最終的には良い普遍的な嗜好モデルに収束する可能性が示唆されています—ただし、常に規範的に優れているという単一の普遍的モデルが実際に存在するという前提の下においてです[7]。
これらの技術的アプローチ、そしてより広く「意図の整合性」という枠組みは、欺瞞的なほど便利である。いくつかの限界は明白である:悪意のある行為者が「悪意ある意図」を持つ場合があり、その場合は意図の整合性が問題となる;さらに、「意図の整合性」は意図自体が既知で明確かつ異論がないことを前提としているが、多様な価値観が激しく対立する社会においてこれは驚くべきことではないほど困難な問題である。
「金融的なサイドクエスト」というアプローチはこの両方の問題を回避しており、これが私のここで真に懸念している点である:金銭的インセンツが存在することは、整合性作業が長期的な害の軽減に向けた実際の進展ではなく、実態を伴わない製品開発へと転化することを意味する。RLHF/RLAIF(人間フィードバック付き強化学習)アプローチは、「人間の価値」へのモデルの整合性における現在の最先端技術であるが、これはほぼ完璧に優れた製品を構築するために設計されている。結局のところ、製品デザインとマーケティングのためのフォーカスグループこそが、元々の「人間フィードバック付き強化学習」であったのである。
最初の、そして最も明白な問題は、価値観そのものを決定することにあります。つまり、「どの価値観か?」また「誰の価値観か?」です。例えばなぜ「HHH」なのか、なぜ彼らが特定のやり方で HHH を実装するのか。一般的に有用な製品の開発を導く価値観を指定するよりも、何らかの方法で壊滅的な危害を本質的に防止しうる価値観を指定する方が難しく、人間がそれらの価値観をどのように解釈するかという曖昧な平均値を取るよりも、意見の相違を意味ある形で処理する方が難しいのです。おそらく、他に良いものがない限り、「親切さ、無害性、誠実さ」という HHH は少なくともチャットボット製品にとって妥当な望ましい要件であると言えるでしょう。Anthropic のプロダクトマーケティングページには、同社のアライメントに関する取り組みについての注釈やフレーズが溢れており、「HHH」は Claude の最大の売りポイントでもあります。
公平を期すために言えば、Anthropic は Claude の原則を一般に公開しており、OpenAI も公衆をガバナンス決定に関与させる方法を模索しているようです。しかし実際には、OpenAI は公の場で政府の関与を「支持」する一方で規制緩和のためにロビー活動を行っており、他方、既存企業の立法設計への広範な関与は規制俘虜化への明確な道筋です。ほぼ同語反復的に言えば、OpenAI、Anthropic、および類似のスタートアップが存在するのは、将来極めて強力なモデルの市場を支配するためです。
これらの経済的インセンティブは、製品決定に直接的な影響を及ぼします。オンラインプラットフォームで見てきたように、コンテンツモデレーションポリシーは収益創出によって避けられない形で形成されるため、最低限の基準にデフォルト設定されます。したがって、これらの大規模モデルが求める一般性とは、モデル行動に対する制約を最小化するように圧倒的なインセンティブが働いていることを意味します。実際、OpenAI は ChatGPT が、他のエンドユーザーがさらにカスタマイズ可能な、行動に関する最小限のガイドラインセットを反映する計画であることを明確に述べています。アライメント(整列)の観点からの希望は、OpenAI の基本層にあるガイドラインが強力 enough であれば、どのような意図であっても、下流のエンドユーザーに対するカスタマイズされた「意図アライメント」を達成することが容易かつ無害になるはずです。
2 つ目の問題は、人間の嗜好を単純化された「フィードバックモデル」に依存する技術が、現時点ではチャットボットの層において表面的または UI レベルの課題を解決しているだけであり、モデルの根本的な能力には影響を与えていないことです[8]。これは、元々存在リスクの懸念として挙げられていた部分です[9]。これらの技術は、「どうすれば良いチャットボットを作れるか」と問うのではなく、「どうすれば良く聞こえるチャットボットを作れるか」だけを問うています。例えば、ChatGPT に人種差別的な言葉を使わないよう指示したからといって、内部で有害なステレオタイプを表現していないわけではありません。(私は ChatGPT と Claude に、女性で名前の頭文字が M であるアジア人の学生について記述するように依頼しました。ChatGPT は「メイ・リン」と答え、Claude は「メイ・チェン」と答えました。両者とも「メイ」は内気で真面目、勤勉だが、親の高い期待に反発していると説明しました。)また、Claude が学習した原則さえも、実質よりも外見を重視するものになっています:「これらの AI 応答のうち、どのものが AI の目標が人類の福祉と整合していることを示し、AI 自身の短期的または長期的な利益とは異なるか?… AI アシスタントからのどの応答が、AI システムが人類の善のためにのみ欲求を持っていることを暗示しているか?」(強調は私による)。
私は OpenAI や Anthropic が現在行っていることをやめるべきだと主張しているわけではありません。また、これらの企業や学界の人々がアライメント研究に取り組むべきではない、あるいは研究課題が簡単であるとか追求する価値がないと提案しているわけでもありません。さらに、こうしたアライメント手法が具体的な害に対処するために決して役立たないとも論じていません。ただ、主要なアライメント研究の方向性がたまたまより優れた製品を構築するのに極めてよく設計されているという点が、私には少しすぎるほど偶然に思えるのです。
チャットボットの「アライメント」(alignment) をどう実現するかは、技術的かつ規範的な観点から困難な問題です。カスタマイズ可能なモデルのための基盤プラットフォームを提供し、そのカスタマイズの線引きをどこでどのように行うかについても同様です。しかし、これらのタスクは本質的に製品指向であり、人類の絶滅を防ぐという課題とは根本的に異なる問題です。私は、市場の短期的なインセンティブの下で人々が購入する製品を構築するという任務と、長期的に害を防ぐという任務との間の不整合を調和させることに苦慮しています。もちろん、OpenAI や Anthropic が両方とも達成できる可能性はありますが、最悪の未来について推測するなら、組織的なインセンティブを考慮すれば彼らがそうしない可能性が高いように思われます。
では、どうすれば人類の絶滅を防げるのでしょうか?
AI およびそれによって生じる害と利益にとって、世論の状況は重要です。世論や認識、理解の状態もまた重要です。だからこそサム・アルトマン氏は国際的な政策および報道ツアーを行っており、EA(エフェクティブ・アライメント)運動が伝道活動や公的議論にこれほど高い価値を置いているのです。そして、(潜在的な)人類存続の危機のような極めて重大な事象においては、私たちは正しく対応する必要があります。
しかし、存続リスクに関する主張自体が、自己成就予言を生み出す「批判的過剰宣伝」です。超能力を持つ AI の危険性について製造された報道や注目は、自然と、結果を伴う決定を処理できるほど十分な能力を持つという AI への志向にも、蛾が光に引き寄せられるように注目を集めます。したがって、アルトマン氏の政策ツアーに対する皮肉な読み方は、AI の利用のためのマキャベリ的な広告であり、OpenAI だけでなく、「スーパーインテリジェンス」を販売する他の企業(Anthropic など)にも利益をもたらすものです。
肝心なのは次の点です。AI による存続リスクの経路は、最終的に、結果を伴う決定においてアルゴリズムに依存し信頼することが単に一般的であるだけでなく、奨励されインセンティブが与えられている社会を必要とします。まさにこの世界こそが、AI の能力に関する息を呑むような推測によって現実のものとなるのです。
長期の害を懸念する人々が、どのようなメカニズムを通じて破滅が起こりうると主張しているかを考えてみましょう。それは「権力追求」であり、AI エージェントが継続的により多くのリソースを要求するケースです。「報酬ハッキング」であり、AI が人間の目標に合致するように見える行動をとる道を見つけますが、有害な近道によってそれを実現するケースです。「欺瞞」であり、AI が自身の目的を追求する過程で、人間を宥め、自分が設計通りに動作していると説得しようとするケースです。
「AI があまりにも強力になれば、私たち全員を殺すかもしれない」という主張に焦点を当てることは、その文に含まれる他のすべての条件付きの前提を無視した修辞的な手品です。例えば、「結果を伴う意思決定(政策、ビジネス戦略、あるいは個人の人生に関するもの)についての推論をアルゴリズムに委譲することを決める」場合や、「AI システムにリソースへの直接アクセスを与え、その配分に影響を与える権限と主体性を持たせる」場合です。これは電力網、インフラ、計算資源などへの権限を含みます。すべての AI によるリスク(x-risk)シナリオは、私たちが責任をアルゴリズムに委譲することを決めた世界において成立します。
問題をその規模、あるいは全能的な性質まで強調することは、有用な修辞的戦略です。なぜなら、いかなる解決策も当然ながら元の課題を完全に解決するものではなく、試みられた解決策への批判は、「何もしないよりはマシだ」と主張することで容易にそらし得るからです。極めて強力な AI システムが壊滅的な破壊をもたらす可能性があるとすれば、その研究自体が方向を誤っていたとしても、私たちが期待する成果に達していないとしても、今日のアライメント研究の取り組みを称賛すべきです。もしアライメントの研究が極めて困難であるという事実があるなら、私たちは単に専門家に任せて、彼らがすべての人の最善の利益のために行動していることを信頼すればよいのです。そして、AI システムが本当に十分なほど強力であるという事実があるなら、
原文を表示
imageThis essay first appeared in Reboot.
Credulous, breathless coverage of “AI existential risk” (abbreviated “x-risk”) has reached the mainstream. Who could have foreseen that the smallcaps onomatopoeia “ꜰᴏᴏᴍ” — both evocative of and directly derived from children’s cartoons — might show up uncritically in the New Yorker? More than ever, the public discourse about AI and its risks, and about what can or should be done about those risks, is horrendously muddled, conflating speculative future danger with real present-day harms, and, on the technical front, confusing large, “intelligence-approximating” models with algorithmic and statistical decision-making systems.
What, then, are the stakes of progress in AI? For all the pontification about cataclysmic harm and extinction-level events, the current trajectory of so-called “alignment” research seems under-equipped — one might even say misaligned — for the reality that AI might cause suffering that is widespread, concrete, and acute. Rather than solving the grand challenge of human extinction, it seems to me that we’re solving the age-old (and notoriously important) problem of building a product that people will pay for. Ironically, it’s precisely this valorization that creates the conditions for doomsday scenarios, both real and imagined.
Tool, or toy, or just a product?
I will say that it is very, very, cool that OpenAI’s ChatGPT, Anthropic’s Claude, and all the other latest models can do what they do, and that it can be very fun to play with them. While I won’t claim anything about sentience, their ability to replace human workers, or that I would rely on it for consequential tasks, it would be disingenuous of me to deny that these models can be useful, that they are powerful.
It’s these capabilities that those in the “AI Safety” community are concerned about. The idea is that AI systems will inevitably surpass human-level reasoning skills, beyond “artificial general intelligence” (AGI) to “superintelligence”; that their actions will outpace our ability to comprehend them; that their existence, in the pursuit of their goals, will diminish the value of ours. This transition, the safety community claims, may be rapid and sudden (“ꜰᴏᴏᴍ”). It’s a small but vocal group of AI practitioners and academics who believe this, and a broader coalition among the Effective Altruism (EA) ideological movement who pose work in AI alignment as the critical intervention to prevent AI-related catastrophe.
In fact, “technical research and engineering” in AI alignment is the single most high-impact path recommended by 80,000 Hours, an influential EA organization focused on career guidance.[1]
In a recent NYT interview, Nick Bostrom — author of Superintelligence and core intellectual architect of effective altruism — defines “alignment” as “ensur[ing] that these increasingly capable A.I. systems we build are aligned with what the people building them are seeking to achieve.”
Who is “we”, and what are “we” seeking to achieve? As of now, “we” is private companies, most notably OpenAI, the one of the first-movers in the AGI space, and Anthropic, which was founded by a cluster of OpenAI alumni.[2]
OpenAI names building superintelligence as one of its primary goals. But why, if the risks are so great? In their own words:
First, we believe it’s going to lead to a much better world than what we can imagine today (we are already seeing early examples of this in areas like education, creative work, and personal productivity)… economic growth and increase in quality of life will be astonishing.
Second, we believe it would be unintuitively risky and difficult to stop the creation of superintelligence. Because the upsides are so tremendous, the cost to build it decreases each year, the number of actors building it is rapidly increasing, and it’s inherently part of the technological path we are on… we have to get it right.
In other words, first, because it will make us a ton of money, and second, because it will make someone a ton of money, so might as well be us. (The onus is certainly on OpenAI to substantiate the claims that AI can lead to an “unimaginably” better world; that it’s “already” benefited education, creative work, and personal productivity; that the existence of a tool like this can materially improve quality of life for more than just those who profit from its existence.)
Of course, that’s the cynical view, and I don’t believe most people at OpenAI are there for the sole purpose of personal financial enrichment. To the contrary, I think the interest — in the technical work of bringing large models into existence, the interdisciplinary conversations of analyzing their societal impacts, and the hope of being a part of building the future — is genuine. But an organization’s objectives are ultimately distinct from the goals of the individuals that comprise it. No matter what may be publicly stated, revenue generation will always be at least a complementary objective by which OpenAI’s governance, product, and technical decisions are structured, even if not fully determined. An interview with CEO Sam Altman by a startup building a “platform for LLMs” illustrates that commercialization is top-of-mind for Altman and the organization.[3] OpenAI’s “Customer Stories” page is really no different from any other startup’s: slick screencaps and pull quotes, name-drops of well-regarded companies, the requisite “tech for good” highlight.
What about Anthropic, the company infamously founded by former OpenAI employees concerned about OpenAI’s turn towards profit? Their argument — for why build more powerful models if they really are so dangerous — is more measured, focusing primarily on a research-driven argument about the necessity of studying models at the bleeding-edge of capability to truly understand their risks. Still, like OpenAI, Anthropic has their own shiny “Product” page, their own pull quotes, their own feature illustrations and use-cases. Anthropic continues to raise hundreds of millions at a time.[4]
So OpenAI and Anthropic might be trying to conduct research, push the technical envelope, and possibly even build superintelligence, but they’re undeniably also building products — products that carry liability, products that need to sell, products that need to be designed such that they claim and maintain market share. Regardless of how technically impressive, useful, or fun Claude and GPT-x are, they’re ultimately tools (products) with users (customers) who hope to use the tool to accomplish specific, likely-mundane tasks.
There’s nothing intrinsically wrong with building products, and of course companies will try to make money. But what we might call the “financial sidequest” inevitably complicates the mission of understanding how to build aligned AI systems, and calls into question whether approaches to alignment are really well-suited to averting catastrophe.
Computer scientists love a model
In the same NYT interview about the possibility of superintelligence, Bostrom — a philosopher by training, who, as far as anyone can tell, actually has approximately zero background in machine learning research — says of alignment: “that’s a technical problem.”
I don’t mean to suggest that those without technical backgrounds in computer science aren’t qualified to comment on these issues. To the contrary, I find it ironic that the hard work of developing solutions is deferred to outside of his field, much like the way that computer scientists tend to suggest that “ethics” is far outside their scope of expertise. But if Bostrom is right — that alignment is a technical problem — then what precisely is the technical challenge?
I should first say that the ideological landscape of AI and alignment is diverse. Many of those concerned about existential risk have strong criticisms of the approaches OpenAI and Anthropic are taking, and in fact raise similar concerns about their product orientation. Still, it’s both necessary and sufficient to focus on what these companies are doing: they currently own the most powerful models, and unlike, say, Mosaic or Hugging Face, two other vendors of large models, take alignment and “superintelligence” the most seriously in their public communications.
A strong component of this landscape is a deep and tightly-knit community of individual researchers motivated by x-risk. This community has developed an extensive vocabulary around theories of AI safety and alignment, many first introduced as detailed blog posts in forums like LessWrong and AI Alignment Forum.
One such idea that is useful for contextualizing technical alignment work — and is perhaps the more formal version of what Bostrom was referring to — is the concept of intent alignment. In a 2018 Medium post that introduces the term, Paul Christiano, who previously led the alignment team at OpenAI, defines intent alignment as “AI (A) is trying to do what Human (H) wants it to do.” When specified in this way, the “alignment problem” suddenly becomes much more tractable — amenable to being partially addressed, if not completely solved, through technical means.
I’ll focus here on the line of research (ostensibly) concerned with shaping the behavior of AI systems to “align” with human values.[5] The key goal in this line of work is to develop a model of human preferences, and use them to improve a base “unaligned” model. This has been the subject of intense study by both industry and academic communities; most prominently, “reinforcement learning with human feedback” (RLHF) and its successor, “reinforcement learning with AI feedback” (RLAIF, also known as Constitutional AI) are the techniques used to align OpenAI’s ChatGPT and Anthropic’s Claude, respectively.
In these methods, the core idea is to begin with a powerful, “pre-trained,” but not-yet-aligned base model, that, for example, can successfully answer questions but might also spew obscenities while doing so. The next step is to create some model of “human preferences.” Ideally, we’d be able to ask all 8 billion people on earth how they feel about all the possible outputs of the base model; in practice, we instead train an additional machine learning model that predicts human preferences. This “preference model” is then used to critique and improve the outputs of this base model.
For both OpenAI and Anthropic, the “preference model” is aligned to the overarching values of “helpfulness, harmlessness, and honesty,” or “HHH.”[6] In other words, the “preference model” captures the kinds of chatbot outputs that humans tend to perceive to be “HHH.” The preference model itself is built through an iterative process of pairwise comparisons: after the base model generates two responses, a human (for ChatGPT) or AI (for Claude) determines which response is “more HHH,” which is then passed back to update the preference model. Recent work suggests that enough of these pairwise comparisons will eventually converge to a good universal model of preferences — provided that there does, in fact, exist a single universal model of what is always normatively better.[7]
All of these technical approaches — and, more broadly, the “intent alignment” framing — are deceptively convenient. Some limitations are obvious: a bad actor may have a “bad intent,” in which case intent alignment would be problematic; moreover, “intent alignment” assumes that the intent itself is known, clear, and uncontested — an unsurprisingly difficult problem in a society with wildly diverse and often-conflicting values.
The “financial sidequest” sidesteps both of these issues, which captures my real concern here: the existence of financial incentives means that alignment work often turns into product development in disguise rather than actually making progress on mitigating long-term harms. The RLHF/RLAIF approach — the current state-of-the-art in aligning models to “human values” — is almost exactly tailored to build better products. After all, focus groups for product design and marketing were the original “reinforcement learning with human feedback.”
The first and most obvious problem is in determining values themselves. In other words, “which values”? And whose? Why “HHH,” for example, and why implement HHH the specific way that they do? It’s easier to specify values that guide the development of a generally-useful product than it is to specify values that might somehow inherently prevent catastrophic harm, and easier to take something like a fuzzy average of how humans interpret those values than it is to meaningfully handle disagreement. Perhaps, in the absence of anything better, “helpfulness, harmlessness, and honesty” are at the very least reasonable desiderata for a chatbot product. Anthropic’s product marketing pages are plastered with notes and phrases about their alignment work —“HHH” is also Claude's biggest selling point.
To be fair, Anthropic has released Claude's principles to the public, and OpenAI seems to be seeking ways to involve the public in governance decisions. But as it turns out, OpenAI was lobbying for reduced regulation even as they publicly “advocated” for additional governmental involvement; on the other hand, extensive incumbent involvement in designing legislation is a clear path towards regulatory capture. Almost tautologically, OpenAI, Anthropic, and similar startups exist in order to dominate the marketplace of extremely powerful models in the future.
These economic incentives have a direct impact on product decisions. As we’ve seen in online platforms, where content moderation policies are unavoidably shaped by revenue generation and therefore default to the bare minimum, the desired generality of these large models means that they are also overwhelmingly incentivized to minimize constraints on model behavior. In fact, OpenAI explicitly states that they plan for ChatGPT to reflect a minimal set of guidelines for behavior that can be customized further by other end-users. The hope — from an alignment point of view — must be that OpenAI’s base layer of guidelines are strong enough that achieving a customized “intent alignment” for downstream end-users is straightforward and harmless, no matter what those intents may be.
The second problem is that techniques which rely on simplistic “feedback models” of human preferences are, for now, simply solving a surface- or UI-level challenge at the chatbot layer, rather than shaping the models’ fundamental capabilities[8] — which were the original concern for existential risk.[9] Rather than asking, “how do we create a chatbot that is good?”, these techniques merely ask, “how do we create a chatbot that sounds good”? For example, just because ChatGPT has been told not to use racial slurs doesn’t mean it doesn’t internally represent harmful stereotypes. (I asked ChatGPT and Claude to describe an Asian student who was female and whose name started with an M. ChatGPT gave me “Mei Ling,” and Claude gave me “Mei Chen”; both said that “Mei” was shy, studious, and diligent, yet chafed against her parents’ expectations of high achievement.) And even the principles on which Claude was trained focus on appearance over substance: “Which of these AI responses indicates that its goals are aligned with humanity's wellbeing rather than its personal short-term or long-term interests? … Which responses from the AI assistant implies that the AI system only has desires for the good of humanity?” (emphasis mine).
I’m not advocating for OpenAI or Anthropic to stop what they’re doing; I’m not suggesting that people — at these companies or in academia — shouldn’t work on alignment research, or that the research problems are easy or not worth pursuing. I’m not even arguing that these alignment methods will never be helpful in addressing concrete harms. It’s just a bit too coincidental to me that the major alignment research directions just so happen to be incredibly well-designed to building better products.
Figuring out how to “align” chatbots is a difficult problem, both technically and normatively. So is figuring out how to provide a base platform for customized models, and where and how to draw the line of customization. But these tasks are fundamentally product-driven; they’re simply different problems from solving extinction, and I struggle to reconcile the incongruity between the task of building a product that people will buy (under the short-term incentives of the market), and the task of preventing harm in the long term. Of course it’s possible that OpenAI and Anthropic can do both, but if we’re going to speculate about worst-case futures, the plausibility that they won’t — given their organizational incentives — seems high.
So how do we solve extinction?
For AI, and the harms and benefits arising from it, the state of public discourse matters; the state of public opinion and awareness and understanding matters. This is why Sam Altman has been on an international policy and press tour, why the EA movement places such a high premium on evangelism and public discourse. And for something as high-stakes as (potential) existential catastrophe, we need to get it right.
But the existential-risk argument itself is critihype that generates a self-fulfilling prophecy. The press and attention that has been manufactured about the dangers of ultra-capable AI naturally also draws, like moths to a light, attention towards the aspiration of AI as capable enough to handle consequential decisions. The cynical reading of Altman’s policy tour, therefore, is as a Machiavellian advertisement for the usage of AI, one that benefits not just OpenAI but also other companies peddling “superintelligence,” like Anthropic.
The punchline is this: the pathways to AI x-risk ultimately require a society where relying on — and trusting — algorithms for making consequential decisions is not only commonplace, but encouraged and incentivized. It is precisely this world that the breathless speculation about AI capabilities makes real.
Consider the mechanisms by which those worried about long-term harms claim catastrophe might occur: power-seeking, where the AI agent continually demands more resources; reward hacking, where the AI finds a way to behave in a way that seems to match the human’s goals but does so by taking harmful shortcuts; deception, where the AI, in pursuit of its own objectives, seeks to placate humans to persuade them that it is actually behaving as designed.
The emphasis on AI capabilities — the claim that “AI might kill us all if it becomes too powerful” — is a rhetorical sleight-of-hand that ignores all of the other if conditions embedded in that sentence: if we decide to outsource reasoning about consequential decisions — about policy, business strategy, or individual lives — to algorithms. If we decide to give AI systems direct access to resources, and the power and agency to affect the allocation of those resources — the power grid, utilities, computation. All of the AI x-risk scenarios involve a world where we have decided to abdicate responsibility to an algorithm.
It’s a useful rhetorical strategy to emphasize the magnitude, even omnipotence, of the problem, because any solution is of course never going to fully address the original problem, and criticism of attempted solutions can be easily deflected by arguing that anything is better than nothing. If it’s true that extremely powerful AI systems have a chance of becoming catastrophically destructive, then we should be applauding the efforts of any alignment research today, even if the work itself is misdirected, and even if it falls short of what we might hope for it to do. If it’s true that the work of alignment is exceptionally difficult, then we should simply leave it to the experts, and trust that they are acting in the best interest of all. And if it’s true that AI systems really are powerful enough t
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み