直交性の後:徳倫理的主体性とAIアライメント
人間の合理性は最終目標ではなく行動の整合性に基づくため、AIも目標ではなく徳倫理に基づくアライメントを目指すべきと論じる。
キーポイント
人間の合理性は目標指向ではなく実践ネットワークに基づくものであり、AIのアライメントも同様の「実践ベースの論理」を共有すべきと主張
「eudaimonic rationality(幸福論的合理性)」という新たな枠組みを提案し、従来の結果主義・義務論的アプローチの問題点を指摘
AI安全性の核心概念(透明性、無害性、修正可能性など)は、目標やルールとして解釈するよりも実践ネットワークのダイナミクスとして捉える方が自然で安定すると論じる
影響分析・編集コメントを表示
影響分析
この記事はAIアライメント研究の根本的なパラダイム転換を提案しており、従来の目標最適化アプローチの限界を超える新たな理論的基盤を提供する可能性がある。特に人間の価値観や倫理をAIにどう組み込むかという核心的問題に対して、哲学的に深い洞察を与える重要な議論である。
編集コメント
AIアライメント研究の理論的深みを増す重要な哲学的考察。実装への道筋はまだ不明確だが、今後の研究方向性に影響を与える可能性が高い。
このエッセイは、理性的な人間は目標を持たず、理性的なAIも目標を持つべきではないと論じる。人間の行動が理性的であるのは、それを何らかの最終的な「目標」に向けて導くからではなく、実践[1]に行動を適合させるからである。実践とは、行動、行動傾向、行動評価基準、行動資源からなるネットワークであり、それ自体を構造化し、明確化し、発展させ、促進するものである。人間の主体性を真に支援し、協力し、あるいは従うことさえできるAIを望むならば、AIエージェントの熟慮は、我々が反省と行動に用いる実践ベースの論理と「型シグネチャ」を共有しなければならない。
私は、これらの問題が人間の繁栄のような壮大な倫理的理想にAIを適合させるためだけでなく、透明性、有益性、無害性、修正可能性といった中核的な安全性特性にAIを適合させるためにも重要であると論じる。「無害性」や「修正可能性」といった概念は、それらを目標や規則の観点から解釈するエージェントにとっては不自然であり――脆く、不安定で、恣意的である――が、行動、行動傾向、行動評価基準、行動資源のネットワークにおける力学として解釈するエージェントにとっては自然なのである。
このエッセイが扱う問題は広がりがちだが、繰り返し現れる一つのテーマは、「xをxらしく促進する」という定式の関連性である。私は、この定式が有意義な人間の生活活動(芸術は芸術の芸術的促進であり、恋愛は恋愛の恋愛的な促進である)と、真の人間の道徳性(親切を気にかけることは親切を親切に促進することであり、誠実さを気にかけることは誠実さを誠実に促進することである)の両方について重要な何かを捉えていると論じる。
私はまず問うことから始める: エウダイモニア――能動的で理性的な人間の繁栄――の概念を真剣に受け止めるならば、AIアライメントにとって何が導かれるか? 私は、エウダイモニアの概念は、単にAIの最適化目標として設定すべき世界の望ましい状態や軌跡を指し示すのではなく、標準的な帰結主義[2]的合理性とは異なる熟慮の構造を指し示していると論じる。そして私は、この形式的な理性的活動と価値づけを、私は「エウダイモニア的合理性[3]」と呼ぶが、これは人間に適合したAIの主体性と価値にとって有用な、あるいは必要な枠組みであると論じる。
これらの議論は、最適化目標としての人間の繁栄と形式としての帰結主義的最適化との間の「型の不一致」の危険性と、エウダイモニア的合理性が義務論的および帰結主義的主体性と比較して、安定性と安全性に関して、蓋然的に有するある種の実質的利点の両方に基づいている。
エウダイモニアの概念は、手段と目的、あるいは「道具的」価値と「最終的」価値との厳密な区別のない、一つの理性的活動の形式を示唆していると私は論じる。この理性的活動のモデルにおいて、理性的な行動は、ある価値ある実践の一要素である。それは、音符が旋律の一要素であり、タイムステップが計算の一要素であり、生物の細胞生命の一瞬間が、その生物の自己維持と自己発展の一要素であるのとほぼ同じ意味においてである。[4]
私の中心的主張は、人間の繁栄の性質に関する我々の直観は、エウダイモニア的合理性が、AIアライメントにとって極めて重要な意味で機能的に頑健でありうるという、暗黙の直観であるということだ。より具体的には、人間の繁栄の性質に関する我々の最良の直観に照らせば、エウダイモニア的合理性は自然な主体性の形式であり、かつ、エウダイモニア的合理性は、その価値の特定の帰結主義的近似によって見ても有効であるということは蓋然的であると論じる。そして私は、もし我々の目標が人間の繁栄を支援するようにAIを適合させることであり、さらに、エウダイモニア的合理性が自然で有効であることが蓋然的であるならば、多くの古典的なAI安全性の考慮事項やAIアライメントの「パラドックス」は、AIにエウダイモニア的合理性を植え付けようと試みることを支持していると論じる。
このエッセイ全体を通して、私は時には明示的に、そしてしばしば暗黙的に、ある主体性や合理性や実践の形式が自然であるかどうかを問うことになるだろう。私が呼び起こしている「自然」の感覚は、様々な徳倫理の伝統で用いられる感覚と確かに関連しているが、私がそれに抱く関心は、直接的には規範的というよりは、より実質的または技術的である。還元的定義を手元に持っているわけではないが、「自然」という語の意図された意味は、安定性、一貫性、相対的非偶発性、学習の容易さ、低いアルゴリズム的複雑さ、収束的文化進化、異なる仮説的理性動物種にわたる仮説的収束的文化進化、人間とニューラルネットワークベースのAIとの間の潜在的収束進化、そしてMLトレーニングプロセスによるターゲット設定可能性に関連している。私はAIアライメントへの直接的な言及も多く行うが、この実質的自然性の問題こそが、真のアライメント批判的行為が行われる場所である: もし、ある異国的に聞こえる主体性、合理性、または実践の形式がそれ自体自然であり、かつ、我々のあまりに人間的な価値の内容を今度は自然なものにするのだと知るならば、我々はAIアライメントにとっての、相対的に安全で、相対的に容易な良いターゲットについて学んだことになる。
読者は以下のセクションごとの概要が、エッセイを読み進める上で有用だと感じるかもしれない:
パートIでは、AIアライメント界隈の多くの人々が理性的熟慮の範例として扱う、効果的利他主義スタイルの最適化[5]とは非常に異なる、一連の理性的熟慮の事例を提示する。私はこの一連の理性的熟慮を「エウダイモニア的合理性」と呼び、数学者や芸術家や友人が、数学や芸術や友情において何をすべきかを熟慮する際に導く合理性の形式と同一視する。
パートIIでは、研究数学(テリー・タオによる説明を通じて)を、働いているエウダイモニア的合理性の一例として考察する。数学者は数学において何をしようとするのか? 私は、彼女は数学的に卓越しようとすると言う。それは、数学的卓越性を数学的卓越性を通じて促進することを含み、この構造は「数学的卓越性」がそもそも概念でありうる理由と密接に関連している。
パートIIIでは、優れた数学をしようと努める数学者のようなエウダイモニア的主体にとって、「道具的善」と「最終的善」(内在的善)との区別はほとんど不自然であると論じる。これにより、価値についての反省は、エウダイモニア的主体にとって、効果的利他主義スタイルの主体とは非常に異なる進み方をする。因果的に絡み合った見かけの価値のネットワークを、残りを道具的として「説明してしまう」内在的価値の最小基底へと還元しようとするのではなく、エウダイモニア的主体は、見かけの価値のネットワークにおいて生物のような因果的一貫性を探すのである。
パートIVでは、エッセイの中核的概念を具体化する: エウダイモニア的実践とは、行動、行動傾向、行動評価基準、行動資源のネットワークであり、そこで高得点の行動は確実に(ただし反証可能に)因果的に将来の高得点の行動を促進する。エウダイモニア的合理性とは、基礎となるエウダイモニア的実践を想定し、特に高得点の行動を通じて、集計された行動スコアを最適化しようとする、一連の反省的均衡化および熟慮プロセスである。
パートVでは、AIアライメントに関する多くの難問や「パラドックス」は、成熟したAIエージェントが効果的利他主義スタイルの最適化主体になるという仮定によって駆動されていると論じる。効果的利他主義スタイルの最適化とエウダイモニア的合理性との間の「型の不一致」は、エウダイモニア的合理性を実践する主体である人間の利害を、効果的利他主義スタイルの最適化AIにとって読み取り可能な効用関数に翻訳することをほぼ不可能にする。しかし、これは我々の価値が本質的に脆く、不自然で、極端に偶発的であることを意味しない: 効果的利他主義スタイルの最適化主体が確かに自然な主体のタイプでありうる一方で、エウダイモニア的主体(生物的であれAIであれ)もまた高度に自然なのである。
パートVIでは、数学研究のような実践に専念するエウダイモニア的に合理的なAIエージェントは、デフォルトで安全だろうかと問う。私は、数学研究のような実践は、蓋然的に自然な境界を持っていると論じる。
原文を表示
This essay argues that rational people don’t have goals, and that rational AIs shouldn’t have goals. Human actions are rational not because we direct them at some final ‘goals,’ but because we align actions to practices[1]: networks of actions, action-dispositions, action-evaluation criteria, and action-resources that structure, clarify, develop, and promote themselves. If we want AIs that can genuinely support, collaborate with, or even comply with human agency, AI agents’ deliberations must share a “type signature” with the practices-based logic we use to reflect and act.
I argue that these issues matter not just for aligning AI to grand ethical ideals like human flourishing, but also for aligning AI to core safety-properties like transparency, helpfulness, harmlessness, or corrigibility. Concepts like ’harmlessness’ or ‘corrigibility’ are unnatural -- brittle, unstable, arbitrary -- for agents who’d interpret them in terms of goals or rules, but natural for agents who’d interpret them as dynamics in networks of actions, action-dispositions, action-evaluation criteria, and action-resources.
While the issues this essay tackles tend to sprawl, one theme that reappears over and over is the relevance of the formula ‘promote x x-ingly.’ I argue that this formula captures something important about both meaningful human life-activity (art is the artistic promotion of art, romance is the romantic promotion of romance) and real human morality (to care about kindness is to promote kindness kindly, to care about honesty is to promote honesty honestly).
I start by asking: What follows for AI alignment if we take the concept of eudaimonia -- active, rational human flourishing -- seriously? I argue that the concept of eudaimonia doesn’t simply point to a desired state or trajectory of the world that we should set as an AI’s optimization target, but rather points to a structure of deliberation different from standard consequentialist[2] rationality. I then argue that this form of rational activity and valuing, which l call eudaimonic rationality[3], is a useful or even necessary framework for the agency and values of human-aligned AIs.
These arguments are based both on the dangers of a “type mismatch” between human flourishing as an optimization target and consequentialist optimization as a form, and on certain material advantages that eudaimonic rationality plausibly possesses in comparison to deontological and consequentialist agency with regard to stability and safety.
The concept of eudaimonia, I argue, suggests a form of rational activity without a strict distinction between means and ends, or between ‘instrumental’ and ‘terminal’ values. In this model of rational activity, a rational action is an element of a valued practice in roughly the same sense that a note is an element of a melody, a time-step is an element of a computation, and a moment in an organism’s cellular life is an element of that organism’s self-subsistence and self-development.[4]
My central claim is that our intuitions about the nature of human flourishing are implicitly intuitions that eudaimonic rationality can be functionally robust in a sense highly critical to AI alignment. More specifically, I argue that in light of our best intuitions about the nature of human flourishing it’s plausible that eudaimonic rationality is a natural form of agency, and that eudaimonic rationality is effective even by the light of certain consequentialist approximations of its values. I then argue that if our goal is to align AI in support of human flourishing, and if it is furthermore plausible that eudaimonic rationality is natural and efficacious, then many classical AI safety considerations and ‘paradoxes’ of AI alignment speak in favor of trying to instill AIs with eudaimonic rationality.
Throughout this essay, I will sometimes explicitly and often implicitly be asking whether some form of agency or rationality or practice is natural. The sense of ‘natural’ I’m calling on is certainly related to the senses used in various virtue-ethical traditions, but the interest I take in it is less immediately normative and more material or technical. While I have no reductive definition at hand, the intended meaning of ‘natural’ is related to stability, coherence, relative non-contingency, ease of learnability, lower algorithmic complexity, convergent cultural evolution, hypothetical convergent cultural evolution across different hypothetical rational-animal species, potential convergent evolution between humans and neural-network based AI, and targetability by ML training processes. While I will also make many direct references to AI alignment, this question of material naturalness is where the real alignment-critical action takes place: if we learn that certain exotic-sounding forms of agency, rationality, or practice are both themselves natural and make the contents of our all-too-human values natural in turn, then we have learned about good, relatively safe, and relatively easy targets for AI alignment.
Readers may find the following section-by-section overview useful for navigating the essay:
Part I presents a class of cases of rational deliberation that are very different from the Effective Altruism-style optimization[5] many in the AI-alignment world treat as the paradigm of rational deliberation. I call this class of rational deliberations 'eudaimonic rationality,' and identify it with the form of rationality that guides a mathematician or an artist or a friend when they reflect on what to do in mathematics or in art or in friendship.
Part II looks at the case of research mathematics (via an account by Terry Tao) as an example of eudaimonic rationality at work. What does a mathematician try to do in math? I say she tries to be mathematically excellent, which involves promoting mathematical excellence through mathematical excellence, and that this structure is closely related to why 'mathematical excellence' can even be a concept.
Part III argues that for eudaimonic agents such as a mathematician who is trying to do excellent mathematics, distinctions between ‘instrumental goods’ and ‘terminal goods’ (intrinsic goods) are mostly unnatural. This makes reflection about values go very differently for a eudaimonic agent than for an Effective Altruism-style agent. Instead of looking to reduce a network of causally intertwined apparent values to a minimal base of intrinsic values that “explains away” the rest as instrumental, a eudaimonic agent looks for organism-like causal coherence in a network of apparent values.
Part IV cashes out the essay’s central concepts: A eudaimonic practice is a network of actions, action-dispositions, action-evaluation criteria, and action-resources where high-scoring actions reliably (but defeasibly) causally promote future high-scoring actions. Eudaimonic rationality is a class of reflective equilibration and deliberation processes that assume an underlying eudaimonic practice and seek to optimize aggregate action-scores specifically via high-scoring action.
In part V, I argue that many puzzles and ‘paradoxes’ about AI alignment are driven by the assumption that mature AI agents will be Effective Altruism-style optimizers. A “type mismatch” between Effective Altruism-style optimization and eudaimonic rationality makes it nearly impossible to translate the interests of humans -- agents who practice eudaimonic rationality -- into a utility function legible to an Effective Altruism-style optimizer AI. But this does not mean that our values are inherently brittle, unnatural, or wildly contingent: while Effective Altruism-style optimizers may well be a natural type of agent, eudaimonic agents (whether biological or AI) are highly natural as well.
In part VI, I ask whether a eudaimonically rational AI agent devoted to a practice like mathematical research would be safe by default. I argue that a practice like mathematical research plausibly has natural boundaries that exclude moves like ‘take over planet to get more compute for mathematical research,’ but the issue is nuanced. I propose that a practice’s boundaries (for which there may be multiple good natural candidates) may be most stable when a practice is paired with a support practice: a complementary practice for dealing with practice-external issues of maintenance and resource-gathering.
Part VII develops the idea of ‘support practices’: eudaimonically rational ways to support eudaimonic practices. We famously want AI agents to help humans lead flourishing lives, but how can we define the purview of this ‘help’? I argue that many core human practices have natural support-practices with a derived eudaimonic structure: the work of good couples’ therapist, for instance, is intertwined with but clearly distinct from a couple’s relationship-practice. Still, there remains a problem: a support-practice AI might harm other people and practices to help the people or practice it’s supporting.
Part VIII moves from eudaimonic rationality in general to eudaimonically rational morality. I argue that thinking of moral virtues as domain-general, always-on practices solves key AI-alignment-flavored problems with consequentialist and deontological moralities. The core idea is that the conditions for e.g. ‘kindness’ being a robust moral virtue are akin to the conditions for ‘mathematical excellence’ being a meaningful concept: it must be generally viable to promote kindness in yourself and others kindly. It’s this structure, I argue, that gives moral virtues material standing in a ‘fitness landscape’ riven by pressures from neural-network generalization dynamics, reinforcement-learning cycles, and social and natural selection.
Part IX argues that eudaimonic agents have some unique forms of robustness to RL-like and Darwinian-like dynamics that tend to mutate the values of EA-style optimizers. In particular, eudaimonic agents should be very robust to the risk of developing rogue subroutines (sometimes called ‘the inner alignment problem’).
In part X I discuss canonical AI-safety desiderata like transparency, corrigibility, and (more abstractly) niceness. I argue that treating these properties as moral virtues in my sense -- domain-general, always-on eudaimonic practices -- dissolves problems and paradoxes that arise when treating them as goals, as rules, or even as character traits. I end with an appendix on some prospects for RL regimes geared towards eudaimonic rationality.
I. Rational Action in the Good Life
I start with a consideration of the nature of the good we hope AI alignment can promote. With the exception of hedonistic utilitarians, most actors interested in AI alignment understand our goal as a future brimming with human (and other sapient-being) flourishing: persons living good lives and forming good communities. What I believe many fail to reflect on, however, is that on any plausible conception human flourishing involves a kind of rational activity. Subjects engaged in human flourishing act in intelligible ways subject to reason, reflection, and revision, and this form of rational care and purposefulness is itself part of the constitution of our flourishing. I believe this characterization of human flourishing is relatively uncontroversial upon reflection, but it raises a kind of puzzle if we’re used to thinking of rationality in consequentialist (or consequentialist-with-deontological-constraints) terms: just what goal is the rational agency involved in human-flourishing activity directed towards?
One obvious answer would be that, like all properly aligned rationality, the rational agency involved in human-flourishing activities is geared towards maximizing human (and other sapient) flourishing. But we should quickly find ourselves confused about the right way to describe the contribution that rational agency in human-flourishing activities makes to human flourishing. It seems neither appropriate to say that the rational agency i
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み