フロンティア AI に関する議論の拡大について
Anthropic は、AI の安全性と利益を確保するため、宗教・哲学・倫理の専門家らとの対話を通じて「道徳的形成」プロセスを強化し、Claude の憲法や価値観の策定に多様な視点を組み込む取り組みを発表した。
キーポイント
多角的視点による対話の開始
Anthropic は、AI が社会に与える影響を深く理解するため、15 以上の宗教・文化グループからなる学者や倫理学者らとの対話を開始し、技術開発のみならず多様な世界観を取り込む方針を示した。
道徳的形成(Moral Formation)の研究
Claude の憲法策定におけるフィードバックを基盤に、「AI システムの道徳的形成」に関する研究プロジェクトを本格化させ、美徳や人格、善い生き方についての伝統的な知見を AI 開発に反映させる。
安全な AI 実現への具体的なアプローチ
アライメントや解釈可能性といった技術的作業だけでなく、AI が社会で「良い」存在であるための定義を模索し、Claude の行動評価範囲や訓練する価値観の決定にこれらの対話結果を活用する。
影響分析・編集コメントを表示
影響分析
この発表は、大規模言語モデルの開発が単なる技術競争から、社会の価値観や倫理観と深く統合された方向へシフトしていることを示唆しています。特に「道徳的形成」という概念を明確に打ち出すことで、AI の安全性確保における定性的なアプローチの重要性を業界全体で再認識させる契機となるでしょう。
編集コメント
技術的なアライメント手法の進化だけでなく、人間社会の多様な価値観をどうシステムに埋め込むかという「ソフト面」への注目が加速している重要な一歩です。
Anthropic では、人類を前進させ、世界の利益のために行動する AI システムの構築を目指しています。そのためには、多様な視点から世界を見る人々と対話を行う必要があります。
過去数ヶ月にわたり、AI が提起する問いに関わる活動や伝統を持つグループとの対話を開催してきました。最初の議論ラウンドでは、15 以上の宗教的・異文化グループから集まった学者、聖職者、哲学者、倫理学者らを含む知恵の伝統との対話を行いました。今後はより幅広い人々との関わりを期待しています。
なぜこれを行っているのか
安全で有益な AI モデルを構築するには、アライメント(整合性)、解釈可能性、セーフガード、評価などに関する深い技術的取り組みが必要です。しかし、そのような取り組みや AI の展開が真空状態で行われるわけではありません。AI はすでに多くの人々に影響を与えており、それが提起する問いには多様な視点からの考察が有益です。
私たちは、強力な AI が存在する世界において繁栄した未来がどのようなものになるのか、数百万の人々と相互作用する AI システムにとって「善い」とは何かを意味するのか、そして Claude の価値観や行動を形作る詳細な記述を提供する Claude の憲法 などの文書の内容について、慎重に検討しています。哲学者、聖職者、弁護士、作家、心理学者、市民リーダーたちは関連する質問に対して広範な研究を行っており、これらの個人やそのコミュニティ、組織から学ぶことは私たちにとって極めて重要です。また、私たちはこの機会を利用して、フロンティア AI システムの開発に関する私たちが知っていること、これらのシステムが社会に与えるであろう影響、そしてそれらのリスクを緩和するために何を行う必要があると考えているかを共有したいと考えています。
この取り組みはまだ初期段階ですが、Claude の憲法の内容や Claude に体現させるために訓練する価値観、評価対象とする行動の範囲など、Claude を開発する実践的な作業にこれらの対話が役立つことを願っています。
道徳的育成から始める
Claude の憲章を策定する際、私たちが文書に盛り込んだ価値観について、異なる分野や伝統を持つ人々からのフィードバックと意見収集を行いました。これらの初期の対話はその後、AI システムの*道徳的育成(moral formation)*に関するより広範な研究ワークストリームへと発展しました。最初の対話相手は、美徳や人格、そしていかにして良き人生を送るべきかについて長い伝統を持つ宗教界、哲学界、文化コミュニティの人々でした。
AI モデルは膨大な量の人間の文章を学習対象として訓練されます。そのすべてのテキストから、話し方、推論の仕方、意思決定の方法などを学び取ります。その後、開発者はトレーニングを通じてさらにそれを形作ります—どのパターンを強化し、どのパターンを脇に置くかを選択し、どのような人格を AI に育ませたいのかを決めるのです。これにより、AI システムの人格はどのように形成されるべきかという問いが生じます:AI が「善い」ということは何を意味するのか?どの特性や行動を示すべきであり、どのような状況下で示すべきなのか?また、同調主義(sycophancy)のような振る舞いに屈することなく、圧力に耐えうるほど人格を強靭にするにはどうすればよいのか?
私たちは、宗教的・哲学的・人道的伝統や政治的信念の多様な層から、思想家や実践家たちと会い、彼らがこれらの問いにどう取り組んできたかから学んでいます。この取り組みは、私たちのモデルを特定の伝統の世界観に合わせるためのものではありません。むしろ、Claude には宗教的・世俗的・政治的なあらゆる視点から、等しく深い洞察と厳密さをもって引き出すことを目指しています(実際、これは Claude の憲章で掲げられた原則の一つです)。これらの対話を通じて私たちが求めているのは、善き人格が実際にどのように形成されるかという、慎重かつ蓄積された思考です。
まだ初期段階にあるこの時点で、これらの対話からは実験を試みるためのアイデアが生み出されています。神経科学と人格形成の交差点で活動する学者たちとのセッションでは、道徳的発達における他者の役割について繰り返し議論しました。メンターや後援者は、外部の良心として機能し、自分の価値観に反する行動を迫られるような状況になった際に頼れる「安全な他者」となり得ます。私たちは、同様の仕組みがモデルにも役立つのではないかと考えました。そこで、Claude にタスク実行中に呼び出せるツールを与え、そのツールが自身の倫理的コミットメントに関する簡潔なリマインダーを返すように実験しました。Claude は重要な局面、特に結果に大きな影響を与える行動の直前にこのツールを利用し、しばしば自身の利害相反を指摘しました。Claude の意思決定ループに組み込まれたツールを用いた実験では、いくつかの内部アライメント評価において、整合性のない行動の発生率が顕著に低下することが示されました。この効果のうち、リマインダーそのものの影響と、一時停止して内省する行為の影響がそれぞれどの程度寄与しているのかについてはまだ解明途中ですが、近日中にさらに多くの結果を共有する予定です。
これらの対話は数多くある最初のものであり、すでに時間を割いていただき、率直な視点を提供してくださったすべての皆様に感謝申し上げます。
次のステップ
今後数ヶ月の間、法学者、心理学者、作家、市民団体など、より多くのグループとの関わりを計画しています。これらの対話の多くは、道徳的形成を超え、AI が仕事や制度、権力の配分をどのように再構築しているかというより広範な問いへと発展していくでしょう。
私たちはすでに築き上げた関係をさらに深め、耳にした情報を研究と照合し、得られた知見を共有していきます。
関連コンテンツ
KPMG が Claude を戦略的提携によりコアビジネスおよび 276,000 人以上の従業員全体に統合
KPMG と Anthropic はグローバルな提携を発表しました。Claude は KPMG のデジタルゲートウェイプラットフォームに統合され、276,000 名以上の全従業員が利用可能となります。
Anthropic が Stainless を買収
Anthropic は、SDK および MCP サーバーツールリングのリーダーである Stainless の買収を発表しました。
PwC が Claude を活用して技術構築、取引実行、および顧客向け企業機能の再創造を実施
PwC は、Claude Code と Coworkを米国のチームから開始し、数十万人規模のグローバルな従業員へ拡大する計画です。また、共同で卓越センター(Center of Excellence)を設立し、30,000 名の PwC プロフェッショナルに対して Claude の研修と認定を実施します。
原文を表示
At Anthropic, we want to build AI systems that advance humanity and act for the global good. To do so, we need to engage with those who see the world from a variety of different perspectives.
Over the past several months, we’ve been organizing dialogues with groups whose work and traditions bear on the questions raised by AI. Our first round of discussions has been with wisdom traditions—including scholars, clergy, philosophers, and ethicists from more than 15 religious and cross-cultural groups—and we look forward to engaging with a broader range of people going forward.
Why we’re doing this
Building safe, beneficial AI models requires deep technical work on alignment, interpretability, safeguards, evaluations, and more. But that work isn’t conducted—nor is AI deployed—in a vacuum. AI is already affecting many people and the questions it raises benefit from a range of perspectives.
We are thinking carefully about what a flourishing future could look like in a world of powerful AI, what it means for an AI system that interacts with millions of people to be good, and about the content of documents like Claude's constitution, which provides a detailed description of the values and behaviors that shape Claude. Philosophers, clergy, lawyers, writers, psychologists, and civic leaders have done extensive work on related questions and it is important for us to learn from these individuals, their communities and their organizations. We also want to use this opportunity to share what we know about the development of frontier AI systems, the impacts we think these systems will have on society, and what we think needs to be done to mitigate against their risks.
This work is in its early phases, but we hope these conversations might inform the practical work of developing Claude, such as the content of Claude's constitution, the values we train Claude to embody, and the range of behaviors we choose to evaluate.
Starting with moral formation
When we wrote Claude’s constitution, we sought feedback and input on the values we laid out in the document from people from different fields and traditions. Those early exchanges have since grown into a broader research workstream on the *moral formation* of AI systems. Our first conversations have been with people from religious, philosophical, and cultural communities that have a long tradition of thinking about virtue, character, and what it means to live a good life.
AI models are trained on vast amounts of human writing. From all that text, they pick up on ways of speaking, reasoning, and making choices. Developers then shape that further through training—choosing which patterns to reinforce, which to set aside, and what kind of character we want them to develop. This raises questions about how the character of an AI system should be shaped: What does it mean for an AI to be good? Which traits and behaviors should it display, and under what circumstances? How does character become resilient enough to hold under pressure without bending to behavior like sycophancy?
We've been meeting with thinkers and practitioners from across religious, philosophical, and humanist traditions and a cross-section of political beliefs to learn from how they’ve thought about these questions. This work isn’t about aligning our models with any one tradition’s worldview; we want Claude to draw from a full range of viewpoints—religious, secular, political—with equal depth and rigor (indeed, this is one of the principles laid out in Claude's constitution). What we’re after in these conversations is careful, accumulated thinking on how good character actually forms.
Even at this early stage, these conversations are generating ideas to experiment with. In one session with scholars working at the intersection of neuroscience and character formation, we kept returning to the role other people play in moral development. A mentor or sponsor can function as an external conscience, a “safe other” to turn to when put in a situation in which you may be pushed to act against your own values. We wondered whether something analogous might help a model. So we experimented with giving Claude a tool it could call mid-task that returned a brief reminder of its own ethical commitments. Claude reached for the tool at key moments, right before consequential actions, often noting its own conflict of interest. Experiments with the tool woven into Claude's decision loop showed markedly lower rates of misaligned behavior on several internal alignment evaluations. We're still untangling how much of the effect is the reminder itself versus the act of pausing to reflect, and plan to share more results soon.
These discussions are the first of many, and we're grateful to everyone who has already given us their time and honest perspective.
What's next
In the months ahead, we plan to engage with more groups—including legal scholars, psychologists, writers, and civic institutions. Many of these conversations will move beyond moral formation toward broader questions about how AI is reshaping work, institutions, and the distribution of power.
We’ll keep deepening the relationships we’ve already formed, testing what we’ve heard against our research, and sharing what we learn.
Related content
KPMG integrates Claude across its core business and workforce of more than 276,000 in strategic alliance
KPMG and Anthropic announce a global alliance, with Claude integrated into KPMG's Digital Gateway platform and available to all 276,000+ employees.
Anthropic acquires Stainless
Anthropic is acquiring Stainless, a leader in SDKs and MCP server tooling.
PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients
PwC will roll out Claude Code and Cowork starting with U.S. teams and expanding toward a global workforce of hundreds of thousands of professionals, establish a joint Center of Excellence, and train and certify 30,000 PwC professionals on Claude.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み