Anthropicの責任あるスケーリングポリシー第3版:信頼の問題
Anthropicが安全に関する以前の約束を撤回し、競争環境を理由に新たな「責任あるスケーリングポリシーv3」へ移行した件について、その信頼性への影響と業界への示唆を分析する記事。
キーポイント
安全約束の撤回と競争論
Anthropicは、危険なレベルでのモデルスケーリングを行わないという以前の約束を撤回し、競争がある中で盲目的に安全原則に従うことが世界を安全にしないと主張している。
Holden Karnofskyの支持と戦略転換
元Anthropic関係者のHolden Karnofskyは、具体的な約束よりも「志高い目標」を持つ新しい戦略を支持しており、以前の戦略は誤りだったと位置づけている。
信頼と約束の破棄への批判
記事著者は、Anthropicが事前の開示を行ったことは評価するものの、以前の約束を破ったことで将来の信頼やラボ・政府間の調整が困難になったと批判し、その代償を支払うべきだと指摘している。
メディアと外部の見方の分断
主要メディアは競争圧力による安全約束の後退と報じる一方、専門家層の一部はこれを約束違反とし、他のラボや政府の関与を減退させる要因になると懸念している。
RSP v3の主要な変更:安全でないモデルの公開に関するコミットメントの放棄
Anthropicは、他社が先に安全でないモデルを公開した場合に自社の公開を制限しない方針へ転換し、厳格な「赤線」の存在を公式に否定した。
以前のRSPの効果に関する評価:混合の結果
ASL-3の safeguards 実装や他社への枠組み提示といった成果はあるものの、リスクレベルに関するコンセンサス形成には失敗し、政府の規制は遅々として進んでいない。
新しい判断基準:合理的な議論に基づくリスク評価
Anthropicはハードコミットメントを撤廃し、利益がリスクを上回ると「合理的な判断」を下すプロセスに依存するようになった。
影響分析・編集コメントを表示
影響分析
Anthropicのポリシー変更は、大規模AI開発企業における安全規制の自主的遵守が競争圧力によって揺らぐ可能性を示す重大な事例である。これにより、規制当局や他社との信頼関係が損なわれ、業界全体のガバナンス枠組みの再構築が必要となる。特に、安全約束が「紙の上のもの」になりかねないという懸念は、投資家や政策立案者のAIプロジェクトへの姿勢を慎重なものにする可能性がある。
編集コメント
競争環境下での安全約束の撤回は、AI業界の信頼基盤を揺るがす行為であり、長期的な規制強化や社会的受容性を損なうリスクが高い。企業は短期的な競争優位よりも、透明性と一貫性のあるガバナンス戦略を構築する必要がある。
Anthropic は、責任あるスケーリングポリシーを v3 に改訂しました。
この変更には、多くの以前のコミットメントの放棄が含まれており、その中には「危険であれば先へ進まない」という約束も含まれています。同社は、競争環境を考慮すると、そのような原則を盲目的に追随することは世界をより安全にするものではないと主張しています。
ホルデン・カーノフスキーはこれらの変更を支持しました。彼は、特定のコミットメントに基づく以前の戦略が誤りであったと考えており、代わりに目標志向の新しい戦略を支持しています。彼はそのコミットメントがなされた時点では Anthropic に在籍していませんでした。
私の反応は 2 つの部分からなります。
今日の投稿では、Anthropic が過去の約束を撤回することに関する検討事項について取り上げます。具体的には、Anthropic がどの程度約束を破ったのか、あるいは人々がその約束に応じた結果として利益を得たのか、そして私たちはどのように対応すべきかについて問います。
Anthropic が約束を守らないことを承知の上で、事前にその事実を公表してくれたことは好ましいことです。ありがとうございます。
それでもなお、Anthropic は重要な約束を破ったと考えます。人々はそれらに依存しており、その破り方は、Anthropic との間だけでなく、研究所間や政府との間の将来の信頼と調整をより困難にするものでした。状況への認罪は確かに正しい行為ですが、そうだからといって結果から逃れることはできません。
金曜日の投稿では、新しい RSP v3.0 およびそれに伴うロードマップとリスクレポートについて詳しく掘り下げます。
なお、これはエイプリルフールに投稿されたものですが、この投稿がエイプリルフールのジョークであるのは、アンソロピックの以前の責任ある拡張ポリシー(RSP)を信じていた人々が今やエイプリルフールの的になっているという点に限られます。
約束と約束
最初の約束が誤りだった場合、それを撤回することが別の誤りになるかどうかは状況によります。いずれにせよ、その約束が厳格なコミットメントではなかったとしても、それを撤回するには約束を破ったことに対する代償を支払う必要があります。たとえ破る強い理由があったとしてもです。その代償の大きさは状況によって異なります。
この出来事に関するほぼすべての主要メディア報道は、アンソロピックが中核的な安全への約束、特に「十分な安全対策なしに危険なレベルまでモデルを拡張しない」という約束を放棄または撤回したものと捉えていました。これを象徴する例として、ウォール・ストリート・ジャーナルは競争圧力により「アンソロピックが AI 安全へのコミットメントを後退させた」と報じました。これは状況を過度に単純化しており多くの重要な点を欠いていますが、間違ってはいないように思えます。
この状況をより密接に追っている多くの外部関係者は、これがアンソロピックの約束違反であると信じています。中には、研究所が安全に対して行ったコミットメントは、印刷すらされていない紙に書かれたものとして価値がないと考えるほど極端な意見を持つ者さえいます。多くの人々は今や、アンソロピックが何らかの努力を行うだろうと予想していますが、それが事業計画を大きく妨げるようなものではないと考えています。もしアンソロピックがコミットメントできないなら、なぜ他の誰かがする必要があるのでしょうか?もちろん、この政府が手を貸すことはあり得ません。
自分の本音を伝えることを恐れないでください。彼らはそれを歓迎しています。では、始めましょう。
Anthropic 責任あるスケーリングポリシー v3
責任あるスケーリングポリシーは、Anthropic がフロンティアモデルをいつ、どのような条件下でリリースするかに関する同社のコミットメントです。
主要な変更点は、他社が先に危険と見なされる可能性のあるモデルをリリースした場合でも、Anthropic はもはやそのようなモデルのリリースをしないというコミットメントを持たないことです。理由はご存知の通り、彼らが先手を打ったからです。
もっと良くできたかもしれない
Anthropic は、RSP(責任あるスケーリングポリシー)自体を持つことに関する変化の理論と、その理論が実現されたかどうかを確認することから新しい分析を開始します。彼らは結果を「混合した」と報告しています。
まず、良いニュースです。
彼らは(控えめな程度に)より強力なセーフガードを開発しました。
ASL-3 のセーフガードの導入に成功しました。
重要なのは、OpenAI と DeepMind にフレームワークの開発を促し、その後 SB 53 や RAISE でコード化されたフレームワークというアイデアに至ったことです。
次に、悪いニュースです。
さまざまなモデルからのリスクレベルについて合意形成がなされませんでした。特に生物学分野において、実際にどの程度のリスクがあるのかは非常に不明確であることが証明されました。
政府による行動はゼロではありませんでしたが、最悪の場合でも痛みを伴うほど遅かったです。
(私が付け加えるなら)ASL-4 については、我々は十分に先行的に対応できていません。
(私が付け加えるなら)都合が悪い時には要件がやや変更されました。
私はまだコミットする準備ができていません
新バージョンにおける最も重要な違いは何でしょうか?
Anthropic は現在、モデルの公開に対する厳格なコミットメントや障壁をほぼ放棄し、代わりに「我々は合理的と判断する論拠を示す」という姿勢に頼り、利益がリスクを上回ると判断して進める方針へと転換しています。
その誠実さは評価します。本当にそう思います。
コミットメントを行う準備ができていないことに気づき、また当初のコミットメントをすべきではなかったと認識したのであれば、その事実を認め、告白する第二の最良のタイミングはまさに今です。
現在公式にコミットメントを破棄することは、後にこっそりと破棄するよりも高い誠実性を示すものです。特にリリース直前に責任あるスケーリングポリシー(RSP)をこっそり変更するよりはるかに優れた対応です。チャールズの「Anthropic は、一方的に停止する赤線があるかのように振る舞うのをやめた」という枠組みには賛同します。
もし Anthropic が実際にはすでに「我々の論拠は合理的である」と判断するプロセスを実践しており(Opus 4.6 の際にもそれが主だったように見えたのであれば)、それを隠すよりも認める方がよいでしょう。
ここで強調したいのは、本質的に誰も、「Anthropic は停止すべきだ」と私に反対し、かつ Anthropic が現在破棄しようとしている強力なコミットメントを当初行ったと認識している人々でさえも、「意味のない停止につながる可能性があっても、単に Anthropic がそう言ったからといって過去のコミットメントを堅持すべきだ」とは言っていないということです。
約束を破ったこと、あるいは破られることが必然だった約束をしたことについては、その破棄の決定が正しいものであったとしても、責任を追及されなければなりません。その動きが正しかったという弁明は、その結果に対する責任からあなたを免れるものではありません。
1a3orn: アンソロピックの RSP 変更への反対意見は、どうやら約束や義務の不履行に関するデオンタロジー(義務論)的な言語に傾いているように思われます。一方、それらへの支持意見は、帰結主義的な言語や「より大きな善」へと傾いているようです。
Oliver Habryka: 両方とも正しいと思います!旧 RSP は明らかに運用不可能であり、アンソロピックが取り組もうとしていることを考えれば、決して公開されるべきではありませんでした。したがって、それを放棄することは正しい行為ですが、もちろん約束を破ったのであれば責任を追及されるべきです。
人々が約束を破ったことに対して責任を追及すべきという帰結主義的な議論を説明するのはそれほど難しくありませんが、その重要性について多くの人が直感的に理解しているため、詳しく掘り下げる必要はありません。
(念のため言っておきますが、アンソロピックはスケーリングを停止し、一時停止を提唱する活動へと努力を転換すべきだと私は考えています。しかし、それが RSP のせいで行われるのであれば奇妙なことであり、正しい動きだとは思いません。単に自らの首を絞めてしまったように見え、偶然にもレースから脱落するような愚かな約束をしてしまったために他者を引き留めようとしているだけに見えるでしょう)
また、コミットメントは安全性を高める唯一の方法ではないことも強調しておきたい。計画自体が無意味な場合でも、計画を立てること自体が不可欠であり、実際に行動を起こすことは可能であり、むしろそうすべきだ。これは「ホルデン社もアンソロピック社も安全性を気にしていない」という意味ではなく、彼らが正しいと考えることを決定し、実行するだけのことだ。重要なのは、あなたが彼らが賢明な選択をするかどうかをどの程度信頼するかを決めることである。
私は依然として、これがアンソロピック社が自発的な自己統治への重要な取り組みや自己制限の実験から撤退したものと見ている。技術的にはその権利を留保していたが、それでも実行するのは非常に痛烈な打撃となる。
実験は終わった。これは実験が機能しているふりをするよりも良いことだ。
ここからはコミットメントはなく、意図の表明のみが残る。アンソロピック社は自らの行うべきことを実行する。あなたはアンソロピック社のリーダーシップが適切な判断を下すと信頼するか、あるいはしないかを選ぶことができるだけである。
アンソロピック社自身の歴史に関する記述を考えると、これらのソフトな拘束力を持つコミットメントを持ち、それらを破ることにコストがかかるという実績を残すことが、安全性の成果や政策の採用に非常に有益であったことは明らかだ。それを手放してしまったことを私は残念に思う。
冷たく、孤独
あなたのコミットメントが他者の行動に依存する条件付きであるなら、そのように明言すべきだ。
彼らは以前にも完全にこれを言わなかったわけではないが、以前は「緊急時にはガラスを割る必要があるかもしれない」という表現だったのに対し、「関連する全員が署名した場合のみ我々は引き下がる」という表現ではなかった。
RSPv2 は 7.1.7 で以下のように述べていました:「他の先端的 AI 開発者が、同等の必須安全対策を実装せずに能力閾値を突破しようとしている、あるいは突破した場合で、その行動が世界に深刻なリスクをもたらすならば、Anthropic の追加的なリスクは小さいため、Anthropic は必須安全対策を緩和する可能性があります。もしそうするのであれば、AI システム(自社のものを含む)がもたらす全体的なリスクレベルを認め、米国政府に対して規制措置を求める論拠を構築するために大幅な投資を行うことを表明することになります。」
一方、Anthropic は現在、他社から明確に異なる方針を示すコミットメントがない限り、たとえそれが小さな追加的リスクではないとしても、自らが先にその閾値を突破する用意があると述べています。
私は aysja 氏には強く同意し、Holden 氏の意見には反対です。この変更を「生きているドキュメントである RSP の自然な拡張」と表現するのは誤解を招くからです。
以下のような主張は理解できます:
先に行動を起こすことは、他社が協調問題において追随するよう促すために設計されたものです。
しかし、誰も追随しませんでした。
その結果失敗したため、失敗を認め、次に進むべきだという論理です。
もし現在まさにその状況にあるのであれば、このより厳格な要件を事前に明確に示す理由が十分にあります。それにより他社が追随する動機が高まり、今見られているような不快な報道をすべて回避できるからです。しかし残念ながら、それはもう少し遅すぎます。
もし過ちがすでに犯されてしまったのであれば、敗北を認め、自分よりもさらに愚かでリスクの高い誰かが先に到達するのを防ぐために行動しないと言明することは、明らかに悪いことではありません。
私は、古いポリシーに違反する意図をその違反が行われる日(おそらく来ない日)まで待つのではなく、今すぐに発表しておく方がはるかに良いと確信しています。
davidad: 2024 年当時、AI の速度抑制に関する自主的なコミットメントは、知能の爆発的成長を抑制する多国間合意への第一歩となる可能性が十分にあったため、素晴らしいアイデアでした。しかし、様々な理由により、現在はもはやそのような見通しはあり得ません。
Anthropic はここで良い対応をしています。
2026 年の戦略的状況において、競争(レーシング)こそが正しい動きです。それは利益のためだけでなく、現在の人類の大多数にとって事態が好転する確率を最大化するためにも必要なのです。
Sam Bowman (Anthropic): 上記の段落トップを支持します。
Anthropic の RSP(責任あるスケーリングポリシー)の変更は、政策や調整に関する環境が我々が期待していたほど有望ではないという状況下で、どのような種類の確固たるコミットメントが最も大きな影響力を持つのかを模索する試みです。
この時点での環境がどうなるかを我々は誤って判断しました。それは悲しいことですが、これらの新しいコミットメントには依然として一定の重みがあり、リスクと緩和策について第三者も関与した形で、より多くの検証可能な透明性が確保されています。
Oliver Habryka: どのような種類の確固たるコミットメントが最も大きな影響力を持つのかを明らかにすることに賛成です。しかしもちろん、「確固たるコミットメント」を直接行うことでそれを達成することはできません!
異なるコミットメントを単に試しているだけなら、それは確固たる約束にはなりません。
最大の懸念点は、「他の誰かを見ればよい」という主張が、実行しない場合のコストが高い限り、いかにリスクが高くても進めるためのほぼ普遍的な言い訳として使われるようになるのではないかということです。
もし Anthropic が将来、重要なコストを伴う形で長期にわたって一時停止を行った場合、私はこの点について誤っていたことになります。その場合は公の場でそう述べることを事前に約束します。もし私がそうしない場合は、私にこれを思い出させてください。
Drake Thomas 氏が指摘するように、「惑星に物質的な存在リスクを課してはならない」という徳倫理的な主張は、それなりに強力です。
しかし一つの問題は、これが他者のコスト負担への意欲を確実に弱め、何としても進めたい人々を勇気づけることになるということです。競争論理を支持し、協力の不可能性を唱えることにはその結果が伴います。
そう思わせてしまったことをお詫びします
RSP が Anthropic を何かしらのことにコミットさせるものだとおっしゃる意味は何ですか?
Robert Long: 私は RSP について詳しく調べているわけでも、Holden の投稿を読んだわけではありません。しかしそれは、「Anthropic は能力の限界を押し広げない」というミームに似ていると感じます:Anthropic の公式見解から厳密に導かれるものではありませんが、彼らが強く印象付け、かつ恩恵を受けたものだからです。
それは公平でしょうか?不十分でしょうか?
オリバー・ハブリーカ:つまり、この場合の印象は非常に明確かつ強力でした。能力フロンティアにおける約束に関する証拠が主に非公開であり、外部からは曖昧である点には同意しますが、今回は素晴らしい証拠があります!
例えば、エバン・ハビンガーとの会話をご覧ください。会話は次のように始まります。
ある人:Anthropic の責任的スケーリングポリシー(RSP)を批判する理由の一つは、実際にいつ停止するか、どの程度の期間停止するのか、あるいはどのような安全対策の下で継続してよいと判断されるのかという条件が明確に示されていない点です。
エバン・ハビンガーは(複数のコメントに分けて)次のように応答しました:このようなことを言うのであれば、あなたが言っている他のことは真剣に受け取れません。どうやらあなたは Anthropic の RSP を読んでいないようです。
...
Anthropic が RSP で停止を約束する条件は非常に明確です。2 ページ目に大きな太字でこう書かれています。
「ASL(安全レベル)スキームに従うという Anthropic のコミットメントは、スケーリング能力が対応する ASL に対する安全手順への準拠能力を上回った場合に、新モデルのスケーリングを停止し、および/またはデプロイを遅らせることを私たちが約束することを意味します。」
...
セキュリティ条件はそれ単独で停止トリガーとなり得ます。また、ASL-3 に到達する時点で ASL-3 以降のスケーリングを停止させる条件を開発するというコミットメントもあります。
...
これは RSP の基本的な実質です。これを読みながらこれを見過ごすことがあり得るとは、私には理解できません。失礼なことを言うつもりはありませんが、こうした極めて怠慢な見解に対して本当に失望しています。
オリバー・ハブリカ:私の経験では、これは日常的な出来事でした。したがって、「具体的な if-then 約束としての RSP」から「肯定的なマイルストーン設定としての RSP」への切り替えは、約束の有意義な破棄とみなします。確かに RSP はその正確な言葉で、Anthropic がこれを改訂できる可能性を示していましたが、この条件がトリガーされると主張する人々は、上記のコメントのように頻繁に無視され、侮辱されていました。
これは明らかに、エバン・ハビンガーが、RSP が Anthropic による事実上の強力なコミットメントを代表しているという点に疑問を呈した者を攻撃していると聞こえます。私たちは今や、それが Anthropic を何らかのことに強くコミットしていなかったことを知っています。
エバンは、Anthropic のコミットメントがいつかその活動を停止させることになるという substantial な変化があると予測しました。オリバーはその点を市場化しましたが、能力の急速な進展と、Anthropic が現在むしろリードしている可能性さえあるにもかかわらず、現在は約 0% にまで低下しています。
RSPv3 のリリース後でさえ、エバン・ハビンガーは自身の立場を擁護し続けました。彼は RSP がラインがどこにあるかについて明確な声明を出したに過ぎず、ラインが変わらないとか実際に機能するわけではないと言っただけだと主張しました。オリバーと同様に、エバンのコメントを素直に読めば、これは非常に説得力があると感じます。今になって「RSP の理論には重みを減じるべきだ」と言うエバンには感謝しています。
では、問題はこうなります。エバン・ヒュビンガー氏や同様の発言をした他の従業員たちは、誤った認識の下にあったのでしょうか?もしそうならなぜでしょうか。そうでないなら、なぜそのような話し方をするのでしょうか。
オリバー・ハブリカ氏はここにおいて非常に明確に述べており、彼がこれについて嘘をつくとは思えません:
オリバー・ハブリカ:はい、アンソロピックの従業員は十数回にわたり、RSP(責任ある拡張ポリシー)が彼らをマスト(必須事項)に縛り付けていると私に伝えてくれました。私はこれがアンソロピックによる、AI 能力の進展を押し進めないという約束(多くの従業員はこの違反があったことに異議を唱えていました)への違反だと考えていたため、これについて多くのアンソロピックの従業員と非常に具体的な会話をしました。
…私が出席したさまざまなイベントや人々との会話において、アンソロピックの従業員は、国家支援を受けたハッキングプログラムからの堅牢性を達成することを目標としており、それが達成できない場合は一時停止する用意がある(RSP がそのようなことに「コミット」しているため)と私に伝えてくれました。
オリバー氏は、ホルデン・カルノフスキー氏が特に以前、これが異なるレベルのコミットメントであり、より低いレベルのものであると感じていたと伝えたことを指摘しています。これは、彼が v3 における変更を推進した点と整合しており、多くの他のアンソロピック従業員とは対照的です。
オリバー・ハブリカ氏がおっしゃる通り、もしエバン氏がこの誤った認識の下にあったのであれば、アンソロピックはエバンのようなシニア従業員にそのような印象を与えることで莫大な利益を得ました。これはアンソロピックにとっての「過ち」のように思えず、外部から見た場合にも偶然だと考えるのは妥当ではありません。
少なくとも、Anthropic が今や自らの約束を重要な形で破ったことを認めないなら、この言葉の『約束』という使い方は極めて誤解を招くものである。
Oliver Habryka: ここで問題となっている従業員たちが、自分が欺かれたと主張するとはあまりにも驚きだ。また、これらの従業員は上級レベルであり、彼らが「欺かれた」ということが何を意味するのかさえ不明である。誰に欺かれたのか?彼ら自身が RSP を起草したのである。変更に関する決定にもほぼ間違いなく関与していたはずだ。
彼らは Anthropic で働くための社会的許可を得て人々の圧力を免れ、さらに少なくとも数千万ドル(あるいは多くの場合数十億ドル)の資産家となったことで、この点から巨額の利益を享受したのだ。
Robert Long: 参考までに、私はその意見の相違は「約束」という言葉に関する語義的な問題であると捉えている(あなたが指摘された通り)。また、「約束」という言葉が持つ含意についても、あなたが当時述べられた点には同意する。つまり、RSP を「約束」と呼ぶならば、彼は変更に対して反対すべきだったか、あるいは現在「我々は約束を破ることを決めた」という立場にあるべきである。
特に、死にたくないという思いを持つ人々の多くは、RSP の中核的な点は事実上の妥協案であり、減速または一時停止に対する条件付きの約束トリガーを試みるものだと感じていた。もしその条件を満たせなければ、一時停止しなければならない。これにより、現状で前進することが許容されるのである。
確かに、さらに先へ進むこともできる。Anthropic に焦点を当てるだけでなく、METR や Apollo のような評価ベースの組織にも重点的に取り組むという全体的なプログラムは、評価が「もし〜なら、そのとき〜する」というトリガーとなり得ることを目指したものであった。しかし今や、そのようなコミットメントは機能しないことが分かっている。モデルが危険な能力テストに合格した場合でも、Anthropic でさえも最終的には直感(バイブス)に頼り戻す可能性が高いのである。
METR の変化の理論は「世界を驚かせないこと」だが、彼らもなお驚かされるだろうと予想する。
あるいは追加で、ホルデンが解釈するように、「誰も減速する意思を持っていない。危機が起こるまでこれは変わらない」と捉えることもできる。現在の態度は本質的に「停止や減速はフロンティア AI ラボにとって自殺行為に等しいので、それを行うには極めて極端な事態が必要であり、これは私たちが目指すべき計画の一つである」というものである。これもまた立派なことではあるが、非常に異なるスタイルの文書と言える。これを最初のタイプの文書だと考えた人々はベイズポイント(確率論的推定における評価点)を失い、二番目のタイプの文書だと考えた人々がベイズポイントを勝ち取る。
これら多くの点を、「Anthropic の従業員は合理的な認識規範を用いていると示唆していたが、実際には異なる規範のセットを使用していた」と解釈することもできる。
二度目も騙される
この後退は何かを思い起こさせるだろうか?
そうあるべきだ。特に、Anthropic が「AI 能力のフロンティアを押し広めない」という考えについて何が起こったかを思い起こさせるはずである。
多くの人が、さまざまな表現やコミットメントの度合いを伴って、Anthropic はそのようなことはしないと私たちに伝えてくれました。その後、Anthropic はなんとなくそれを行いました。そして遂に堂々とそれを実行し、現在では Claude Code と Claude Opus 4.6 が明確に最前線となっています。
すると今度は、「ああ、私たちは決してそれをしないとは約束していない」と言われました。
もしかしたら厳密にはそのような約束はしていなかったのかもしれません。あるいは多くの電話ゲーム(伝言ゲーム)が絡んでいた可能性もあります。しかし少なくとも Anthropic は、多くの人々がそのように認識していたことを知るべきでした。私もそう思っていました。そして彼らは、人々がその判断に基づいて人生の重大な決定を下し、Anthropic をどの程度支援するかを決定していることも知っていたはずです。しかしながら、
必ず
原文を表示
Anthropic has revised its Responsible Scaling Policy to v3.
The changes involved include abandoning many previous commitments, including one not to move ahead if doing so would be dangerous, citing that given competition they feel blindly following such a principle would not make the world safer.
Holden Karnofsky advocated for the changes. He maintains that the previous strategy of specific commitments was in error, and instead endorses the new strategy of having aspirational goals. He was not at Anthropic when the commitments were made.
My response to this will be two parts.
Today’s post talks about considerations around Anthropic going back on its previous commitments, including asking to what extent Anthropic broke promises or benefited from people reacting to those promises, and how we should respond.
It is good, given that Anthropic was not going to keep its promises, that it came out and told us that this was the case, in advance. Thank you for that.
I still think that Anthropic importantly broke promises, that people relied upon, and did so in ways that made future trust and coordination, both with Anthropic and between labs and governments, harder. Admitting to the situation is absolutely the right thing, but doing so does not mean you don’t face the consequences.
Friday’s post dives into the new RSP v3.0 and the accompanying Roadmap and Risk Report, in detail.
Note that yes this is being posted on April Fools Day, but this post is only an April Fools joke insofar as those who believed Anthropic’s previous RSPs are now the April Fool.
Promises, Promises
If your initial promises were a mistake, it may or may not be another mistake to walk them back. Either way, even if your promises were not hard commitments, walking them back involves paying a price for having broken your promises, even if you had a strong reason to break them. How big a price depends on the circumstances.
Almost all mainstream coverage of this event framed it as abandoning or walking back Anthropic’s core safety promises, especially ‘do not scale models to a dangerous level without adequate safeguards.’ As a central example of this, The Wall Street Journal said ‘Anthropic Dials Back AI Safety Commitments’ due to competitive pressures. That oversimplifies the situation, leaving a lot out, but doesn’t seem wrong.
Many outsiders who follow the situation more closely believe this amounts to Anthropic having broken its commitments. Some go so far as to say this means that lab commitments to safety should not be considered worth the paper that they were never printed on. Many now expect Anthropic to make some amount of effort, but nothing that would much interfere with business plans. If Anthropic can’t make the commitment, why should anyone else? Certainly this government is not going to help.
Don’t be afraid to tell them how you really feel. They welcome it. So here we go.
Anthropic Responsible Scaling Policy v3
The Responsible Scaling Policy is Anthropic’s commitments regarding when and under what conditions they will release frontier models.
The headline change is that they are no longer committed to not releasing potentially unsafe models, if someone else did it first. Cause, you know, they started it.
That Could Have Gone Better
Anthropic starts their new analysis by going over their theory of change from having an RSP at all, and whether those theories were realized. They report a mixed bag.
First, the good news.
They developed (modestly) stronger safeguards.
They did successfully implement ASL-3 safeguards.
They did importantly get OpenAI and DeepMind to develop frameworks, and then had the idea of a framework codified in SB 53 and RAISE.
Then the bad news.
It did not create consensus about the level of risk from various models. It has proven very unclear how much risk is in the room, especially in biology.
Government action has been nonzero but painfully slow at best.
(I would add) We’re not being sufficiently proactive about ASL-4.
(I would add) The requirements got changed somewhat when inconvenient.
I’m Just Not Ready To Make a Commitment
What’s the most important differences in the new version?
Anthropic is now basically giving up on hard commitments and barriers to releasing models, relying instead on ‘we will make reasonable-to-us arguments’ and decide that the benefits exceed the risks.
I appreciate the honesty. Really, I do.
If you’re not ready to make a commitment, and you realize you shouldn’t have made one, then the second best time to realize and admit that fact is right now.
Officially breaking the commitments now is higher integrity than silently breaking them later. It’s especially better than silently changing the RSP right before a release. I approve of Charles’s frame of ‘Anthropic stopped pretending to have red lines at which they will unilaterally pause.’
If Anthropic was in practice already doing a ‘we think our arguments are reasonable’ decision process, which with Opus 4.6 it seemed like they mostly were, then better to admit it than to pretend otherwise.
I want to emphasize that essentially no one, not even those who disagree with me and think Anthropic should pause, and who also think Anthropic made rather strong commitments it is now breaking, are saying ‘Anthropic should be holding to its previous commitments purely because they said so, even if this leads to pausing that does not make sense.’
One still has to be held to account for breaking promises, and for making promises that were inevitably going to be broken, even if the decision to break them is right. Your defense that the move was correct does not excuse you from its consequences.
1a3orn: Arguments against the Anthropic RSP changes seem to incline towards deontological language regarding broken promises / duties
While arguments for them incline toward consequentialist language / greater good, afaict.
Oliver Habryka: I think both are right! The old RSP was obviously unworkable and should have never been published, given what Anthropic is trying to do. So abandoning it is the right thing to do, but of course if you break promises you should be held accountable.
It’s not that hard to explain the consequentialist arguments for holding people accountable for breaking promises, but most people have an intuitive sense for why it’s important, so you don’t have to unpack it.
(To be clear, I think Anthropic should stop scaling and redirect its efforts towards advocating for a pause, but doing that because of the RSP would be weird and I don’t think the right move.
It would just look like you sabotaged yourself and now want to hold others back because you accidentally promised some dumb things that took you out of the race)
I also want to emphasize that commitments are only one way to improve safety. Even when plans are worthless, planning is essential, and you can and should just do things. None of this means ‘Holden or Anthropic don’t care about safety,’ only that they will decide what they think is right and then do it, and you can decide how much you trust them to choose wisely.
I do still see this as Anthropic abandoning its experiment on importantly engaging in voluntary self-government and restricting itself. Technically they reserved the right to do it, but it’s still quite the gut punch to do it.
The experiment is over. That’s better than pretending the experiment is working.
From this point, there are no commitments, only statements of intent. Anthropic’s going to do what it’s going to do. You can either choose to trust Anthropic’s leadership to make good decisions, or you can choose not to.
I think Anthropic’s description of its own history says that having these softly binding commitments, and having a track record of treating it as costly to break them, was very good for safety outcomes and policy adoption. I hate that we’ve given that up.
So Cold, So Alone
If your commitment is conditional on the actions of others, you should say that.
They didn’t entirely not say this before, but it was very much phrased as ‘in case of emergency we might have to break glass’ rather than ‘we only hold back if everyone relevant signs on.’
RSPv2 said this in 7.1.7: “If another frontier AI developer passes or is about to pass a Capability Threshold without implementing equivalent Required Safeguards, such that their actions pose a serious risk to the world, then because the incremental risk from Anthropic would be small, Anthropic might lower its Required Safeguards. If it did so, it would acknowledge the overall level of risk posed by AI systems (including its own) and invest significantly in making a case to the U.S. government for regulatory action.”
Whereas Anthropic is now saying they’re willing to hit those thresholds first, unless they have explicit commitments from others to do otherwise, even if this is not a small incremental risk.
I strongly agree with aysja, and disagree with Holden, that it would be misleading to describe this shift as a ‘natural extension of the RSP being a living document.’
I do see the argument that goes like this:
Going first was designed to get others to follow in a coordination problem.
No one followed.
That didn’t work, so we should admit it didn’t work and move on.
If that is where we are at now, you have all the reason to make this stricter requirement clear up front. That gives others more reason to follow you, and avoids all the nasty headlines we’re seeing now. Alas. it’s a little late for that.
If the mistake has already been made, it’s not obviously bad to admit defeat, and say you’re not going to then let someone else potentially dumber and riskier get there first.
I definitely agree it’s better to announce your intention to violate your old policy now, rather than wait until the day you do violate the old policy, which might never come.
davidad: Voluntary commitments to AI slowdowns were a nice idea in 2024 when it was plausible that they could be baby steps toward a multilateral agreement that would contain the intelligence explosion. For a variety of reasons this is no longer plausible.
Anthropic is doing good here.
In the strategic landscape of 2026, racing is the right move, not just for profit but also for maximizing the probability that things go well for most current humans.
Sam Bowman (Anthropic): I endorse the top [paragraph above].
The Anthropic RSP changes are an attempt to work out what kinds of firm commitments have the most leverage in an environment that’s less promising than we’d expected for policy and coordination.
We misjudged what the environment would look like at this point, which is sad. But these new commitments do still have some heft, including a lot more verifiable transparency (with third parties in the loop) on risks and mitigations.
Oliver Habryka: I am in favor of figuring out what kind of firm commitments have the most leverage. But of course, you can’t do that by making “firm commitments” directly!
It’s not a firm commitment if you are just playing around with different commitments.
The main catch is, it sounds like ‘you should see one of the other guys’ is going to be used as a basically universal excuse to go forward essentially no matter how risky it is, if the cost of not doing so is high?
If Anthropic does in the future pause for an extended period, in a way that is importantly costly, then I will have been wrong about this and precommit to saying so in public. If I don’t do so, please remind me of this.
As Drake Thomas notes, the virtue ethical case for ‘don’t impose material existential risk on the planet’ is reasonably strong.
One problem is that this absolutely is going to weaken the willingness of others to incur costs, and embolden those who want to move forward no matter what. Endorsing race logic and the impossibility of cooperation has its consequences.
I’m Sorry I Gave You That Impression
What do you mean the RSP was committing Anthropic to things?
Robert Long: I’m not super read up on RSPs and haven’t read Holden’s post. But it feels similar to the “Anthropic won’t push the capability frontier” meme: not strictly entailed by Anthropic’s official stance, but a strong impression they gave off and benefited from.
is that fair? incomplete?
Oliver Habryka: I mean, in this case the impression was really extremely unambiguous and strong. I agree the evidence for the promises made in the capability frontier case is largely private and so is externally ambiguous, but in this case we have great receipts!
Here, for example, is a conversation with Evan Hubinger. The conversation starts with someone saying:
Someone: One reason I’m critical of the Anthropic RSP is that it does not make it clear under what conditions it would actually pause, or for how long, or under what safeguards it would determine it’s OK to keep going.
Evan Hubinger responded with (across a few different comments): It’s hard to take anything else you’re saying seriously when you say things like this; it seems clear that you just haven’t read Anthropic’s RSP.
...
The conditions under which Anthropic commits to pausing in the RSP are very clear. In big bold font on the second page it says:
Anthropic’s commitment to follow the ASL scheme thus implies that we commit to pause the scaling and/or delay the deployment of new models whenever our scaling ability outstrips our ability to comply with the safety procedures for the corresponding ASL.
...
the security conditions could trigger a pause all on their own, and there is a commitment to develop conditions that will halt scaling after ASL-3 by the time ASL-3 is reached.
...
This is the basic substance of the RSP: I don’t understand how you could have possibly read it and missed this. I don’t want to be mean, but I am really disappointed in these sort of exceedingly lazy takes.
Oliver Habryka: This was, in my experience, routine. I therefore do see this switch from “RSP as concrete if-then-commitments” to “RSP as positive milestone setting” to constitute a meaningful breaking of a promise. Yes, the RSP always said in its exact words that Anthropic could revise it, but people who said that condition would trigger were frequently dismissed and insulted as in the comment above.
This certainly sounds like Evan Hubinger basically attacking anyone for daring to question that the RSP represented de facto strong commitments by Anthropic. We now know it did not strongly commit Anthropic to anything.
Evan predicted there was a substantial change Anthropic’s commitments would at some point force it to pause. Oliver made a market on that, which is now at ~0% despite rapid capabilities progress and Anthropic now arguably being in the lead.
Even after the RSPv3 release, Evan Hubinger continued to defend his position, that he was only saying that the RSP made a clear statement about where the lines were, not that the lines would not change or actually work in practice. Like Oliver I find this highly convincing given a plain reading of Evan’s comment. I do appreciate Evan saying now that we should downweight the theory of RSPs.
So the question then becomes, were Evan Hubinger and other employees who talked similarly under a false impression? If so, why? If not, why talk this way?
Oliver Habryka could not be more clear here, and I don’t think he would lie about this:
Oliver Habryka: Yes, Anthropic employees on more than a dozen occasions told me that the RSP binds them to a mast. I had many very explicit conversations with many Anthropic employees about this, because I was following up on what I thought was Anthropic violating what I perceived to be a promise to not push forward the state of AI capabilities, which many employees disputed had happened.
… At various events I was at, and conversations I had with people, Anthropic employees told me they were aiming to achieve robustness from state-backed hacking programs, and that they were ready to pause if they could not achieve that (as the RSP "committed" them to such things).
Oliver notes that Holden Karnofsky in particular has previously communicated he felt this was a different and lower level of commitment, that is consistent with him pushing the changes in v3, in contrast to many other Anthropic employees.
As Oliver Habryka says here, if Evan was under this false impression, Anthropic benefited enormously from giving its senior employees like Evan this impression. This does not seem like a ‘mistake’ from Anthropic to do this, and it would not be reasonable from the outside view to consider it an accident.
At minimum, if you don’t admit Anthropic has importantly now broken its commitments, then this is all highly misleading use of the word ‘commitment.’
Oliver Habryka: I would be pretty surprised if the employees in-question here end up saying they were deceived. Also, these are high-level enough employees that it’s unclear what it even means for them to be “deceived”. Deceived by whom? They drafted the RSP! They almost certainly were also involved in the decision to change it.
They benefitted hugely from this by getting social license to work at Anthropic and having people get off their back, and they are now at least deca-millionaires (or often billionaires).
Robert Long: fwiw I take that disagreement to be semantic, about “commitment” (as you note). I also agree with what you said then about the connotation of “commitment” - s.t. calling RSPs commitments means he should’ve fought the change and/or now own “we decided to break our commitment”
In particular, yes, a lot of people who care about not dying felt that the central point of RSPs was as a de facto compromise, an attempt to put an if-then commitment trigger on slowing down or pausing. If you couldn’t match the conditions, then you have to pause, which makes it acceptable to move forward now.
Indeed one could go further. The entire program of focusing heavily on not only Anthropic but evaluation-based organizations like METR and Apollo was that the evals could constitute the if that triggers a then. We now know that such commitments do not work, and that when models pass the dangerous capability tests even Anthropic will likely then fall back upon vibes. METR’s theory of change is ‘ensure the world is not surprised’ but I expect them to still be surprised.
Alternatively or in addition, you can interpret it as Holden does, that ‘no one has any willingness to slow down, and until there is a crisis this won’t change.’ Now the attitude is essentially ‘pausing or slowing down would be akin to suicide for a frontier AI lab, so things would have to be super extreme to do that, this is more of a plan we aspire to.’ Which is also a fine thing, but a very different style of document. Those who thought it was the first type of document lose Bayes points. Whereas those who thought it was the second type of document win Bayes points.
One could interpret a lot of this as ‘Anthropic employees implied they were using Rationalist epistemic norms, but instead they were using a different set of norms.’
Fool Me Twice
Does this backtrack remind you of anything?
It should. In particular, it should remind you of what happened with the idea that Anthropic would not ‘push the frontier of AI capabilities.’
A lot of people told us, with various wordings and degrees of commitment attached, that Anthropic would not do that. Then Anthropic sort of did it. Then they totally flat out did it and now Claude Code and Claude Opus 4.6 are very clearly the frontier.
Then we were told, ‘oh we never promised not to do that.’
Maybe they didn’t strictly promise to do that. Maybe a lot of telephone games were involved, but Anthropic at minimum damn well should have known that a lot of people were under that impression. I was under that impression. And they knew that people were making major life decisions, and deciding whether and how much to support Anthropic, on the basis of that decision, with no
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み