Anthropicの責任あるスケーリング方針:バージョン3.0
AnthropicがAI開発の安全性と責任を重視するスケーリング方針の第3版を発表。AIのリスク管理と倫理的展開を強化。
キーポイント
Anthropicが責任あるスケーリングポリシー(RSP)の第3版を公開し、AIシステムの壊滅的リスク軽減の自主的枠組みを更新
RSPは条件付きコミットメント(if-then)を原則とし、AI能力レベル(ASL)に応じた段階的セーフガードを規定
早期ASL(ASL-2/3)は詳細定義済みだが、将来の高度なASL(ASL-4以降)は柔軟に設計し、透明性と説明責任の向上を目指す
RSPは内部強制機能として組織内のセーフガード進捗を促進し、業界全体の「頂上への競争」を誘導する理論的枠組み
影響分析・編集コメントを表示
影響分析
AnthropicのRSP更新は、AI安全性の自主的規制の進化を示し、業界のベストプラクティス形成に影響を与える可能性が高い。特に、能力ベースの段階的セーフガードアプローチは、急速に進化するAI技術に対するリスク管理の実践的な枠組みとして注目される。
編集コメント
AI安全性の自主的枠組みの具体化が進んでおり、業界の規範形成における先駆的取り組みとして注視すべき内容。
Anthropicの責任あるスケーリング方針:バージョン3.0
当社は、AIシステムによる壊滅的リスクを軽減するために使用する自主的枠組みである「責任あるスケーリング方針(RSP)」の第3版を公開します。
AnthropicがRSPを策定してから2年以上が経過し、その利点と欠点について多くのことを学びました。したがって、これまでうまく機能してきた部分を強化し、必要に応じて方針を改善し、意思決定の透明性と説明責任を高めるための新たな措置を実施するために、本ポリシーを更新します。
新しいRSPの全文はこちらでお読みいただけます。この記事では、変更の背景にある考え方の一部について説明します。
当初のRSPと私たちの変革理論
RSPは、方針が策定された時点では存在しないが、指数関数的に進歩する技術の結果として急速に出現する可能性のあるAIリスクに、どのように対処すべきかという問題を解決するための私たちの試みです。2023年9月に当初のRSPを策定した当時、大規模言語モデルは本質的にチャットインターフェースでした。今日では、ウェブを閲覧し、コードを書いて実行し、コンピューターを利用し、自律的で複数段階のアクションを取ることができます。これらの新機能が出現するたびに、新たなリスクも生じています。このパターンは今後も続くと予想しています。
私たちはRSPを、条件的、すなわち「もし~ならば」というコミットメントの原則に焦点を当てました。もしモデルが特定の能力レベル(例えば、危険な兵器の作成を支援し得る生物科学の能力)を超えた場合、方針は、新しくより厳格な一連の保護策(例えば、モデルの悪用やモデルウェイトの盗難に対する対策)を導入すべきであると定めました。
各保護策のセットは「AI安全レベル(ASL)」に対応しています。例えば、ASL-2は必要とされる一連の保護策を指し、ASL-3はより高度なAIモデルに必要な、より厳格な一連の保護策を指します。
初期のASL(ASL-2およびASL-3)はかなり詳細に定義されましたが、まだ数世代先のモデルに対する適切な保護策を規定することはより困難でした。そのため、私たちは意図的に後のASL(ASL-4以降)を大部分未定義のままにし、より高度なAI能力レベルが何を伴うかについてより明確な見通しが立った時点で、それらをより詳細に策定することを望みました。
以下は、私たちの「変革理論」、すなわちRSPによって生態系に影響を与えたいと望んだメカニズムの大まかな説明です。
内部の強制機能。Anthropic内部では、RSPが重要な保護策を新モデルの公開(およびトレーニング)の要件として扱うことを私たちに強いることを望みました。これは、拡大し続ける大規模な組織にとってこれらの保護策の重要性を明確にし、より迅速な進歩を促すことになりました。
頂点を目指す競争。私たちのRSPを発表することが、他のAI企業が同様の方針を導入するよう促すことを望みました。これは「頂点を目指す競争」(「底辺への競争」の逆)の考え方であり、業界の異なるプレイヤーが自社モデルの保護策と全体的な安全性の態勢を弱めるのではなく、改善するインセンティブを得るというものです。時が経つにつれ、RSPや類似の方針が自主的な業界標準となるか、あるいはAIモデル開発における安全性と透明性を促進することを目的としたAI法の策定に寄与することを望みました。
リスクに関するより多くの合意形成。私たちは、能力の閾値を業界にとって潜在的に重要な瞬間と見なしました。もし重要な能力の閾値(例えば、AIモデルが生物兵器のエンドツーエンド生産を支援する能力)に達した場合、私たち自身が適切な保護策を実施し、AI能力について得た証拠を用いて、他の企業や政府にも同様の行動を取るよう働きかけることとしました。言い換えれば、能力の閾値は、単独行動(Anthropicが自社モデルに保護策を要求する)を超え、多国間行動(他のAI企業や政府もそのような保護策を要求する)を促す良い機会になり得ると信じていました。
未来を見据えて。私たちは、後の能力閾値のいくつかにおいて想定していた対策の強度(例えば、国家レベルのアクターによるAIモデルの悪用に対して高い堅牢性を達成すること)は、Anthropicが単独で達成するにはおそらく困難または不可能であろうと認識していました。私たちは、これらのより高い能力レベルに到達する頃までには、世界がその危険性を明確に認識し、一企業だけでは達成が難しい保護策の実施において世界中の政府と協力できることを望みました。
変革理論の評価
2年半後、率直に評価すると、この変革理論の一部は期待通りに展開しましたが、他の部分はそうではありませんでした。RSPが成功した分野は以下の通りです。
私たちのRSPは、より強力な保護策の開発を確かに促しました。例えば、ASL-3導入基準(これは主に、比較的限られたリソースと専門知識を持つ脅威アクターによる化学・生物兵器のリスクに関するもの)に準拠するために、懸念されるコンテンツをブロックするための、ますます洗練され正確な方法(具体的には、入力および出力分類器)を開発しました。
より広く見ると、ASL-3基準の全体的な実施は確かに実行可能であることが証明されました。私たちは2025年5月に関連モデルに対してASL-3保護策を発動し、それ以来それらを改善する取り組みを続けています。
私たちのRSPは、他のAI企業がある程度類似した基準を採用するよう確かに促しました。私たちがRSPを発表してから数ヶ月以内に、OpenAIとGoogle DeepMindの両方が広く類似した枠組みを採用しました。また、いくつかの企業は、私たちのASL-3防御と同様の流れで生物兵器関連の分類器を実装しています。RSPを含むこれらの自主的基準の背後にある原則は、初期のAI政策の策定に寄与してきました。私たちは、世界中の政府(例えばカリフォルニア州のSB 53、ニューヨーク州のRAISE法、EU AI法の実施規範など)が、フロンティアAI開発者に壊滅的リスクを評価・管理するための枠組みを作成し公表することを要求し始めているのを目にしています。これは、AnthropicがFrontier Compliance Frameworkを含む公開文書を通じて対応している要件です。業界に対してこの種の厳格な透明性枠組みを促進することは、まさに私たちのRSPが目指していたことでした。
それにもかかわらず、私たちの変革理論の他の部分は、期待通りには展開しませんでした。
RSPの閾値を用いてAIリスクに関するより多くの合意を形成するという考え方は、そのような効果が多少はあったものの、実際には実現しませんでした。事前に設定された能力レベルは、私たちが予想したよりもはるかに曖昧であることがわかりました。いくつかのケースでは、モデルの能力が明らかにRSPの閾値に近づいていますが、それらが明確にその閾値を超えたかどうかについて、私たちはかなりの不確実性を抱えています。モデル評価の科学は、決定的な答えを提供するほど十分に発達していません。そのような場合、私たちは予防的アプローチをとり、関連する保護策を実施してきましたが、私たちの内部の不確実性は、AI業界全体で多国間行動を取るための外部への説得力の弱い主張に変換されてしまいます。
生物学的リスクは、この「曖昧さの領域」の一例を提供します。私たちのモデルは現在、迅速かつ容易に実行できるほとんどのテストを通過する十分な生物学的知識を示しているため、特定のモデルからのリスクが低いという強力な主張はもはやできません。しかし、これらのテストだけでは、リスクが高いという強力な主張にも十分ではありません。私たちは、大規模なウェットラボ試験の支援など、追加の証拠を求めてきましたが、結果は依然として曖昧です。特に、研究には長い時間がかかるため、研究が完了する頃にはより強力なモデルが利用可能になるからです。
過去3年間のAI能力の急速な進歩にもかかわらず、AI安全に関する政府の動きは遅いままです。政策環境はAIの競争力と経済成長を優先する方向にシフトしており、安全性を重視した議論は連邦レベルではまだ有意義な牽引力を得られていません。私たちは、AI安全に関する効果的な政府の関与が、
原文を表示
Anthropic’s Responsible Scaling Policy: Version 3.0
We’re releasing the third version of our Responsible Scaling Policy (RSP), the voluntary framework we use to mitigate catastrophic risks from AI systems.
Anthropic has now had an RSP for more than two years, and we’ve learned a great deal about its benefits and its shortcomings. We’re therefore updating the policy to reinforce what has worked well to date, improve the policy where necessary, and implement new measures to increase the transparency and accountability of our decision-making.
You can read the new RSP in full here. In this post, we’ll discuss some of the thinking behind the changes.
The original RSP and our theory of change
The RSP is our attempt to solve the problem of how to address AI risks that are not present at the time the policy is written, but which could emerge rapidly as a result of an exponentially advancing technology. When we wrote the original RSP in September 2023, large language models were essentially chat interfaces. Today they can browse the web, write and run code, use computers, and take autonomous, multi-step actions. As each of these new capabilities have emerged, so have new risks. We expect this pattern to continue.
We focused the RSP on the principle of conditional, or if-then, commitments. If a model exceeded certain capability levels (for example, biological science capabilities that could assist in the creation of dangerous weapons), then the policy stated that we should introduce a new and stricter set of safeguards (for example, against model misuse and the theft of model weights).
Each set of safeguards corresponded to an “AI Safety Level” (ASL): for example, ASL-2 referred to one set of required safeguards, whereas ASL-3 referred to a more stringent set of safeguards needed for more capable AI models.
Early ASLs (ASL-2 and ASL-3) were defined in significant detail, but it was more difficult to specify the correct safeguards for models that were still several generations away. We therefore intentionally left the later ASLs (ASL-4 and beyond) largely undefined, and hoped to develop them in more detail once we had a better picture of what higher AI capability levels would entail.
The following is a rough description of our “theory of change”—that is, the mechanisms whereby we hoped to affect the ecosystem with the RSP:
An internal forcing function. Within Anthropic, we hoped the RSP would compel us to treat important safeguards as requirements for launching (and training) new models. This made the importance of these safeguards clear to the large and growing organization, spurring us on to make faster progress.
A race to the top. We hoped that announcing our RSP would encourage other AI companies to introduce similar policies. This is the idea of a “race to the top” (the converse of a “race to the bottom”), in which different industry players are incentivized to improve, rather than weaken, their models’ safeguards and their overall safety posture. Over time, we hoped RSPs, or similar policies, would become voluntary industry standards or go on to inform AI laws aimed at encouraging safety and transparency in AI model development.
Creating more consensus about risks. We viewed the capability thresholds as potentially important moments for the industry. If we reached an important capability threshold (such as the ability of AI models to support the end-to-end production of bioweapons), we would institute the appropriate safeguards ourselves and use the evidence we’d obtained about AI capabilities to advocate to other companies and governments that they take action as well. In other words, we believed that the capability thresholds might be good points at which to go beyond unilateral action (Anthropic requiring safeguards for its own models) and encourage multilateral action (other AI companies, and/or governments also requiring such safeguards).
Looking to the future. We recognized that, at some of the later capability thresholds, the intensity of countermeasures we were envisioning (for example, achieving high robustness against misuse of AI models by state-level actors) would likely be difficult or impossible for Anthropic to accomplish unilaterally. We hoped that by the time we reached these higher capabilities, the world would clearly see the dangers, and that we’d be able to coordinate with governments worldwide in implementing safeguards that are difficult for one company to achieve alone.
Assessing our theory of change
Two and a half years later, our honest assessment is that some parts of this theory of change have played out as we hoped, but others have not. The following are the areas in which the RSP has been successful:
Our RSP did incentivize us to develop stronger safeguards. For example, in order to comply with our ASL-3 deployment standard (which is primarily about risks from chemical and biological weapons from threat actors with relatively modest resources and expertise), we developed increasingly sophisticated and accurate methods (specifically, input and output classifiers) to block content of concern.
More broadly, the overall implementation of the ASL-3 standard did prove feasible. We activated ASL-3 safeguards for relevant models in May 2025 and have been working to improve them ever since.
Our RSP did encourage other AI companies to adopt somewhat similar standards: within a few months of announcing our RSP, both OpenAI and Google DeepMind adopted broadly similar frameworks. Some companies have also implemented bioweapon-related classifiers in a similar vein to our ASL-3 defenses. The principles behind these voluntary standards, including those in the RSP, have helped to inform the development of early AI policy. We’ve seen governments around the world (for example in California with SB 53, in New York with the RAISE Act, and with the EU AI Act’s Codes of Practice) start to require frontier AI developers to create and publish frameworks for assessing and managing catastrophic risks—requirements Anthropic addresses through public documentation including its Frontier Compliance Framework. Encouraging these kinds of rigorous transparency frameworks for the industry was exactly what our RSP had set out to do.
Nevertheless, other parts of our theory of change have not panned out as we’d hoped:
The idea of using the RSP thresholds to create more consensus about AI risks did not play out in practice—although there was some of this effect. We found pre-set capability levels to be far more ambiguous than we anticipated: in some cases, model capabilities have clearly approached the RSP thresholds, but we have had substantial uncertainty about whether they have definitively passed those thresholds. The science of model evaluation isn’t well-developed enough to provide dispositive answers. In such cases, we have taken a precautionary approach and implemented the relevant safeguards, but our internal uncertainty translates into a weak external case for taking multilateral action across the AI industry.Biological risks provide an example of this “zone of ambiguity”. Our models now show enough biological knowledge that they pass most tests we can run quickly and easily, so we can no longer make a strong argument that risks are low from a given model. But these tests alone aren’t sufficient for a strong argument that risks are high, either. We’ve sought additional evidence, such as supporting an extensive wet-lab trial, but results remain ambiguous, especially because the studies take long enough that more powerful models are available by the time they’re completed.
Despite rapid advances in AI capabilities over the past three years, government action on AI safety has moved slowly. The policy environment has shifted toward prioritizing AI competitiveness and economic growth, while safety-oriented discussions have yet to gain meaningful traction at the federal level. We remain convinced that effective government engagement on AI safety is both necessary and achievable, and we aim to continue advancing a conversation grounded in evidence, national security interests, economic competitiveness, and public trust. But this is proving to be a long-term project—not something that is happening organically as AI becomes more capable or crosses certain thresholds.
As noted above, we were able to implement ASL-3 safeguards unilaterally and at reasonable costs to the operation of the company. However, this may not remain true for higher capability levels and higher ASLs. While our higher ASLs are largely undefined, the robust mitigations we laid out in the prior RSP might prove outright impossible to implement without collective action. As one illustration of the scale of the challenge, a RAND report on model weight security states that its “SL5” security standard, aimed at stopping top-priority operations by the most cyber-capable institutions, is “currently not possible” and “will likely require assistance from the national security community.”
The combination of (a) the zone of ambiguity muddling the public case for risk, (b) an anti-regulatory political climate, and (c) requirements at the higher RSP levels that are very hard to meet unilaterally, creates a structural challenge for our current RSP. We could have tried to address this by defining ASL-4 and ASL-5 safeguards in ways that made compliance easy to achieve—but this would undermine the intended spirit of the RSP.
Instead, we are choosing to acknowledge these challenges transparently and restructure the RSP before we reach these higher levels. The revised RSP aims to adopt more realistic unilateral commitments that are difficult but still achievable in the current environment, while continuing to comprehensively map the risks we believe the full industry needs to address multilaterally.
Updating our Responsible Scaling Policy
The new version of our RSP has three key elements.
- Separating our plans as a company from our recommendations for the industry
Our RSP now outlines two sets of mitigations: first, the mitigations that we plan to pursue regardless of what others do; and second, an ambitious capabilities-to-mitigations map that, we believe, would help adequately manage the risks from advanced AI if implemented across the AI industry.
Read the full Responsible Scaling Policy.
- Frontier Safety Roadmap
Our new RSP introduces a requirement to develop and publish a Frontier Safety Roadmap, which will describe our concrete plans for risk mitigations across the areas of Security, Alignment, Safeguards, and Policy. Goals described in the Roadmaps are intended to be ambitious, yet achievable—providing the kind of forcing function that we consider to be a past success of our RSP.
Rather than being hard commitments, these are public goals that we will openly grade our progress towards. This strategy of “nonbinding but publicly-declared” targets borrows from the transparency approach we’ve been championing for frontier AI legislation (although it provides the public with much more detail than is required under existing legislation), and from the successes of our previous RSP versions.
Some example goals from our current Frontier Safety Roadmap include:
Launch “moonshot R&D” projects to investigate ambitious, possibly unconventional ways to achieve unprecedented levels of information security;
Develop a method for red-teaming our systems (likely involving significant automation) that surpasses the collective contributions from the hundreds of participants in our bug bounty;
Implement a number of systematic measures to ensure Claude behaves according to its constitution;
Establish comprehensive, centralized records of all our critical AI development activities, and use AI to analyze these records for issues including concerning behavior by insiders (both human and AI) and security threats;
Publish a policy roadmap with concrete proposals for a “regulatory ladder”—policies that scale with
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み