AIのための核安全保障策の開発
NNSAやDOE研究所と共同で、核関連コンテンツを懸念すべきものと無害なものに自動分類するAIシステムを開発した。
キーポイント
Anthropicが米国エネルギー省(DOE)・国家核安全保障局(NNSA)と連携し、AIモデルが核兵器関連の危険な技術情報を提供するリスクを評価・監視する取り組みを実施
核関連の会話を「懸念すべき内容」と「無害な内容」に96%の精度で自動分類するAIシステムを共同開発し、Claudeのトラフィックに既に導入済み
この官民連携のアプローチを業界団体「Frontier Model Forum」を通じて共有し、他社でも同様のセーフガード実装の青写真として活用可能に
単なるリスク評価に留まらず、NNSAのレッドチーミングを基に具体的なリスク軽減策を共同開発する実践的な対策を実施
影響分析・編集コメントを表示
影響分析
この取り組みは、AIモデルの安全性確保において官民連携の新たなモデルケースを確立した。核拡散防止という国家安全保障上の重要課題に対し、AI開発企業が政府機関と協力して具体的な技術的対策を講じる先例となり、業界全体のガバナンス強化に影響を与える可能性が高い。
編集コメント
AIの危険な用途防止において、政府機関との実質的な協業と具体的な技術的対策を示した画期的な事例。業界の自主規制の限界を超える新たなガバナンスモデルとして注目される。
AIの核安全保障対策の構築:官民連携による取り組み
核技術は本質的に両義性を有しており、原子炉を動かすのと同じ物理原理が兵器開発に悪用される可能性がある。AIモデルの能力が高度化する中、国家安全保障を脅かす危険な技術知識をユーザーに提供し得るかどうかを注視する必要が生じている。
核兵器関連情報は特に機微であり、民間企業単独でこれらのリスクを評価することは困難である。このため、昨年4月に米国エネルギー省(DOE)傘下の国家核安全保障局(NNSA)と連携し、自社モデルの核拡散リスクを評価する取り組みを開始した。現在も継続的に共同評価を進めている。
現在はリスク評価を超え、監視に必要なツールの構築に着手している。NNSAおよびDOEの国立研究所と共同で、核関連の会話を「懸念すべきもの」と「無害なもの」に自動分類するAIシステム(分類器)を開発した。予備テストでは96%の精度を達成している。
この分類器は既に自社AI「Claude」のトラフィック監視に導入され、モデルの悪用を識別する広範なシステムの一部として機能している。初期の導入データは、実際のClaudeの会話においても分類器が有効に作動することを示唆している。
この取り組みのアプローチは、先進的AI企業による業界団体「フロンティアモデルフォーラム」とも共有される予定である。本連携が一つのモデルケースとなり、他のAI開発者もNNSAと協力して同様の安全保障措置を実施できるようにすることが期待されている。
先端AIモデルの核悪用防止という具体的な重要性に加え、この画期的な取り組みは官民連携の有効性を実証している。産業界と政府の相補的な強みを組み合わせることで、リスクに正面から対処し、全てのユーザーにとってより信頼性の高いAIモデルの実現を目指す。
連携においては、リスクの特定に留まらず、その対処法の開発まで進めた。NNSAスタッフが安全な環境でClaudeモデルに対して1年間にわたり「レッドチーミング」(模擬攻撃)を実施した後、リスク軽減策の共同開発が開始された。
レッドチーミングの知見に基づき、NNSAは核兵器開発に関連する潜在的に懸念すべき会話と、核エネルギー、医療、政策などに関する無害な議論とを区別するために設計された、注意深く選定された核リスク指標のセットを提供した。重要な点は、このリストは機密レベルが調整されており、開発チームと共有可能であり、防御策構築に直接活用できたことである。
自社の政策・安全保障チームはこのリストを基に、危険な核関連の問い合わせをリアルタイムで識別する分類器を開発した。分類器は、メールのスパムフィルターを支える仕組みと同様に、専門的な「ラベリング」を行うシステムである。スパムの代わりに、潜在的に有害な会話を識別し、正当な議論は許可する役割を果たす。
このように、官民がそれぞれの専門性を持ち寄る協力体制が、AIの安全保障という複
原文を表示
red.anthropic.com Developing nuclear safeguards for AI through public-private partnership
Nuclear technology is inherently dual-use: the same physics principles that power nuclear reactors can be misused for weapons development. As AI models become more capable, we need to keep a close eye on whether they can provide users with dangerous technical knowledge in ways that could threaten national security.
Information relating to nuclear weapons is particularly sensitive, which makes evaluating these risks challenging for a private company acting alone. That’s why last April we partnered with the U.S. Department of Energy (DOE)’s National Nuclear Security Administration (NNSA) to assess our models for nuclear proliferation risks and continue to work with them on these evaluations.
Now, we’re going beyond assessing risk to build the tools needed to monitor for it. Together with the NNSA and DOE national laboratories, we have co-developed a classifier—an AI system that automatically categorizes content—that distinguishes between concerning and benign nuclear-related conversations with 96% accuracy in preliminary testing (see below for details).
We have already deployed this classifier on Claude traffic as part of our broader system for identifying misuse of our models. Early deployment data suggests the classifier works well with real Claude conversations.
We will share our approach with the Frontier Model Forum, the industry body for frontier AI companies, in hopes that this partnership can serve as a blueprint that any AI developer can use to implement similar safeguards in partnership with NNSA.[1]
Along with the concrete importance of securing frontier AI models against nuclear misuse, this first-of-its-kind effort shows the power of public-private partnerships. These partnerships combine the complementary strengths of industry and government to address risks head-on, making AI models more reliable and trustworthy for all their users.
In this partnership, we did not stop with identifying risks—we developed an approach for addressing them. After a year of NNSA staff red teaming Claude models in a secure environment, we began to co-develop risk mitigations.
Informed by their red teaming, NNSA shared with us a carefully curated set of nuclear risk indicators designed to distinguish potentially concerning conversations about nuclear weapons development from benign discussions about nuclear energy, medicine, or policy. Crucially, this list was developed at a classification level such that it could be shared with our team, allowing us to use it to build defenses.
Our Policy and Safeguards teams turned that list into a classifier that could identify concerning nuclear queries in real-time. Think of a classifier as a specialized labeller, like the one that underpins the spam filter in your email inbox. Instead of identifying junk mail, this classifier identifies conversations that are potentially harmful while allowing legitimate discussions.
To validate the system, we generated hundreds of synthetic test prompts—some concerning, some benign—ran them through the classifier, and shared the results with the NNSA. NNSA validated that the classifier scores aligned with the expected labels (i.e., harmful or benign). We then refined the approach based on their feedback, and repeated the cycle to improve precision. Figure 1 summarizes this process.
The most challenging aspect of this endeavor wasn’t technical—it was bridging the gap between a national security agency and a private AI company. Both sides had to operate under information sharing constraints: the NNSA needed to keep certain information classified, and Anthropic needed to protect user data. How, then, could we validate that our classifier actually worked? Synthetic data generation was our solution: we used example prompts from NNSA to generate hundreds of test cases, creating a robust evaluation set without compromising either party’s equities.
If an AI system is too cautious, it might refuse legitimate nuclear engineering coursework. Too permissive, and it could inadvertently assist bad actors.
Our classifier appears to strike the right balance. In preliminary testing with synthetic data, we achieved a 94.8% detection rate for nuclear weapons queries and zero false positives (overall, 96.2% of the classifier’s labels in this test were accurate as shown in Figure 2), suggesting this system would not flag legitimate educational, medical, or research discussions as concerning. This precision matters because nuclear conversations in AI systems are rare but high-stakes—they bear directly on national security.
We’re making these resources available so that other leading AI companies can implement similar safeguards if they choose. Beyond demonstrating how government expertise can enhance AI safety through voluntary public-private cooperation, we hope this sparks an exchange where we can learn from each other’s approaches to risk mitigation.
As noted
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み