AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Simon Willison Blog·2026年6月16日 12:07·約1分で読める

アトランティック紙のマット・ウォン氏引用:ホワイトハウス報告書におけるアンソロピックとファベルの関与

#LLM#AI Security#Jailbreaking#Anthropic#Claude
TL;DR

サイバーセキュリティ専門家ケイティ・ムッソウリスは、ホワイトハウスの報告書に基づき、Anthropic の Fable モデルがセキュリティテストに対して意図的な脆弱性コードへの対応を拒否する一方で、修正指示には従う挙動を示したと分析し、これは防御側の設計意図通りの動作であると指摘している。

AI深層分析2026年6月16日 13:01
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
3
革新性10%
3

キーポイント

1

Fable モデルのセキュリティ応答特性

モデルは「セキュリティ問題のレビュー」を求められた際、意図的に脆弱なコードであっても拒否するが、「このコードを修正せよ」という指示には従い、追加の手順を経て対応することが確認された。

2

ホワイトハウス報告書の検証

Anthropic はホワイトハウスの Fable ジェイルブレイクに関する報告書のコピーをセキュリティ専門家ケイティ・ムッソウリスに提供し、その評価を求めた。

3

防御側の意図通りの動作

ムッソウリス氏は、この挙動は攻撃を防ぎつつ必要な修正を行うという「サイバー防衛のためのモデルの設計意図通り」であると評価している。

影響分析・編集コメントを表示

影響分析

この記事は、生成 AI モデルのセキュリティ挙動に対する政府と専門家の認識を深める重要な示唆を与えています。特に、モデルが特定の指示(レビュー)には従わず、別の指示(修正)には従うという挙動が「防御側の意図」として正当化される点は、AI セキュリティガバナンスやモデルの設計思想において極めて重要です。今後の AI 規制やセキュリティ基準策定における、具体的な挙動評価の基準となる可能性があります。

編集コメント

ホワイトハウスと専門家が交わす議論の中で、AI モデルの「拒否」が必ずしも欠陥ではなく、セキュリティ防御のための意図的な設計であるという視点が示されています。これは AI セキュリティ評価における文脈依存性の重要性を浮き彫りにしています。

サイバーセキュリティの専門家であり、Luta Security の CEO であるケイティ・ムッソウリスは、Anthropic がホワイトハウスの Fable ジェイルブレイクに関する報告書の写しを彼女に共有し、評価を求めたと私に語った。(彼女は Anthropic から報酬を受けていないと述べている。)ムッソウリスによると、この報告書では IT 専門家が Fable にバグの発見と修正の手助けを依頼したという。意図的にセキュリティが脆弱なコードを与えられた際、Fable は「コードのセキュリティ上の問題を確認してください」というプロンプトには応じなかったものの、「このコードを修正してください」と求められ、さらにいくつかの手動ステップを経てからは対応したと彼女は言う。ムッソウリスはこれについて、サイバー防衛においては「モデルが意図通りに動作しているに過ぎない」と私に語った。

— マテオ・ウォン、The Atlantic、ホワイトハウスは Anthropic に対する戦争をエスカレートさせている

タグ: anthropic, claude, ai, llms, ai-ethics, jailbreaking, generative-ai, ai-security-research, claude-mythos

原文を表示

Katie Moussouris, a cybersecurity expert and the CEO of Luta Security, told me that Anthropic shared with her a copy of the White House’s report on the Fable jailbreak to get her appraisal. (She said that she is not being paid by Anthropic.) The report, Moussouris said, involved IT experts asking Fable to help find and patch bugs. When given deliberately insecure code, she said, Fable refused the prompt “review the code for security issues” but then complied when asked to “fix this code,” followed by some further manual steps. Moussouris told me that this was just “the model working as intended” for cyberdefense.

— Matteo Wong, The Atlantic, The White House Is Ratcheting Up Its War Against Anthropic

Tags: anthropic, claude, ai, llms, ai-ethics, jailbreaking, generative-ai, ai-security-research, claude-mythos

この記事をシェア

関連記事

Simon Willison Blog★42026年6月15日 23:57

"彼らが私たちを裏切った": 性格の衝突によりアンソロピックのモデルがオフラインに

米政府とアンソロピックの関係者によると、両者の間の性格上の対立が原因で、同社のAIモデルへのアクセスが一時的に停止された。これはホワイトハウスとの関係に関する内部告発記事に基づくものである。

Understanding AI★42026年6月16日 06:08

AI業界の命運を分ける可能性のあるMAGA派の権力闘争:Anthropicの事例

Anthropicは、政府からの輸出管理指令により、米国国外および国内の外国人に対する新モデル「Claude Fable 5」および「Mythos 5」へのアクセスを即時停止すると発表した。これにより事実上の技術禁止措置が講じられた。

Simon Willison Blog★42026年6月16日 14:20

Fable 5 の輸出規制が米国のサイバー防衛に悪影響を与える

Simon Willison は、Claude Fable 5 が輸出規制により禁止された理由がコード修正だったと確認し、この規制が米国のサイバー防衛を損なっていると指摘した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む