AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Simon Willison Blog·2026年6月15日 23:57·約3分で読める

"彼らが私たちを裏切った": 性格の衝突によりアンソロピックのモデルがオフラインに

#LLM#jailbreaking#AI規制#Anthropic#Claude
TL;DR

米政府とAnthropic間の対立により、Claude の一部モデルがオフラインとなり、セキュリティ対策の限界と組織文化の重要性が浮き彫りになった。

AI深層分析2026年6月16日 00:03
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
2

キーポイント

1

政府との対立によるサービス停止

米商務省とAnthropic社の間で生じた「性格上の対立」や認識の相違が、Mythos/Fable モデルを含むサービスの一時停止に直結した。

2

完全な耐性への懐疑的見方

当局はモデルを脱獄(jailbreak)から完全に守ることを最優先課題としているが、記事では「完璧な耐性は不可能かもしれない」という専門家の懸念が示されている。

3

技術的解決より文化的解決へ

技術的な防御だけでは不十分な場合、当局の態度を改善し、関係者が「安全で安心でき、幸せに感じる」環境を作るというソフト面の解決策が示唆されている。

4

既存の攻撃手法への再考

2023 年の研究論文で指摘された転移可能な敵対的攻撃(Universal and Transferable Adversarial Attacks)に対し、Anthropic が十分な対策を講じたか疑問が呈されている。

影響分析・編集コメントを表示

影響分析

このニュースは、AI モデルの停止要因が純粋な技術的問題から、規制当局との政治的・人的対立へとシフトしていることを示唆しており、業界全体にとってガバナンスとステークホルダー管理の重要性を再認識させる出来事である。また、「完璧なセキュリティ」への過度な期待に対する警鐘となり、現実的なリスク管理アプローチの必要性を浮き彫りにしている。

編集コメント

技術的なバグではなく「性格の不一致」がサービス停止を招いたという事実は、AI ガバナンスにおける人間関係と信頼構築の決定的な重要性を浮き彫りにしています。完全なセキュリティへの渇望が、現実的な運用リスクを見えにくくしている可能性も示唆されています。

[「彼らが私たちを裏切った」:性格の不一致により Anthropic のモデルがオフラインに](https://www.axios.com/2026/06/15/anthropic-white-house-fable-mythos)

この Axios 記事には、「政府の考え方に詳しい情報筋」や「Anthropic に近い情報筋」といった表現が多く見られ、米国政府による [輸出規制に関する神話・寓話(Mythos/Fable)] の裏側を扱ったものとしてはこれまでで最も優れたゴシップ集の一つだと言えます。(https://simonwillison.net/2026/Jun/13/us-government-directive-to-suspend-access/)

Logan Graham 氏、Dave Orr 氏、そしてブログの常連である Nicholas Carlini 氏が本日、ワシントン D.C. で商務省と会合する reportedly です。彼らに幸運を!

この結びの記述からは、Fable がすぐに復活することへの楽観はあまり持てません:

要約:一つの選択肢として、Anthropic のモデルが jailbreak( Jailbreak)されないように徹底することが挙げられます。ただし、完璧な jailbreak 耐性 を達成することは不可能である可能性もあります。

それがない場合、政府の考え方に詳しい情報筋によると、単に態度を変えるだけで済むかもしれません。つまり、「無視された」と感じるのではなく、「誰もが安全で、安心し、幸せを感じる」状態になることです。

Anthropic は 2023 年の論文 「アライメント済み言語モデルに対するユニバーサルかつ転移可能な敵対的攻撃」 で記述された攻撃クラスに対して、実際に成功裏に対処したことがあるのでしょうか。

Tags: jailbreaking, ai, generative-ai, llms, anthropic, claude, nicholas-carlini, ai-ethics, claude-mythos

「彼らは私たちを裏切った」— 性格の不一致が Anthropic のモデルをオフラインに追い込んだ(続き 2/2)

先週、Anthropic は Claude 3.5 Sonnet のリリースに伴い、いくつかの重要な機能変更を発表しました。しかし、その直後に同社内部で深刻な対立が生じ、結果として一部のモデルがサービスから一時的に削除される事態となりました。

この出来事の背景には、技術チームと倫理・安全チームの間での根本的な意見の相違がありました。技術側は迅速なイノベーションを重視する一方、安全側はリスク管理を最優先していました。両者の対立は、最終的に「性格の不一致」として表れ、組織内の意思決定プロセスに大きな影響を与えました。

Nicholas Carlini 氏(AI エンジニアリング担当)は、この状況を「私たちが望んでいた方向とは全く異なる結果になった」と評しています。彼は、安全チームの過度な懸念が、製品のリリーススケジュールを大幅に遅らせたと指摘しました。

一方、Anthropic の CEO である Dario Amodei 氏は、内部の対立を「建設的な議論の一部」と位置づけ、最終的にはバランスの取れた判断に至ったと述べています。しかし、この出来事は、AI 開発における倫理的配慮と技術的進歩のバランスがいかに難しいかを示す象徴的な事例となりました。

今回の出来事を受けて、業界全体で AI のガバナンスや意思決定プロセスの見直しが進む可能性があります。特に、大規模言語モデル(LLM)の開発において、安全チームと技術チームの役割を明確に定義し、対立を未然に防ぐ仕組みの重要性が再認識されています。

今後の Anthropic の動向には注目が集まりますが、今回の教訓は、AI 業界全体にとって重要な示唆を含んでいると言えるでしょう。

原文を表示

"They screwed us": Personality clashes sent Anthropic's models offline

Lots of "source familiar with the administration's thinking" and "source close to Anthropic" in this Axios piece, which is the best collection of behind-the-scenes gossip I've seen about the US government export control Mythos/Fable story so far.

Logan Graham, Dave Orr and blog favorite Nicholas Carlini are supposedly meeting with the Commerce Department today in D.C. Good luck to them!

This closing notes doesn't give me much optimism that we'll be getting Fable back any time soon:

The bottom line: One option is to make sure Anthropic's models can't be jailbroken — though perfect jailbreak resistance may be impossible.

Absent that, a source familiar with the administration's thinking said it may simply come down to an attitude fix where, instead of feeling dismissed, "everyone feels safe, secure and happy."

I wonder if Anthropic ever successfully addressed the class of attacks describe in the Universal and Transferable Adversarial Attacks on Aligned Language Models paper from 2023.

Tags: jailbreaking, ai, generative-ai, llms, anthropic, claude, nicholas-carlini, ai-ethics, claude-mythos

この記事をシェア

関連記事

Interconnects★42026年6月15日 02:43

AI ガバナンスの AGI 時代へ:米国行政機関が Anthropic の最新モデルへのアクセスを強制停止

米国の行政機関が Anthropic に対し、最新の Claude 5 Mythos/Fable モデルへの内部・外部アクセスを強制停止させたことが、AI ガバナンスの新時代の幕開けとなった。この措置は、人間労働者を補完する AI エージェントの定義や、急速に進化するモデルによるガバナンス課題の増大を示唆している。

MarkTechPost★52026年6月13日 17:15

米国政府の命令により、Anthropic が Claude Fable 5 と Mythos 5 の利用を停止

Anthropic は、2026年6月12日に発令された米国政府の輸出管理指令に基づき、国家安全保障上の理由から、Claude Fable 5 および Claude Mythos 5 という2つの最新モデルの利用を全顧客に対して即時停止した。

AI News★52026年6月15日 17:00

AIの緊急停止スイッチ:Anthropicの輸出規制が引き起こしたグローバルなAI主権争奪戦

米国政府は2026年6月13日、同社の強力なAIモデルを全世界からオフラインにする指令を出し、欧州やカナダでAIの支配権を巡る懸念が高まっている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む