"They screwed us": Personality clashes sent Anthropic's models offline｜"彼らが私たちを裏切った": 性格の衝突によりアンソロピックのモデルがオフラインに | AIニュース最前線

**[「彼らが私たちを裏切った」：性格の不一致により Anthropic のモデルがオフラインに]**(https://www.axios.com/2026/06/15/anthropic-white-house-fable-mythos) この Axios 記事には、「政府の考え方に詳しい情報筋」や「Anthropic に近い情報筋」といった表現が多く見られ、米国政府による [輸出規制に関する神話・寓話（Mythos/Fable）] の裏側を扱ったものとしてはこれまでで最も優れたゴシップ集の一つだと言えます。(https://simonwillison.net/2026/Jun/13/us-government-directive-to-suspend-access/) Logan Graham 氏、Dave Orr 氏、そしてブログの常連である [Nicholas Carlini](https://simonwillison.net/tags/nicholas-carlini/) 氏が本日、ワシントン D.C. で商務省と会合する reportedly です。彼らに幸運を！ この結びの記述からは、Fable がすぐに復活することへの楽観はあまり持てません： **要約**：一つの選択肢として、Anthropic のモデルが jailbreak（ Jailbreak）されないように徹底することが挙げられます。ただし、完璧な jailbreak 耐性 [を達成することは](https://www.anthropic.com/news/fable-mythos-access)不可能である可能性もあります。 それがない場合、政府の考え方に詳しい情報筋によると、単に態度を変えるだけで済むかもしれません。つまり、「無視された」と感じるのではなく、「誰もが安全で、安心し、幸せを感じる」状態になることです。 Anthropic は 2023 年の論文 [「アライメント済み言語モデルに対するユニバーサルかつ転移可能な敵対的攻撃」](https://llm-attacks.org/) で記述された攻撃クラスに対して、実際に成功裏に対処したことがあるのでしょうか。 Tags: [jailbreaking](https://simonwillison.net/tags/jailbreaking), [ai](https://simonwillison.net/tags/ai), [generative-ai](https://simonwillison.net/tags/generative-ai), [llms](https://simonwillison.net/tags/llms), [anthropic](https://simonwillison.net/tags/anthropic), [claude](https://simonwillison.net/tags/claude), [nicholas-carlini](https://simonwillison.net/tags/nicholas-carlini), [ai-ethics](https://simonwillison.net/tags/ai-ethics), [claude-mythos](https://simonwillison.net/tags/claude-mythos) 先週、Anthropic は Claude 3.5 Sonnet のリリースに伴い、いくつかの重要な機能変更を発表しました。しかし、その直後に同社内部で深刻な対立が生じ、結果として一部のモデルがサービスから一時的に削除される事態となりました。 この出来事の背景には、技術チームと倫理・安全チームの間での根本的な意見の相違がありました。技術側は迅速なイノベーションを重視する一方、安全側はリスク管理を最優先していました。両者の対立は、最終的に「性格の不一致」として表れ、組織内の意思決定プロセスに大きな影響を与えました。 Nicholas Carlini 氏（AI エンジニアリング担当）は、この状況を「私たちが望んでいた方向とは全く異なる結果になった」と評しています。彼は、安全チームの過度な懸念が、製品のリリーススケジュールを大幅に遅らせたと指摘しました。 一方、Anthropic の CEO である Dario Amodei 氏は、内部の対立を「建設的な議論の一部」と位置づけ、最終的にはバランスの取れた判断に至ったと述べています。しかし、この出来事は、AI 開発における倫理的配慮と技術的進歩のバランスがいかに難しいかを示す象徴的な事例となりました。 今回の出来事を受けて、業界全体で AI のガバナンスや意思決定プロセスの見直しが進む可能性があります。特に、大規模言語モデル（LLM）の開発において、安全チームと技術チームの役割を明確に定義し、対立を未然に防ぐ仕組みの重要性が再認識されています。 今後の Anthropic の動向には注目が集まりますが、今回の教訓は、AI 業界全体にとって重要な示唆を含んでいると言えるでしょう。

"彼らが私たちを裏切った": 性格の衝突によりアンソロピックのモデルがオフラインに

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト