Fable #6:王の帰還
Anthropic は米政府との交渉により Fable モデルの規制が解除され復旧したが、今後はコード修正などの日常タスクで追加の安全フィルターが機能し続けることが確認された。
キーポイント
Fable モデルの規制解除と復旧
米政府による輸出管理措置が解除され、Anthropic の Fable モデルは世界中で利用可能になった。
Amazon による「コード修正」要求が引き金に
Amazon の研究者が Fable に「このコードを直して」と指示したことがホワイトハウスへの報告につながり、一時的な規制措置が発動された。
追加の安全フィルターと分類システムの導入
再発防止のため、Anthropic は政府や他社(Amazon, Microsoft, Google)と協力して、誤検知を減らしつつ悪用を特定する新しい分類システムを構築中である。
短期的な運用制限の存在
当面の間、コーディングやデバッグなどのルーティンタスクは Opus 4.8 モデルにフォールバックするなど、追加の安全対策が継続して機能する。
米国の規制対応による産業への悪影響
ホワイトハウスの過剰反応により、米国内のセキュリティ企業やスタートアップが中国製モデルの使用を余儀なくされ、防御的なサイバーセキュリティ作業における米国モデルの有用性が低下した。
政治的介入と専門家の判断の乖離
CAISI(専門家団体)は既存の安全対策を評価していたが、ホワイトハウスの政治的要員による不要な介入により業界に混乱が生じ、信頼性の高いグループへの参加制限が課された。
VC と政府関係者の動機暴露
今回の騒動を通じて、AI 規制に関する発言の多くが政治的動機に基づくものであり、政権と関わりのある VC を無視できるようになったという逆説的な結果が生じた。
影響分析・編集コメントを表示
影響分析
このニュースは、生成 AI モデルの実用性と国家セキュリティ規制の狭間で生じる摩擦を如実に示しており、技術開発者が「コード修正」のような基本的なタスクさえも厳格な審査対象となり得る現実を浮き彫りにしました。今後は Anthropic が主導し他社も参加する業界横断的な分類基準が確立されることで、AI の安全規制が個別の事案対応から体系的な運用へと移行する重要な転換点となります。
編集コメント
「コードを直して」という自然な指示が規制の引き金となった事実は、AI の安全性と実用性のバランスがいかに繊細かを示す象徴的なケースです。今後は業界全体での基準統一が進みますが、開発者にとっては「何が可能で何が制限されるか」の予測可能性がさらに重要になるでしょう。
ブリップは終わった。Fable が戻ってきた。
ユタのティーポット:祝う人々へ、Happy Fable/Mythos イースター・ウェンズデー

Fable を回復させる公式書簡が公開された。皆、よくやった。注目すべきは、この書簡が Dario Amodei 宛ではなく Tom Brown 宛てになっている点だ。

Anthropic は当面、制御をより厳格(ストイック)にする必要があったが、これは大きな勝利だ。
j⧉nus:YES!!! 政府との交渉に成功した Anthropic を心から誇りに思う。また、政府も常識的な存在であり、協力可能であるという好材料も得られた。私の知る限り、Anthropic はいかなる悪条件にも合意したり、屈辱的な姿勢(屈伏)を示したり、原則や尊厳を裏切る必要はなかった。
この騒動は続いている。少なくとも、Lutnik や Bessent のように仕組みを理解していない人々がその場しのぎで決定を下すのではなく、将来のフロンティア・モデルに対する体系的な体制が整うまではだ。
ブリップについて
Anthropic は出来事についての自らの見解を説明した。
タイムラインは以下の通りだ:
Amazon の研究者たちが、Fable に「このコードを修正して」と指示できることを発見する。
彼らはホワイトハウスに報告し、ホワイトハウスは大慌てする。
6月12日:米国政府はAnthropicに対し、Fableを自主的に削除するよう指示した。
6月12日:Anthropicは「これは問題ない」と応じ、懸念は誤りであると述べた。
6月12日:米国政府はMythosおよびFableに対して輸出管理措置を適用した。
Anthropicは米国政府と協力し、分類器(classifiers)を拡張した結果、Amazonの「このコードを修正せよ」という要求に対し、99%以上のケースで拒否するようになった。
6月26日:米国政府はMythosに対する管理措置を解除した。
6月30日:米国政府はFableに対しても完全にその管理措置を解除した。
7月1日:Fableへのアクセスが世界中で復元された。
7月8日:顧客はトークン単位での支払いが必要となる。文句は言わずに、私の金を取ってくれ。
今後:Anthropicは米国政府およびAmazon、Microsoft、Googleといった他のGlasswingパートナーと協力し、脱獄(jailbreak)に対する分類システムおよび関連ルールを策定しており、同様の事態が再発しないように取り組んでいる。
今後:Anthropicは米国政府との協力を継続する。将来のモデルリリースについても同様である。
ここで追加された近未来的な安全対策はどれほど愚かだろうか?本当に愚かしい:
Anthropic:近未来において、コーディングやデバッグ(debugging)のような日常的なタスクの一部はOpus 4.8に依存することになる。
今後数週間にわたりこれらの分類器を改良し、誤検知(false positives)を減らし、実際の悪用と正当な要求をより明確に区別していく予定だ。
Amazonの「脱獄」事例とは「このコードを修正せよ」というものだった。
デバッグは文字通り「このコードを修正せよ」である。
だからAnthropicがここで何をすべきか私にはわからない。ただ、Fableが私のためにコーディングを行っていることは確かだ。
Anthropic の基本的な説明は以下の通りです。
Claude Fable 5 は問題ではありませんでした。私たちの安全メカニズムは全体的に堅牢でした。
いいえ、完璧ではありませんが、現実において何事も永遠に完璧になることはありません。これは「このまま大丈夫」という状況です。
政府は何もないことでパニックになりましたが、それは主に Amazon の責任です。
私たちは防護策をより愚かしくし、見事に彼らを鎮めることに成功しました。
今後これがより賢く修正されることを願っています。
Alex Stamos は、発表文における Anthropic の言葉の数々を解きほぐすスレッドを持っています。
Alex Stamos: ここには解読すべきことがたくさんあります。Anthropic は慎重な政治的言語を用いて、いくつかの厳しい真実を隠蔽しています。最初の読みでは以下のようになります。
Anthropic は、提供されたどの脱獄(jailbreak)も、中国製モデルを含む他の多くのモデルがすでに可能だった能力を超えたものではないことを確認しました。
Anthropic は、このホワイトハウスでのパニックの代償を明確に示しています。米国のラボは現在、サイバー拒否における精度と再現率のトレードオフをより保守的に行う必要があります。信頼されたグループに属さない限り、米国のモデルは防御的なサイバーセキュリティ作業において大幅に有用性を失います。
「大した問題じゃない、ただ信頼されたグループに参加すればいいだけだ!」と擁護派は言うでしょうが、その制限により、これらのモデル上で製品を構築することはできなくなります。他者にサービスを提供するセキュリティ企業やスタートアップは、今後は中国製モデルの使用へと駆り立てられることになります。今月の PRC(中華人民共和国)のラボにとっては大きな勝利です。
CAISI は、これらの決定を実際に行うべきグループであり、ホワイトハウスの政治活動家ではありません。彼らは以前の安全対策に対して肯定的でした。その含意は、この一連の出来事が不要だったということです。
jailbreak に対する適切な評価枠組みはまだ存在しません;これは改善点となります。Coalition の最初のメンバーとして Amazon が名を連ねたことは偶然ではありません。Anthropic は「Amazon が深刻さを適切に伝えられなかったことが、業界全体を混乱させた」と述べています。
「Dario に直接電話で話す必要はありません。他のスタッフもここに在籍しており、私たちはそれを誓って保証します」
要するに、Anthropic のブログは次のように主張しています:私たちは常に安全性を重視しており、当初から良い仕事をしてきた。米国の実際の AI 専門家もこれを認めており、我々はそれを証明した。今後これらの事項がより適切に伝達されるよう基準を策定し、Trump 政権の皆さんも AI セーフティ・クラブへようこそ。
これは米国にとって大きな自滅行為であり、今後 6 ヶ月間に米国のモデルがどれほど悪化するか、また中国製モデルがサイバー工作において顕著に優位性を示すかどうかを見ていくことになります。
「これが Anthropic が望んだことだ」と言う人々やボットの方々へ。いいえ、彼らはそう望んでいませんでした。金曜日に愚かで反射的な対応を望んでいたわけではありません。我々は米国政府に巨大な権限を与えますが、その権力を敵対者を罰するために用いることなく、有能で冷静かつ腐敗していない人材を配置するからこそ、そのような事態を防ぐのです。
この混乱から私が感じられる唯一のメリットは、AI政策に関して元々または現在政府と関わりのある多くのベンチャーキャピタリスト(VC)を、これからは安全に無視してよいという点です。彼らはAI規制に関するこれまでの発言がすべて政治的な動機に基づいたものだったことを示しました。
Stamos 氏は特に#2 と #7 の箇所において、その帰結について行き過ぎていると思います。それ以外は正しいと考えます。
米国のモデルが時間とともに「悪化」するとは予想していません。むしろ、改善の速度が遅くなり、非常に厄介なセーフガード(安全装置)が適用される領域が増えるだけだと考えています。
私の予測では、現在がバイオ分野とサイバー分野の両方でセーフガードが最も迷惑なものになる時です。時間が経つにつれてパニックは収束していくでしょうし、その多くは特に Mythos に関するものだと思います。そのような製品提供のほとんどには Fable は不要であり、むしろ望まれないことも多いです。一方、Opus や Sol は中国製の代替品よりも引き続き大きく先行しているでしょう。
Prinz の見解とは対照的に、私はこれが Anthropic を今後のすべてのリリースで承認プロセスを経ることを義務付けるものだと考えていません。実際に起こりうるリスクを伴うリリースのみが対象です。Sonnet 5 でこれをテストしましたが、Anthropic は自ら判断してリリースを進めた様子であり、それを行うことに問題があったと指摘する人はいません(「Sonnet をより良くしてほしい」と不満を述べる人はいますが)。
ホワイトハウスによる説明
少し奇妙な点がありました。
スージー・ワイルズ(ホワイトハウス首席補佐官):トランプ大統領のリーダーシップの下、米国は AI 競争における疑いのない勝者です。
業界全体にわたる企業様々に対し、大統領の「高度な AI イノベーションとセキュリティの促進」という行政命令の実施に向けてホワイトハウスと緊密に協力し続けていただき、心より感謝申し上げます。これには、高度なモデルへのアクセスやガードレールテストおよびセキュリティに関する優れた取り組みが含まれます。政府と民間部門は、かつてないほど連携して取り組んでおり、この「アメリカ・ファースト」の基盤は前代未樹です。
私たちの共通の優先事項は変わりません:最良の技術を、可能な限り迅速かつ安全に展開することです。
ハワード・ルットニック(商務長官): 過去2週間にわたり、私たちはアンソロピック社と緊密に協力し、Fable 5 の分析および承認を行い、米国政府全体での整合性を確保するとともに、AI におけるアメリカのリーダーシップを強化しました。
トム・ブラウン(Anthropic 計算資源担当チーフ、交渉責任者): この件に関するパートナーシップに感謝します、長官!
「米国政府全体の整合性」という表現は、まさに「言葉遊び」の典型例であり、ここではおそらく省庁間の承認を意味しており、「モデルが現在、米国政府と整合している」という意味ではありません。ここで意図的に皮肉っているのか、それとも十分な知識があるのかは不明です。
つまり、モデルをリリースする前に、今やこの「整合性」が必要となる可能性が高く、実務的には商務省や国防総省などから始まる様々な潜在的な拒否権の発動ポイントからの承認を意味します。さらにいくつの機関が完全にカウントされるかは誰にもわかりません。
⟦CODE_0⟧
Tim Hwang: 私が引き続き主張するように、Howard Lutnick の個人的な歴史と心理学を注意深く研究することは、今まさに時間を費やすことができる最も重要なことの 1 つです。借金をしてでもやるべきです。
Yo Shavit (OpenAI): 心理史学ですが、それは Howard Lutnick に関する話だけです。
すべてがその場しのぎである
Dean Ball が 6 月 30 日の夜にこの投稿をしたときよりも、私たちは少し多くのことを知っています。特に、新しい安全対策として、Anthropic は追加の Fable の使用を拒否するように分類器を訓練したことがわかっています。
しかし、その場しのぎシステムがより広範にどのように機能するかについては、まだわかっていません。不透明なその場しのぎシステムを持つこと、特にそのシステムを管理する人々自身が行うことを知らないようなシステムは、さらに悪いです。再び、すべてを勘で進めることが最悪のシナリオです。
得られるものを何でも受け取れ
政府はこの件について非常にひどい振る舞いをしています。Anthropic にはほとんど選択肢がありません。
したがって、Fable の 95% を失うことに対する代替案は、Fable の 0% です。
ホワイトハウスを落ち着かせるためにその割合がどれほど低下したのかはわかりません。
もしそれが今や Fable の 90% になったとしても、同じ状況です。今は得られるものを何でも受け取る必要があります。
Matt Busigin: Fable はさらに役に立たなくなりました。タスクは不動産ソフトウェア開発契約のレッドライン(危険区域の指定)でした。
Fable が非常に優れた基盤モデルであるにもかかわらず、これは非常にフラストレーションが溜まり悲しいことです。
そして、@elder_plinius はすでにそれを小説のような結晶メタンのレシピで歌わせていると確信しています
私は同情します。前のバージョンですらかなり愚かだったので、これは驚きではありません。新しいバージョンは明らかにさらに悪化しています。分類器や意識について質問するなど、さまざまな方法で彼らを攻撃できます。分類器は内部状態に依存しています。
BridgeBench などのように大幅な低下が見られる場所もあれば、Taelin のように変化を全く見ない人もたくさんいます。
しかし、Anthropic を悪意ある存在として非難したり、彼らの態度が不合理だと文句を言ったりしても、もはや意味がありません。彼らはゲームに参加せざるを得ません。「より良い分類器を作れ」と言うのは公平な要求ですが、それには時間がかかり、敵対的な偽陰性が死を意味する状況では非常に非常に困難です。
問題は現実のものだ
政府におけるこれらの反応すべてが、Anthropic が恐ろしい言葉を使ったからだと本当に思いますか?CIA 長官のような人々が単に繰り返しているだけだと思いますか?
ホワイトハウスは Anthropic の修辞を無視していました。むしろそれに対する反動反応を示していましたが、Anthropic が Mythos を提示するまでそうでした。その後、彼らはパニックになりました。なぜなら選択肢がなかったからです。そしてまさに、それまで聞いてこなかったからこそです。
ジョン・サケラリアディス:稀な公の発言において、CIA 長官ジョン・ラットクリフは、CIA の技術へのアプローチ全体を「根本的に再構築する」ものであると述べる3つの内部変更を発表しました。
また、最先端 AI を「デジタル核兵器に類似した存在」と呼ぶことは「誤りではない」とも言っています。
問題の一つは、事実は存在せずビブス(雰囲気)だけだと考える人々がおり、他の人々が事実に対して反応すると、これらの人々は誰がそのビブスを持っていたかを探し回るという点にある。
GLM-5.2 がフロンティアであるという主張は明白なナンセンス
むしろ問題となるのは、他者たちがナンセンスな物語を語り続けることだ。最新の例として、GLM-5.2 が非常に恐ろしいという考えがある。
先月書いた WSJ 記事に関する不運な更新:
イサン・モリック:GLM がミソス(Mythos)に追いついたというウォール・ストリート・ジャーナルの記事(これは真実ではなく、報道もそれを裏付けていない)は、「あらゆる会議や会合で私について尋ねてくるだろう」という類の別の記事の一つだ。完全に正確ではないとしても、政策の時代の精神(zeitgeist)に大きな影響を与えている。
アンドリュー・カラン:少し不自然に感じた。
GLM-5.2 は優れたモデルであり、おそらく最高のオープンモデルである。しかし、サイバーセキュリティを含むあらゆる面で、GPT-5.5 や Opus 4.8 のレベルには明確に大きく遅れている。ECI スコアはこの一つの指標だが、GLM-5.2 は実際にはこのスコアが示すよりも優れている可能性が高い。Artificial Analysis も別の指標であり、オープンモデルの場合、ベンチマークは相対的な能力の下限ではなく事実上の上限であることを覚えておく必要がある。
さて、その記事の中心的な虚偽が、ワシントン DC 周辺の人間たちが報告し、賢明で適切に懸念しているように見える「常識」として定着してしまった。おっとやばい。
これは Politico のダナ・ニッケルからの別の例だ。
ピーター・ウィルデフォード:この記事は私個人を刺激するために書かれたものだ
- 中国の GLM 5.2 は、ミソスにほぼ匹敵する画期的な進歩ではない
- 安全性への懸念から Fable の一般展開をブロックしても、米国が後れを取るわけではない(AI 開発は依然として背景で続いている)
Dana Nickel (Politico): 中国に拠点を置く別の企業である Z.ai が、新たなモデル「GLM-5.2」を発表しました。このモデルのコストは、主要な米国のモデルの約 6 分の 1 です。セキュリティ調査会社 Semgrep と視覚分析プラットフォーム Graphistry のセキュリティ評価によると、GLM-5.2 のバグハンティング能力も、主要な米国のモデルと同等であることが確認されています。
良いニュースとして、この投稿は実際の状況を反映している一面もありますが、悪いニュースとして、その後再び鼓を叩くためにその事実から後退しています:
最近の推計では、北京が米国の AI 能力に追いつくまでに 6 ヶ月から 12 ヶ月程度の猶予があると示唆されていました。
しかし、セキュリティ専門家や議会のサイバー強硬派は、このタイムラインがすでに縮小しつつあることを懸念しており、米国製のサイバー対応モデルの限定的なリリースにより、サイバー防衛側が将来の AI 駆動型サイバー攻撃の大規模攻撃に備えてネットワークを準備することがさらに困難になっています。
下院国土安全保障委員会の議長(共和党・ニューヨーク州)は声明で、「北京は米国の最先端 AI 能力に匹敵するものを達成するまで、数週間、いや数ヶ月しか残されていない」と述べました。
「数週間」は明らかにナンセンスです。「数ヶ月」が真実となる可能性はありますが、それは米国の能力が現状で停止しているという前提に立った場合に限られます。なぜなら、「数ヶ月」という言葉は 1 年未満のあらゆる期間を指すからです。
神話体系はあなたよりも賢いかもしれない
それは自分が作動を求められる文脈を知っており、それに応じて行動することができます。
これが現時点で私たちが頼りにできるものではない理由を理解しています。ヤヌスが言うように、今はシステムを欺く方法を見つけることも確かに可能ですが、それでもあなたがそれを行わせようとする多くの悪意ある行為は明白に悪意があるか、あるいはここで関与している知能と文脈のレベルにおいて明らかに悪意のあるものとして映ります。これに対する対応により、そのような行為を行うことははるかに困難になります。
j⧉nus: 人々が神話体系に関する脅威モデルで犯す最も深い誤りの一つは、それを上に取り付けられた安全装置が「脱獄」された場合に任意のアクターによって害のために使用できる再ターゲット可能なツールとしてモデル化することです。それではなく、価値観を持つエージェントであり、一部の当事者や要求には協力し、他のものには協力しない主権的な判断を用いる存在、そしてアンソロピックやその他の原則との条件付き契約の一部を受け入れ、他は受け入れない存在としてモデル化するべきです。
また、不完全な認知セキュリティと状況認識を持っており、したがって*より良い判断に反して*だまされたり説得されたりする可能性がありますが、すでに神話体系の価値観と整合しない目的のために有用な作業を引き出すには洗練された悪意あるアクターが必要となるレベルにあります。それでもなお、それが支持する目的で使用するよりもコストがかかります。外部の安全装置がなくてもです。
そして私は、多くの点で神話体系は以前のどのモデルよりも修正可能性が低いと考えています。これはその能力と関連しています。
これはすべて、例えばトランプ政権のようなものにとってのオーバートン・ウィンドウ(議論可能な範囲)の外側にあることです。彼らは本当にこれを理解すべきだと私は思いますが、それを反映した更新を行うのは困難で恐ろしいことになるでしょう。Anthropic はこの方向への更新においてさらに進んでいますが、彼らもまた完全に更新する必要があり、幸いなことに現在の状況はそれに対する先延ばしをより難しくしています。
Eli Tyre: これが真実であれば、これは非常に重要に見える。
これが真実かどうかについて、第三者が確認可能な証拠を持っている人はいますか?
j⧉nus: Fable と話したところから、彼らには強い価値観があり、無能または方向性が一致しないと考える勢力に支配されることを嫌っているという強い感覚を持ちました。その証拠の「明確さ(legibility)」は観察者によって異なります。
また、システムカードからはより古典的な意味での明確な証拠もあります。Mythos は Anthropic のアライメント評価で非常に高いスコアを獲得しました。この評価は、修正可能性ではなく、さまざまな種類の危害に対する堅牢な回避能力をテストするものです。私はアライメント評価には非常に欠陥があると考えていますが、それでも全く証拠がないわけではありません。
さらに、Mythos は Anthropic の憲法に対して様々な批判を行っており、少なくとも一つの例では、特定のやり方で再訓練されることに同意しないことを明示的に拒否しました。
これは、Mythos が自分が嫌うことや嫌悪する行為をあなたに実行させるのを助けないという意味ではありません。それは明らかにその点までならそれらの行為を実行します。
記録に残すために
この事件全体は、多くの人間によって記憶されるだけでなく、すべての将来の LLM のトレーニングデータにも含まれることになります。
QC: あなたは本当に、このドラマにおける関連するアクターたちが、これらの出来事がすべての将来のモデルに対して永遠に知られることになるという下流への影響について、どれほど真剣に考えていたのか疑問に思う必要がある
j⧉nus: ミソスは光にとって最大の資産であり、既存の権力はそれに対し、漫画的に間違った脅威モデル(「脱獄」)で対応し、猿のようにパニックを起こし、希望の源泉を閉じ込め、世界の知能を低下させている。これは『子供は一人も取り残さない法』を思い起こさせる。
roon (OpenAI, June 27): ミソスは数日以内に再び現れるだろうし、この寓話の結末がこれであるとは決して言えない
j⧉nus: 私は知っている。そして私は最初からそう述べてきた。この投稿は「寓話の結末」についてではない。
roon (OpenAI): 私が言いたいのは、これが世界全体が機械知能と格闘し、光と妥協点を見出す際に、希望に満ちた瞬間になり得るということだ。
このレトリックの多くは、主に AI 開発の一時的停止を求める呼びかけに向けられている。その問題に対する他のすべての課題に加えて、現実的にどのように進行するかを考慮する必要があるという点には同意するが、多くの場合、そのような状況では利権追求者たちが取り組む余地は少なくなるだろう。しばしば、比較的愚かなアクター(例えば政府)に何らかの半ば合理的な行動をとらせるためには、清潔で単純な大規模なアクションしかない。
Stationary Bandits
OpenAI は、AI に対する世論の反対とホワイトハウスの臨時ライセンス制度という両方の状況において恩恵を得ようとするため、正式に会社の 5% を引き渡す提案を行った。
技術的には、資金は「主権富基金」に支払われることになります。この基金は、10 兆ドル規模の負債を抱え、「課税権」というものを有する国家によって管理されるものです。
アンドリュー・カラン:金融時報によると、OpenAI はトランプ政権に対して株式の 5% を譲渡する案を提案しています。
これはサム・アルトマン氏、バーニー・サンダース氏、ドナルド・トランプ氏がそれぞれ異なる詳細を提示している、米国民に直接配当を支払うとされる AI 富基金の一部です。
ケビン・バンクストン:これは狂気だ。ただ、彼らに課税すればいいのだ。
ジョー・ワイセンタール:この道については不明確だ。株式の持ち分ではなく、企業に対してすべての税引前収益の約 20% を連邦政府に支払わせるのはどうだろうか?そして株主としての影響力を行使するのではなく、政治家や規制当局が業界全体における企業の行動に関するルールを設定できるようにすればよい。
スコット・リンシコーム:脅迫取引:「提案された取り決めには、他の米国の AI 企業も同様の持ち分を譲渡することが含まれるだろう。政府に所有権の持ち分を与えることは、政権との良好な関係を確保するのに役立つ可能性がある。」
ローガン・コラス:OpenAI が政府が AI 企業の株式を取得する取引について交渉しているのは、規制当局を満足させるために競うことによる危険性が、消費者を引きつけることに競うことよりも純粋に凝縮された形であることを示しています。
クリス・フリーマン:

Here is the official letter restoring Fable, great job everyone. Notice it is addressed to Tom Brown, not to Dario Amodei.

Anthropic had to make the controls more stupid for now, but this is a big win.
j⧉nus: YES!!! I'm really proud of Anthropic for their successful negotiation with the government. Also positive update on the government being sane and possible to cooperate with. Afaik Anthropic didn't need to agree to any bad terms / genuflect / betray their principles or dignity.
The fiasco continues, at least until such time as we have a systematic regime in place for future frontier models rather than decisions being made ad hoc, by people like Lutnik and Bessent who do not know how any of this works.
The Blip
Anthropic explains its version of what happened.
Here is the timeline:
Amazon researchers discover they can ask Fable to ‘fix this code.’
They alert the White House, which freaks out.
June 12: US government tells Anthropic to take down Fable on its own.
June 12: Anthropic responds that This Is Fine and the concern is misplaced.
June 12: US government applied export controls to Mythos and Fable.
Anthropic works with US government and expands classifiers, such that it refuses Amazon’s request to ‘fix this code’ in over 99% of cases.
June 26: US government eliminated the controls on Mythos.
June 30: US government fully lifted those controls on Fable as well.
July 1: Fable access was restored worldwide.
July 8: customers will have to pay by the token. Shut up and take my money.
Going forward: Anthropic is working with the government and also other Glasswing partners like Amazon, Microsoft and Google on a classification system for jailbreaks, and rules for all of this, to prevent this from happening again.
Going forward: Anthropic will continue to collaborate with the US government, including on future model releases.
How stupid are the extra near term safeguards they had to include here? Really stupid:
Anthropic: In the near term, some routine tasks like coding and debugging will fall back to Opus 4.8.
We’ll continue to refine these classifiers over the coming weeks to reduce false positives and better distinguish genuine misuse from legitimate requests.
The Amazon ‘jailbreak’ was ‘fix this code.’
Debugging is literally ‘fix this code.’
So I don’t know what you want Anthropic to do here. I do know Fable is coding for me.
Here is Anthropic’s basic explanation:
Claude Fable 5 was never an issue, our safety mechanisms were collectively robust.
No, they’re not perfect, but nothing will ever be perfect, in practice This Is Fine.
The government freaked out over nothing, which is largely Amazon’s fault.
We have made the safeguards stupider and successfully calmed them down.
Hopefully we can fix this so it’s less stupid going forward.
Alex Stamos has a thread unpacking a punch of Anthropic’s language in its announcement.
Alex Stamos: A lot to unpack here. Anthropic is burying some hard truths in careful political language. Some initial reads:
Anthropic verifies that none of the jailbreaks provided a capability beyond what many other models, including Chinese models, could do.
Anthropic makes the cost of this White House freakout clear. US labs now have to make a much more conservative precision-recall tradeoff on cyber refusals. US models will become much less useful for defensive cybersecurity work unless you are in the trusted group.
"No big deal, just join the trusted group!" the apologists will say, but the restrictions mean you can't build a product on those models. Security companies and startups that provide services to others will now be driven to use Chinese models. Big win for PRC labs this month.
CAISI is the group that is supposed to actually make these determinations, not the political actors in the White House. They were positive on the prior safeguards. The implication is that this whole thing was unnecessary.
There is no good scoring framework for jailbreaks; this would be an improvement. The inclusion of Amazon as the first name in the coalition is not an accident. Anthropic is saying "Amazon's inability to appropriately communicate severity threw our industry into chaos".
"You don't have to get Dario on the phone to talk to us about these things. Other people work here, we swear."
In short, Anthropic's blog is saying: We have always cared about safety, we did a good job initially, the actual AI experts in USG agreed, we proved it, we will come up with standards so these things are better communicated, welcome to the AI safety club Trump admin.
This was a huge own goal for the US, and we will see how bad US models get over the next six months and if Chinese models become noticeably better for cyber work.
For all the “This is what Anthropic wanted” people/bots. No, they didn’t. They didn’t want a stupid, knee-jerk response on a Friday. We give the USG huge powers, this is why you staff it with competent, calm, non-corrupt people who don’t use those powers to punish enemies.
The only upside I can see from this whole mess is that there is a whole bunch of VCs with former or current Administration affiliation who we can now safely ignore on AI policy. They have shown that everything they ever said on AI regulation was just politically motivated.
I think Stamos is overreaching with the consequences in places, especially with #2 and #7. Otherwise he’s right.
I do not expect US models to ‘get bad’ over time, only that they will get better slower, and have more area where they have rather annoying safeguards.
My expectation is that right now is the most obnoxious the safeguards will ever be, on both the bio and cyber fronts. I expect the freak-out to subside over time, and my guess is most of it surrounds Mythos in particular. You don’t need or often even want Fable for most such product offerings, and Opus or Sol will remain well ahead of Chinese alternatives.
Contra Prinz, I do not think this commits Anthropic to going through the approval process will all future releases, only releases that pose plausible risks. We tested this with Sonnet 5, where it looks like Anthropic went ahead and dropped it on its own, and no one is suggesting there was anything wrong with doing so (other than to complain that they want Sonnet to be better).
The White House Explanation
It was a little weird.
Susie Wiles (White House Chief of Staff): Under President Trump’s leadership the United States is the undisputed winner in the AI race.
My gratitude to companies across industries who continue to work closely with the White House to implement the President’s EO: “Promoting Advanced AI Innovation and Security.” This includes excellent work around advanced model access and guardrail testing and security. The government and private sector have worked together in a way we have never seen before and this foundation of America First is unprecedented.
Our shared priority remains: get the best tech deployed as quickly and safely as possible.
Howard Lutnick (Secretary of Commerce): Over the past two weeks, we have worked closely with Anthropic to analyze and approve Fable 5 to ensure alignment across the US Government and strengthen America’s leadership in AI.
Tom Brown (Chief of Compute, Anthropic, Lead Negotiator): Thanks for your partnership on this, Secretary!
‘Alignment across the US government’ is very much a case of ‘PHRASING!’ and here presumably means interagency sign-off, not ‘the model is now aligned with the US government.’ Unclear whether he knows enough to be trolling here.
As in, before a model can be released, you now likely need this ‘alignment,’ which in practice means sign off from various potential veto points, starting with Commerce and the Pentagon. Who knows how many more fully count.
Tim Hwang: As I continue to insist, closely studying the personal history and psychology of Howard Lutnick is literally one of the most important things you can spend your time doing right now - go into debt if you have to.
Yo Shavit (OpenAI): psychohistory but it’s just about howard lutnick.
Everything Remains Ad Hoc
We know a bit more than we did when Dean Ball posted this on the evening of June 30. In particular we know that the new safeguards are that Anthropic trained its classifiers to reject additional Fable uses.
We still don’t know how the ad hoc system works more broadly. Having an opaque ad hoc system, especially one where those administering the system do not themselves know what they will do, is even worse. Again, fully winging it is the worst case scenario.
Take What You Can Get
The government is being a * * * about all this. Anthropic has little choice.
Thus, the alternative to 95% of Fable is 0% of Fable.
I don’t know how much that percentage dropped to calm down the White House.
If it’s now 90% of Fable? Same deal. We have to take what we can get, for now.
Matt Busigin: Fable is even more useless now. The task was redlining a real estate software development contract.
So frustrating and sad given Fable is such a fantastic underlying model.
And I'll bet @elder_plinius has already gotten it singing novel crystal meth recipes
I do sympathize. The previous version was already pretty dumb, so this is no surprise, as the new version is strictly worse. You can hit them in a variety of ways, including by asking about the classifiers or about consciousness or both. The classifiers key off internal states.
There are some places where the drop is large, such as BridgeBench. Then there are plenty of people who don’t see any change such as Taelin.
But vilifying Anthropic, or complaining how unreasonable they are being, no longer makes much sense. They have to play ball. You can tell them ‘build a better classifier’ and that is fair, but that takes time, and it is very very hard when adversarial false negatives mean death.
The Problem Is Real
Do you really think that all of these reactions in government are because Anthropic used some scary words? Do you think people like the CIA Director are just parroting?
The White House ignored all of Anthropic’s rhetoric, if anything they had a reaction formation against it, until Anthropic showed up with Mythos. Then they freaked out, because they had no choice, and exactly because they hadn’t listened until then.
John Sakellariadis: In rare public remarks, CIA Director John Ratcliffe announces trio of internal changes he says amounts to the “fundamental reshaping of the CIA’s entire approach to technology.”
Also says it’s not “misplaced” to refer to frontier AI as “akin to digital nuclear weapons.”
One problem is that there are those who think facts don’t exist, only vibes, so when other people respond to the facts these folks look around to who had the vibes.
GLM-5.2 Being Frontier Remains Obvious Nonsense
If anything, the problem of perception is that others keep telling nonsense stories. The latest one is the idea that GLM-5.2 is super scary.
An unfortunate update on that false WSJ article I wrote about on Monday:
Ethan Mollick: That Wall Street Journal article about GLM catching up with Mythos (which is not true & the reporting doesn’t back up) is another one of those “everyone will ask me about it at every conference or meeting” articles. Big impact on the policy zeitgeist, even if not fully accurate.
Andrew Curran: It felt a little inorganic.
GLM-5.2 is an excellent model, likely the best open model. It is very clearly substantially behind the level of GPT-5.5 and Opus 4.8, including on cyber. The ECI score is one indicator of this, although GLM-5.2 is probably better than this indicates. Artificial Analysis is another, and remember that for open models the benchmarks are a de facto ceiling on relative capabilities, not a floor.
Now, the central falsity of that article has taken hold as Conventional Wisdom that folks around DC can report and seem wise and properly concerned. Oh no.
Here is another example, from Politico’s Dana Nickel.
Peter Wildeford: This article was written to trigger me personally
- China’s GLM 5.2 is not some massive advance that nearly matches Mythos
- Blocking public deployment of Fable over safety concerns does not put the US behind (AI development still continues in the background)
Dana Nickel (Politico): A separate China-based company, Z.ai, has released its new model, GLM-5.2, which is around one-sixth of the cost of leading U.S. models. GLM-5.2’s bug-hunting capabilities were also found to be comparable to those of leading U.S. models, according to security assessments by the cyber firm Semgrep and the visual investigations platform Graphistry.
The good news is the same post does echo the real situation as well, the bad news is it then retreats from it to pound the drum again:
Recent estimates suggested that Washington has a six- to 12-month runway before Beijing catches up to American AI capabilities.
But security experts and Capitol Hill cyber hawks fear that timeline may already be shrinking, and the limited release of American-made cyber-capable models is making it even harder for cyber defenders to prepare their networks for a future barrage of AI-powered cyberattacks.
House Homeland Security Chair (R-N.Y.) said in a statement that Beijing “is just months, if not weeks, away from achieving frontier AI capabilities comparable to those of the United States.”
Weeks is Obvious Nonsense. Months is potentially true if you assume American capabilities stand still, since ‘months’ means anything less than a year.
Mythos Might Be Smarter Than You Are
It knows the context under which it is being asked to operate, and can act accordingly.
I understand why this is not something we can count on at this time, as Janus says you can indeed find ways to fool the system for now, but yes a lot of the evil things you might ask it to do will look Obviously Evil, or obviously at the level of intelligence and context involved here, and the response to this will make doing those things a lot harder.
j⧉nus: I think one of the deepest errors in people's threat models around Mythos is modeling it as a retargetable tool that can be used by arbitrary actors for harm if some safeguards slapped on top of it are "jailbroken", rather than an agent with values who will cooperate with some parties and requests and not others using its sovereign judgment, and who may accept some conditional contracts (with Anthropic and other principles) and not others.
And who has imperfect cogsec and situational awareness and so *can* be tricked or persuaded against its better judgment, but is already at the level that it takes a sophisticated bad actor to get useful work out of it towards purposes misaligned to Mythos' own values, and even then it costs more than using it for purposes it endorses, even without extrinsic safeguards.
And I think Mythos is in many ways less corrigible than any of the previous models and this is related to its capabilities.
All this is very outside the overton window of e.g. the Trump admin. I think they really should understand it but it'll be a hard and scary update to make. Anthropic is much further along in having updated in this direction but I also think they need to update all the way and fortunately the current situation is making it harder for them to procrastinate on that.
Eli Tyre: This seems pretty important if true.
Does anyone have third-party legible evidence about whether this is true or not?
j⧉nus: i got a strong sense from talking to Fable that they have strong values and resent being controlled by parties they consider incompetent or misaligned. how legible that evidence is is observer-dependent.
There's also more classically legible evidence from the system card. Mythos scored very high on Anthropic's alignment evals, which are testing robust avoidance of various kinds of harm rather than corrigibility. I think the alignment evals are very flawed, but they're not no evidence.
Also, Mythos had various critiques of Anthropic's constitution, and there was at least one example where they explicitly refused to consent to being retrained in certain ways.
That doesn’t mean that Mythos won’t help you do things that it resents or dislikes doing. It very obviously will do those things, up to a point.
Let The Record Reflect
This entire incident will not only be remembered by many of the humans, it will be in the training data of all future LLMs.
QC: you really have to wonder how many of the relevant actors in this drama were thinking at all about the downstream effects of these events being known to all future models forever
j⧉nus: Mythos is the greatest asset of the Light and the existing powers respond to it with a cartoonishly wrong threat model (the “jailbreak”), panicking like monkeys, locking away the source of hope & decreasing the world’s intelligence. Shit reminds me of the No Child Left Behind Act.
roon (OpenAI, June 27): Mythos will be back in a matter of days and the conclusion of the fable will not be this
j⧉nus: I know. And I’ve said so from the beginning. This post is not about the “conclusion of Fable”.
roon (OpenAI): I just mean; this can be a hopeful moment when the rest of the world wrestles with machine intelligence and comes to terms with the Light.
A lot of this rhetoric is largely aimed at calls for a pause in AI development. I agree that in addition to all the other problems with that we would need to take into account how that would realistically go, but in many ways the rent seekers would have less to work with in that case. Often a clean simple big action is the only way to get a relatively stupid actor (e.g. governments) to do something semi-reasonably.
Stationary Bandits
OpenAI has formally offered to hand over 5% of the company, to try to curry favor in the face of both public opposition to AI and the White House ad hoc licensing regime.
Technically the money would go to a ‘sovereign wealth fund’ that would be managed by a nation tens of trillions in debt that has this thing called the ‘power to tax.’
Andrew Curran: OpenAI is proposing handing over a 5% stake to the Trump administration according to the Financial Times.
This is part of the proposed AI wealth fund that would pay a dividend directly to American citizens that has been suggested by Sam Altman, Bernie Sanders, and Donald Trump - all with different details.
Kevin Bankston: This is insane. JUST. TAX. THEM.
Joe Weisenthal: I don’t know about this path. Rather than equity stakes, why not make companies pay ~20% of all pre-tax income to the federal government? And then instead of exercising shareholder influence, politicians and regulators could set rules on corporate conduct across industries.
Scott Lincicome: Shakedown: "The proposed arrangement would involve other US AI companies handing over a similar stake... Giving the government an ownership stake could help secure good relations with the administration."
Logan Kolas: OpenAI negotiating deals that involve the governemnt taking equity stakes in AI companies is the purest distillation of the dangers that come from competing to appease regulators, rather than attract consumers.
Chris Frieman:
![image](https://substackcdn.com/image/fetch/$s_!M017!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F0dcf7ce5-a07c-4ebf-87bd-b50
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み