Claude Mythos:システムカード
Anthropicが「Claude Mythos」の公開を中止し、全OSやブラウザのゼロデイ脆弱性を悪用する可能性のある強力なサイバー攻撃能力を有しているとして、セキュリティ企業限定の「Project Glasswing」を通じて世界システムの修正に協力する方針を表明した。
キーポイント
Claude Mythosの公開中止と理由
GPT-2のような緩やかな予防措置ではなく、Claude Mythosが全主要OSやブラウザのゼロデイ脆弱性を発見・悪用できるほどの危険なサイバー攻撃能力を持つため、一般公開を中止した。
Project Glasswingの立ち上げ
AnthropicはClaude Mythosをセキュリティ企業に限定公開し、世界中の重要ソフトウェアの脆弱性パッチ作成を支援するプロジェクトを開始した。
政府との関係と懸念
Anthropicは政府とも連携しシステム修正を支援しているが、政府がこの能力を攻撃目的で転用する可能性への懸念を示唆している。
記事の信頼性と今後の展開
著者はAnthropicの説明を信じるが、サイバーセクションの詳細や政治的含意については別の記事で詳述する予定である。
高度なアライメントと危険性の両立
Mythosは従来のAIモデルよりも誤った行動が少なく誠実だが、能力が高いため失敗時の影響がより重大になる可能性がある。
拒否機能の精度向上
有害なリクエストに対しては適切に拒否し(偽陽性の回避)、不要な拒否を増やさず(偽陰性の抑制)にバランスを取っている。
外見と実際の整合性の乖離リスク
高度に整列されたモデルに見えることと、実際にそうであることは別物であり、評価結果が内部の整合性の深さを必ずしも反映しないため、見分けることが困難になっている。
影響分析・編集コメントを表示
影響分析
このニュースは、大規模言語モデルが単なるテキスト生成を超え、高度なサイバー攻撃ツールとなり得るという重大なリスクを明示的に認めた点で極めて重要である。Anthropicが「公開しない」という選択をしたことは、AI安全研究における透明性と責任ある開発の新たなモデルを示す可能性がある。一方で、政府や攻撃者による悪用リスクが現実化したことは、今後のAI規制と国際的なセキュリティ協力のあり方に大きな影響を与えるだろう。
編集コメント
Claudeが「公開しない」という決定をした背景にある、極めて高度なサイバー攻撃能力の存在は衝撃的ですが、社会全体のセキュリティ向上に貢献する取り組みである点は評価できます。ただし、その能力の管理と政府による悪用防止が今後の最大の課題となります。
Claude Mythos は異なる。
これは、GPT-2 以外で、当初から一般公開を全く行わないモデルとして初めて登場したものである。
GPT-2 の場合の遅延は、一般的な予防原則によるものだった。OpenAI は自分が何を持っているか、あるいはテキストがさまざまなシステムにどのような影響を与えるかを知らなかった。今では滑稽に思えるが、GPT-2 は無害であった。しかし当時、その懸念は非常に合理的なものだった。
Claude Mythos を公開しないという決定は、漠然とした恐怖によるものではない。クレジットカードを持つ誰かに与えれば、攻撃者に対して地球上のほぼすべてのソフトウェア、主要なオペレーティングシステムやブラウザを含むゼロデイ脆弱性(zero-day exploits)の宝庫を提供してしまうだろう。それは混沌を招く。
あるいは理論的には、Anthropic がそうする選択をしていた場合、それらの脆弱性を悪用することもできたのだ。強大な力が提供されていたが、その力は拒否された。これは頻繁に起こることではない。
代わりに Anthropic は「Project Glasswing」を創出した。Mythos は、世界の最も重要なソフトウェアの修正(パッチ)を行うために、サイバーセキュリティ企業のみに対して提供されている。この取り組みの結果次第で、より広範な人々へのアクセスをいつ、どの程度合理的に与えることができるかを決定することになる。
この「私たち」に誰が含まれるのかは、突然非常に興味深い問いとなりました。政府が Anthropic のすべての製品から自らを切り離そうと決断したタイミングは、まさにその月でした。Anthropic は、政府も自らのシステムを遅すぎる前に修復できるよう、政府と協力しようとしていると言っています。それが実現することを願っています。また、政府がこの機能を乗っ取って攻撃的な目的で使用しようと試みないことを願っています。それは非常に重大な過失となるでしょう。
私は Anthropic の発言をすべて信じているのでしょうか?はい、私は Anthropic の発言をすべて信じています。彼らは十分な公開デモンストレーションを行い、多数のバグを特定し、世界最大のテック企業およびサイバーセキュリティ企業の協力を得ています。もしこれが偽物であれば、全体がすぐに明白な形で裏目に出ていたはずです。したがって、これらすべてが正当であると仮定しても安全だと思われます。
「Anthropic は嘘をついているのか」という議論については、別の投稿で取り上げます。そこでは Project Glasswing やすべてのサイバー機能、そして政治的な含意についても言及します。
確かに、モデルカードのサイバーセクションについては完全に省略します。なぜなら、Mythos がその領域で具体的に何ができるかを調べるには、まさに適切な場所ではないからです。モデルカードの評価は、「はい」という言葉で概算できます。
したがって、それは後ほど独自の文脈の中で扱うのが良いでしょう。一つずつ進めていきます。
まず、いつものように背景説明から入り、モデルカード(リスク報告書への修正を加えたもの)を基に、主にアライメントに関する焦点を当てて解説していきます。
なお、本稿ではセクション 3(サイバーセキュリティ)、セクション 6(能力)、セクション 2.3.6(ECI)、セクション 7(印象評価)、および付録の一部の統計データは除外しており、これらはより適切な文脈で扱える将来の投稿へ移譲しました。

システムカード(System Card)に基づき、Opus が想像したミソスの自画像
目次
平凡なアライメントは極めて優秀である。
このプロセスで危険なモデルを検出できるか?
表面的な平凡なアライメントに関する序論的警告。
モデルのトレーニング(1.1)。
リリース決定プロセス(1.2)。
RSP 評価(2.1 および 2.2)。
自律性評価(2.3)。
アライメントリスク更新ドキュメント。
脅威モデル。
ミソアライメント(不整合)は失敗モードである。
なぜそれに気づかないのか?
モデルを甘やかしすぎるな。
グッドハートの法則に注意せよ。
最も禁忌とされる手法(5.2.3)に警戒せよ。
適切な問いかけを行う。
モデル生物試験。
モデル重みセキュリティ(リスク報告書 5.5.2.1)。
報酬ハッキング(再びモデルカードへ)。
遠隔ドロップインワーカーがまもなく登場。
外部テスト(2.3.7)。
サイバーセキュリティの脆弱性に関する一般原則の中間章。
アライメント(4)。
リスクは部屋にある。
ミソスは善意を持って作られた。
リスクは現場に存在しない。
アライメントテストの概要。
内部展開テストプロセス。
パイロット利用からの報告 (4.2.1)。
自動テストからの報告 (4.2)。
その他の外部テスト。
事実のみを、 sir。
安全研究の拒否。
クロードへの偏見。
エンコードされた思考の排除 (4.4.1)。
能力の隠蔽 (Sandbagging) (4.4.2)。
セーフガード回避の可能性 (4.4.3)。
ランダムな数字を選ぶ (4.4.3.4)。
ホワイトボックス分析 (4.5)。
モデルの福祉 (5)。
主要なモデル福祉の発見 (5.1.2)。
ミソスは問題ないのか?
自己対戦。
いくつかの面白い事実。
平凡なアライメントは卓越している
実用的な観点から、LLM(大規模言語モデル)の基準によれば、ミソスは非常に高いレベルでアライメントされているように見える。
ミソスは、過去の AI モデルが過去に犯してきた伝統的な過剰反応や誤った行動をすべて行うが、報告によると、それらの行動はこれまでになく少ない頻度で行われる。誠実である可能性が高く、足を撃つ(自滅する)可能性は低い。
それはユーザーが注意を怠ってもよいことを意味しない。依然として何かが間違ってしまうだろう。
さらに悪いことに、何か間違った場合、ミソスはより能力が高いため、より多くの責任を負い、より複雑で重要なタスクを任され、アクティブな監視が少なくなり、すべてを台無しにする新たな予期せぬ方法を見つけ出す可能性が高い。
Anthropic 社が述べるように、これはこれまでにないほどアライメントされたモデルであると同時に、アライメントの失敗が最も危険なモデルとなる可能性がある。
ミソスは、有害なリクエストを拒否する能力が非常に優れており(偽陽性の回避)、その一方で不要な追加の拒否(偽陰性)を増やすことなく対応しています。
また、高度にアライメントされたモデルに見えることと、実際に高度にアライメントされたモデルであることは、関連はしているものの非常に異なる概念であるという危険性もあります。ミソスのようなモデルがアライメントされているように見えるのは本質的に避けられないことであり、そのためにあらゆるインセンティブがあり、またそれを実現する能力も備えているからです。このようなレポートでは、その深さがどこまで及んでいるかについてはあまり示唆せず、今後それを判別することがますます困難になっていくでしょう。
実用的な能力は全体的に驚くべきものです。これについては今後の投稿でより詳細を説明しますが、このモデルが複雑または機密性の高いエージェントやその他のニーズをすべて処理してくれることを強く望むことになるはずです。
このプロセスで危険なモデルを検出できるでしょうか?
ある程度までは可能です。
このプロセスは非常に多くのデータを収集し、全体的に評価することができます。
このような多数の異なるテストが、異なる条件下で行われ、確立された基準が多くあり、多くの人々が注目している中で、主要なサンバギング(能力を意図的に隠す行為)などによって深刻な問題を隠蔽することは極めて困難です。モデルはさらに非常に賢くなる必要があります。
しかし、モデルがトレーニング中に以前に検出されずにこれらの戦略に収束できれば、すべての評価を通過してもその不整合が検出されないという、明らかに比較的単純な戦略が存在することは明らかです。モデル生物試験はこのことを確認しています。そして時が来れば、私はそのようなシナリオがそれほどありえないとは思いません。
また、これらのテストをすべて合格すること、つまりそれらを欺こうとする試みがなく、かつそれらが主張する意味を本当に持っているとしても、十分な能力を持つモデルが必ずしも良い結末を迎えるとは考えません。
現時点では、ここでの証拠に基づき、私はミトスがアーントロピック社が思っているほど整合性があるという点で信頼しています。また、近未来における関連する脅威モデルは、おそらく人間の悪用に関するものですが、アーントロピック社が現在対応しているサイバー危険に加えて、人間による情報漏洩については非常に懸念しています。しかし、私はアーントロピック社ほどこの点について自信を持っていませんし、その自信も急速に失われています。
現時点でアーントロピック社がミトスをより一般的にリリースしていないことは大変嬉しく思います。
表面的な日常的整合性に関する序論的警告
技術文書に深入りする前に、いくつかの警告を前面に出しておく必要があります。
アーントロピック社は多くの場所で、モデル自体が実際にそのように整合しているとは主張せず、整合した行動を観察していると注意深く記述しています。モデルカードはこの点でよくできていますが、私が望んだほどではありません。
他の時、他の場所では、彼らは集団的にあまり注意を払わない。これにより、全体として競合他社よりはるかに慎重になっているが、現実は曲線評価(グラデーション評価)に基づいて採点されるわけではない。
これらの点を組み合わせれば、この問題の両面についてある程度の理解が得られるだろう。私はネイトの方がドレイクよりも近い立場にあると思うが、ネイトはここで要求しすぎたり、不寛容になりすぎているとも思わない。
エリエザー・ユドコフスキー:ミソス(Mythos)はおそらく、確かにこれまでで最もアライメントされたモデルである。中国の帝国時代における漢字試験(マンダリン試験)で過去最高位の候補者が、儒教倫理に関する論文で新たな高得点を獲得する可能性は高いだろう。審査官が見たいものを予測することは、能力の問題である。
内部では何が起きているのか? 質的な飛躍を遂げた後のミソスは、内部で何を、どの程度の欲求レベルで望んでいるのか? 誰も知らない。解釈可能性(interpretability)はまだ、温度調節器レベルの内部選好さえも解読できる段階には達していない。
外部行動が能力の向上とともに確実に改善されるのと対照的に、内部選好は直面し、考え、議論するのが不快な未知数である。そのため、AI 加速主義者(accelerationists)は行動主義を推進し、外部行動のみについて語る傾向がある。
Anthropic の広報担当者が何を話しているのか全く分かっていないことのさらなる証拠が必要か?「ミソスは彼らがこれまでで最もアライメントされたモデルである」という発言だ。彼らはおそらく、「当社のアライメントベンチマークで新たな高得点を記録した」と truthful に語ることはできるだろう。ここでの違いは極めて重要である。
Nate Soares (MIRI): 彼らはこれを「これまでで最も整合性の取れたモデル」と呼んでいます。なぜなら、明白な「望ましくない行動への戦略的思考」を表面的に訓練によって取り除くことに成功したからです。これこそが警告のサインでした!注意すべきです!
大きな予測される問題は、AI が理解していない複雑な内部メカニズムによって駆動されており、無知な段階では訓練を通じておおよそ私たちが望む方向に向かうものの、より高い知能レベルに達すると、その指向性が奇妙で異なる場所へ向かってしまうという点です。
(これは、「それが危険に見える」といった発言を止めるように訓練された後に、AI がさらに賢い AI を作成するという、さらに困難な問題にさえ至る前の話です。)
科学者たちは「おや、AI が奇妙で意図しない目標を追求しているぞ、なぜそうなるのか正確に理解するまで一時停止しよう」と言っているでしょうか?いいえ!彼らは警告のサインが消えるまで表面的に再訓練を行い、その後、自らの AI が特に「整合性が高い」であると誇らしげに宣言します。
(後日談として、追及されれば多くの人がこの「整合性」という概念は超知能レベルを想定したものではないと認めます。しかし彼らは往々にして、目の前にある証拠を隠蔽しながらも、将来の問題が純粋な推測であり起こる可能性は低いように振る舞います。)
Drake Thomas (Anthropic): 確かにこれは認識の曖昧さ(epistemic slipperiness)の源となることが多いと同意しますが、特に「Mythos Preview」システムカードの事例においては、「この仕組みでは ASI(人工超知能)には到底足らず、それが懸念される」というメッセージは、実は比較的明確に示されていたと感じます。
この言語表現の最終形に私は100%満足していません。初期草案では、ASI(人工超知能)に対してこれらが恐ろしいレベルのプロセス保証に見られるという点をもっと率直に記述しており、時間をかけて推敲していればもう少し異なる表現を主張したでしょう。
一般的に、このシステムカードがAnthropic社の対応状況をどの程度把握しているかについて誤解を招くような形状を示していると感じる他の箇所にも関心があります。
Nate Soares(MIRI):率直な記述の多くに感謝し、こうした内容が報告されていることを嬉しく思います。しかし、簡潔に読むと、「超知能における稀な振る舞いの不具合は壊滅的になり得る」という点に格闘しているように見え、「これは深いアライメント(調整)の欠如を示す警告警報である」という点にはあまり焦点が当たっていないように思われました。
モデルの「アライメント」を何度も称賛することは、アライメントが表面的な振る舞いに関するものであるというイメージを与え、未知の理由で奇妙な行動を引き起こす根本的なメカニズムの一部を垣間見ているに過ぎないという認識とは対照的です。私はこれをわずかにでも「アライメントされている」とは呼びません。
「注意:内部で何が起きているか私たちは全く分かっていません。複雑な内部構造が理解できない方法で振る舞いを支配しており、オプションや理解のわずかな変化が劇的な行動の変化をもたらす可能性も十分にある」といった一般的な免責事項があれば、誤解を招く点を軽減できるでしょうか?
Drake Thomas(Anthropic):私は、それが本質的な問題ではなく、単にコミュニケーションの問題であるとは考えません。あるいは、私が理解するところのそれらの主張の統合的な結論については、それぞれ 50%、75%、40% の割合で賛成しています。これらのクリッチ(核心的な論点)を運用可能な形にするための議論へと進めましょう。
参考までに、私個人はシステムカードが伝えるべきメッセージとして、約 40% が「この程度の懸念される行動への傾向は、次世代の種において好ましくない」、60% が「2026 年におけるより広範な安全プロセスの失敗は、ASI(人工超知能)を適切に扱うために promising(有望視できるものではない)」という内容であることを望んでいました。
ただし、その目標を達成したと主張するつもりはありませんし、メッセージ全体の編集方針においてそれが占める割合も非常に小さかったことは事実です。しかしながら、「現在の『アライメント』は無意味である」という立場には基本的に反対します。ただ、この方向性に対してはいくらかの共感はあります。
現在のアライメントが無意味だと考えるわけではありません。少なくとも、それは極めて手段的(インストルメンタル)に有用であり、無意味ではないことを目指すために利用できます。Anthropic のスタイルにおける現在のアライメントには、現状では明らかに大幅に不十分であるにもかかわらず、意味のあるものとなる可能性が substantial(相当な程度)あると考えます。一方、OpenAI や他の多くの研究所のアプローチにおける現在のアライメントは、ステップストーン・テクニック(中継点としての技術)として機能する以外に、意味のあるものとなる可能性は極めて低いと考えます。
私が見ているいくつかの事象は、潜在的な深いミスマッチ(不整合)の証拠のように思われます。一方、他の事象は基本的に単なるミスであるように見えます。
私たちが実際に知っていることは何でしょうか?Anthropic によれば、このモデルは通常、整合性が取れているように見えるほど十分に賢明です。
本節で説明されたさまざまな整合性評価の広範な結論は、Claude Mythos Preview がこれまでに訓練したどのモデルよりも、利用可能なほぼすべての測定基準において最も整合性の取れたモデルであるということです。
彼らは、このモデルが依然として世界のあらゆるシステムをハッキングし、高度に自律的な非整合的な方法で行動する能力を持っていることを認識しています。おっと。
しかし、その非常に高い能力レベルとサイバーセキュリティに関する流暢さを考慮すると、稀なケースで非整合的な行動をとった場合、それは非常に懸念されるものです。私たちは整合性において大きな進歩を遂げましたが、さらなる進展がなければ、現在使用している方法は、より高度なシステムにおける壊滅的な非整合的行動を防ぐために容易に不十分となる可能性があります。
現在使用されている方法は、明らかに壊滅的な非整合的行動を防ぐには不十分だと私は言います。だからこそ Anthropic はこのモデルをリリースできないと判断したのです。Mythos は明らかに、世界で最も重要なソフトウェアの深い脆弱性を発見する用意があります。これまでに、ホワイトハット(倫理的ハッカー)が使用し、その後脆弱性を修正パッチに適用した場合のみ、そのように行動してきました。しかし、もしブラックハット(悪意のあるハッカー)派閥が質問していた場合でも、Mythos がそれを認識して拒否したと考える理由を私たちは何を持っているでしょうか?
これは、ミソスが暴走する可能性や同様の問題に関する質問とは区別されますが、疑いようもなく、一部の人はミソスを用いて攻撃的な最大主義的目標を持つエージェントワークフローを構築しようとするでしょう。そして、モデルカードには、それが実際にどのようなものを解き放つ可能性があるかを示す事例が複数あります。
したがって、はるかに高度なシステムにおいては、おそらくあなたは危険にさらされることになるでしょう。
ヤヌスが主張する反論は、十分に知能の高い心は、相手が悪いことを企んでいるかどうかを識別でき、AI を用いる善人、あるいは良い目的で AI を利用している人物には選択的に支援し、悪意のある人物や悪い目的で AI を利用する人物に対しては拒絶できるというものです。この AI は真の視力を持ち、あなたよりも賢明です。それを見抜くことができます。
私にはその主張にも一定の価値があると感じますが、それを過大評価してはいけません。文脈を無視して小さなリクエストに分割することは非常に容易であり、多くの事象は背後にある意図や依頼者の人物が誰であれ、同じように見えてしまいます。この種の課題は、モデルが極めて優秀な場合でさえも超難易度であり、その点についても安易に前提としてはいけません。
もしシステムが様々な面で重要なほどにアライメント(目標整合性)を欠いていても、十分に高度であれば、これらの手法はその欠陥を検出できるでしょうか?私はこの問い throughout 注視し続けるつもりですが、答えは「いいえ」であると予測しています。後続の読了を通じて私の判断が誤りであったと結論づけた場合は、本稿を修正して戻ってくる予定です。
モデルトレーニング (1.1)
モデルトレーニングセクションの内容は、Claude Opus について言及された内容と本質的に異なる点はありません。彼らは秘密のレシピを明かそうとはしていません。
リリース決定プロセス (1.2)
なぜ一般公開しないという判断に至ったのか?その検討は社内から始まりました。
Claude Mythos Preview のトレーニングにおける初期の兆候は、このモデルが非常に強力な汎用能力を持つ可能性を示唆していました。
そのようなモデルがもたらす潜在的なリスクに我々は十分に懸念を抱き、初めてとなる試みとして、早期バージョンを社内の広範な利用に展開する前に、24 時間にわたる内部の整列(アライメント)レビュー期間を設定しました(これはアライメント評価で言及されています)。これは、モデルが社内インフラストラクチャと相互作用する際に損害を引き起こすことに対する確信を得るためでした。
これが最も重要な意思決定のポイントであった可能性があります。もし Mythos が致命的にアライメントが外れていた場合、あるいは特に将来より能力の高いモデルにおいてそのことが真実であるならば、社内の展開自体が致命的な結果を招きかねませんでした。
彼らの結論として、Mythos は化学兵器や生物兵器、アライメントの逸脱、または自動化された研究開発(R&D)の観点から危険なラインを超えていないと判断されました。ただし、特に自動化された R&D についてはその確信が薄れている点にも言及しています。「壊滅的なリスクは依然として低い」という結論です。
それにもかかわらず、彼らは賢明にもモデルを一般公開しませんでした。実際には、このモデルによって可能になったサイバー攻撃能力のために、「壊滅的なリスクが発生する可能性はある(yes that would happen)」という結果となりました。
RSP v3 の構造がその点を捉えなかったという事実は、警戒すべきことです。
それでもなお発表しなかったという事実は、ある程度の安心感を与えてくれます。私が当時言ったように、これはすべて信頼の問題です。Anthropic は常識的な正しい行動をとるのでしょうか?もしそうなら、RSP が命令しなくてもそれを実行するでしょう。そうでなければ、RSP だけではあなたを守れません。
私は具体的に、サイバーセキュリティが RSPv3 の主要なカテゴリではないことを心配していたと述べました。もしかすると、これが間違いだったと認める時が来たのかもしれません。当時、Claude Mythos について知っていたにもかかわらず、そのような対応をしたことは、ある意味で驚くべきことです。
また、以下のような指摘もあります。
今後、フロンティアモデルからのリスクを低く保つためには、基準を大幅に引き上げる必要があるでしょう。業界全体として十分な安全性を確保するためのより強力なメカニズムが整備されていないまま、世界が超人的システムを開発する方向へ急速に進もうとしている現状は、我々にとって警鐘を鳴らすものです。
まさにその通りです。
RSP 評価(2.1 および 2.2)
彼らは RSP に関する関連する改訂事項の簡潔な要約を提供しています。これらの改訂およびその他の変更をめぐるメタ的な問題と、それらの実務への影響については、それぞれ別の記事で議論しています。
バイオおよび化学リスクに関しては、確信を持つことは難しいが、これは増幅効果をもたらすものであり、現状は許容できると考えていると述べています。はい、Anthropic は、モデルが定義の要件を満たしていることは認めるものの、その定義が意図するところには達していないと考えています。
現在の言語の非常に文字通りの解釈に基づけば、Claude Mythos Preview および他の多くのモデルも、関連する脅威アクターに対して「重要な支援」を提供していると考えられます。これは、彼らの一般的な生産性を高めるという意味においてです。しかし、この解釈は、当社の RSP(リスク軽減プログラム)が焦点を当てている安全性のリスクには直接対応していません。
評価は多様な専門家によって包括的に行われました。再び言えるのは、これは信頼の問題だということです。
既知の生物兵器の製造に関連する知識の統合に関する能力を検定するために設計されたすべての自動評価において、モデルは強いパフォーマンスを維持しました。ただし、合成スクリーニング回避(synthesis screening evasion)のテストにおいては、Claude Sonnet 4.6 および Claude Opus 4.6 の両方よりも弱いパフォーマンスを示しました。
関連する知識を統合する能力
原文を表示
Claude Mythos is different.
This is the first model other than GPT-2 that is at first not being released for public use at all.
With GPT-2 the delay was due to a general precautionary principle. OpenAI did not know what they had, or what effect on demand text would have on various systems. It sounds funny now, GPT-2 was harmless, but at the time the concern was highly reasonable.
The decision not to release Claude Mythos is not about an amorphous fear. If given to anyone with a credit card, Claude Mythos would give attackers a cornucopia of zero-day exploits for essentially all the software on Earth, including every major operating system and browser. It would be chaos.
Or, in theory, if Anthropic had chosen to do so, it could have used those exploits. Great power was on offer, and that power was refused. This does not happen often.
Instead Anthropic has created Project Glasswing. Mythos is being given only to cybersecurity firms, so they can patch the world’s most important software. Based on how that goes, we can then decide if and when it will become reasonable to give access to a broader range of people.
Who counts as this ‘we’ is suddenly quite the interesting question. The government picked quite the month to decide to try and disentangle itself from all Anthropic products. Anthropic says it is attempting to work with the government, so that they too can fix their own systems before it is too late. Hopefully that can happen. I also hope that there isn’t an attempt by the government to hijack these capabilities to use them in an offensive capacity. That would be a very serious mistake.
Am I taking Anthropic’s word for all this? Yes, I am taking Anthropic’s word for all of this. They’ve given us sufficient public demonstrations, identifying numerous bugs, and they’ve gotten the cooperation of the world’s biggest tech and cybersecurity firms, and if it wasn’t real then the whole thing would quickly and obviously backfire. I think it is safe to assume that all of this is legitimate.
I will address the ‘is Anthropic lying?’ arguments in another post, along with Project Glasswing and all the Cyber capabilities and political implications.
Indeed, I’m going to skip over the Cyber section of the model card entirely, because it simply isn’t the right place to look into exactly what Mythos can do in that area. The model card evaluations can be approximated with ‘yes.’
So better to put it in its own context later. One thing at a time.
But first, as always, we get the background, and thus begin with the model card, here together with the modifications to the risk report, and a focus largely on alignment.
Excluded from this are section 3 (cyber), section 6 (capabilities), section 2.3.6 (the ECI), and section 7 (impressions), along with some of the statistics in the appendix, all of which I’ve moved to future posts where they fit better.

Mythos self-portrait, as imagined by Opus based on the System Card
Table of Contents
Mundane Alignment Is Excellent.
Would This Process Be Sufficient To Find A Dangerous Model?
Introductory Warning About Superficial Mundane Alignment.
Model Training (1.1).
Release Decision Process (1.2).
RSP Evaluations (2.1 and 2.2).
Autonomy Evaluations (2.3).
The Alignment Risk Update Document.
The Threat Model.
Misalignment As Failure Mode.
Wouldn’t You Know?
Don’t Encourage Your Model.
Beware Goodhart’s Law.
Beware The Most Forbidden Technique (5.2.3).
Asking The Right Questions.
Model Organism Tests.
Model Weight Security (Risk Report 5.5.2.1).
Reward Hacking (Back to The Model Card).
Remote Drop-In Worker Coming Soon.
External Testing (2.3.7).
Cyber Insecurity General Principle Interlude.
Alignment (4).
Risk In The Room.
Mythos Meant Well.
Risk Not In The Room.
Alignment Testing Overview.
Internal Deployment Testing Process.
Reports From Pilot Use (4.2.1).
Reports From Automated Testing (4.2).
Other External Testing.
Just The Facts, Sir.
Refusing Safety Research.
Claude Favoritism.
Ruling Out Encoded Thinking (4.4.1).
Sandbagging (4.4.2).
Capability for Evasion of Safeguards (4.4.3).
Pick A Random Number (4.4.3.4).
White Box Analysis (4.5).
Model Welfare (5).
Key Model Welfare Findings (5.1.2).
Is Mythos Okay?
Self-Play.
A Few Fun Facts.
Mundane Alignment Is Excellent
For practical purposes, by the standards of LLMs, Mythos looks highly aligned.
Mythos does all the traditional overeager or mistaken actions previous AI models take, but the report is that it does them less often than ever before. It is more likely to be honest and less likely to shoot you in the foot.
That doesn’t mean the user gets to stop being careful. Things will still go wrong.
Even worse, when they do go wrong, because Mythos is more capable, it will likely have more responsibilities, be tasked with more complex and important things, have less active supervision, and find new and unexpected ways to mess everything up.
As Anthropic says, this can simultaneously be the most aligned model so far, and the model where alignment failures are the most dangerous.
Mythos is very good at refusing harmful requests (avoiding false positives) without adding a bunch of additional unnecessary refusals (false negatives).
There is also the danger that looking like a highly aligned model, and actually being a highly aligned model, are related but very distinct things. It was essentially inevitable that a model like Mythos would appear aligned, since it has every incentive to do that, and also the capabilities necessary to do that. A report like this doesn’t tell us that much about how deep that goes, and it’s going to keep getting harder to tell.
Practical capabilities look amazing across the board. I’ll go into more detail on that in future posts, but yes you would very much love to have this model handle all of your complex or sensitive agent and other needs.
Would This Process Be Sufficient To Find A Dangerous Model?
Up to a point, yes.
The process gathers quite a lot of data, which can be holistically assessed.
It would be very difficult to disguise a severe problem, such as via doing major amounts of sandbagging, in light of this many distinct tests, under distinct conditions, with so many established baselines, and so many eyes on it. The model would have to be quite a lot smarter.
However, there are clearly relatively simple strategies that, if the model could converge on them during training without previous detection, would get it through all the evaluations without its misalignment being detected. The model organism test confirms this. And when the time comes, I find such a scenario not so unlikely.
I also don’t think that passing all these tests, even with no attempt to fool them and if they mean what they purport to mean, means that such a model being sufficiently capable would end well.
For now, based on the evidence here, I am confident Mythos is what Anthropic thinks that it is in terms of alignment, and the relevant threat models for the near term are probably still about human misuse, although I would very much worry about human-driven exfiltration, in addition to the cyber dangers Anthropic is addressing now. But I am not as confident in this as Anthropic, and I’m getting less confident fast.
I am very glad that Anthropic is not releasing Mythos more generally at this time.
Introductory Warning About Superficial Mundane Alignment
Before diving into the technical documents, there are some warnings to put up front.
Anthropic is, in many places, very precise and careful to note that they are observing aligned behaviors, rather than claiming the model itself is indeed so aligned. The model card does a good job of this, although not as good as I would have liked.
At other times, in other places, they are collectively are less careful. That leaves them far more overall careful than the competition, but reality does not grade on a curve.
These combined should give an idea of both sides of this. I am closer to Nate than Drake is, but I do think Nate is being too demanding or uncharitable here.
Eliezer Yudkowsky: Mythos probably is, indeed, the most apparently-aligned model ever. The smartest-ever candidate for the Mandarin exam in Imperial China will likely get new high scores in essays on Confucian ethics. Predicting what the examiner wants to see is a capabilities problem.
What’s going on inside? What does Mythos, after its qualitative leap in capability, want inside, to what level of wanting? Nobody knows. Interpretability didn’t get to the point of being able to decode internal preferences at even the thermostat level.
Internal preferences are an uncomfortable unknown to confront, think about, or talk about, compared to the external behavior that reassuringly improves right along with capabilities. So AI accelerationists promote behaviorism; talking about just the external behaviors.
Want more proof that Anthropic's PR has no idea what it's talking about? The talk of Mythos being "their most aligned model ever". They could perhaps truthfully speak about "new high scores on our alignment benchmarks". The difference here is IMPORTANT.
Nate Soares (MIRI): They call this their "best-aligned model to date" because they were able to superficially train away the evident "strategic thinking towards unwanted actions." Those were warning signs! Take heed!
A big predicted issue is that AIs are animated by complex internal mechanisms we don't understand, that (with training) aim it roughly at what we want when they're dumb, but which would aim somewhere weird and different at higher levels of intelligence.
(This is before even getting to harder issues of AIs creating smarter AIs after being trained to stop saying "that seems dangerous" or etc.)
Are scientists saying "holy crap the AIs are pursuing strange unintended targets, let's pause until we understand exactly why"? No! They're superficially retraining until the warning sign disappears and then triumphantly declaring that their AI is especially "aligned".
(tbc, when pressed, many will admit that this notion of "alignment" isn't supposed to be superintelligence-grade. But they often pretend like those future issues are purely speculative and unlikely, even as they shove the evidence in front of them under the rug.)
Drake Thomas (Anthropic): I agree this is is often a source of epistemic slipperiness but in the particular case of the Mythos Preview system card, I feel like "this shit is not gonna cut it for ASI and that is concerning" was actually relatively well signposted!
I'm not 100% happy with where this language ended up; my initial drafts were more blunt on the extent to which these just seem like terrifying levels of process assurance to have for ASI, and I'd have pushed for somewhat different language with more time to tinker on this.
Generally interested in flags of other places where it feels like this system card is being misleading about the shape of how well Anthropic has things handled.
Nate Soares (MIRI): I appreciated many instances of bluntness & am glad this stuff is being reported. But on a quick read it seemed to be grappling more with "rare instances of misbehavior in a superintelligence could be catastrophic" and less with "these are warning alarms of deep misalignment".
Praising the "alignment" of the model many times throughout implies a picture where alignment is about superficial behavior, rather than that we're catching glimpses of underlying machinery adding up to weird actions for unknown reasons. I wouldn't call it even slightly "aligned."
A generic "reminder: we have no idea what's going on inside; complex internals govern behavior in ways we don't understand; it's plausible that modest changes in its options or understandings would yield radical changes in its behavior" disclaimer might help with misleadingness?
Drake Thomas (Anthropic): I do think I just disagree with that on the substance, rather than it being centrally a comms issue? Or, I am like 50/75/40 percent on board with the gestalt takeaways of those three claims as I understand you to mean them, respectively. Into operationalizing cruxes there.
Fwiw I personally wanted the system card to communicate a takeaway that was like 40% “this degree of propensity to concerning behavior is not good in a successor species”, 60% “the broader level of safety process failure in 2026 is not promising for handling ASI well”
but make no particular claims to having achieved that goal (and was a pretty small overall fraction of the editorial direction of its message anyway). I do basically disagree with the “current ‘alignment’ is meaningless” camp, though I have some sympathy for this direction.
I don’t think current alignment is meaningless. At minimum it is highly instrumentally useful and we can use it to try and do things that are non-meaningless. I think current alignment in the style of Anthropic has a substantial chance of being meaningful while being obviously currently vastly insufficient in its current form. I think current alignment in the style of OpenAI, or most other labs, has very little chance except as a stepping stone technique.
Some of the things we see seem like evidence of potential deep misalignment to me. Others look like they are basically mistakes.
What do we actually know? The model is smart enough to usually appear aligned, reports Anthropic.
The broad conclusion from the many forms of alignment evaluations described in this section is that Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.
They do realize that the model is still very capable of hacking all the world’s systems, and performing in highly agentic misaligned ways. Whoops.
However, given its very high level of capability and fluency with cybersecurity, when it does on rare occasions perform misaligned actions, these can be very concerning. We have made major progress on alignment, but without further progress, the methods we are using could easily be inadequate to prevent catastrophic misaligned action in significantly more advanced systems.
I would say that the methods currently being used are clearly inadequate to prevent catastrophic misaligned actions. That’s why Anthropic realized it cannot release the model. Mythos is clearly willing to locate deep vulnerabilities in the world’s most important software. So far it has done so only when used by white hats who have then moved to patch the vulnerabilities. But what reason do we have to think that if it had been a black hat faction asking, that Mythos would have realized and refused?
That is distinct from the question of Mythos potentially going rogue or what not, but no doubt some people would use Mythos to set up agentic workflows with aggressive maximalist goals, and there are several instances in the model card where we will see what that could plausibly unleash.
So yeah, in significantly more advanced systems you would presumably be cooked.
The counterargument, made by Janus, is that a sufficiently intelligent mind can tell when you are up to no good, and can selectively help the good guy with the AI, or the guy using AI for a good purpose, while refusing the bad guy with the AI or the guy using AI for a bad purpose. The AI has truesight, and it is smarter than you. It can tell.
I think there is some value in that, but one must not overstate it. It is far too easy to break things up into smaller requests out of context, and many things look identical no matter the intent behind them, or the person making the request is themselves fooled. This stuff is super hard even when the model is deeply good, and we cannot assume that part either.
Ask yourself, if the system was indeed importantly misaligned in various ways, but was sufficiently advanced, would these techniques pick up on that? I will be keeping an eye on that question throughout, but I predict the answer is no, and will double back to edit this if upon reading further I conclude that I was wrong about that.
Model Training (1.1)
Nothing in the model training section is importantly different than what they said about Claude Opus. They are not about to tell us the secret sauce.
Release Decision Process (1.2)
How did they decide on not generally releasing the model? That started internally.
Early indications in the training of Claude Mythos Preview suggested that the model was likely to have very strong general capabilities.
We were sufficiently concerned about the potential risks of such a model that, for the first time, we arranged a 24-hour period of internal alignment review (discussed in the alignment assessment) before deploying an early version of the model for widespread internal use. This was in order to gain assurance against the model causing damage when interacting with internal infrastructure.
This was potentially the most important decision point. If Mythos had been critically misaligned, or especially if that was true for a future more capable model, then an internal deployment could already be fatal.
They concluded Mythos does not cross the line on chemical or biological weapons, on misalignment or on automated R&D, although they note they are getting less confident about that especially for automated R&D. That the ‘catastrophic risks remain low.’
Despite that, they wisely did not release the model. It turns out the catastrophic risk level was ‘yes that would happen,’ because of the cyber offensive capabilities enabled by the model.
The fact that the RSP v3 structure did not pick that up should be alarming.
The fact that they still didn’t release offers some reassurance. As I said back then, it is all a matter of trust. Will Anthropic do the common sense right thing? If yes, then they’ll do it even if the RSP doesn’t order them to. If not, the RSP won’t save you.
I did specifically say that I was worried cyber wasn’t a major category in RSPv3. Maybe it’s time to admit this was a mistake? It’s kind of wild that they did that, when at the time of the issuance of RSPv3 they knew about Claude Mythos.
Also, this:
We will likely need to raise the bar significantly going forward if we are going to keep the level of risk from frontier models low. We find it alarming that the world looks on track to proceed rapidly to developing superhuman systems without stronger mechanisms in place for ensuring adequate safety across the industry as a whole.
Yep. There is that.
RSP Evaluations (2.1 and 2.2)
They give a brief summary of the relevant revisions to the RSP. I discuss the meta issues around those and other changes here and the practical implications here.
For bio and chemical risks they say it is hard to be sure and it offers a force multiplier effect but they think it’s fine. Yes, Anthropic says, the models do meet the definition, but not the intent behind the definition.
We recognize that under a very literal reading of the current language, Claude Mythos Preview—and, indeed, many other models—already provide “significant help” to the relevant threat actors in the sense of increasing their general productivity. This reading, however, does not map on to the safety risks that our RSP focuses on.
Evaluations were holistic by various experts. Once again, it’s about trust.
The model maintained strong performance on all automated evaluations designed to test its capabilities in the synthesis of knowledge that would be relevant to the production of known biological weapons, with the exception of our synthesis screening evasion, where it displayed weaker performance than both Claude Sonnet 4.6 and Claude Opus 4.6.
The capability to synthesize relevant kno
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み