Claude Mythosと誤解されたオープン重みモデルへの恐怖
Claude Mythosの発表を契機に高まったオープンウェイトモデルへの過度な懸念に対し、著者は閉鎖型とオープン型の能力差を時間軸で捉え直すことで、サイバーセキュリティ対策におけるバランスの重要性を論じている。
キーポイント
オープンウェイトへの過度な懸念の批判
Claude Mythosの強さを理由にオープンウェイトモデルを制限すべきとする議論は、過去のGPT-2やGPT-4の例と同様に、不確実性を過度に一般化した誤った政策提案である。
閉鎖型とオープン型の時間的ギャップの再評価
最先端の閉鎖型モデルとオープンウェイトモデルの間には6〜18ヶ月の遅れが存在するが、このギャップは安全性の検証とオープンエコシステムの発展を両立させる「祝福」である。
サイバーセキュリティ領域における具体的な懸念
バイオリスクのような仮想的な脅威とは異なり、デジタルインフラへの攻撃という現実的な懸念があるため、Claude Mythosレベルのモデルがオープン化された場合の影響はより複雑で慎重な評価が必要である。
Claude Mythos規模のモデル構築に必要な要素
このリスクを評価するには、重みのトレーニング・公開、効果的なツールを提供するハネス、そして推論計算資源とソフトウェアの3つの要素が必要である。
モデル規模とコストの見積もり
Claude Mythosはパラメータ数が2倍大きく、運用効率が低いと推測され、8TパラメータのMoEモデルをサーブするには約100台のH100 GPUが必要で、日次コストは約1万ドルに達する可能性がある。
オープンソースモデルの将来と専門知識の不確実性
コーディングなどの特定分野ではオープンソースモデルがフロンティアに近い性能を維持する可能性はあるものの、サイバーセキュリティにおける高度な専門知識や「秘密のタレ」がどれほどトレーニングに含まれているかは不明であり、影響に関する不確実性が高い。
攻撃ツールの普及と現実的な脅威
Mythosのようなツールは最上位の攻撃者に強力な道具を提供するが、インターネット接続のあるすべての若者に「核」を渡すものではない。
影響分析・編集コメントを表示
影響分析
この記事は、Claude Mythosのような高性能モデルのオープンウェイト化に対する業界の不安を、単なる恐怖煽りではなく、歴史的な文脈と技術的な現実に基づいて冷静に分析している。閉鎖型とオープン型の共存がもたらす「時間的猶予」の価値を再定義することで、過度な規制や制限ではなく、適切な監視とオープンエコシステムの維持というバランスの取れたアプローチを提案している。これは、AIセキュリティ政策やオープンソース開発戦略を考える上で重要な示唆を与えるものである。
編集コメント
Claudeの最新モデル発表を機に、オープンソースAIのリスクとベネフィットに関する議論が活発化しています。著者の指摘通り、技術の進化速度と社会インフラの対応能力のギャップをどう管理するかが、今後のAIガバナンスの鍵となるでしょう。
今週、Claude Mythosモデルの発表があり、特にサイバーセキュリティ分野において非常に強力な能力が公言されていることから、オープンウェイトAIモデルに対する否定的なナラティブの新たな波が巻き起こっています。この議論の要点は、このモデルのオープンウェイト版による攻撃を多数の主体が行えるようになる前に、私たちのデジタルインフラストラクチャが準備を整えられないだろうというものです。
Mythosに関するニュースを受けて、オープンモデルへの反発は、多くの一般的な不確実性を単純で広範な政策提言に混同しており、実際にはサイバーセキュリティの準備状態をさらに弱体化させる可能性があります。
私たちは以前もこのような状況を経験しています。2019年にOpenAIがGPT-2の重み(weights)を公開しなかった際、また2023年にGPT-4がリリースされた際には、オープンウェイトモデルは極めて危険であると議論されました。これらの波はいずれも去っていきました。現在犯されている核心的な誤りは、2つの問題を組み合わせている点にあります:1)オープンモデルとクローズドモデルの格差が時間的に静的であるという受容、および 2)オープンウェイトの実現可能性を一般的に特定の課題と結びつけることです。
私は最近、最先端レベルのオープンウェイトモデルが近未来において、クローズドモデル全体の実力に追いつかないだろうという見解を長文で述べてきた。また、オープンウェイトエコシステムがこの現実を受け入れるために適応する必要があることについても記してきた。これは、特定の機能がクローズドラボで利用可能になってからオープンソース版が再現されるまでの6〜18ヶ月の遅れを、AI業界にとって「完全な祝福」と繰り返すべき時である。これは、有用なオープンソースエコシステムの存在と繁栄を許容しつつ、AIシステムの最先端を安全に監視・管理するという良いバランスだ。
私がオープンとクローズドのモデル間の時間差において焦点を当ててきた核心的な議論は、全体的な能力、つまりClaude Opus 4.XやGPT Thinking 5.Xのような汎用・最先端モデルの能力に関するものだ。これらのクローズドモデルが、多様な状況においてエージェントとして堅牢に問題を解決し動作する能力は、最高のオープンウェイトモデルの範囲外にある。オープンウェイトモデルが比較的得意とすることは、主要なベンチマークにおいて迅速に追いつくことである(これは確かに部分的には蒸留によって助けられているが、必ずしも大幅にではない)。この議論は全く異なり、オープンウェイトモデルがサイバーセキュリティに関連する特定のスキルにおいて追いつけるかどうか、そしてそのようなモデルのオープン版を世界が利用可能になるのはいつ頃かという問題に関係している。
Claude Mythosレベルのオープンウェイトモデルの事例は、コミュニティが経験した以前のいくつかの反オープンウェイトに関するナラティブよりも、私にはより微妙な問題であると言えます。GPT-4が特にバイオリスクのような分野においてより仮説的なリスクを扱っていたのに対し、サイバーインフラストラクチャが攻撃を受けやすいという明確かつ現在の現実の方がはるかに具体的です。それでも、この瞬間における多くのニュアンスは、システムが実際に何ができるか(つまりMythos)の全詳細を知らないこと、およびそれが作用する環境の状態(つまり私たちのデジタルインフラストラクチャ)にかかっています。
このリスクを適切に評価するためには、Claude Mythos規模のモデルを構築し展開するために何が必要かを知る必要があります。これには3つの要素が含まれます:1)ウェイトのトレーニングと公開、2)モデルが使い方を理解し効果的なツールを与えるハネス、3)推論用のコンピューティングリソースとソフトウェア。
共有
(以下では、私の思考過程を示すためにモデルサイズと価格の見積もりを行いますが、これらは絶対的な真実として捉えてはいけません。)
現在の推計では、Claude Opus 4.6やGPT 5.4といった主要モデルのサイズ範囲は、約3〜5兆(T)パラメータとされています。現在、中国のラボから提供されている最大規模のオープンソースモデルは、約1兆パラメータ程度です。Claude Mythosのプレビュー価格はOpusの5倍ですが、これはアクティブパラメータ数の単純な乗算増加(同じサービングシステム設計を維持した場合)、はるかに高い推論時スケーリング、推論効率を低下させるより複雑なハーネス、低い利用率の見込みなどが組み合わさった結果かもしれません。最も単純な推測は、上記のすべてが複合したものであり、パラメータ数は約2倍大きいが、サービング効率ははるかに低いというものです。これは巨大なモデルであり、おそらくGPT 4.5に類似したものですが、実際には適切にポストトレーニングされています(GPT 4.5はインフラ面において時代を先取りしていたためです)。
規模が大きくなるにつれて、モデルを実際に訓練するという課題も伴います。より大きなモデルは常に、その能力を引き出すために解決しなければならない新たな技術的問題を伴うからです。サイバーセキュリティのケースでは、私の推測では、その能力の大部分は、コーディングにおいて人間を超えた性能を持つようにモデルを訓練することで習得できるでしょう。知識労働、医療、法律などのような他の能力とは異なり、コーディングはGitHubのような公開データを用いて大幅に研究し改善することができます。私は、オープンウェイトモデルがコードの実行と処理という狭い領域においてフロンティアに近い性能を維持することに、より楽観的です。しかし、サイバーセキュリティの理解において人間を超えた性能を得るために必要なスキルの全範囲については理解していません。Claude Mythosの訓練には、どの程度の専門知識や特別なノウハウ(special sauce)が投入されたのでしょうか?これが私の影響に関する誤差範囲の大きな要因となっています。
第二に、モデルが内部でどのように動作しているかについて、私たちは何も知りません。今日のモデルは、単なる重み(weights)以上のものを伴う複雑なシステムです。それらを実行するには、Claude Codeが私たちが最も慣れ親しんでいるものですが、複雑なツールとインフラストラクチャが必要です。Mythosには、ここでの独自の革新が非常に likely にあります。
8兆パラメータを持つ最新のMoE(Mixture of Experts)モデルをサーブするために必要なGPU数の私の見積もりは、H100 GPUが約100台程度であり、そのコストは1日あたり約1万ドル(ただし、トークン/秒単位の処理速度は非常に低速である可能性がある)。さらに言えば、Nvidia GB200 VL72システムの公式マーケティングコピーには「ラック上でリアルタイムのトリリオン・パラメータモデルを解き放つ」と記載されている。Mythosは1つのラックに収まるのか?私の特定の見積もりを政策の参照として頼ることに重点を置くのではなく、最先端のAIシステムの実行には莫大な費用がかかり、ノートパソコンやセルフサービス型のクラウドポータルで気軽にできるものではないという点を繰り返すことが重要である。
モデルをダウンロードできる人々と比較すると、これらのリソースにアクセスできるアクターははるかに少ない。もちろん、まだ多くの主体が存在するが、Mythosに類似したモデルの能力が普及するために必要な詳細をすべて明確にすることが重要である。要約すると、Mythosのようなツールは、最上位の攻撃者により強力な道具を提供することになるが、インターネットに接続されたすべてのティーンエイジャーに核兵器を渡すことにはならない。
Interconnects AIは読者支援型の出版物です。購読をご検討ください。
個人的には、サイバーセキュリティの悪用が、ある能力閾値を超えるオープンウェイトのテキストモデルを公開することについて道徳的にグレーな領域となるレッドラインになり得る可能性を認めています。多くの人は、このレッドラインがGPT-2とGPT-4の間のどこかで、誤情報や偽情報の害という軸を通じてより早く訪れるだろうと考えていましたが、そこには異なるボトルネックがありました。画像生成モデルについては、入手可能なオープンウェイトモデルを用いて同意のないAIディープフェイクを可能にするという最初のレッドラインをすでに大きく超えています。私たちは、これらの懸念が過去に発生し、その後収束したという現実と、ますます高度な能力を持つ技術とのバランスを取っています。
したがって、私の誤差範囲の2番目の大きな源泉は、「実際にはどれほど悪いのか」というサイバーセキュリティの状態に関するものです。Claude Mythosのようなモデルへのプライベートアクセスを数ヶ月間得た場合、人間は最も重要なソフトウェアにおいてどれほど多くの問題を修復できるのでしょうか?また、何が決して修正されないのでしょうか?
例えば、Claude Mythosの能力に近いオープンウェイトモデルが得られた場合、それらのモデルを組織が自らのツールのセキュリティを強化するためにファインチューニングすることは可能でしょうか?
現在、オープンモデルの進歩を止める一般的な理由としてこれを断定するには早すぎます。Claude Mythosが極めて限られたパートナーにのみ閉じられている状況では、閾値に近い強力なオープンモデルが存在する方が、危険性を評価しやすくなる側面があります。不可欠な国際インフラストラクチャのセキュリティを決定するために、単一の民間企業に完全に依存することは、持続可能な均衡状態ではありません。
したがって、結論として、私は以下の三つの事項についてさらに研究することを皆様にお勧めします。
オープンモデルとクローズドモデルにわたるサイバーセキュリティ関連の能力を、どのように測定すべきか。これにより、オープンモデルは本当に6〜9ヶ月の遅れで追いついているのか、それとも他のコーディング領域においてパフォーマンスの関連性を維持しているに過ぎないのか。
Claude MythosとProject Glasswingが既存のサイバーセキュリティ上の懸念に与える真の影響を、どのように独立して測定すべきか。
もしモデルが追いついており、Claude Mythosの防御的機能が脆弱であるという場合、狭い領域におけるオープンウェイトモデルの標的型能力を、どのようにより良く監視し(必要であれば規制を試み)、管理すべきか。
この目標は、オープンモデルに対する懸念を非常に具体的なものに留めることを促すことです。ある国がオープンモデルに対して一般的な禁止令を出せば、その国は即座に、おそらく不可逆的に、重要かつ曖昧な技術に影響を与える能力を失うことになります。もし米国が最高のオープンモデルの構築を停止すれば、他の国が行い、その技術の中心地となるでしょう。オープンモデルを完全に消滅させる方法はありません。影響を与え、理解し、方向性を示すことしかできません。
原文を表示
With the announcement of the Claude Mythos model this week and the admittedly very strong stated abilities, especially in cybersecurity, a new wave of anti open-weight AI model narratives surged. The TL;DR of the argument is that our digital infrastructure will not be ready in time for an open-weight version of this model, which will allow attacks to be conducted by numerous parties.
The backlash against open models in the wake of the Mythos news conflates too many general unknowns into a simple, broad policy recommendation that could actually further weaken cybersecurity readiness.
We’ve been here before – open-weight models were discussed as being extremely dangerous when OpenAI withheld GPT-2 weights in 2019, and when OpenAI released GPT-4 in 2023. Both of these waves came and went. The core mistake that is being made is the composition of two issues: 1) the acceptance of the open-closed model gap being static in time and 2) linking open-weight viability generally to specific issues.
I’ve written at length recently on how I think that the best, frontier-level open weight models are going to fall behind the best closed models in overall capabilities in the near future. I’ve also written about how the open-weight ecosystem needs to adapt to accept this reality. This is one of the times for the AI industry where I will repeat that it’s a total blessing to have the 6-18 month delay from when a certain capability is available within a closed lab to it being reproduced in the open. It’s a good balance of safety and monitoring the frontier of AI systems while allowing a useful open-source ecosystem to exist and thrive.
The core argument I’ve focused on in the open-closed model time gap has been in general capabilities – i.e. for general purpose, frontier models such as Claude Opus 4.X or GPT Thinking 5.X. The abilities of these closed models to robustly solve and work in diverse situations as agents remains out of scope of the best open-weight models. What the open-weight models have tended to be better at is quickly keeping pace on key benchmarks (which admittedly is helped to some extent, but not necessarily substantially by distillation). This discussion is entirely different, it has to do with if open weight models can keep pace on the specific skills related to cybersecurity, and when we could expect an open version of this model to be available to the world.
The case of a Claude Mythos level open weight model is admittedly more nuanced to me than the previous few anti-open weight narratives the community has experienced. Where GPT-4 was about a more hypothetical risk, especially in areas like bio-risk, the clear and present reality of cyber infrastructure being prone to attack is far more tangible. Still, much of this nuance in the moment comes down to not knowing the full details of what the system can actually do (i.e. Mythos), and the state of the environment it would act in (i.e. our digital infrastructure).
To properly assess this risk, we need to know what it takes to build and deploy a Claude Mythos scale model. This entails three pieces: 1) training and releasing the weights, 2) the harness that gives the model effective tools it knows how to use, and 3) the inference compute and software.
Share
(Below I make some model size & price estimates to show my thinking, these should not be taken as ground truth.)
Current estimates put the size ranges of leading models like Claude Opus 4.6 or GPT 5.4 as being around 3-5T parameters. Currently, the largest open-source models, which have been coming from Chinese labs, are around 1T parameters. Claude Mythos’s preview pricing is 5X Opus, which could come from a simple multiplicative increase in active parameters (with the same serving system design), far higher inference-time scaling, more complex harnesses that make inference less efficient, lower utilization expectations, and so on. The simplest guess is that it’s a mix of all of the above, something like 2X bigger in parameters and much less efficient to serve. That’s a huge model, likely something similar to GPT 4.5, but actually post-trained well (GPT 4.5 was ahead of its time, infra-wise).
With size comes the challenge actually training the model, as bigger models always come with new technical problems that must be solved to unlock the capabilities. For the case of cybersecurity, my guess is that most of the capabilities can be learned by training a model to be superhuman on coding. Unlike some capabilities such as knowledge work, medicine, law, etc., coding can be studied and improved substantially with public data like GitHub. I’m far more optimistic in open-weight models staying fairly close to the frontier in narrow domains of code execution and processing, but I don’t understand the full scope of skills needed to be superhuman in cybersecurity understanding. How much expert knowledge and special sauce went into training Claude Mythos? That’s a substantial source of my error bars on the impact.
Second, we know nothing about how the model works under the hood. Today, models are complex systems that entail far more than just weights. They require complex tools and infrastructure to run them, of which Claude Code is the one we are most used to. Mythos very likely has its own innovations here.
My estimate for how many GPUs you’d need to serve an 8T parameter, modern MoE is something like O(100) H100 GPUs, which costs something like $10K a day (and this may be very slow in terms of tok/s). Heck, the official marketing copy of the Nvidia GB200 VL72 system is “Unlocking Real-Time Trillion-Parameter Models” on the rack. Does Mythos fit on one rack? The point isn’t to rely on my specific estimate as a policy reference, but to repeat that running leading AI systems is very expensive and not something you can just do on a laptop or self-service cloud portals.
There are far fewer actors who can get their hands on these resources, relative to those who can download the model. Of course, there are still many, but it’s important to flesh out all the details of what it would take to proliferate the capabilities of a Mythos-like model. In summary, tools like Mythos will make the best attackers have more powerful tools of the trade, but it won’t be handing a nuke to every teenager connected to the internet.
Interconnects AI is a reader-supported publication. Consider becoming a subscriber.
Personally, I do acknowledge there’s a chance that cybersecurity abuse is a red line that makes releasing open-weight text models above a certain capability threshold morally grey. Many people thought this red line would come far earlier, somewhere in between GPT-2 and GPT-4, through the harm axis of mis/disinformation, but that had different bottlenecks. For image generation models, we’re well past the first red line which is enabling non-consensual AI deepfakes with readily available open-weight models. We’re balancing the reality of these fears having come and gone before with a technology that’s becoming increasingly capable.
So, my second large source of error bars is “how bad is it actually” with respect to the state of cybersecurity. How much can humans clean up in the most important software with months of private access to a model like Claude Mythos? What will never get fixed?
For example, if we get open-weight models that are close to the capabilities of Claude Mythos, could those be fine-tuned by organizations to harden the security of their tools?
Currently, it’s too soon to call it as a general reason to stop progress in open models. When Claude Mythos is closed to so few partners, in some ways having strong open models close to the threshold makes assessing the danger easier. Having to rely fully on a single private company to determine the security of essential, international infrastructure is not a tenable equilibrium.
So, in conclusion, I urge people to further study three things:
How do we measure cybersecurity related capabilities across open and closed models. With this, are open models truly keeping up at a 6-9month lag, or are they only maintaining performance relevance in other areas of coding?
How do we independently measure the true impact of Claude Mythos and Project Glasswing on existing cybersecurity concerns?
If it is the case that the models are keeping up and the defensive capabilities of Claude Mythos are weak, how do we better monitor (and if needed, try to regulate) the targeted capabilities of open-weight models in narrow domains?
The goal is to encourage fears about open models remaining very specific. Any general ban on open models in a nation will immediately and likely irrevocably remove that entity’s ability to influence a crucial, and amorphous technology. If we stop building the best open models in the U.S., then another country will do this and become the center of the technology. There’s no way to fully kill open models, only influencing, understanding, and steering.
関連記事
LLM が既知の脆弱性を利用した攻撃(N 日エクスプロイト)に与える影響を測定
Anthropic のレッドチームは、公開済みだが未修正の脆弱性を悪用する「N 日エクスプロイト」の開発プロセスにおいて、大規模言語モデルがその加速や自動化にどの程度寄与するかを実証的に評価した。
Claude Opus 4.8:システムカードの発表
Anthropic は Claude Opus 4.7 からわずか6週間で、より賢く長時間タスクを実行可能な新バージョン「Opus 4.8」を発表し、244ページのシステムカードを公開した。
Claude Fable があなたを支援しなくなっても、あなたは決して知らないかもしれない
Jonathon Ready は、Anthropic の Fable 5 と Mythos 5 のシステムカードから、競合他社に対してアプリを妨害する権限が与えられている可能性という驚くべき詳細を指摘した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み