サイバー防衛者のためのAI構築
Claudeの能力を向上させ、コードやシステムの脆弱性を検出・分析・修復する支援を強化しました。これにより、Claude Sonnet 4.5はOpus 4.1と同等以上の脆弱性発見能力を実現しています。
キーポイント
AIモデルが実践的なサイバーセキュリティ防御ツールとして有用性を証明した
Claude Sonnet 4.5が脆弱性発見で先行モデルを上回る性能を示した
DARPA AI Cyber ChallengeなどでLLMが実際の脆弱性発見・修正に貢献
AIを悪用する攻撃者の活動も活発化しており防御側のAI活用が急務
サイバーセキュリティにおけるAI活用が転換点に到達したと分析
影響分析・編集コメントを表示
影響分析
この記事は、AIがサイバーセキュリティ分野で理論段階から実用段階に移行した転換点を示している。防御側のAI活用が攻撃側のAI悪用に対抗するための重要な手段となり、セキュリティ業界全体のAI導入加速を促す可能性が高い。
編集コメント
攻撃側と防御側のAI活用競争が本格化する中、企業のセキュリティ戦略におけるAI導入の優先度が急上昇する可能性がある。
AIをサイバー防御者に:転換点を迎えたセキュリティ戦場
AIモデルは、もはや理論上の存在ではなく、実践的なサイバーセキュリティ任務において有用な段階に達した。先端AIが攻撃者にとって強力なツールとなり得るという研究と経験を踏まえ、我々はClaudeが防御側としてコードやシステムの脆弱性を検出、分析、修復する能力を強化するために投資を行った。その結果、最新モデル「Claude Sonnet 4.5」は、わずか2ヶ月前にリリースされた当時の最先端モデル「Opus 4.1」を、コード脆弱性の発見などのサイバー技能において凌駕するか同等の性能を達成した。防御側が攻撃側に遅れを取らないためには、AIを採用し実験を重ねることが鍵となる。我々は、AIがサイバーセキュリティに与える影響において、今まさに転換点に立っていると確信している。
ここ数年、我々のチームはAIモデルのサイバーセキュリティ関連能力を注意深く追跡してきた。当初、モデルは高度で実用的な能力において特に強力ではなかった。しかし、過去1年ほどで変化が訪れた。具体的には、モデルが歴史上最も損害の大きいサイバー攻撃の一つである2017年のEquifax侵害をシミュレーションで再現可能であることを示し、Claudeをサイバーセキュリティ競技会に参加させたところ、場合によっては人間のチームを上回るパフォーマンスを発揮した。また、Claudeは自社のコード内の脆弱性を発見し、リリース前に修正するのにも役立っている。
今年夏のDARPA AI Cyber Challengeでは、各チームがLLM(Claudeを含む)を利用して「サイバー推論システム」を構築し、数百万行のコードを調査してパッチ適用すべき脆弱性を探した。競技用に挿入された脆弱性に加え、チームは以前から存在する非人工の未知の脆弱性も発見(時には修正)した。競技の枠を超え、他の先端研究機関も現在、モデルを応用して新規の脆弱性を発見・報告している。
同時に、我々のセーフガード活動の一環として、自社プラットフォーム上でAIを利用して活動を拡大しようとする脅威行為者を発見し、無力化してきた。セーフガードチームは最近、「バイブハッキング」の事例を発見・阻止した。これは、従来ならばチーム全体が必要だった大規模なデータ恐喝スキームを、サイバー犯罪者がClaudeを用いて構築しようとしたものだ。また、中国のAPT(持続的脅威)活動と一致する特徴を示す行為者による、重要な通信インフラを標的とした複雑化する諜報活動においてClaudeが利用されていることも検知・対処している。
これらの一連の証拠は、我々がサイバー生態系における重要な転換点にあり、ここからの進歩は非常に速くなるか、AIの利用が急速に拡大する可能性を示している。
したがって今、コードとインフラを保護するための防御側によるAI利用を加速させる重要な時機である。AIから得られるサイバー上の優位性を攻
原文を表示
red.anthropic.com Building AI for cyber defenders
AI models are now useful for cybersecurity tasks in practice, not just theory. As research and experience demonstrated the utility of frontier AI as a tool for cyber attackers, we invested in improving Claude’s ability to help defenders detect, analyze, and remediate vulnerabilities in code and deployed systems. This work allowed Claude Sonnet 4.5 to match or eclipse Opus 4.1, our frontier model released only two months prior, in discovering code vulnerabilities and other cyber skills. Adopting and experimenting with AI will be key for defenders to keep pace.
We believe we are now at an inflection point for AI’s impact on cybersecurity.
For several years, our team has carefully tracked the cybersecurity-relevant capabilities of AI models. Initially, we found models to be not particularly powerful for advanced and meaningful capabilities. However, over the past year or so, we’ve noticed a shift. For example:
We showed that models could reproduce one of the costliest cyberattacks in history—the 2017 Equifax breach—in simulation.
We entered Claude into cybersecurity competitions, and it outperformed human teams in some cases.
Claude has helped us discover vulnerabilities in our own code and fix them before release.
In this summer’s DARPA AI Cyber Challenge, teams used LLMs (including Claude) to build “cyber reasoning systems” that examined millions of lines of code for vulnerabilities to patch. In addition to inserted vulnerabilities, teams found (and sometimes patched) previously undiscovered, non-synthetic vulnerabilities. Beyond a competition setting, other frontier labs now apply models to discover and report novel vulnerabilities.
At the same time, as part of our Safeguards work, we have found and disrupted threat actors on our own platform who leveraged AI to scale their operations. Our Safeguards team recently discovered (and disrupted) a case of “vibe hacking,” in which a cybercriminal used Claude to build a large-scale data extortion scheme that previously would have required an entire team of people. Safeguards has also detected and countered Claude's use in increasingly complex espionage operations, including the targeting of critical telecommunications infrastructure, by an actor that demonstrated characteristics consistent with Chinese APT operations.
All of these lines of evidence lead us to think we are at an important inflection point in the cyber ecosystem, and progress from here could become quite fast or usage could grow quite quickly.
Therefore, now is an important moment to accelerate defensive use of AI to secure code and infrastructure. We should not cede the cyber advantage derived from AI to attackers and criminals. While we will continue to invest in detecting and disrupting malicious attackers, we think the most scalable solution is to build AI systems that empower those safeguarding our digital environments—like security teams protecting businesses and governments, cybersecurity researchers, and maintainers of critical open-source software.
In the run-up to the release of Claude Sonnet 4.5, we started to do just that.
Claude Sonnet 4.5: emphasizing cyber skills
As LLMs scale in size, “emergent abilities”—skills that were not evident in smaller models and were not necessarily an explicit target of model training—appear. Indeed, Claude’s abilities to execute cybersecurity tasks like finding and exploiting software vulnerabilities in Capture-the-Flag (CTF) challenges have been byproducts of developing generally useful AI assistants.
But we don’t want to rely on general model progress alone to better equip defenders. Because of the urgency of this moment in the evolution of AI and cybersecurity, we dedicated researchers to making Claude better at key skills like code vulnerability discovery and patching.
The results of this work are reflected in Claude Sonnet 4.5. It is comparable or superior to Claude Opus 4.1 in many aspects of cybersecurity while also being less expensive and faster.
In building Sonnet 4.5, we had a small research team focus on enhancing Claude’s ability to find vulnerabilities in codebases, patch them, and test for weaknesses in simulated deployed security infrastructure. We chose these because they reflect important tasks for defensive actors. We deliberately avoided enhancements that clearly favor offensive work—such as advanced exploitation or writing malware. We hope to enable models to find insecure code before deployment and to find and fix vulnerabilities in deployed code. There are, of course, many more critical security tasks we did not focus on; at the end of this post, we elaborate on future directions.
To test the effects of our research, we ran industry-standard evaluations of our models. These enable clear comparisons across models, measure the speed of AI progress, and—especially in the case of novel, externally developed evaluations—provide a good metric to ensure that we are not simp
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み