マイクロソフトのマルチエージェントAIシステムがサイバーセキュリティベンチマークでアンソロピックのMythosを上回る
Microsoft のマルチエージェント AI システム「MDASH」が、実世界でのソフトウェア脆弱性発見において Anthropic の Mythos を上回る性能を CyberGym ベンチマークで示した。
キーポイント
MDASH の多段階検証プロセス
100 以上の専門 AI エージェントが複数のモデル間で連携し、コードスキャン、発見事項の議論、そして概念実証攻撃による最終確認という三段階で脆弱性を特定する。
Anthropic の Mythos を凌駕
AI システムの実世界での脆弱性再現能力を測定する「CyberGym」ベンチマークにおいて、Microsoft の MDASH が Anthropic の Mythos モデルを上回る成績を記録した。
自律的な議論による精度向上
単なるスキャンだけでなく、別のエージェントグループが各発見事項の真偽と悪用可能性について議論(デベート)を行う仕組みにより、誤検知を減らし実用的な脆弱性を抽出している。
影響分析・編集コメントを表示
影響分析
本ニュースは、単なるコードスキャンを超えて、AI エージェントが自律的に議論し検証を行う「マルチエージェントシステム」の成熟度を示す重要な転換点です。セキュリティ分野において、AI が人間の専門家と同様の推論プロセスを模倣することで、より高度で実用的な脆弱性発見が可能になる未来への道筋が開かれました。
編集コメント
セキュリティ分野における AI の進化が、単なる自動化から自律的な推論・検証へとシフトしていることを示す決定的な事例です。企業は今後のセキュリティ戦略において、マルチエージェント技術の導入を真剣に検討すべき時期に来ています。
Microsoft の MDASH AI システムは、100 以上の専門化された AI エージェントを複数の AI モデルにまたがって連携させることで、実世界のソフトウェアの脆弱性を発見します。ある一連のエージェントがコードをスキャンして潜在的な脆弱性を探し出し、その後、別のグループのエージェントが各発見が実際に存在するものか、悪用可能かどうかについて議論します。最終段階では、概念実証(Proof-of-Concept)攻撃を構築してバグの存在を確認します。MDASH は、AI システムがいかに実世界の脆弱性を再現できるかを測定するテストである CyberGym ベンチマークにおいて、Anthropic の Mythos モデルを上回りました。
原文を表示
Microsoft's MDASH AI system uses more than 100 specialized AI agents to work together across multiple AI models to find real-world software vulnerabilities. A set of agents scans code for potential vulnerabilities, and then a separate group of agents debates whether each finding is real and exploitable. A final stage constructs proof-of-concept attacks to confirm the bugs exist. MDASH surpassed Anthropic's Mythos model on the CyberGym benchmark, a test that measures how well AI systems can reproduce real-world vulnerabilities.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み