アマゾンがエージェント型AIを用いてグローバル規模の脆弱性検出を実現する方法
Amazonは、脆弱性の悪用コードから直接検知ルールを生成するエージェント型AIシステム「RuleForge」を開発し、手動作業比336%の生産性向上と大規模セキュリティ保護を実現した。
キーポイント
エージェント型AIによる検知ルール自動生成
RuleForgeは、脆弱性悪用コードの例から直接検知ルールを生成するエージェント型AIシステムで、手動作業に比べて336%の生産性向上を達成した。
セキュリティ対応のスピードとスケールの向上
高深刻度の脆弱性を検証済み検知ルールに迅速に変換し、従来手法では不可能なペースと規模で包括的な顧客保護を提供している。
人間とAIの協調ワークフロー
専門化された複数のAIエージェントが連携してルールを生成・評価・改良し、人間は最終承認のループに留まることで、高品質なルールを効率的に作成する。
大規模セキュリティ運用への適用
MadPot(グローバルハニーポットシステム)や内部検知システムSonarisからのデータにJSON形式のルールを適用し、スケーラブルなセキュリティを実現している。
影響分析・編集コメントを表示
影響分析
この記事は、エージェント型AIが実世界のセキュリティ課題に具体的な解決策をもたらすことを示す重要な事例である。大企業の実運用環境で336%の生産性向上を実証したことは、AI自動化の実用性を強く裏付けており、セキュリティ業界全体の効率化とスケーラビリティ向上に影響を与える可能性が高い。
編集コメント
AIの実用化が進む中、具体的な生産性向上数値(336%)を示した点が説得力のある記事。セキュリティというクリティカルな領域での成功事例は、他の業界への応用可能性も示唆している。
2025年、National Vulnerability Database (NVD) は48,000件以上の新たな共通脆弱性識別子(CVE)を公開し、自動化およびAI駆動ツールが脆弱性発見に与える影響を反映しました。しかし、セキュリティチームにとって新たな脆弱性を把握するだけでは不十分です。大規模で複雑なシステムを保護するには、各開示情報を迅速に堅牢な検出ロジックへと変換しなければなりません。AWSでは、脆弱性を悪用するコードの例から直接検出ルールを生成するエージェント型AIシステム「RuleForge」を構築しました。これにより、本番セキュリティシステムに必要な精度を維持しつつ、手動でのルール作成と比較して336%の生産性向上を達成し、顧客のセキュリティを強化しています。
開示と防御のギャップを埋める
Amazonでは、検出ルールはJSONで記述され、悪意あるハッカーの行動を捕捉するデジタルおとりであるグローバル「ハニーポット」システム「MadPot」へのリクエストや、内部検出システム「Sonaris」によってフラグ付けされた悪用試行の可能性などのデータに適用されます。NVDに公開される高深刻度脆弱性の数は増加し続けると予想されており、大規模なセキュリティにおいてAI駆動の自動化が不可欠であることを意味します。ルール生成を自動化することで、このギャップを埋めながらカバレッジを拡大しています。当社のチームは現在、従来の方法では不可能な速度と規模で、高深刻度CVEを検証済みの検出ルールへと変換でき、顧客により包括的な保護を提供しています。
手動検出ルールのワークフロー
RuleForge以前は、新たなCVEに対する検出ルールの作成は、多段階のアナリスト主導プロセスでした:
- ダウンロードと分析: セキュリティアナリストは、脆弱性をトリガーする方法を示す公開利用可能な概念実証(PoC)悪用コードを探し、攻撃メカニズム、入力、期待される動作を理解するために分析しました。
- 検出ロジックの記述: アナリストは、その脆弱性を標的とする悪意のあるトラフィックを捕捉するルールを作成し、トラフィックログに対してルールの精度を測定するクエリを記述しました。
- 検証と反復: アナリストはそれらのクエリを実行し、結果をレビューし、誤検知を減らすためにルールを調整し、本番環境で十分に機能するまでこのプロセスを繰り返しました。
- ピアレビューとデプロイ: 最後に、アナリストはデプロイ前に、別のセキュリティエンジニアによるコードレビューにルールを提出しました。
このワークフローは高品質なルールを生み出しましたが、時間的コストがかかるため、チームはどの脆弱性を最初に対応するかを慎重に優先順位付けする必要がありました。
ルール作成をエージェント型AIパイプラインとして再構築
RuleForgeはこのワークフローをエージェント型AIシステムとして再構築します。これは、検出ルールを生成、評価、改良するために連携する一連の専門AIエージェントの集合体であり、最終承認には人間が関与します。単一のモデルでエンドツーエンドの問題を解決しようとするのではなく、RuleForgeはタスクを人間の専門家の作業方法を反映した段階に分解します:
- 自動取り込みと優先順位付け: RuleForgeは、特定の脆弱性を標的とする方法を示す公開利用可能な悪用PoCコードをダウンロードします。コンテンツ分析と脅威インテリジェンスソースを用いて各悪用コードにスコアを付け、ルール生成が最も重要な脅威に集中するようにします。
- 並列ルール生成: 優先順位付けされた各CVEに対して、Amazon Bedrockを搭載したAWS Fargate上で実行される生成エージェントが、複数の候補検出ルールを並列に提案します。各候補は後段階からのフィードバックに基づいて数回の反復で改良可能であり、システムは最も有望なルールを選択する前に様々な検出戦略を探索できます。ルールごとに1人の専門家に依存する代わりに、RuleForgeは検出エンジニアリングを、AIが選択肢を提案し人間が採用するものを決定するパイプラインとして扱います。
- AI駆動評価: 別個の評価エージェントが各候補をレビューします。これはRuleForgeの主要な革新の一つです。生成モデル自身に自身の作業を評価させるのではなく、RuleForgeは専用の「判定」モデルを使用し、人間の専門家が検出ルールを評価する際に用いる2つの基準で各ルールにスコアを付けます:
- 感度: このルールがCVEに記載された悪意のあるリクエストを見逃す確率は?
- 特異度: このルールが脆弱性そのものではなく、脆弱性と相関する機能を誤って標的とする確率は?
- 多段階検証: 判定を通過したルールは、厳格さを増すテストのパイプラインを通過します。合成テストでは悪意のあるテストケースと良性のテストケースの両方を生成し、基本的な検出精度を検証します。次に、ルールはMadPotからのトラフィックログなどに対して検証され、期待通りに機能することを確認します。いずれかの段階で失敗したルールは、理由を説明する具体的なフィードバックと共に生成エージェントに戻され、改善のための閉ループを形成します。
- 人間のレビューとデプロイ: 最高の性能を示したルールは、以前と同様にコードレビューに進みます。セキュリティエンジニアがレビューし、フィードバックがあれば生成エージェントに戻して修正されます。本番デプロイ前の最終的な関門として、人間の判断が残されています。
別個の判定モデルが重要な理由
ルール生成モデルに自身の候補ルールへの信頼度を自己報告させたところ、生成したほぼすべてのルールが優れていると考えました。これは、セキュリティトピックに関するLLMの較正が不十分であることを示す研究と一致します。解決策は、生成と評価を分離することでした。専用の判定モデルを使用することで、真陽性検出数を維持しながら誤検知を67%削減しました。判定モデルを効果的にする2つの主要な設計選択があります:
- 否定的な表現が精度を向上させる: 「ルールが悪意のあるリクエストを見逃す確率は?」と尋ねることは、「ルールがすべての悪意のあるリクエストを正しく検知する確率は?」と尋ねるよりも、より良い較正を生み出します。LLMは肯定に向かう傾向があるため、評価を問題点の発見として枠組みすることで、より誠実な評価が得られます。
- ドメイン固有のプロンプトが汎用プロンプトを上回る: 単にモデルにルールへの全体的な信頼度を評価させるだけでは、較正は不十分でした。機能した質問は、セキュリティエンジニアが実際に探すものを反映していました:ルールが脆弱性メカニズムそのものを標的としているか、それとも相関する表面的な機能を標的としているか、またルールが悪用のバリエーションをすべてカバーしているかどうか。システムはまた、そのスコアの根拠となる推論チェーンを生成します。これらの推論チェーンを人間の評価と比較したところ、AI判定モデルの推論は9つのルールのうち6つで専門家である人間の推論と一致しました。例えば、人間の評価者が「そのSQLインジェクションの正規表現は緩すぎる」と指摘した際、判定モデルは独立して「その正規表現パターンは単一引用符を持つ任意のクエリパラメータを捕捉するため、特定の脆弱性よりも広範囲である」と判断していました。
結果と今後の展望
信頼度スコアリングシステムを2025年8月にデプロイし、アナリストが新たな検出ルールをデプロイする速度を加速させました。その年の最後の4か月間、RuleForgeによりチームは手動と比較して336%速くルールを生成・検証でき、本番セキュリティシステムに必要な高い精度を維持しました。アナリストの焦点を作成からレビューに移行させることで、品質を損なうことなく全体のスループットを倍増させました。脆弱性開示と防御のギャップをこれまで以上に効果的に埋め、AWS上の顧客ワークロードを保護するマネージド保護がより速く更新され、より多くの高深刻度CVEをカバーすることを保証しています。
RuleForgeは、エージェント型AIが精度要件を満たしながら、本番環境の規模で人間のセキュリティ専門知識を増強できることを実証しています。主要な革新はアーキテクチャにあります:ルール生成とルール評価を分離し、単一モデルではなく複数の専門エージェントを使用し、最終承認のために人間をループ内に保持することです。脆弱性開示の速度が加速し続ける中、これらの設計原則は防御を最新の状態に保つのに役立ちます。
RuleForgeの背後にある技術的詳細、評価方法論、実験結果についてより深く知りたい場合は、arXivの論文を参照してください。
原文を表示
In 2025, the National Vulnerability Database published more than 48,000 new common vulnerabilities and exposures (CVEs), reflecting the impact of automated and AI-powered tools on vulnerability discovery. For security teams, however, knowing about new vulnerabilities isn’t enough; they must translate each disclosure into robust detection logic fast enough to protect large, complex systems. At AWS, we built RuleForge, an agentic-AI system that generates detection rules directly from examples of vulnerability-exploiting code, achieving a 336% productivity advantage over manual rule creation while maintaining the precision required for production security systems and enhanced customer security. Closing the gap between disclosure and defense At Amazon, detection rules are written in JSON and applied to data such as requests to MadPot, a global “honeypot” system that uses digital decoys to capture the behavior of malicious hackers, and likely exploit attempts flagged by our internal detection system, Sonaris. We expect the number of high-severity vulnerabilities published to the NVD to continue to grow, which means that AI-powered automation is essential for security at scale. By automating rule generation, we’re closing that gap while expanding our coverage. Our teams can now turn high-severity CVEs into validated detection rules at a pace and scale that would be impossible with traditional methods, providing more comprehensive protection for customers. The manual-detection rule workflow Before RuleForge, creating a detection rule for a new CVE was a multistep, analyst-driven process: Download and analyze. A security analyst located publicly available proof-of-concept exploit code — code that demonstrates how to trigger a vulnerability — and studied it to understand the attack mechanism, inputs, and expected behavior. Write detection logic. The analyst authored a rule to catch malicious traffic targeting the vulnerability, then wrote queries to measure the rule's accuracy against traffic logs. Validate and iterate. The analyst ran those queries, reviewed the results, tuned the rule to reduce false positives, and repeated until the rule performed well enough for production. Peer review and deploy. Finally, the analyst submitted the rule for code review by another security engineer before deployment. This workflow produced high-quality rules, but the time investment meant the team had to carefully prioritize which vulnerabilities to cover first. Reframing rule creation as an agentic-AI pipeline RuleForge reimagines this workflow as an agentic-AI system — a set of specialized AI agents that collaborate to generate, evaluate, and refine detection rules, with humans remaining in the loop for final approval. Rather than attempting to solve the end-to-end problem with a single model, RuleForge decomposes the task into stages that mirror how human experts work: Automated ingestion and prioritization. RuleForge downloads publicly available exploit proof-of-concept code demonstrating how to target a specific vulnerability. It scores each exploit using content analysis and threat intelligence sources. This ensures that rule generation focuses on the threats that matter most. Parallel rule generation. For each prioritized CVE, a generation agent running on AWS Fargate with Amazon Bedrock proposes multiple candidate detection rules in parallel. Each candidate can be refined across several iterations based on feedback from later stages, enabling the system to explore different detection strategies before selecting the most promising ones. Instead of relying on one expert working rule by rule, RuleForge treats detection engineering as a pipeline where AI proposes options and humans decide what ships. AI-powered evaluation. A separate evaluation agent reviews each candidate. This is one of RuleForge's key innovations: rather than having the generation model judge its own work, RuleForge uses a dedicated "judge" model to score each rule on two dimensions that human experts use to assess detection rules: Sensitivity: What is the probability that this rule will fail to flag malicious requests described in the CVE? Specificity: What is the probability that this rule targets a feature that correlates with the vulnerability rather than the vulnerability itself? Multistage validation. Rules that pass the judge move through a pipeline of increasingly rigorous tests. Synthetic testing generates both malicious and benign test cases to verify basic detection accuracy. Rules are then validated against traffic logs, such as those from MadPot, to confirm they perform as expected. Rules that fail at any stage get sent back to the generation agent with specific feedback explaining why, creating a closed loop of improvement. Human review and deployment. The best-performing rule enters code review, just as before. A security engineer reviews it, and any feedback goes back to the generation agent for revision. Human judgment remains the final gate before production deployment. Why a separate judge model matters When we asked the rule generation model to report its confidence in its own candidate rules, it thought almost everything it produced was good. This aligns with research showing poor LLM calibration on security topics. The solution was separating generation from evaluation. Using a dedicated judge model reduced false positives by 67% while maintaining the same number of true positive detections. Two main design choices made the judge effective: Negative phrasing improves accuracy. Asking "what is the probability that the rule fails to flag malicious requests?" produces better calibration than asking "what is the probability that the rule correctly flags all malicious requests?" Given that LLMs tend toward affirmation, framing the evaluation as a search for problems yields more honest assessments. Domain-specific prompts outperform generic ones. Simply asking the model to rate its overall confidence in a rule produced poor calibration. The questions that worked encoded what security engineers actually look for: whether the rule targets the vulnerability mechanism itself versus a correlated surface feature and whether the rule covers the full range of exploit variations. The system also generates reasoning chains explaining its scores. We evaluated those reasoning chains against human assessments and found that the AI judge's reasoning matched expert human reasoning for six out of nine rules. For example, when a human evaluator noted, "That SQL injection regex is too loose," the judge had independently determined that "the regex pattern will catch any query parameter with a single quote, which is broader than just the specific vulnerability." Results and what’s next We deployed the confidence scoring system in August 2025, accelerating how quickly our analysts can deploy new detection rules. Over the final four months of the year, RuleForge enabled our team to produce and validate rules 336% faster than it could manually, while maintaining the high accuracy required for production security systems. By shifting analyst focus from authoring to review, we’ve multiplied overall throughput without compromising quality. We’re closing the gap between vulnerability disclosure and defense more effectively than ever before and ensuring that the managed protections that help safeguard customer workloads on AWS are updated faster and cover more high-severity CVEs. RuleForge demonstrates that agentic AI can augment human security expertise at production scale while meeting precision requirements. The key innovations are architectural: separating rule generation from rule evaluation, using multiple specialized agents rather than a single model, and keeping humans in the loop for final approval. As the rate of vulnerability disclosures continues to accelerate, these design principles will help us keep defenses current. For a deeper look at the technical details behind RuleForge, including the evaluation methodology and experimental results, see our paper on arXiv.
関連記事
Pococha開発環境をEKS上で再設計:ブランチ単位の開発とPull Request単位の検証 [DeNAインフラSRE]
DeNAのインフラSREチームが、Pocochaの開発環境をAmazon EC2からAmazon EKSへ移行し、ブランチ単位の開発とPull Request単位の検証を可能にするコンテナベースの環境を構築した。
Amazon Bedrock AgentCoreでReactアプリにライブAIブラウザエージェントを組み込む
Amazonは、Bedrock AgentCoreのブラウザツールを提供し、開発者がReactアプリにAIエージェントを組み込めるようにした。これにより、ユーザーはAIエージェントのウェブ操作を可視化でき、信頼性と制御性を向上させる。
大規模エージェント管理の未来:AWS Agent Registryがプレビュー公開
AWSがAWS Agent Registryを発表し、組織内でエージェント・ツール・スキルを発見・共有・再利用できる機能をAmazon Bedrock AgentCoreで提供開始した。