AmazonがAIエージェントでサイバー脅威を予測・対抗する方法
Amazonは、赤チームと青チームのAIエージェントが敵対的マルチエージェント強化学習を用いて自律的にサイバー脅威を分析・対抗する「Autonomous Threat Analysis(ATA)」システムを開発し、従来数週間かかっていたセキュリティ保護の開発を数時間に短縮した。
キーポイント
Autonomous Threat Analysis(ATA)の概要
Amazonが開発した自律型セキュリティテストシステムで、AIエージェントと敵対的マルチエージェント強化学習を活用し、脅威を先取りして防御能力を開発・適応させる。
赤チーム・青チームAIエージェントの連携
赤チームエージェントが攻撃手法を模倣し、青チームエージェントが検知範囲を検証し、新たな手法が見つかれば新規または改善されたルールを生成する。
グラフワークフローシステムによる運用
各ノードが専門的な能力と目的を持つAIエージェントを表し、ワークフローがこれらのエージェントを順序立てて調整し、一つのエージェントの出力が次のエージェントの入力となる。
実用化と効果
2024年8月の内部ハッカソンで48時間でプロトタイプを開発し、脅威検知ルールの抜け穴を特定して改善策を自動生成。本番システムを模した隔離環境で運用し、実際の運用リスクゼロで現実的なテストを実現。
実証ベースのアーキテクチャによるAI幻覚リスクの軽減
ATAはグラウンデッド実行アーキテクチャを採用し、AI評価のみに依存せず、実際のインフラストラクチャに対して技術と検知を検証する。すべての主張は特定ホストからのタイムスタンプ付きログで裏付けられる。
Pythonリバースシェル検知の実証的改善プロセス
ATAのレッドチームエージェントは37種類のリバースシェル技術バリエーションを生成・実行し、64種類の脅威バリエーションに対して改善された検知ルールを開発。1.00の精度と再現率を達成した。
責任あるAI使用のための多層的保護策
すべてのテストは分離された一時的環境で実施され、厳格な検証により誤検知を防止。人間の監視が重要な役割を果たし、自動化と人間の判断のバランスを保つ。
影響分析・編集コメントを表示
影響分析
この技術は、AIを活用したサイバーセキュリティ防御のパラダイムシフトを示しており、人間中心の従来型アプローチから、AIエージェントによる自律的・継続的な防御システムへの移行を加速させる可能性がある。特に大規模プラットフォームにおける脅威対応の自動化と高速化は、業界全体のセキュリティ標準を引き上げる影響を与える。
編集コメント
企業の技術開発成果を紹介する記事だが、敵対的AIエージェントを用いた自律的セキュリティ防御の具体的なアーキテクチャと実用化プロセスが詳細に説明されており、技術的な深みがある。サイバーセキュリティとAIの融合における実践的な進展例として注目に値する。
Amazonの競合エージェントアーキテクチャは、継続的改善サイクルを創出し、機械の速度でセキュリティ対策を進化させることで、通常数週間かかるプロセスを数時間に短縮します。
セキュリティ、プライバシー、悪用防止
Daniel Weiss November 24, 09:00 AM November 24, 10:01 AM サイバーセキュリティの世界では、攻撃者と防御者の戦いは、特にAIの登場により、新たなレベルの高度化と高速化を迎えています。Amazonでは、画期的なソリューション「Autonomous Threat Analysis(ATA)」を開発しました。これは、エージェント型AIと敵対的マルチエージェント強化学習を活用して防御機能を強化・拡張し、新興脅威に対してもシステムの堅牢性を維持するセキュリティシステムです。
ATAの構想は、従来のセキュリティテストの限界に対処するため、2024年8月に開催された社内ハッカソンで生まれました。目標は、検知能力を先制的に開発し、セキュリティ制御を迅速に適応させられるシステムを構築することでした。わずか48時間で開発した初期プロトタイプは、脅威検知ルールの不備を特定し、改善された解決策を自動生成することで、このアプローチの可能性を実証しました。この成功が、現在運用している自律型セキュリティテストシステム、ATAの誕生につながりました。
Autonomous Threat Analysisの仕組み
ATAは、レッドチームとブルーチームのAIエージェントを用いて、包括的なセキュリティテストシナリオを実行します。レッドチームエージェントは攻撃者の手法を模倣し、ブルーチームエージェントは検知範囲を検証するとともに、新たな手法が発見された場合には新規または改善されたルールを生成します。ATAはグラフワークフローシステム上で動作し、各ノードは特定の能力と目的を持った専門AIエージェントを表しています。ワークフローはこれらのエージェントを順序立てて調整し、あるエージェントの出力を次のエージェントの入力とします。
image Autonomous Threat Analysisワークフローグラフの例:ルール生成サブグラフ このシステムは、実際の運用や顧客データから完全に隔離された状態を保ちつつ、当社のコードベースや本番システムを模倣するように特別に構築された環境で動作します。これにより、実際の運用へのリスクをゼロに抑えながら、現実的なテスト環境を提供します。
ATAの主要な革新点の一つは、グラウンデッド実行アーキテクチャです。純粋にAIの評価に依存するのではなく、ATAはあらゆる攻撃手法とその検知を、実際のインフラストラクチャに対して検証します。レッドチームエージェントはテストシステム上で実際のコマンドを実行し、実テレメトリを生成します。ブルーチームエージェントは、実際のログデータベースに照会することで、検知の有効性(精度/再現率)を検証します。エージェントがある手法を実行したと主張する場合、それを証明する特定ホストからのタイムスタンプ付きログが存在します。この設計により、すべての主張が実際のシステム実行から得られた観測可能な証拠に裏付けられるため、AIハルシネーションのリスクを軽減します。
image Autonomous Threat Analysisワークフローグラフの例:手法実行サブグラフ 事例研究:Pythonリバースシェル
Pythonリバースシェルに関する取り組みは、このアプローチの実践的な働きを示す好例です。リバースシェルは、攻撃者が侵害したシステムから自身のサーバーへ接続を確立し、コマンド&コントロールを行う一般的な手法です。Pythonベースの実装は、Pythonがインフラ全体に広くインストールされており、コマンドが多様な方法で難読化可能なため、特に検知が困難です。
この課題に対処するため、ATAのレッドチームエージェントは、体系的に37種類のリバースシェル手法のバリエーションを生成し、実行に成功しました。この探索的テストにより、より焦点を絞った分析につながる新規手法が特定されました。この知見を基に、Pythonリバースシェル検知ルールに対する集中的なテストを実施しました。
システムは脅威の64のバリエーションを生成し、改良された検知ルールを開発しました。これらのバリエーションと1時間分の本番監査データを用いたテストの結果、このルールは精度1.00、再現率1.00を達成しました。この改善プロセスは、複数回の独立した実行にわたって一貫した再現性を示しました。本事例研究は、追加の脅威ハンティングの機会を発見し、複数の新規検知ルールの策定に寄与し、ATAが体系的に防御力を強化する能力を実証しました。
セーフガードと責任あるAI
セキュリティテストにおけるAIの責任ある利用を確保するため、ATAには多層的なセーフガードが組み込まれています。すべてのテストは隔離された一時環境で実行され、成功した手法のバリエーションは直ちに検知ルールに変換されます。グラウンデッド実行アーキテクチャがAIハルシネーションリスクを軽減し、厳格な検証が誤検知を防止することで、脅威行為者が実際に手法を悪用する前に、それを検知・防御できるようにします。さらに、厳格なアクセス制御と包括的な監査ログにより、システムの完全性が維持されます。
本番環境への適用前に変更を承認するため、人の監視は依然として重要です。自動化と人間の判断のこのバランスにより、AIの強みを活用しつつ、責任ある効果的なセキュリティ対策を確保しています。
戦略的インパクト
このシステムは顕著な回復力(レジリエンス)を示しています。手法の実行が最初に失敗した場合、エージェントは自動的にエラーを分析してアプローチを改良し、通常は3回以内の改良試行で成功します。この適応能力は、自動化された検証および検知ルール生成と組み合わさることで、エンドツーエンドのワークフローを、数週間かかる手作業から約4時間に短縮し、時間を96%削減します。この効率化は、セキュリティ態勢を強化するだけでなく、セキュリティチームが単調なテスト作業から解放され、戦略的イニシアチブに集中できるようにします。
事前定義された手法を実行する従来のセキュリティテストツールとは異なり、ATAはエージェントが自身の行動について推論し、結果に基づいて戦略を適応させることを可能にします。例えば、偵察、悪用、横移動を含む多段階の攻撃計画をテストする際、ATAのエージェントは一連のステップを完全に模倣し、1時間以内に2つの新たな検知機会を特定しました。
AIによるセキュリティの拡張
脅威環境が進化する中、ATAはそれに対応するための拡張可能なソリューションを提供します。システムは10から30の手法バリエーションを並行して実行でき、個々の検知ルールテストは、その範囲と並列化設定に応じて1〜3時間で完了します。この拡張性は、当社のインフラストラクチャとサービスが複雑化するにつれて、極めて重要になります。
ATAはセキュリティテストの多くの側面を自動化しますが、これは人間の専門知識を補完するように設計されており、置き換えるものではありません。人間のセキュリティ専門家は創造的思考に優れ、AIが模倣できない方法でビジネスコンテキストを理解します。ATAは、日常的なテスト作業をAIが処理することで、これらの専門家が戦略的イニシアチブに集中できるようにし、両者の強みを活かすパートナーシップを創出します。
レッドチーム/ブルーチームのテストサイクルを自動化することで、ATAは攻撃者より一歩先を行き、誤検知を減らし、全体的なセキュリティ態勢を強化することを可能にします。これは単なる効率化の問題ではなく、顧客を保護し、最も高度な脅威に対してもシステムが回復力を維持することを確保するための取り組みです。
研究分野: セキュリティ、プライバシー、悪用防止、セキュリティ、プライバシー、悪用防止
タグ: エージェント型AI
原文を表示
How Amazon uses AI agents to anticipate and counter cyber threats
Amazon's competitive-agent architecture creates a continuous improvement cycle that develops security protections at machine speed, reducing what typically takes weeks down to hours.
Security, privacy, and abuse prevention
Daniel Weiss November 24, 09:00 AM November 24, 10:01 AM In cybersecurity, the battle between adversaries and defenders has reached new levels of sophistication and speed, especially with the emergence of AI. At Amazon, we've developed a groundbreaking solution: Autonomous Threat Analysis (ATA), a security system that leverages agentic AI and adversarial multiagent reinforcement learning to enhance and scale defenses, ensuring our systems remain robust against emerging threats.
The concept of ATA began in August 2024 during an internal hackathon aimed at addressing limitations in traditional security testing. Our goal was to create a system that could preemptively develop detection capabilities and rapidly adapt security controls. We developed the initial prototype in just 48 hours, demonstrating the potential of this approach by identifying a loophole in a threat detection rule and automatically generating an improved solution. This success led to the creation of ATA, the autonomous security-testing system we use today.
How Autonomous Threat Analysis works
ATA executes comprehensive security-testing scenarios with red-team and blue-team AI agents. Red-team agents simulate adversaries techniques, while blue-team agents validate detection coverage and generate new or improved rules when novel techniques are found. ATA operates through a graph workflow system where each node represents a specialized AI agent with distinct capabilities and objectives. The workflow coordinates these agents in sequences, with outputs from one agent becoming inputs for the next.
image Sample Autonomous Threat Analysis workflow graph: Rule generation subgraph The system operates in specially created environments that mimic our codebases and production systems while remaining completely isolated from actual operations and customer data. This ensures zero risk to actual operations while providing realistic testing conditions.
One of ATA's key innovations is its grounded execution architecture. Rather than relying purely on AI evaluation, ATA validates every technique and detection against real infrastructure. Red-team agents execute actual commands on test systems, producing real telemetry. Blue-team agents validate detection effectiveness (precision/recall) by querying actual log databases. If an agent claims it executed a technique, there are timestamped logs from specific hosts proving it. This design mitigates AI hallucination risks, as every claim is backed by observable evidence from actual system execution.
image Sample Autonomous Threat Analysis workflow graph: Technique execution subgraph Case study: Python reverse shells
Our work on Python reverse shells illustrates how this approach works in practice. Reverse shells are a common technique where adversaries establish command and control by creating a connection from a compromised system back to their server. Python-based implementations are particularly challenging to detect because Python is widely installed across infrastructure, and commands can be obfuscated in numerous ways.
To address this challenge, ATA's red-team agents systematically generated and successfully executed 37 reverse-shell-technique variations. This exploratory testing identified novel techniques that informed more-targeted analysis. Building on these findings, we conducted focused testing of our Python reverse-shell detection rule.
The system generated 64 variants of the threat and developed an improved detection rule. Testing against these variants and one hour of production audit data, the rule achieved 1.00 precision and 1.00 recall. The improvement process demonstrated consistent reproducibility across multiple independent runs. This case study uncovered additional threat-hunting opportunities and informed multiple new detection rules, demonstrating ATA's ability to systematically strengthen our defenses.
Safeguards and responsible AI
To ensure the responsible use of AI in security testing, ATA incorporates multiple layers of safeguards. All testing occurs in isolated, ephemeral environments, and any successful technique variations are immediately converted into detection rules. Our grounded execution architecture mitigates AI hallucination risks, while rigorous validation prevents false positives, ensuring we can detect and defend against techniques before threat actors adopt them in the wild. Furthermore, strict access controls and comprehensive audit logging maintain the integrity of our systems.
Human oversight remains critical for approving changes before deployment to production. This balance between automation and human judgment allows us to leverage the strengths of AI while ensuring responsible and effective security measures.
Strategic impact
The system demonstrates remarkable resilience. When technique executions initially fail, agents automatically analyze errors and refine their approaches, typically succeeding within three refinement attempts. This adaptive capability, combined with automated validation and detection rule generation, reduces the end-to-end workflow from weeks of manual effort down to approximately four hours, a 96% reduction in time. This efficiency not only enhances our security posture but also allows our security teams to focus on strategic initiatives rather than rote testing.
Unlike traditional security-testing tools, which execute predefined techniques, ATA allows agents to reason about their actions and adapt their strategies based on outcomes. For example, in a test involving a multistep plan including reconnaissance, exploitation, and lateral movement, ATA's agents successfully simulated the complete sequence of steps and identified two new detection opportunities in under an hour.
Scaling security with AI
As the threat landscape evolves, ATA provides a scalable solution to keep pace. The system executes 10 to 30 technique variations concurrently, with individual detection-rule tests completing in one to three hours, depending on scope and parallelization settings. This scalability is crucial as our infrastructure and services grow in complexity.
Although ATA automates many aspects of security testing, it is designed to augment, not replace, human expertise. Human security professionals excel at creative thinking and understand business context in ways that AI cannot replicate. ATA enables these experts to focus on strategic initiatives while AI handles routine testing, creating a partnership that leverages the strengths of both.
By automating the red-/blue-team testing cycle, ATA enables us to stay ahead of adversaries, reduce false positives, and enhance our overall security posture. This is not just about efficiency; it's about protecting our customers and ensuring that our systems are resilient against the most sophisticated threats.
Research areas: Security, privacy, and abuse prevention, Security, privacy, and abuse prevention
Tags: Agentic AI
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み