Anthropic のセキュリティチームが Claude Code を活用して脅威検出プラットフォームを構築した方法
Anthropic のセキュリティチームが、Claude Code を活用してデータ断片化やコンテキストの欠如という課題を解決し、脅威検出プラットフォームを構築した事例を紹介している。
キーポイント
セキュリティエンジニアの課題認識
従来のセキュリティ調査では、複数のツール間でのコンテキストスイッチングや手動によるデータ収集がボトルネックとなり、アラート処理に多くの時間を要していた。
Claude Code を活用したプラットフォーム構築
Jackie Bow 率いるチームは、Slack や社内ドキュメントなどの文脈を統合し、人間が手動でデータを探す必要のない検出プラットフォームを Claude と協働して開発した。
責任あるスケーリングへの貢献
Anthropic の「責任あるスケーリングポリシー」に基づき、このチームは新機能の安全なリリース可否を判断する重要な役割を担っている。
影響分析・編集コメントを表示
影響分析
この記事は、LLM がセキュリティ運用(SecOps)の現場で実際に「ツール」として統合され、人間の認知負荷を軽減し意思決定を支援している具体的な成功事例を示しています。特に、Claude Code を用いて複雑なコンテキストを理解させるアプローチは、AI エージェントの実用化における重要な指針となり、業界全体がセキュリティ分野での AI 活用を加速させるきっかけとなるでしょう。
編集コメント
セキュリティ分野における LLM の実装事例として、単なる自動化を超えて「文脈理解」による意思決定支援が可能になった点が非常に示唆に富んでいます。
キャリアを通じて、ジャッキー・ボーは、単なるログやアラートではなく、Slack の会話、社内ドキュメント、そして何かが実際の脅威なのかノイズに過ぎないのかを判断させる組織的な知識といった、実際に重要な文脈にアクセスできるツールを想像し続けてきました。それは、人間が手動でデータを検索する負担を負う必要のないものです。
アンソロピックに参加したことで、彼女はついにそれらを構築する機会を得ました。その際、Claude が彼女の共同作業者となりました。ジャッキーはアンソロピックの検出プラットフォームエンジニアリングチームを率いており、このチームは防御的なサイバーセキュリティに焦点を当てています。具体的には、脆弱性を突くことではなく、脅威を検出し、潜在的な侵害に対応することに注力しています。その業務には、不審な活動に対するシステムの監視、セキュリティアラートのトリアージ、そしてインシデント化する前に異常を調査することが含まれます。
ますます能力の高い AI モデルを開発する企業にとって、この仕事は基盤となります。アンソロピックの責任あるスケーリングポリシー は、製品リリースをセキュリティへのコミットメントと直接結びつけており、つまりボーのチームが、会社が安全に出荷できるものを決定する役割を果たします。
「セキュリティエンジニアにとって黄金期だと感じています」と、アンソロピックの検出プラットフォームエンジニアリングチームで技術リーダーを務めるボーは語ります。「ついに、私がいつも欲しかったツールを構築できるようになりました。」
問題:データとアラートに溺れること
セキュリティリーダーたちは、このパターンをよく知っています。
アラートが発生する。アナリストはターミナルを開き、5 つから 6 つの異なるツールを行き来するというお決まりの儀式を開始する。それぞれのツールには独自のクエリ言語と思考モデルが必要である。彼らは複数のプラットフォームにまたがる専門知識を維持しつつ、異なるインターフェースやクエリ構文の間で絶えずコンテキストを切り替えなければならない。
各調査は、分断されたシステムに散らばった断片を組み立てるデータ考古学の実践となる。ほとんどのチームにとって、単純な調査でも数時間を要し、複雑なものになると数日に及ぶこともある。
"人間が1 日に見られるアラートの数には限界があり、それを超えると詳細な分析ができなくなるのです"とジャッキーは説明する。
彼女のチームはこれに対処することを決意した。彼らは自問した。何がエネルギーを削ぐのか?何が反復的で退屈なのか?何が影響力のある仕事をするのを妨げているのか?
答えは明確だった。アラートのトリアージ(選別)には、脅威が実際に存在するかをアナリストが判断するまでに数時間を要することがある。分断されたシステム間での手動による相関分析は、すべてのプロセスを遅らせていた。また、クエリ言語やインターフェースの間で絶えずコンテキストを切り替えることが、1 日を通じて蓄積する認知負荷(cognitive overhead)を生み出していた。
会社が成長するにつれ、攻撃対象領域も拡大し、セキュリティチームへの要求も高まる。
"Anthropic のニーズに応えてスケールするには、Claude のようなものを活用して補完する必要があります」とジャッキーは語る。
The solution: Claude Looks Up Evidence (CLUE)
数ヶ月にわたり、ボウのチームは CLUE を構築しました。これはセキュリティチームが脅威を調査する方法を再考した検知・対応プラットフォームです。スタックにもう一つのダッシュボードを追加するのではなく、CLUE はツール使用を通じて Anthropic の内部システムに直接接続し、Claude によって駆動される自然言語インターフェースを提供します。
Claude Code を用いて CLUE を構築することで、従来のソフトウェア開発のタイムラインが指数関数的に短縮され、チームは日々の業務をこなしつつもこのシステムの構築に注力できるようになりました。ボウのチームはわずか 1 日で概念実証(POC)を実行し、設計ドキュメント、開発手順、実装は 1 週間以内に完了しました。
「私たちが構築したものの多くは、Claude Code と対話することでした」とジャッキーは振り返ります。「それは設計パートナーであり、共同作業者でもありました。」
彼女の認識が変わった瞬間は、CLUE のインターフェースにボタンを追加するよう Claude Code に依頼したときでした。彼女は JavaScript フレームワークや CSS デバッグの慣れ親しんだ苦労を予想していました。しかし Claude Code はその機能を即座に実装し、彼女自身が行うよりも優れたものとなりました。
「その時、私はもはや自分の技術的制約に縛られていないと気づきました。私が思いつくものは何でも構築できるのです」と彼女は言います。
CLUE トリアージ
アラートが流入すると、CLUE Triage は人間の分析担当者がそれらを目にする前に最初のトリアージを実行します。Claude はツールを使用して、Slack のメッセージ、社内ドキュメント、コードリポジトリ、データウェアハウスなど、Anthropic 内のさまざまなシステムから追加のコンテキストを各アラートに付与します。そして、誤検知(false positive)、真陽性(true positive)、悪意のある行為、または予期された挙動という判断を下します。各アラートには信頼度スコアが付与されるため、分析担当者はどこに注力すべきかを把握できます。
このコンテキスト付与のステップは、あらゆるセキュリティ分析担当者が認識している問題を解決するものです。アラートは孤立したシグナルとして届きます。ログイン試行の失敗。異常な API 呼び出し。設定の変更。これらには文脈がないため、単なるノイズに過ぎません。しかし、文脈(ユーザーは誰か、何に取り組んでいたか、これがチームのパターンと一致しているかどうか)があれば、明確なシグナルが浮かび上がります。
「その内部コンテキストこそが、環境に合わせてアラートを文脈化するために本当に必要な欠けているピースです」と Jackie は説明します。
CLUE 調査
CLUE を用いることで、セキュリティ分析担当者は自然言語を使ってすべてのセキュリティ上重要なログを照会できるようになりました。「過去一日にこのシステムで発生したすべてのログイン失敗は何ですか?」と知りたい場合、CLUE に尋ねるだけで、Claude が必要な SQL クエリを実行します。
「Claude は、人間よりもはるかに正確なクエリを作成するのが得意です」とジャッキー氏は言います。このツールはエージェントループを実行します。オーケストレーターがサブエージェントにコマンドを発行し、それらが並列でクエリを実行し、発見された情報を収集して、一貫性のある調査サマリーとして統合します。以前なら数時間にわたる手動の相関分析を要した作業が、現在は 3〜4 分で完了します。
この数字はそれを裏付けています。調査全体を通じて、CLUE はセッションあたり平均 25 回のツール呼び出しとほぼ 11 回のクエリを実行しています。これは分析担当者が手動で実行できる量をはるかに超えており、かつより高い精度を誇ります。これらの各ツール呼び出しは、本来別々のコンソールを開くか、異なるインターフェースに切り替えることを必要とするものです。
しかし、真の差別化要因は内部コンテキストにあります。CLUE はツールを通じて Anthropic のシステムに直接接続し、Claude に外部セキュリティプラットフォームでは決してアクセスできない組織固有の知識へのアクセス権を与えます。アラートが発生すると、Claude は Slack を確認してチームが計画されたメンテナンスについて議論したかどうかを確認できます。データウェアハウスをクエリしてベースラインの動作を理解することも可能です。また、コードリポジトリを検査して、各サービスが実際に何を行うのかを理解することもできます。
データガバナンスレビュー
チームは、CLUE の能力を実証するために、一般的なデータガバナンスのシナリオを示しました。過去 2 ヶ月間に 3 人の契約社員が、アクセスすべきではない文書にアクセスしていないかを確認するというものです。
ボウ氏によると、この種の調査は通常、アクセスログの照会、権限の相互参照、ドキュメント分類の確認などを含め、手作業で少なくとも半日かかるものです。CLUE により、Claude はリクエストを読み込み、計画を立て、技術的な複雑さを抽象化した詳細なクエリを生成します。調査は数分で完了し、実行されたすべてのクエリに対する完全な透明性を保ちながら、要約と推奨事項が出力されます。
インパクトの測定
チームが CLUE の構築に取り組んだ際、単に速度が向上したと感じるだけでなく、結果を定量化できるかどうかを理解したいと考えていました。
誤検知の削減: CLUE Triage 導入前、アラートの約 3 分の 1 が誤検知であることが判明していました。この割合は 7% に低下し、アナリストは重要なシグナルに時間を割けるようになりました。
より広範なカバレッジ: 速度よりも重要なのは、チームが現在調査できる範囲です。CLUE 導入前、信頼度が低いシグナルは時間がなかったため調査されませんでした。しかし今では、CLUE Triage はすべての着信アラートをエンリッチメント処理で処理し、バッチ処理により、従来はダッシュボード上のノイズとして扱われていた数千のシグナルを処理します。
スケールにおける時間節約: 30 日間の使用実績に基づくと、CLUE は約 12,000 のクエリと 27,000 のツール呼び出しを自動化しました。これを手作業で完了するには推定 1,870 時間(234 人日)が必要でした。これは手動のトリアージと比較して 5〜10 倍の時間節約につながります。
まだ測定方法を習得中: 精度は速度よりも定量化が難しい。チームは CLUE の判断結果をレビューし、意見の相違を追跡しているが、Claude が分析担当者が見逃したものをどの程度検出できるか、その逆もまた同様かを理解するためのフィードバックループはまだ構築途中である。トランスクリプトが役立つ:すべての調査記録から、Claude が何を精査し、どのように結論に至ったかを正確に監査できる。
今後の展望:Claude として調査させること
AI 研究には「苦い教訓」と呼ばれる概念がある。これは、人間固有の推論をモデルに埋め込むことは、モデルに一般的な能力を与え、独自の手法を見つけさせることに比べ、一貫して性能が劣るという観察結果である。Bow と彼女のチームは、これが検出と対応において何を意味するかを考えている。
「CLUE の開発初期、チームは Claude の調査経路をどの程度制限すべきかで議論した」と Bow は語る。「SOAR 時代の直感はこうだった:プレイブックを作成し、すべての手順を定義し、プロセスを決定論的にする。しかし、私たちは何かを見続けていた。Claude に探索の余地を与えたとき、つまりツールへのアクセスと目標を提供し、硬直的な順序ではなく与えた場合、しばしば私たちが事前に指定しなかった調査経路をとった。その経路の中には、私たちが見過ごした文脈を浮き彫りにするものもあった。
鍵は、Claude に境界線(使用可能なツールやアクセスできるデータ)を与える一方で、戦略は自由にしておくことにある。この洞察が、CLUE の次の方向性を形作っている。
受動的から能動的へ: 今日、CLUE はアラートに応答します。イベントが発生すると、Claude が調査を行います。しかし、このアーキテクチャはより野心的な機能もサポートしています:継続的な探索です。検出ルールがトリガーされるのを待つのではなく、Claude エージェントは積極的に不審なパターンを狩ることができます。チームが作成したどのルールにも一致しない異常や、個別には正常に見えても集計すると不自然に見える振る舞いなどです。
自身からの学習: チームはすべての調査のトランスクリプトを保存しています。このコーパスは、過去の調査がどのように展開されたかにおけるパターンを Claude が照会できるナレッジベースへと成長しています。時間の経過とともに、CLUE は人間の分析担当者が維持できない組織的記憶を発達させます。
非決定性の受容: 従来のセキュリティツールは不整合をバグとして扱います。一方、CLUE はそれを機能として扱います。同じアラートでも日によって異なる方法で調査されるかもしれませんが、それは問題ありません。場合によっては、2 つ目の経路が最初の経路で見逃した何かを発見するからです。チームは複数の調査戦略を並列実行し、結果を比較することを実験しています。
"セキュリティ運用における苦い教訓とは何でしょうか?私たちは人間がどのように調査するかをエンコードしたシステムを数年間構築してきました。次世代のツールは、モデルに調査能力を与え、私たちが指示するよりも優れたアプローチを見つけさせるべきです"と Bow は付け加えます。
*AI による攻撃加速に対応するためのセキュリティプログラム準備に関するベストプラクティスをご覧ください。*
*Claude Code*(https://www.anthropic.com/claude-code)の活用を今日から始めましょう。Anthropic が Claude をどのように活用しているかを紹介する「How Anthropic uses Claude」シリーズでは、今後もさらに多くのストーリーをお届けします。
これらの結果は、Claude Sonnet および Opus モデルを使用して生成されました。
原文を表示
For her entire career, Jackie Bow imagined tools that could tap into the context that actually matters—not just logs and alerts, but the Slack conversations, internal docs, and institutional knowledge that tell you whether something is a real threat or just noise—without needing humans to take the load of combing through the data manually.
When she joined Anthropic, she finally got the chance to build them—with Claude as her collaborator. Jackie leads Anthropic's Detection Platform Engineering team, which focuses on defensive cybersecurity: detecting threats and responding to potential breaches rather than probing for vulnerabilities. The work involves monitoring systems for suspicious activity, triaging security alerts, and investigating anomalies before they become incidents.
For a company building increasingly capable AI models, this work is foundational.Anthropic's Responsible Scaling Policy ties product releases directly to security commitments, meaning Bow's team helps determine what the company can safely ship.
"I feel like it's the golden age of the security engineer," says Bow, who serves as Technical Lead for Anthropic's Detection Platform Engineering team. "I can finally build the tools I always wished I had."
The problem: Drowning in data and alerts
Security leaders know the pattern all too well.
An alert fires. An analyst opens their terminal and begins the familiar ritual of jumping between five or six different tools, each requiring its own query language and mental model. They must maintain expertise across multiple platforms while constantly context-switching between different interfaces and query syntaxes.
Each investigation becomes an exercise in data archaeology, piecing together fragments scattered across disconnected systems. For most teams, simple investigations consume hours, and complex ones can stretch across days.
"There's only so many alerts a human can look at in a day before they start to drop off in how detailed they're going into it," Jackie explains.
Her team decided to do something about it. They asked themselves: what's draining our energy? What feels repetitive? What prevents us from doing impactful work?
The answers were clear. Alert triage could eat up hours before analysts could determine if threats were real. Manual correlation across disconnected systems slowed everything down. And the constant context-switching between query languages and interfaces created cognitive overhead that compounded throughout the day.
As the company grows, so does the attack surface, and so do the demands on the security team.
"We can't scale to meet the needs of Anthropic without augmenting with something like Claude," Jackie says.
The solution: Claude Looks Up Evidence (CLUE)
Over several months, Bow's team built CLUE, a detection and response platform that reimagines how security teams investigate threats. Rather than adding another dashboard to the stack, CLUE provides a natural language interface powered by Claude that connects directly to Anthropic's internal systems via tool use.
Building CLUE with Claude Code collapsed the traditional software development timeline exponentially, freeing them up to build this system in addition to tackling their day-to-day work. Bow's team had a proof of concept running in a day. Design documentation, development steps, and implementation finished within a week.
"So much of what we built was us talking to Claude Code," Jackie recalls. "It was both a design partner and collaborator."
The moment that shifted her perception came when she asked Claude Code to add a button to the CLUE interface. She expected the familiar slog of JavaScript frameworks and CSS debugging. Claude Code implemented the feature immediately, and did it better than she would have.
"That was when I realized I'm not bound by my own technical limitations anymore. I can build whatever I can think of," she says.
CLUE Triage
When alerts flow in, CLUE Triage performs the first-pass triage before a human analyst ever sees them. Claude uses tools to enrich each alert with additional context from across Anthropic's systems, including Slack messages, internal documentation, code repositories, and data warehouses. It assigns dispositions: false positive, true positive, malicious, or expected behavior. Each alert receives a confidence score so analysts know where to focus their attention.
This enrichment step solves a problem any security analyst recognizes: alerts arrive as isolated signals. A failed login attempt. An unusual API call. A configuration change. Without context, these events are just noise. With context (who the user is, what they were working on, whether this matches patterns from their team) clear signals emerge.
"That internal context is the missing piece that really helps alerts be contextualized for your environment," Jackie explains.
CLUE Investigate
With CLUE, security analysts can now query all security-critical logs using natural language. Want to know "What are all the failed logins for this system over the past day?" Just ask CLUE, and Claude executes the necessary SQL queries.
"Claude is much better at writing precise queries than humans are," Jackie says. The tool runs an agentic loop: an orchestrator issues commands to sub-agents that execute queries in parallel, gather findings, and synthesize results into coherent investigation summaries. What would take hours of manual correlation work now runs in three to four minutes.
The numbers bear this out. Across investigations, CLUE averages 25 tool calls and nearly 11 queries per session—far more than an analyst could reasonably execute manually, and with higher precision. Each of those tool calls would otherwise require opening a separate console or switching to a different interface.
The real differentiator, however, is internal context. CLUE connects directly to Anthropic's systems via tools, giving Claude access to institutional knowledge that external security platforms would never be able to access. When an alert fires, Claude can check Slack to see if the team discussed planned maintenance. It can query the data warehouse to understand baseline behavior. It can examine code repositories to understand what a service actually does.
Data governance review
The team demonstrated CLUE's capabilities with a common data governance scenario: checking whether three contractors had accessed any documents they shouldn't have over the past two months.
According to Bow, this type of investigation would typically take at least half a day of manual work, including querying access logs, cross-referencing permissions, and reviewing document classifications. With CLUE, Claude reads the request, formulates a plan, and generates verbose queries that abstract the technical complexity. The investigation is over in minutes, producing a summary and recommendations with full transparency into every query run.
Measuring the impact
When the team set out to build CLUE, they wanted to understand not just whether it felt faster, but whether they could quantify the results.
Fewer false positives: Before CLUE Triage, roughly one in three alerts turned out to be false positives. That rate has dropped to 7%, meaning analysts spend their time on signals that matter.*
Broader coverage: Perhaps more important than speed is what the team can now examine. Before CLUE, lower-confidence signals went unexamined because there simply wasn't time. Now, CLUE Triage processes every incoming alert with enrichment, and batch processing handles thousands of signals that would have previously been noise in a dashboard.
Time savings at scale: Based on 30 days of usage, CLUE automated roughly 12,000 queries and 27,000 tool calls—work that would have taken an estimated 1,870 hours (234 person-days) to complete manually. That translates to 5-10x time savings compared to manual triage.*
What they're still learning to measure: Accuracy is harder to quantify than speed. The team reviews CLUE's dispositions and tracks disagreements, but they're still building the feedback loops to understand how often Claude catches something analysts would have missed—and vice versa. The transcripts help: every investigation can be audited for exactly what Claude examined and how it reached its conclusions.
Where we're headed: letting Claude investigate like Claude
There's a concept in AI research called "the bitter lesson"—the observation that encoding human-specific reasoning into models consistently underperforms compared to giving models general capabilities and letting them find their own approaches. Bow and her team have been thinking about what this means for detection and response.
"Early in CLUE's development, the team debated how much to constrain Claude's investigation paths," says Bow. "The SOAR-era instinct said: build playbooks, define every step, make the process deterministic. But we kept noticing something. When we gave Claude latitude to explore—access to tools and a goal, rather than a rigid sequence—it often took investigation paths we wouldn't have prescribed. Sometimes those paths surfaced context we'd have missed."
The key is giving Claude boundaries (what tools it can use, what data it can access) while leaving the strategy open. This insight shapes where they're taking CLUE next.
From reactive to proactive: Today, CLUE responds to alerts. An event fires, Claude investigates. But the architecture supports something more ambitious: continuous exploration. Instead of waiting for detection rules to trigger, Claude agents could actively hunt for suspicious patterns—anomalies that don't match any rule the team has written, behaviors that look normal individually but unusual in aggregate.
Learning from itself: The team stores every investigation transcript. That corpus is becoming a knowledge base Claude can query for patterns in how past investigations unfolded. Over time, CLUE develops organizational memory that no human analyst could maintain.
Embracing non-determinism: Traditional security tooling treats inconsistency as a bug. CLUE treats it as a feature. The same alert might get investigated differently on different days, and that's fine—sometimes the second path finds something the first missed. The team is experimenting with running multiple investigation strategies in parallel and comparing results.
"The bitter lesson for security operations? We spent years building systems that encoded how humans investigate. The next generation of tools should give models the capability to investigate and let them find better approaches than we would have prescribed," Bow adds.
*Check out our best practices for preparing your security program for AI-accelerated offense.*
*Get started with *Claude Code* today. Stay tuned for more stories in the "How Anthropic uses Claude" series.*
**These results were generated using Claude Sonnet and Opus models.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み