最先端サイバーモデルからの防御:クラウドフレアが顧客ゼロとして示すアーキテクチャの重要性
Cloudflare は、サイバーフロンティアモデルによる攻撃速度の加速に対し、パッチ適用の速さよりもアーキテクチャ設計が重要であると主張し、自社のセキュリティスタックを「カスタマーゼロ」として実証した。
キーポイント
攻撃者のタイムライン短縮とアーキテクチャの重要性
サイバーフロンティアモデルは脆弱性発見からエクスプロイトチェーン構築までを劇的に高速化したが、セキュリティ対策においてはパッチ適用速度よりも、侵入を防ぐためのアーキテクチャ設計がより重要であると強調している。
AI による自動パッチ生成の限界とリスク
開発チームは AI でコードを高速化できる一方、セキュリティ対策では AI が生成したパッチが依存関係を壊すなどの予期せぬ副作用を引き起こす可能性があり、人間による検証プロセスの重要性が再確認された。
Cloudflare 自身による「カスタマーゼロ」の実践
記事で提示される防御アーキテクチャは Cloudflare の自社製品のみで構築されており、同社自身が自社のセキュリティプロダクトの最初の顧客(Customer Zero)として厳格なテストと適用を行っている。
フロンティアモデルによる攻撃の変化点
侵入の基本的な段階(偵察、初期アクセスなど)は変わらないが、低垂れた果実を素早く見つけ出し、大量のノイズを発生させることで、従来の手動攻撃とは異なる速度と規模で脅威をもたらす。
脆弱性発見の速度格差
AI モデルは大規模な公開コードを高速に検索・解析できるため、攻撃者が防御者よりも先に脆弱性を特定し、実証可能な攻撃コードを生成するリスクが高まっています。
署名ベース検知の回避と適応
AI は単一の脆弱性から数千種類のバリエーションを生成して大量にテストできるだけでなく、WAF などの防御機構を検知し、ブロックを回避するよう攻撃ペイロードを動的に変化させることができます。
アーキテクチャによる被害の最小化
すべての脆弱性を防ぐことは不可能であるため、重要なのは「1 つの認証情報やパスでどこまで侵入できるか」を制限する堅牢なアーキテクチャ設計にあります。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI が攻撃のスピードと効率を劇的に向上させる現代において、従来のパッチ適用速度競争から、根本的なシステムアーキテクチャの堅牢性へとセキュリティ対策の軸足を移す必要性を示唆しています。特に、AI による自動修復の限界を自社の事例で示した点は、開発・運用チームにとって AI ツールの過信を防ぐ重要な教訓となります。
編集コメント
セキュリティ対策において「スピード」だけでなく「設計の堅牢性」が問われる時代へと移行したことを示す、非常に示唆に富む記事です。AI の活用が進む中で、自動生成コードのリスクを自社の事例で冷静に分析している点が高く評価されます。
数週間前、私たちはプロジェクト・グラスウィングについて、そしてサイバーフロンティアモデルを自社のコードに向けて実行した際に観察されたことについて記事を書きました。それ以来、当記事の中で最も深く共感を呼んだのは、パッチの速度よりも脆弱性を取り巻くアーキテクチャの方が重要であるという主張であると気づいています。
その後の CISO やセキュリティチームとの対話において、一貫して寄せられた質問は以下の通りです:私たちのアーキテクチャは実際にはどのようなものなのか、何を監視すべきか、どこから着手すればよいか、そして Cloudflare はどのように支援できるのか?
詳細に入る前に:以下に示すアーキテクチャは、ほぼ完全に Cloudflare 自身の製品で構築されています。なぜなら、私たちが構築するセキュリティ製品のセキュリティにおいて、Cloudflare 自身は「カスタマー・ゼロ(最初の顧客)」だからです。Cloudflare のスタックはすでに、私たちのコードや従業員、顧客向けアプリケーションの前に存在しています。あなたが Cloudflare のお客様であれば、以下のすべてのレイヤーを今日から利用可能です。もしお客様でなくても、これらの原則はあなたが構築したあらゆるスタックに適用されます。
サイバーフロンティアモデルが実際に何を変えるのか
前回の投稿では、Mythos といったサイバーフロンティアモデルが攻撃者のタイムラインをどのように変化させるかを示しました。これらのモデルは脆弱性を発見し、エクスプロイトチェーンを推論し、動作する証明を従来よりも迅速に生成できます。Mythos のようなモデルは侵入の形状そのものを変えるわけではありません——偵察、初期アクセス、横断移動、永続化、そしてデータ漏洩という各段階は依然として発生する必要がありますが、違いはその速度と規模にあります。オープンウェブを対象とする場合、モデルはすぐに低垂れた果実(容易な標的)を見つけ、攻撃を仕掛けることができます。一方、堅牢に防御されたターゲットに対しては、依然としてプローブを行い、適応する必要があり、慎重な人間オペレーターが作成するものよりも多くのノイズを生じさせることがよくあります。
発見、エクスプロイトチェーンの構築、概念実証(Proof-of-Concept: PoC)の生成は、かつて動作する攻撃を成立させるためのボトルネックとなる制約でした。フロンティアモデルはこの 3 つをすべて、従来よりもはるかに短い時間で処理します。かつては遅く、計画的に行われていた作業が、現在は迅速かつ無差別に実行されるようになりました。
AI は Cloudflare や多くの他の企業の開発チームがコードをリリースする速度を加速させていますが、セキュリティチームの作業は同じように圧縮されていません。攻撃者には侵入するために一度の隙さえあれば十分ですが、セキュリティチームはすべての隙を見つけ、塞ぐ必要があります。修正を書き、回帰テストを行い、周囲のコードを壊すことなくリリースするというプロセスには、AI によって除去されることのない制約が存在します。私たちは以前の記事の末尾で述べたように、AI コーディングアシスタントに自社のバグに対するパッチ自体を書かせた際、このことを痛いほど学びました。これらのパッチの一部は元のバグを修正した一方で、コードが依存していた別の機能を静かに壊してしまいました。
これらのモデルがより有能で能力が高くなるにつれ、脅威の観点からの私たちの主な焦点は三つのことに集約されます。それぞれが、この投稿の後半で解説するアーキテクチャに影響を与えています。
第一に、発見の速度です。フロンティアモデルは、多くの企業が依存するオープンソースライブラリを含む大規模な公開コードを検索しやすくします。ただし、ライブラリのすべてのバグが利用可能であるわけではなく、また脆弱性の多くがライブラリのバグにあるわけではありません。攻撃可能性は依然として、コードがどのように使用されているか、攻撃者が制御できる入力が脆弱なパスに到達する可能性があるかどうか、そしてその周囲にどのような保護措置が存在するかによって決まります。しかし、広く使用されているオープンソースライブラリやフレームワークは、攻撃者にとって大規模に研究できる共有の表面を提供します。実際に到達可能な脆弱性がそこに存在する場合、モデルは、保守担当者や防御担当者がすべての下流での利用をレビューするよりも速く、その脆弱性を発見し、可能な攻撃経路について推論し、概念実証(PoC)のバリアントを生成するのに役立ちます。攻撃者が脆弱性を発見した時点と、防御担当者がその存在を知った時点との間のギャップが、私たちが最も懸念している点です。もしあなたが自社のコードに対してこれらのモデルを実行していないのであれば、誰かが実行していると安全に推測できます。
2 つ目は、エクスプロイトの量と適応性です。モデルは単一のエクスプロイトの数千種類の変異体を生成し、同時に大規模な偵察を実行できます。こうした大量のデータは攻撃者に有利に働きますが、必ずしもシグネチャベースの検知を突破できるわけではありません。それらの反復試行の多くは同じ基盤となるシグネチャを持つため、最初のものを捉えるルールは残りのものも捕捉します。シグネチャベースの検知を回避する方法は適応性です。モデルに SQL インジェクション(SQL Injection)を示させれば、教科書的な例が返されます。そこに WAF(Web Application Firewall)が存在すると伝えれば、モデルはプロービングを開始し、何がブロックされるかを学習し、ルールによってブロックされないようにペイロードを書き換えていきます。
3 つ目は、脆弱性が避けられなくもエクスプロイトされた際の影響です。あらゆるアーキテクチャがすべてを捕捉できるわけではありません。脆弱性がエクスプロイトされた後、私たちが自問するのは、「何かが攻撃者を止める前に、1 つのアイデンティティ、1 つのパス、あるいは 1 つの認証情報を使って、攻撃者がどこまで到達できるか」です。もし答えが「彼らが望むならどこへでも」となるなら、問題だったのは脆弱性そのものではなく、脆弱性を巡るアーキテクチャでした。
Cloudflare の超能力:可視性
私たちは世界 Web トラフィックの約 5 分の 1 を見ており、このトラフィックがリアルタイムで、どのペイロードが変異し、どのパターンが検出され、攻撃者のツールが次にどこへ移動するかを私たちに伝えます。2 つのチームがこの可視性を防御に変換します。
まず、Cloudflare セキュリティ組織内に位置する脅威インテリジェンス、研究、および運用チームである Cloudforce One があります。このチームは、ネットワーク全体で観測した情報を、スタックの他の部分が行動に移せる洞察へと変換します。具体的には、追跡された敵対者、新興のキャンペーン、そして侵害の指標(IOCs)です。この作業における最大の難問は、何が悪意あるものかを知ることにあったのではなく、対策を講じるまでの遅延にありました。通常、新たな脅威に関する知識は、脅威レポートからフィードへ、そして企業の防御システムへと伝播して初めて、何かをブロックするために利用可能になります。しかし、攻撃者はそれよりも速く動くことを学んでいます。当社のネットワークはこのギャップを埋めます:Cloudflare の顧客は now、WAF 内で直接 Cloudforce One の脅威インテリジェンスを利用し、高リスクのトラフィックをブロックできるようになりました。
2 つ目は、実際の検出を行う WAF エンジンを担当するチームです。このチームは、Cloudflare 自社のプロパティの手前で実行され、すべての Cloudflare カスタマーに提供されている管理ルールセット、WAF Attack Score の背後にある機械学習、および CVE が公的に公開される前にルールをリリースできるような関係性を担っています。このチームは世界中に分散しており、迅速に動き、攻撃の概念実証が知られてから数時間以内にルールをリリースします。検出がデプロイされると、30 秒未満で Cloudflare の全ネットワークとすべての Cloudflare カスタマーに到達します。React2Shell は最近の事例です:公式なアドバイザリーが公開される数時間前にも、管理された WAF ルールが自社のプロパティおよび Cloudflare 上の他者のプロパティを保護していました。
スコアリング層、アプリケーションの手前に配置した防御策、そして脆弱性に対する封じ込めは、これら 2 つのチームが見ているものの上に構築されています。
シグネチャベースの検出よりもスコアベースの検出
シグネチャベースの防御は、新規のエクスプロイトが希少で、その変異に数週間を要する世界のために作られました。Cloudflare の従来の SLA(サービスレベルアグリーメント)では、新しい概念実証からライブデプロイされたルールまでの所要時間は 12 時間でした。しかし、フロンティアモデルの登場により、これはもはや十分ではありません。検出は CVE が発見される前に用意されている必要があります。そのため、従来のシグネチャベースの WAF の手前に、機械学習に基づく検出をレイヤーとして追加しています。
このモデルは過去の攻撃トラフィックの大量データセット上でトレーニングされており、公に知られる前に脆弱性の新しい変種を検出します。新たな SQL インジェクションやリモートコード実行チェーンは、特定のエクスプロイトが全く新しいものであっても、ほぼ常にモデルが以前に見たことのある攻撃形状の再配置です。私たちはすべてのリクエストに対してこのモデルを実行し、既知の悪意あるシグネチャリストに対する照合ではなく、そのリクエストがこれらの根本的な形状にどれだけ近いかに基づいて 1 から 99 の WAF アタックスコアを割り当てます。スコアが低いほど、私たちはそのリクエストに対してより積極的な対応を行います。このスコアがリクエストの通過可否を決定します。
AI Security for Apps では、同様のスコアリング手法を AI プロンプトに適用しています。各プロンプトを既知の悪意あるプロンプトリストでチェックするのではなく、そのプロンプトが実際の攻撃にどれだけ近いかをスコアリングします。
脆弱性を取り巻くアーキテクチャ
これらの機能は、アプリケーションの前に積み上げられて初めて意味を持ちます。私たちの多層防御アプローチにおける最初のレイヤーは WAF です。既知の悪意あるパターンに一致するものはすべて、アプリケーションに到達する前にドロップされ、これにより明白なトラフィックの大部分が除去され、より専門的な下のレイヤーが残ったもの专注于することができます。
API サーフェスにおいては、API Shield を通じてポジティブセキュリティモデルを実行しています。すべての悪意あるリクエストを事前に予測しようとするのではなく、各 API に対する有効なリクエストがどのようなものかを定義します。これは API 自身の仕様から、あるいは実際のトラフィックから学習したデータに基づいています。これに適合しないものはすべて通過させません。これにより、最先端 AI モデルの優位性が無効化されます。なぜなら、検証済みのトラフィックのみを許可するため、数千もの新しい攻撃バリエーションを生成してもシステムを迂回できないからです。
image
Cloudflare の階層型アーキテクチャ
Bot Management は、最先端モデルがネットワークのマップを構築する前に、プロービングトラフィックを検知してブロックします。すべてのリクエストに対して自動化されている可能性をスコアリングし、ネットワーク全体で共通のシグナルを使用します。具体的には、クライアントの動作挙動、それが実際のブラウザのように見えるかどうか、そして接続が既知の悪意あるパターンと一致するかどうかです。攻撃が成功するのは、システムに隙(ソフトスポット)を見つけた場合のみです。
ゼロトラストネットワークアクセスは、すべての内部アプリケーションに対して使用されています。ネットワーク内にいることによる暗黙の信頼は、すべてのツールにアクセスする各従業員に対する明示的なリクエストごとのアイデンティティとポリシーに置き換えられています。この価値が明確になったのは、あるエンジニアが誤設定されたツールをリリースした際のことです。フラットなネットワークであれば同じセグメント上のすべてが露出していたところですが、私たちのデプロイでは露出はツール自体で止まりました。その後、アクセスポリシーが整う前に新しくデプロイされたアプリケーションや誤設定されたアプリケーションに到達できないようにする「Require Access Protection」を構築しました。
IdP フェデレーション(Identity Provider Federation)により、このセキュリティデフォルトの姿勢をすべての Cloudflare アカウント間で一貫して維持しやすくしています。これは、より多くの人々が内部ツールを迅速にリリースするようになると、さらに必要不可欠になります。各チームに個別に SSO を接続させるのではなく、アイデンティティプロバイダー(IdP)を一度設定し、組織全体で共有します。新しいアカウントには自動的に SSO が付与され、受信側 IdP 接続は読み取り専用となり、各アカウントの Access ポリシーでは、通常の要求フローの一部として結果としてのアイデンティティが評価されます。
MCP Server Portal は、チームが AI エージェントをエンタープライズシステムに接続するための制御された手段を提供します。エージェントは、単一のポータルを通じて中央管理される MCP サーバーにアクセスし、すべてのアクションがログ記録されます。これにより、エージェントが誰かの代わりに行動した際に、何を行ったか、何を触ったか、そして許可されるべき行為であったかどうかを把握できます。構築プロセスの詳細については、エンタープライズ MCP に関する当社の投稿をご覧ください。
AI Gateway は、顧客向け AI 機能の前で動作する「AI Security for Apps」と同様に、社内 AI ツールの前方で稼働します。スコアリングと可視性の仕組みは同じです。社内の文脈では、ブロック機能よりも可視性機能がより有用です。なぜなら、意味のあるポリシーを策定する前に、エンジニアが実際に何を開発しているのかを確認する必要があったからです。
チームが着手すべき場所
最先端モデルは攻撃者に脆弱性の発見やペイロードの適応、高速な移動を助ける可能性がありますが、それでもアプリケーション前方に展開する多層防御を通過する必要があります。こここそがチームが着手すべき地点です:
公共向けアプリケーションの前に検査機能を配置する。
有効な API トラフィックの定義を明確にする。
ボット検出機能を使用して、自動化されたプロービングを制限する。
内部ツールへのアクセス前に、アイデンティティとアクセスポリシーを必須とする。
AI およびエージェントシステムの場合:
モデルトラフィックをゲートウェイ経由でルーティングする。
エージェントは承認された MCP サーバーを通じて接続状態を維持する。
実行内容をログ記録する。
目標は、ある層で見落としがあった場合でも、次の層が攻撃者が閲覧・到達・変更できる範囲を制限することです。
脆弱性を取り巻くアーキテクチャの目的は、攻撃の範囲を限定することにあります。脆弱性が攻撃のきっかけとなることはあっても、その攻撃がどこまで及ぶかはアーキテクチャによって決定されます。
このアプローチが機能していることをどうやって知るのでしょうか?
多くのセキュリティスタックはホワイトボード上では不侵攻に見えても、実践では崩れてしまいます。そのため、私たちは周囲の境界線と内部環境の両方で継続的にテストを実施しており、レッドチームもその双方に関与しています。
境界線においては、フロンティアモデル(注:最先端の AI モデル)は、適応型攻撃者としてアプリケーションセキュリティスタックをテストするためのツールの一つです。これらのモデルは、手動テスト、脅威インテリジェンス、観測されたトラフィックパターン、概念実証分析、および自社のネットワークからのシグナルなどを含む、レッドチームの残りのメンバーや検出ワークフローと共に機能します。これらすべての入力を組み合わせることで、テストをどこに集中させるべきかを判断します。具体的には、 newly launched products(新発売製品)、recently changed surfaces(最近変更された攻撃面)、そして攻撃者が最初にプローブする可能性が最も高いパスです。最も重要なのは、その後のプロセスです。何かが突破した場合、ギャップを特定し、適切なツールの組み合わせを用いてその原因を理解し、ルールや緩和策を作成し、アップデートをリリースして、再びテストを行うことでギャップが完全に閉じられたことを確認します。
環境内では、レッドチームはすでに境界防御が破られているという前提からスタートします。彼らは何が変化し、どの敏感なシステムにリスクがあるか、そして一つの侵害されたアイデンティティ、パス、または認証情報が本来あるべき範囲を超えてどこまで到達できるかを調査します。彼らの発見に基づいてアーキテクチャを変更すると、その新しいバージョンに対して再度シナリオを実行し、ギャップが実際に解消されたことを確認します。
このアーキテクチャが機能していることは、個々のレイヤーの完全性に依存するのではなく、障害発生時の挙動を継続的にテストすることで確認しています。
同じ課題に取り組んでおり、知見を交換したい場合は、security-ai-research@cloudflare.com までご連絡ください。
原文を表示
A few weeks ago, we wrote about Project Glasswing and what we observed when we pointed cyber frontier models at our own code. Since then, we’ve seen that the part of the post that has resonated most deeply is the argument that the architecture around the vulnerability matters more than the speed of the patch.
In the conversations we've had with CISOs and security teams since, the questions have been consistent: what does our architecture actually look like, what should we monitor for, where do we start, and how can Cloudflare help?
Before getting into the details: the architecture below is built almost entirely from Cloudflare's own products, because Cloudflare security is customer zero for the security products we build. The Cloudflare stack already exists in front of our code, employees, and customer-facing applications. If you're a Cloudflare customer, every layer below is available to you today. If you're not, the principles still apply to whatever stack you've built.
What a cyber frontier model actually changes
In the previous post, we showed how a cyber frontier model like Mythos changes the attacker’s timeline. It can find vulnerabilities, reason through exploit chains, and generate working proofs faster than earlier models. While models like Mythos do not change the shape of an intrusion — reconnaissance, initial access, lateral movement, persistence, and exfiltration still have to happen — the difference is in the speed and scale. When pointed at the open web, a model can find and hit low-hanging fruit quickly. Against a hardened target, it still has to probe, and adapt, and it often produces more noise than a careful human operator would.
Discovery, exploit chain construction, and proof-of-concept generation used to be the gating constraints on producing a working attack. A frontier model handles all three in a fraction of the time. Work that used to be slow and methodical is now fast and indiscriminate.
While AI is accelerating how fast developer teams at Cloudflare and many other companies can ship code, the security team’s work has not compressed the same way. An attacker only needs one opening to get in, while security teams need to find and close them all. Writing a fix, regressing it, and shipping it without breaking the code around it has constraints that AI doesn't remove. We learned this the hard way when we let an AI coding assistant write its own patches against our own bugs, as we described at the end of the previous post. Some of those patches fixed the original bug while quietly breaking something else the code depended on.
As these models become more competent and capable, our main focus from a threat standpoint comes down to three things. Each one shapes the architecture we walk through in the rest of this post.
The first is the speed of discovery. Frontier models make it easier to search large bodies of public code, including the open-source libraries that many companies depend on. That does not mean every bug in a library is exploitable, or that library bugs are where most vulnerabilities live. Exploitability still depends on how the code is used, whether attacker-controlled input can reach the vulnerable path, and the protections that sit around it. But widely used open-source libraries and frameworks give attackers a shared surface to study at scale. When a real, reachable vulnerability exists there, a model can help find it, reason about possible exploit paths, and generate proof-of-concept variants faster than maintainers and defenders can review every downstream use. The gap between when an attacker discovers a vulnerability and when defenders learn it exists is what worries us most. If you are not running these models against your own code, it is safe to assume someone else is.
The second is exploit volume and adaptation. A model can produce thousands of variations of a single exploit and run reconnaissance at the same scale. All that volume gives an attacker an advantage, but it won’t necessarily get them past signature-based detections. Many of those iterations will have the same underlying signature, so a rule that catches the first one will catch the rest. Adaptation is how they will get past signature-based detections. Ask a model to show you a SQL injection, and it will return a textbook example. Tell it there is a WAF in the way, and it will start probing, learning what gets blocked, and rewriting the payload until it can slip past the rule blocking it.
The third is the impact when a vulnerability is inevitably exploited. No architecture catches everything. After the vulnerability is exploited, the question we ask ourselves is: where can the attacker get to with one identity, one path, or one credential, before something else stops them? If the answer is "anywhere they want," the vulnerability was never the problem. The architecture around the vulnerability was.
Cloudflare’s superpower: visibility
We see roughly a fifth of the world's web traffic and that traffic tells us, in real time, which payloads are mutating, which patterns are picking up, and where attacker tooling is moving next. Two teams turn that visibility into defense.
First is Cloudforce One, our threat intelligence, research, and operations team, which sits within the Cloudflare security organization. They turn what we see across the network into insights the rest of the stack can act on: tracked adversaries, emerging campaigns, and indicators of compromise (IOCs). The hard part of this work was never knowing what is malicious — it was the delay in mitigation. Knowledge of a new threat normally has to travel from a threat report, into a feed, and then into a company’s defense before it can be used to block anything. Attackers have learned to move faster than that. Our network closes that gap: Cloudflare customers can now use Cloudforce One threat intelligence directly within the WAF to block high-risk traffic.
Second is the team that owns the WAF engine that does the actual detecting: the managed rulesets that run in front of our own properties and are available to every Cloudflare customer, the machine learning behind WAF Attack Score, and the relationships that sometimes let us ship a rule before a CVE is publicly disclosed. The team is globally distributed and moves fast, releasing rules within hours of a proof-of-concept of an attack becoming known. Once a detection is deployed, it reaches our entire network, along with every Cloudflare customer, in under 30 seconds. React2Shell is a recent example: a managed WAF rule was protecting our own properties, and everyone else's on Cloudflare, hours before the official advisory was published.
The scoring layer, the defenses we put in front of the application, and the containment around the vulnerability all build on what these two teams see.
Scores over signatures
Signature-based defenses were built for a world where novel exploits were scarce and variations took weeks. Cloudflare's traditional SLA from a fresh proof-of-concept to a live, deployed rule has been 12 hours. With the advent of frontier models, this is not good enough anymore. Detections need to be in place before a CVE is discovered. This is why we layer ML-based detection in front of the traditional signature-based WAF.
The model is trained on a large body of past attack traffic, and it catches new variants of vulnerabilities before they're publicly known. A novel SQL injection or remote code execution chain is almost always a rearrangement of attack shapes the model has seen before, even when the specific exploit is brand new. We run the model on every request and assign a WAF Attack Score between 1 and 99, based on how closely the request resembles those underlying shapes, not against a list of known-bad signatures. The lower the score, the more aggressively we treat the request. That score determines whether we let the request through. We apply a similar scoring methodology to AI prompts with AI Security for Apps: rather than check each prompt against a list of known malicious prompts, we score how closely a prompt resembles an actual attack.
The architecture around the vulnerability
Those capabilities only matter once they're stacked in front of an application, and the first layer in our defense-in-depth approach is the WAF. Anything that matches a known-bad pattern gets dropped before it reaches the application, which clears the bulk of the obvious traffic and lets the more specialized layers below focus on what's left.
On the API surface, we run a positive security model through API Shield. Instead of trying to anticipate every bad request, we describe what a valid request to each API looks like, either from the API's own definition or learned from our real traffic, and anything that doesn't fit doesn't get through. This neutralizes the advantage of frontier AI models: because we only permit validated traffic, generating thousands of new attack variations fails to bypass the system.
image
Cloudflare’s layered architecture
Bot Management catches probing traffic on our network before frontier models can build a map. It scores every request on how likely it is to be automated, using the same signals across our whole network: how the client behaves, whether it looks like a real browser, and whether the connection matches a known-bad pattern. An attack only lands if it can find a soft spot.
Zero Trust Network Access is used for every internal application. The implicit trust of being inside the network is replaced with explicit per-request identity and policy for every employee accessing every tool. The value of this was clear when one of our engineers shipped a misconfigured tool. A flat network would have exposed everything on the same segment, but in our deployment, the exposure stopped at the tool itself. We built Require Access Protection afterwards so newly deployed or misconfigured applications can't be reachable before an access policy is in place.
IdP Federation makes that secure by default posture easier to keep consistent across every Cloudflare account — which becomes even more necessary when more people are shipping internal tools quickly. Instead of asking each team to wire up SSO separately, we configure our identity provider (IdP) once and share it across the organization. New accounts get SSO automatically, recipient-side IdP connections are read-only, and Access policies in each account still evaluate the resulting identity as part of the normal request flow.
MCP Server Portal gives teams a controlled way to connect AI agents to enterprise systems. Agents access MCP servers that are centrally managed through a single portal, with every action logged. That way when an agent acts on someone's behalf, we know what it did, what it touched, and whether it should have been allowed to. The full picture of how we built it is in our post on enterprise MCP.
AI Gateway runs in front of our internal AI tools the same way AI Security for Apps runs in front of customer-facing AI features, with the same scoring and the same visibility. Inside the company, the visibility piece is more useful than the blocking, because we needed to see what engineers were actually building before we could write meaningful policy on it.
Where your teams can start
Frontier models can help attackers find vulnerabilities, adapt payloads, and move faster, but they still have to pass through the layered defense you deploy in front of your application. That is where teams should start:
Put inspection in front of public applications.
Define what valid API traffic looks like.
Use bot detection to limit automated probing.
Require identity and access policy before any internal tool is reachable.
For AI and agentic systems:
Route model traffic through a gateway.
Keep agents connected through approved MCP servers.
Log what they do.
The goal is to make sure that when one layer misses, the next layer limits what the attacker can see, reach, or change.
That is the point of the architecture around the vulnerability: to limit the scope of an attack. The vulnerability may be what starts the attack, but the architecture determines how far it can go.
How do we know this approach works?
Plenty of security stacks look impenetrable on a whiteboard but fall over in practice. That is why we test ours continuously, both at the perimeter and inside our environment, with our red team involved across both.
At the perimeter, frontier models are one tool we use to test our application security stack as an adaptive attacker. These models sit alongside the rest of our red team and detection workflows including: manual testing, threat intelligence, observed traffic patterns, proof-of-concept analysis, and signals from our own network. Together, those inputs help us decide where to aim testing: newly launched products, recently changed surfaces, and the paths an attacker is most likely to probe first. The most important part is the process that follows. When something gets through, we identify the gap, use the right mix of tools to understand it, write the rule or mitigation, ship the update, and test again to make sure the gap is closed.
Inside the environment, our red team starts from the assumption that the perimeter has already failed. They look at what has changed, where sensitive systems carry risk, and whether one compromised identity, path, or credential can reach farther than it should. When we change the architecture based on what they find, they run the scenario again against the new version to confirm the gap is actually closed.
We confirm that this architecture is working by continuously testing its behavior during failures, rather than relying on the perfection of individual layers.
If your team is working on the same problems and would like to compare notes, reach out to us at security-ai-research@cloudflare.com.
関連記事
NVIDIA garak チュートリアル:カスタムプローブと検出器を用いた防御型 LLM レッドチームワークフローの構築
本チュートリアルでは、NVIDIA が提供する「garak」フレームワークを実践的に解説し、カスタムプローブや検出器を組み合わせた完全な LLM 攻撃テスト(レッドチーム)ワークフローの構築方法を詳述する。
コード参照ハッチの防御(GitHub リポジトリ)
Anthropic は、Claude を用いた自律的な脆弱性発見と修正のためのリファレンス実装を GitHub に公開し、一般ベストプラクティスに基づくカスタムパイプライン構築を可能にした。
脆弱なアプリを構築し、LLM がハッキングできるか 1,500 ドルかけて検証した結果(9 分読み)
開発者が脆弱な書籍レビューアプリを作成し、大規模言語モデルがユーザーの非公開レビューからフラグを取得する攻撃を実行できるかを検証しました。GPT-5.5 が最も成功し、10 回中 7 回で任務を達成しましたが、Claude Sonnet 4.6 はコスト高かつ成功率低でした。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み