ダウンディテクターと上流依存関係を持たないことの真のコスト
Downdetector の Cloudflare 依存による障害事例は、監視ツール自体がインフラ依存から逃れられない現実と、コスト効率を優先した設計判断の重要性を示している。
キーポイント
監視ツールの自己矛盾と依存リスク
ダウン検知サービスである Downdetector が、監視対象の一つである Cloudflare の障害により停止するという皮肉な事態が発生し、インフラ依存の脆弱性を浮き彫りにした。
マルチクラウド戦略と単一依存のバランス
Downdetector はクラウドプロバイダの障害を検知するためマルチクラウド・マルチリージョンで構築されているが、DNS や CDN などの基盤機能では Cloudflare に依存しており、完全な冗長化には莫大なコストがかかる。
ビジネスモデルに基づく実用的な設計判断
無料サービスである Downdetector は、Cloudflare を利用することで帯域幅コストの削減、負荷分散、DDoS 防御を実現しており、これを自社で再現するには小規模チームには現実的ではない。
中規模チームにおけるインフラ冗長性の構築難易度
DNS や CDN レイヤーでの冗長性構築には莫大なオーバーヘッドが必要であり、特に Bot Protection のような高度な機能を独自に実装するのは中規模チームにとって極めて困難である。
インフラコードとトラフィックシフトの教訓
制御パネルは停止していたが API は動作していたため、Infrastructure as Code を強化することで復旧を早めることができた可能性があり、また非グローバルな障害特性を活かしたトラフィックシフトで影響を軽減できた。
Bot Protection の誤作動と対応
障害時に Cloudflare の Bot Protection が正常に機能せず正当なトラフィックをブロックしてしまったため、チームは手動でこれを一時的に無効化して復旧を図った。
影響分析・編集コメントを表示
影響分析
この事例は、システム設計において「完全な可用性」を追求することと、「コスト効率性・実用性」の間には常にトレードオフが存在することを示唆しています。特に監視インフラやセキュリティ機能においては、依存先が停止した場合のフォールバック戦略や、その実現にかかる現実的なコストを事前に評価することが、エンジニアリング組織にとって極めて重要です。
編集コメント
監視ツールが障害を検知できなくなるという皮肉な事態は、システム設計における「依存の連鎖」を象徴する事例です。エンジニアリングチームは、コストと可用性のバランスをどう取るかという本質的な問いに直面しています。
以下は、The Pulse #154の5つのトピックのうちの1つです。フル購読者は、この記事を2週間前に受け取りました。このような記事を毎週メールボックスで受け取りたい方は、こちらから購読してください。
多くの購読者は、The Pragmatic Engineer Newsletterを学習・開発予算で経費処理しています。そのような予算をお持ちの方は、マネージャーに送ることができるメールの例をこちらにご用意しました。
2025年11月のCloudflare障害に関する面白い詳細の一つは、リアルタイム障害監視サービスであるDowndetectorがダウンし、Cloudflareへの重要な依存関係が明らかになったことです。一見すると、これは奇妙に見えます。結局のところ、Downdetectorは稼働時間を監視するサービスなのに、なぜこのような事態を招く可能性のあるCloudflareのような重要な依存関係を抱えるのでしょうか?
Downdetectorは、マルチリージョンかつマルチクラウドで構築されていました。これは、Downdetectorを運営するOokla社のシニアディレクター・オブ・エンジニアリング、Dhruv Arora氏との会話で確認しました。マルチクラウドによる回復性は、ほとんどの製品にとってほとんど意味がありませんが、Downdetectorはクラウドプロバイダーの障害も検出するために構築されました。そのためには、マルチクラウドである必要があったのです!
それでもなお、DowndetectorはDNS、コンテンツデリバリー(CDN)、ボット保護にCloudflareを利用しています。では、なぜ自社サーバーですべてをホストするのではなく、この一つの重要な依存関係を抱えるのでしょうか?
CDNには無視しがたい利点があります。例えば:
帯域幅コストの大幅な削減 – CDNにキャッシュされたアセットははるかに高速です
CDN上のアセットはユーザーに近いエッジノードから配信されるため、読み込み時間が短縮されます
特に障害時にはDowndetectorによくある、突然のトラフィックスパイクからの保護。CDNがなければ、そうしたスパイクが自社サービスに過負荷をかける可能性があります
分散型サービス拒否(DDoS)攻撃でサイトをオフラインにしようとする悪意のある行為者からのDDoS保護
Downdetectorはより少ないサーバーで運用できるため、インフラ要件の削減
Downdetectorの利用パターンは、事業として直接収益化していない(Downdetectorは無料で利用できる)消費者によって非常に頻繁に利用されるサービスであることを反映しています。したがって、DowndetectorはCloudflareを排除することは可能ですが、コストは急増し、サイトの読み込みは遅くなり、収益は変わらないでしょう。
結局のところ、DowndetectorのCloudflareへの依存は、ビジネスモデルに基づく実用的な選択であり、Cloudflareへの上流依存関係を排除することが非常に高くつく可能性があるという判断によるものかもしれません!
Dhruv氏はこれを確認し、Downdetectorにおける設計上の選択についてさらに詳しく共有してくれました:
「DNSおよびCDNレイヤーで冗長性を構築するには、莫大なオーバーヘッドが必要になります。これは特に、Cloudflareのボット保護が世界最高水準であり、同様の機能を構築するには多大な労力がかかるためです。この種の冗長性を内蔵しているハイパースケーラー(クラウドプロバイダー)は存在します。私たちはできることを検討しますが、チーム規模が二桁であることを考えると、このような中核的なインフラを構築するのは、私たちだけでなく、あらゆる中規模チームにとって非常に困難な注文です。将来に向けて、私たちが改善できることがさらに多くあることを学びました。例えば、今回の障害では、Cloudflareのコントロールペインはダウンしましたが、そのAPIはダウンしていませんでした。ですから、私たちがより多くのInfrastructure as Codeを持っていれば、Downdetectorをより早く復旧させるのに役立ったかもしれません。私たちの側では、障害がグローバルではなかったことも確認できたので、トラフィックを移動させて影響を軽減することができました。もう一つ興味深い詳細:Cloudflareのボット保護は障害中に誤作動を起こし、正当なトラフィックをブロックし始めました。そのため、私たちのチームはそれを一時的にオフにする必要がありました」。
詳細を共有してくださったDhruv氏とDowndetectorチームに心より感謝します。
このような記事をメールボックスで受け取りたい方は、私の週刊ニュースレターを購読してください。かなり良い読み物で、SubstackでNo.1の技術ニュースレターです。
原文を表示
The below is one out of five topics from The Pulse #154. Full subscribers received the below article two weeks ago. To get articles like this in your inbox, every week, subscribe here.
Many subscribers expense The Pragmatic Engineer Newsletter to their learning and development budget. If you have such a budget, here’s an email you could send to your manager.
One amusing detail of the November 2025 Cloudflare outage is that the realtime outage and monitoring service, Downdetector, went down, revealing a key dependency on Cloudflare. At first, this looks odd; after all, Downdetector is about monitoring uptime, so why would it take on a key dependency like Cloudflare if it means this can happen?
Downdetector was built multi-region and multi-cloud, which I confirmed by talking with Senior Director of Engineering, Dhruv Arora, at Ookla, the company behind Downdetector. Multi-cloud resilience makes little sense for most products, but Downdetector was built to detect cloud provider outages, as well. And for this, they needed to be multi-cloud!
Still, Downdetector uses Cloudflare for DNS, Content Delivery (CDN), and Bot Protection. So, why would it take on this one key dependency, as opposed to hosting everything on its own servers?
A CDN has advantages that are hard to ignore, such as:
Drastically lower bandwidth costs – assets cached on the CDN are much faster
Faster load times because assets on a CDN are served from Edge nodes nearer users
Protection from sudden traffic spikes, as would be common for Downdetector, especially during outages! Without a CDN, those spikes could overload their services
DDoS protection from bad actors taking the site offline with a distributed denial of service attack
Reduced infrastructure requirements, as Downdetector can run on fewer servers
Downdetector’s usage patterns reflect that it’s a service very heavily used by consumers whom the business doesn’t really monetize (Downdetector is free to use.) So, Downdetector could get rid of Cloudflare, but costs would surge, the site would become slower to load, and revenue wouldn’t change.
In the end, Downdetector’s dependence on Cloudflare could be a pragmatic choice based on the business model, and how removing its upstream dependency upon Cloudflare could get very expensive!
Dhruv confirmed this and sharing more about the design choices at Downdetector:
“Building redundancy at the DNS & CDN layers would require enormous overhead. This is especially true as Cloudflare’s Bot Protection is world-class, and building similar functionality would be a lot of effort. There are hyperscalers [cloud providers] that have this kind of redundancy built in. We will look into what we can do, but with a team size in the double digits, building up a core piece of infra like this is a pretty tall order: not just for us, but for any mid-sized team. We’ve learned that there are more things that we can improve, for the future. For example, during the outage, the Cloudflare control pane was down, but their API wasn’t. So, us having more Infrastructure as Code could have helped bring back Downdetector sooner. On our end, we also noticed that the outage wasn’t global, so we were able to shift traffic around and reduce the impact. One more interesting detail: Cloudflare’s Bot Protection went haywire during the outage, and started to block legitimate traffic. So, our team had to turn that off temporarily”.
Thanks very much to Dhruv and the Downdetector team for sharing details.
Subscribe to my weekly newsletter to get articles like this in your inbox. It's a pretty good read - and the #1 tech newsletter on Substack.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み