QCon London 2026: 大規模テレメトリの管理、セルフホスト型オブザーバビリティガイド
QCon London 2026において、Colin Douchは自己ホスト型監視スタックの構築・運用、現在のツール状況の調査、そしてログ・メトリクス・トレースを分離した柱として扱うのではなく一貫したオブザーバビリティ設定を構築する方法について議論した。
キーポイント
自己ホスト型監視スタックの構築・運用
Colin Douchは、大規模なテレメトリデータを扱うための自己ホスト型監視スタックの構築と運用方法について議論した。
現在のツール状況の調査
講演では、現在利用可能なオブザーバビリティツールの状況について調査結果が示された。
一貫したオブザーバビリティ設定の構築
ログ、メトリクス、トレースを分離した柱として扱うのではなく、これらを統合した一貫したオブザーバビリティ設定を構築する方法が説明された。
影響分析・編集コメントを表示
影響分析
この記事は、大規模システムの監視とオブザーバビリティにおける実践的なアプローチを紹介しており、特に自己ホスト型ソリューションと統合的な監視設定の重要性を強調している。クラウド依存からの脱却とデータ統合のベストプラクティスを示すことで、システム運用の効率化とコスト最適化に貢献する可能性がある。
編集コメント
実践的なシステム監視のノウハウを提供する内容で、特に大規模環境でのオブザーバビリティ構築に悩むエンジニアにとって参考になる情報。ただし、具体的な技術実装の詳細までは記事からは読み取れないため、より深い技術情報が必要な読者は追加資料を求める可能性がある。
QCon London 2026において、Colin Douch氏は、自己ホスト型の監視スタックの構築と運用について議論し、現在のツールリングの状況を紹介するとともに、ログ、メトリクス、トレースを別々の柱として扱うのではなく、一貫した観測性(Observability)の設定をどのように構築するかについて解説しました。
DuckDuckGo のサイト信頼性エンジニアであり、以前は Cloudflare で観測性の技術リードを務めていた Douch 氏は、セッション冒頭で聴衆に次のように問いかけました。
「複雑さの悪魔が忍び寄ってくると感じたことはありませんか?私たちは皆、それを避けようとして様々なハックを開発してきましたが、その悪魔は常にそこにあります。時には直面しなければならないこともあります。そして直面する際には、観測性が必要となります。」
現代の観測性における一般的なパラドックスを指摘した Douch 氏は、観測性のツールリングが複雑なシステムのデバッグを簡素化するためにあるにもかかわらず、観測性のスタック自体が同様に複雑化してしまうことを説明しました。多くの組織がこの問題を SaaS ベンダーに委ねていますが、本セッションでは、観測性インフラを内部で運用する現実と、それに取り組む前にチームが理解しておくべき事項に焦点を当てました。Douch 氏は警告します。
「自分自身で観測性のスタック(Observability stack)を運営すべきでしょうか?いいえ、少なくとも他のあらゆる選択肢を使い果たすまではそうすべきではありません。」
自己ホスト型の観測性が抱える課題(「少なくとも追加のフルタイムエンジニア 2〜3 名と多額の資金が必要である」)を強調した後、Douch 氏は自己ホスト型の観測性スタックの典型的な構成要素について概説しました。
Douch氏は、水平方向のスケーリングの課題があるにもかかわらず、メトリクスには自身の好む Prometheus または VictoriaMetrics を使用することを提案し、現代のメトリクスシステムにおける exemplars(例示値)が未活用されている特徴であることを強調しました。
ログを構造化して列指向データベースに保存することの重要性を訴え、異なるアプローチと設計思想を持つ VictoriaLogs や Loki を推奨しました。開発者がミドルウェアを省略して直接データベースへログを取り込むことも可能ですが、Douch氏はすでに運用している場合を除き、それは避けるようアドバイスしています。また彼は警告しました。
ログを散在させることは、問題解決がほぼ不可能になるほど使い物にならないデータの混濁(スープ)を生み出します。
実際には、セルフホスト型の観測可能性は、メトリクス収集機、分散トレーシングフレームワーク、ログ集約ツールなどを軸に構築された緩く結合されたシステムで構成されることが多いです。このモジュール型エコシステムは柔軟性を提供しますが、運用オーバーヘッドも生み出します。
Douch氏はまた、このようなスタックを構築するために一般的に使用されるオープンソースツールの現在の生態系についてもレビューしました。「トレーシングとは、いくつかの事前合意された構造を持つログの別名に過ぎない」と指摘し、複雑さに見合う価値があるとしてトレーシングには OpenTelemetry を支持しましたが、メトリクスやログには使用しないようアドバイスし、代わりに Prometheus Text Exposition と JSON を推奨しました。
Douch氏は次にサンプリングについて、ヘッドサンプリングとテールサンプリングの長所・短所、そしてコレクターについて議論しました。ログ、メトリクス、トレースを独立したデータサイロとして扱うのではなく、彼は観測可能性(observability)の価値はこれらのシグナルを接続することから生まれると主張しました。3 つの柱は大きく重複していますが、ログはトレースの一部であり、メトリクスは同じ基盤となるデータに対する集約です。
通して Douch氏は、観測可能プラットフォームを構築することは単一のツールを選択することに重点を置くものではなく、一貫したテレメトリーパイプライン(telemetry pipeline)を設計することに重点を置くものであると強調しました。
著者について
Renato Losio
Renato はクラウドアーキテクト、技術リーダー、クラウドサービススペシャリストとして豊富な経験を持っています。現在、彼はベルリンに住み、リモートでシニアクラウドアーキテクトとして勤務しています。彼の主な関心領域はクラウドサービスとリレーショナルデータベースです。彼は InfoQ の編集者であり、認定された AWS Data Hero です。LinkedIn で彼に連絡することができます。
詳細を表示表示を閉じる
原文を表示
At QCon London 2026, Colin Douch discussed building and operating self-hosted monitoring stacks, surveyed the current tooling landscape, and explained how to build a coherent observability setup rather than treating logs, metrics, and traces as separate pillars.
Douch, site reliability engineer at DuckDuckGo and formerly observability tech lead at Cloudflare, opened the session by challenging the audience:
Do you ever feel the complexity demon creeping up to you? We've all developed hacks to try and escape it, but it's always there. Sometimes you have to confront it, and when you do, you need observability.
Highlighting a common paradox in modern observability, Douch explained that while observability tooling is meant to simplify debugging complex systems, the observability stack itself often becomes equally complex. While many organizations outsource the problem to SaaS vendors, the session focused on the realities of running observability infrastructure internally and what teams should understand before committing to it. Douch warned:
Should I run my own Observability stack? No, at least not until you have exhausted each and every other option.
After stressing the challenges of self-hosted observability ("you need at least an extra 2-3 full-time engineers and significant money"), Douch outlined the typical components of a self-hosted observability stack.
Douch suggested using Prometheus, his preferred choice despite its horizontal scaling challenges, or VictoriaMetrics for metrics, and highlighted that exemplars are an underused feature of modern metrics systems.
He stressed the importance of structuring logs and storing them in a columnar database, suggesting VictoriaLogs or Loki, given their different approaches and design philosophies. While developers could cut out the middleware and ingest logs directly into the database, Douch advised against it unless one is already running. He also warned:
Sprinkling in logs leads to a soup of unusable data that makes it nigh on impossible to solve problems.
In practice, self-hosted observability often consists of loosely coupled systems built around projects such as metrics collectors, distributed tracing frameworks, and log aggregation tools. While this modular ecosystem provides flexibility, it also introduces operational overhead.
Douch also reviewed the current ecosystem of open-source tooling commonly used to assemble such stacks. Noting that "traces are just a fancy name for logs with some pre-agreed structure," he endorsed OpenTelemetry for traces, arguing the complexity is worth it, but advised against using it for metrics or logs, recommending Prometheus Text Exposition and JSON instead.
Douch then discussed sampling, the advantages and disadvantages of head and tail sampling, and collectors. Rather than treating logs, metrics, and traces as independent data silos, he argued that the value of observability comes from connecting these signals. While the three pillars overlap significantly, logs are a subset of traces, and metrics are aggregations over the same underlying data.
Throughout the talk, Douch emphasised that building an observability platform is less about selecting a single tool and more about designing a coherent telemetry pipeline.
About the Author
Renato Losio
Renato has extensive experience as a cloud architect, tech lead, and cloud services specialist. Currently, he lives in Berlin and works remotely as a principal cloud architect. His primary areas of interest include cloud services and relational databases. He is an editor at InfoQ and a recognized AWS Data Hero. You can connect with him on LinkedIn.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み