QCon London 2026: オントロジー駆動のオブザーバビリティ:Netflix規模でのエンドツーエンド知識グラフ構築
NetflixのエンジニアがQCon London 2026で、ユーザー体験をモデル化するエンドツーエンド知識グラフの設計と実装について発表した。
キーポイント
オントロジー駆動型オブザーバビリティの提案
Netflixが大規模なシステム監視と分析のために、オントロジー(概念体系)を駆動するアプローチを採用したことを発表した。
エンドツーエンド知識グラフの構築
ユーザー体験全体をモデル化する知識グラフを構築し、システム全体の理解と問題解決を可能にする設計を実現した。
Netflixスケールでの実装
Netflixの大規模なサービス環境において、このアーキテクチャが実際に設計・実装されている点が強調されている。
影響分析・編集コメントを表示
影響分析
この発表は、大規模分散システムにおける監視と分析の新しいパラダイムを示しており、AI駆動のオブザーバビリティ分野の発展に貢献する可能性がある。特に、知識グラフを活用したシステム理解のアプローチは、複雑なマイクロサービス環境での問題解決に応用できる。
編集コメント
大規模サービスでの実践的な知識グラフ応用例として注目されるが、技術的な詳細が限られているため、より深い技術分析には追加情報が必要。
Netflix のエンジニアである Prasanna Vijayanathan と Renzo Sanchez-Silva は、QCon London 2026 で「Ontology‐Driven Observability: Building the E2E Knowledge Graph at Netflix Scale」と題した発表を行い、ユーザー体験をユーザー、クライアント、サービス、インフラのつながったグラフとしての相互作用としてモデル化するエンドツーエンドの知識グラフ(End-to-End Knowledge Graph)の設計と実装について議論しました。
エンドツーエンド(E2E)観測性(Observability)とは、一端のフロントエンドでのユーザー体験から、バックエンドサービスを経て、他端の基盤となるクラウドインフラに至るまで、複雑なシステムの全体状態を監視し、理解し、デバッグする能力のことです。
Vijayanathan は発表の前半で、聴衆に以下の機能を備えたシステムを想像するように求めました:即座に問題を検知すること、インシデントの影響度を優先順位付けしてトリアージを行うこと、根本原因を自動的に特定すること、そして先回りして予測することです。
Netflix での最近のインシデント調査では、最初のアラートから解決に至るまでに 4 時間かかりました。その間にはトリアージ、デバッグ、および根本原因の特定が行われました。このインシデントと関連する 3 つのインシデントを解決するために動員されたリソースは、合計で 9 チーム、30 名を超えるエンジニアに及びました。
E2E 観測性における典型的な課題としては、多数かつサイロ化されたデータソース;文脈のない断片的なアラート通知;トリアージとトラブルシューティングの複雑さ;および不十分な検知方法が挙げられます。
接続性(Connectedness)の概念には、ギャップを埋め、サイロを打破することが含まれます。Netflix におけるエンドツーエンド(E2E)の観測可能性における接続されたデータとは、真実の単一ソースとなるためのデータ拡張、作業の重複最小化、集約された洞察と根本原因を提供する複雑な事象の優先順位付けおよびトラブルシューティング能力、ならびに診断精度の向上を指します。
Vijayanathan 氏は、ユーザー、デバイス、サービス向けの統一された観測可能性レイヤーとして MELT レイヤー(Metrics, Events, Logs, Events)を紹介し、これがインシデントの解決時間を短縮できることを示しました。
Sanchez-Silva 氏は、自身の発表パートをオントロジー(Ontology)の概念紹介から始めました。これは、型・プロパティ・関係性の形式仕様として定義されます。オントロジーは知識を符号化する方法であり、単なるデータではなく、関係性そのものに焦点を当てたものです。
オントロジーデータ構造である「トリプル(Triple)」は、知識グラフ内の事実を定義し照会可能なタプル(主語 | 述語 | 対象)です。
このようなトリプルの例は以下の通りです:
api-gateway | rdf:type | ops:Application
api-gateway | ops:ownedBy | "Team Bedrock"
INC-5377 | rdf:type | ops:Incident
INC-5377 | ops:affects | api-gateway
12 の運用名前空間(Operational Namespaces)は、Netflix インフラストラクチャ内のすべての要素を接続します。これには、Slack、アラート、メトリクス、ログ、インシデント、E2E、Harvest が含まれます。
サンチェス=シルバ氏は、インシデントの知識が12 の運用名前空間に散在していることで運用上の混乱を招く可能性があると述べました。しかし、オントロジーは機械可読なトリプルデータ構造を捕捉し、構造化し、保存することで秩序をもたらします。
ナレッジ・フライホイールは、適応のための入力として「観測(Observer)」「拡張(Enrich)」「推論(Infer)」の3 つの状態を特徴とする1 回転によってレジリエンスを構築します。各回転は、より賢明な次の回転のために知識を符号化します。
Claude を共同開発者として使用し、各収穫プロセスは独自の git worktree で実行されます。2 つのフライホイールが1 つのシステム内で「同時に回転」することもあります。例えば:
フライホイール 1: ナレッジ
Slack --> Enrich --> Infer --> Adapt
フライホイール 2: コード (git worktree)
Worktree --> Claude --> PR--> Review --> Merge
両方のフライホイールは連携して動作し、Claude がプルリクエスト(PR)を提案し、人間がその PR をレビューしてマージできるようにします。
サンチェス=シルバ氏は、オントロジーは混沌と理解の間の契約であると主張しました。その結果は、インシデントのオントロジー可視化において示されています。
今後、Netflix は以下の計画を進めます:根本原因分析の自動化、自動修復(auto-remediation)の提供、自己修復型インフラストラクチャの構築です。
著者について
マイケル・レッドリッチ
マイケル・レッドリッチは、過去 25 年間にわたり Java コミュニティにおいて活発な活動を行ってきました。彼は 2001 年に Garden State Java User Group(旧 ACGNJ Java Users Group)を設立し、現在も継続して運営されています。
2016 年以来、マイクは InfoQ の Java コミュニティニュース編集者を務めており、その貢献には月次ニュース記事、技術文書の作成、技術レビューが含まれます。Oracle Code One、Enterprise Emerging Technologies、Trenton Computer Festival(TCF)、TCF IT Professional Conference、および多数の Java User Group などで登壇しています。マイクは Jakarta NoSQL および Jakarta Data の仕様におけるコミッターを務め、Jakarta EE Ambassadors のリーダーシップ評議会にも参加しています。2023 年 4 月には Java Champion に選出されました。
ニュージャージー州クリントンにある ExxonMobil Technology & Engineering では、33 年半にわたる勤務を経て、最近退職しました。同社ではカスタム科学実験室用アプリケーションおよび Web アプリケーションの開発に従事していました。また、Ai-Logix, Inc.(現 AudioCodes)のテクニカルサポートエンジニアとしても経験を積んでおり、顧客向けに技術サポートを提供し、電話通話アプリケーションを開発した実績があります。
もっと見る 表示しない
原文を表示
Prasanna Vijayanathan and Renzo Sanchez-Silva, both Engineers at Netflix, presented Ontology‐Driven Observability: Building the E2E Knowledge Graph at Netflix Scale at QCon London 2026, where they discussed the design and implementation of an end-to-end knowledge graph that models the Netflix user experience as interactions of a connected graph of users, clients, services, and infrastructure.
End-to-End (E2E) Observability is the ability to monitor, understand, and debug the entire state of a complex system, from the frontend user experience on one end, through backend services, down to the underlying cloud infrastructure on the other.
Vijayanathan kicked off his part of the presentation by asking the audience to imagine a system that could: immediately detect issues; prioritize incident impact and triage; automatically identify root causes; and proactively predict.
In a recent incident investigation at Netflix, it took four hours from the initial alert of the incident to its resolution. In between, there was triage, debugging, and identification of the root cause. Resources included a total of nine teams of more than 30 engineers to resolve this incident and three related incidents.
Typical challenges to E2E observability include: numerous and siloed data sources; disconnected and non-contextual alerting; complexity with triage and troubleshooting; and inadequate detection methods.
The concept of Connectedness includes bridging gaps and breaking silos. At Netflix, connected data in its E2E observability includes: enriching data for a single source of truth; minimizing duplication of effort; the ability to triage and troubleshoot complex issues that deliver aggregated insights and root causes; and improved accuracy with diagnostics.
Vijayanathan introduced the MELT Layer (Metrics, Events, Logs, Events) as a unified observability layer for users, devices, and services that can improve the resolution time of incidents.
Sanchez-Silva then kicked off his part of the presentation by introducing the concept of Ontology, defined as a formal specification of types, properties, and relationships. Ontology is a way to encode knowledge. It's not just the data, it's about the relationships.
The ontology data structure, the Triple, is a tuple (Subject | Predicate | Object) that defines a fact in a knowledge graph that can be queried.
An example of such a triple is:
api-gateway | rdf:type | ops:Application
api-gateway | ops:ownedBy | "Team Bedrock"
INC-5377 | rdf:type | ops:Incident
INC-5377 | ops:affects | api-gateway
The 12 Operational Namespaces connect all the things in the Netflix infrastructure. These include: Slack, Alerts, Metrics, Logs, Incident, E2E, and Harvest.
Sanchez-Silva stated that incident knowledge may be scattered among the 12 operational namespaces, causing operational chaos. The ontology, however, provides order as it captures, structures, and preserves a machine-readable triple data structure.
The Knowledge Flywheel builds resiliency as one rotation features three states — Observer, Enrich, and Infer — as input for adapting. Each rotation encodes knowledge for subsequent, smarter rotations.
Using Claude as a co-developer, each harvest runs in its own git worktree. Two flywheels may "spin together" in one system. For example:
Flywheel 1: Knowledge
Slack --> Enrich --> Infer --> Adapt
Flywheel 2: Code (git worktree)
Worktree --> Claude --> PR--> Review --> Merge
Both flywheels work together so that Claude can propose a pull request (PR), and a human can review the PR and merge it.
Sanchez-Silva maintained that the ontology is the contract between chaos and understanding. The result is shown in this ontology visualization of an incident.
Moving forward, Netflix plans to: automate root cause analyses; provide auto-remediation; and create a self-healing infrastructure.
About the Author
Michael Redlich
Michael Redlich has been an active member within the Java community for the past 25 years. He founded the Garden State Java User Group (formerly the ACGNJ Java Users Group) in 2001 that remains in continuous operation.
Since 2016, Mike has served as a Java community news editor for InfoQ where his contributions include monthly news items, technical writing and technical reviews. He has presented at venues such as Oracle Code One, Emerging Technologies for the Enterprise, Trenton Computer Festival (TCF), TCF IT Professional Conference, and numerous Java User Groups. Mike serves as a committer on the Jakarta NoSQL and Jakarta Data specifications and participates on the leadership council of the Jakarta EE Ambassadors. He was named a Java Champion in April 2023.
With 33-1/2 years service, Mike recently retired from ExxonMobil Technology & Engineering in Clinton, New Jersey with experience in developing custom scientific laboratory and web applications. He also has experience as a Technical Support Engineer at Ai-Logix, Inc. (now AudioCodes) where he provided technical support and developed telephony applications for customers.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み