DataOpsのループを閉じる:なぜ私たちがDagster+向けにCompassを構築したのか
検出はもはやボトルネックではなく、理解が課題です。CompassはDagster+の運用データを対話に変えることで、このループを閉じます。
キーポイント
Dagsterが「Compass」というSlack統合型AIデータアナリストを発表し、DataOpsの「観察→行動」のループを閉じる
従来のデータオブザーバビリティは検知(Detection)に重点があったが、Compassは自然言語で問い合わせ、根本原因分析と次のアクションを提案することで解決(Resolution)を加速
製品哲学として「閉ループ分析(closed-loop analytics)」をDataOps(Orchestrate → Observe → Act)に適用し、オペレーショナルデータを会話型インターフェースに変換
Dagster+の実行履歴、アセット、メタデータを基盤にしたAIエージェントとして、手動調査の負荷を削減し、平均解決時間(MTTR)の短縮を目指す
影響分析・編集コメントを表示
影響分析
この発表は、データエンジニアリングとAIオペレーションの融合を示す重要な事例である。従来の監視ツールが生成するアラートと人間の判断の間にあるギャップを、会話型AIで埋めることで、データプラットフォームの運用効率を大幅に改善する可能性がある。また、SlackなどのコラボレーションツールにAIエージェントを統合する「AIネイティブな運用」のトレンドを後押しする。
編集コメント
「検知から解決へ」という明確な価値提案で、AIをデータプラットフォームの運用に実用的に組み込んだ好例。データチームの日常業務(Slack)に溶け込む形でのAI導入は、採用障壁を下げる効果が大きい。
データプラットフォームの可視性が高まる中、障害検知自体は迅速化したものの、その原因理解と解決への道筋(平均解決時間)が新たな課題となっています。Dagsterチームはこの「検知から解決までのギャップ」を埋めるため、Slack統合型AIデータアナリスト「Compass」を開発しました。
従来のDataOpsは、「オーケストレーション(パイプライン実行)→ オブザーバビリティ(監視・可視化)→ アクション(対応)」というループで構成されます。Dagster+は最初の2段階を強力に支援し、資産の定義、実行管理、豊富なメタデータ(実行履歴、資産系譜、成功/失敗状態)による可視化を実現してきました。しかし、検知されたアラートから「何が起きているのか」「次に何をすべきか」を判断する最終段階「アクション」は、依然として人間が手動で行う負担の大きい作業でした。エンジニアは適切なビューを開き、時間枠を絞り込み、複数のジョブを横断参照するなど、頭の中でのパターンマッチングに頼らざるを得ませんでした。
Compassは、この第三の「アクション」段階を自動化し、DataOpsのループを閉じることを目的としています。その核となるのは、Dagster+環境を理解するAIエージェント機能です。ユーザーはSlack内で自然言語で質問(例:「昨夜失敗したジョブは何?」「このテーブルに依存するダッシュボードは?」)を投げかけると、Compassは実際の実行データ、資産、メタデータに基づいた回答を即座に生成します。これにより、「何か問題がありそうだ」という気付きから、「何が起きていて、次に何をすべきか」という具体的な洞察と指示を得るまでの流れが、ツールを切り替えることなく、会話のようにスムーズに行えるようになります。
要するに、Compassは単なる監視アラートツールを超え、蓄積された運用データを解釈し、状況を説明し、次の行動を提案する「AIデータアナリスト」として機能します。これにより、データチームは複雑化するプラットフォームにおける平均解決時間を短縮し、検知から理解、そして解決へのプロセスを根本的に加速させることが期待されます。
原文を表示
Meet Compass — Dagster’s new AI data analyst for Slack. Turn questions into trusted insights, instantly. Try Compass now →Discover What assets do best, an animated, narrated story about how data assets work together. Watch now →
Try Dagster+Sign InDetection isn't the bottleneck anymore. Understanding is. Compass closes the loop by turning Dagster+ operational data into a conversation.
Data teams have more visibility into their pipelines than ever before. Modern orchestration and observability tools capture every run, track every asset, and surface alerts when something breaks. The promise was that all this instrumentation would finally make data platforms legible, no longer black boxes.
We have been building Dagster to help solve the “big complexity” problem with data engineering. But as platforms became more complex, the abstractions we built to address the last wave of complexity needed more support to handle the next.
The central question that a good observability and operational tool should answer is “What is even happening?” and the great ones can answer “What should I do next?”
That gap is what we set out to close with Compass.
Request access to Dagster+ Compass.
In operational analytics, there's a concept called closed-loop analytics: a cycle that captures signals, analyzes patterns, acts on findings, and measures results. The loop only works if each stage flows into the next.
We think about DataOps the same way: as a loop with three parts: Orchestrate → Observe → Act.
Dagster+ handles orchestration. You define your assets, set up schedules and sensors, and Dagster makes sure your pipelines run when and how they should.
Dagster+ also handles observation. Every run is tracked. Every asset has lineage. You can see what succeeded, what failed, what's stale, and what depends on what. The metadata is rich, and it's all there.
But the third part, acting on what you observe, has historically been left as an exercise for the reader. You have the signals. Now go figure out what they mean, decide which ones matter, and determine what to do next.
This is where the observability industry has focused on Mean Time to Detection and made real progress. But detection isn't resolution. Teams still struggle with Mean Time to Resolution because turning an alert into understanding requires manual investigation: opening the right views, filtering to the right time window, cross-referencing across jobs, and pattern-matching in your head.
Compass closes this loop. It turns Dagster+ operational data into a conversation, so you can go from "something seems wrong" to "here's what's happening and what to do next" without leaving Slack.
What the Dagster+ Compass Integration Actually Does
Compass is an AI agent that now understands your Dagster+ environment. You can ask it questions in natural language, and it responds with answers grounded in your actual runs, assets, and metadata.
Compass is designed to guide investigation, not just answer one-off questions. It suggests where to drill down next. It surfaces patterns you might not have thought to look for. It provides links to the exact locations in Dagster+ where you can take action.
A typical investigation might start broadly: "Give me a summary of my data platform's health." Compass responds with a breakdown of successful vs. failed runs across your common jobs, success rates by code location, and top and bottom performers over the last seven days.
From there, you can pull on any thread. Drill into failure time distribution, and Compass shows you rates by day and hour, highlighting spikes worth investigating. Ask what failed on a specific date, and it identifies the culprits, maybe one job that failed repeatedly, plus a few scattered others.
At each step, Compass suggests next moves: compare across days, examine dependencies, drill into specific runs. The conversation builds on itself, guiding you toward root causes rather than leaving you to figure out what to click next.
Our own data team has been using Compass to monitor the Dagster platform at a deeper level. Nick Roach, one of our data engineers, put it well: "I want a one-stop shop when I'm investigating what might be going wrong. Being able to interact conversationally—and have it suggest where to go next—is really exciting."
From Firefighting to Pattern-Driven Improvement
The obvious use case for Compass is incident triage. Something breaks, you ask Compass what happened, and you get an answer faster than you would have otherwise. That alone reduces time to resolution.
But the more interesting use case is what happens when you're not firefighting.
One of the hardest problems in operational analytics is what Monte Carlo calls "unknown unknowns" issues that don't trigger alerts because you didn't know to test for them. You can have comprehensive monitoring covering anticipated failure modes, but still miss the slow degradations, the cree
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み