LangChain Blog: Monte Carlo、LangGraph と LangSmith を活用したデータおよび AI 観測エージェントの構築
Monte Carlo は、LangGraph と LangSmith を統合することで、データ品質と AI の挙動を監視・分析する自律型エージェントの開発手法を発表した。
キーポイント
自律型監視エージェントの構築
LangGraph のグラフ構造を活用し、データの品質と AI モデルの挙動を自動的に監視・分析するエージェントを開発する手法が示された。
LangSmith との統合による可視化
LangChain の観測プラットフォームである LangSmith を連携させることで、複雑な AI システムの状態を一元管理し、問題を特定しやすくしている。
データ品質と AI 挙動の同時監視
従来の単なるログ監視を超え、入力データの信頼性と出力 AI の振る舞いの両方を関連付けて分析する新しいアプローチを提案している。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI システムの実運用において不可欠な「観測性(Observability)」の課題に対し、具体的な技術スタック(LangGraph/LangSmith)を用いた解決策を示した点で重要です。企業はこれにより、AI のブラックボックス化を防ぎつつ、データドリフトやモデル不具合を早期に検知する自律的な運用体制を構築できるようになります。
編集コメント
AI システムの信頼性を担保するための「観測性」分野において、主要なツールチェーンを組み合わせる実践的なアプローチが示されました。開発者が自律的に問題を解決する仕組みを作る上で重要な指針となるでしょう。

Monte Carlo の トラブルシューティングエージェント アーキテクチャのハイレベルな概要Monte Carlo は、エンタープライズ向けのデータおよび AI 観測性(Observability)プラットフォームのリーダーであり、組織がデータの信頼性と AI の信頼性の問題を監視し、根本原因まで遡って追跡することを支援します。洗練されたデータモニタリングおよびトラブルシューティングツールの構築に長年取り組んできた結果、Monte Carlo は、自らが無意識のうちに次世代のフラッグシップ AI エージェントの基盤を築いていたことに気づきました。これは、数百ものサブエージェントを起動してデータの問題を検証し、魅力的かつ実行可能な方法で根本原因分析を加速させるシステムです。
エンタープライズ規模でのデータパイプライントラブルシューティングの自動化
エンタープライズ組織のデータエンジニアは、データアラートの手動トラブルシューティングに無数の時間を費やしています。具体的には、失敗したジョブの調査、コード変更の追跡、そして問題が即座の解決を要するものか、優先度を下げて後回しにしてもよいものかを判断することです。この手作業プロセスは、エンジニアに単一の調査パスを順次たどることを強いるため、並行して発生している問題を見過ごしたり、複雑で相互接続されたデータシステムにおいて根本原因の特定に時間がかかりすぎたりする結果となります。
モンテカルロの顧客は主に、データが大きな収益を生み出す大企業です。これらの顧客にとって、不正確なまままたは利用できないデータは数百万ドル規模のビジネスに影響を及ぼす可能性があります。モンテカルロは包括的なトラブルシューティングツールを構築していましたが、さらにこの「データダウンタイム」を削減する機会を見出しました。具体的には、AI エージェントが数百もの仮説を並列的に処理・推論させることで、データおよび AI チームが特定のデータ品質インシデントの根本原因を迅速に特定し修正する能力を加速させることです。

LangGraph を用いたマルチパスのトラブルシューティング
モンテカルロは、調査プロセスが本質的にグラフベースの意思決定フローに自然に対応することから、AI トラブルシューティングエージェントの基盤としてLangGraphを選択しました。アラートが発生すると、同社のシステムは熟練したデータエンジニアが問題に取り組むアプローチを模倣しつつ、スケールして実行される構造化されたトラブルシューティング手法に従います。
アラート → コード変更の確認 → タイムラインの分析 → 依存関係の調査 → 発見事項の報告
彼らの LangGraph の実装はアラートから始まり、調査ノードの動的なグラフを作成します。各ノードは発見内容に基づいてサブノードを生成することができ、これによりエージェントは以下のことが可能になります:
- 過去 7 日間のコード変更を確認する
- 特定のデータパイプラインに影響を与える変更点に絞り込む
- 問題発生数時間前に起きたイベントを調査する
- 複数の潜在的な根本原因を同時に調査する
最大の利点: 人間のトラブルシューターが一度に一つの経路しか追えないのに対し、Monte Carlo のエージェントは複数の調査分岐を並列で探索でき、個人の手作業では処理しきれないはるかに多くのシナリオをチェックできます。
Monte Carlo のプロダクトマネージャーである Bryce Heltzel は、LangGraph の価値は市場投入までのスピードを実現した点にあると指摘しています。主要な業界サミットを前に 4 週間という厳しい納期の中で、チームはカスタムビルドのソリューションでは不可能だった顧客へのエージェントデモンストレーションに自信を持って臨むことができました。
LangSmith を用いたデバッグ
Monte Carlo は開発初日から LangSmith を用いたデバッグを開始しました。Heltzel 氏によると、「LangGraph でエージェントを構築し始めた際、LangSmith は自然な選択でした。私たちはグラフベースのワークフローで何を開発しているかを可視化するために LangSmith を必要としていました」。
プロダクトマネージャーである Heltzel 氏は、自社のエージェント向けのプロンプトエンジニアリングプロセスに深く関与しています。顧客ユースケースに関する深い文脈知識を持つ彼により、エンジニアリングサイクルを経るのではなく、プロンプトを直接迅速に反復できるようになりました。
Monte Carlo チームは、LangSmith が起動するために必要な設定が最小限であるため、ツールセットアップに時間を割くのではなく、エージェントロジックの構築と顧客へのデータ課題解決に集中できるようになりました。
Monte Carlo のアーキテクチャ
このアーキテクチャでは、複数の AWS サービスを活用し、Monte Carlo の既存モノリスプラットフォームと新しい AI エージェントスタックを接続する、スケーラブルで安全かつ疎結合なシステムを構築しています。私たちは、インフラストラクチャの管理が不要な最新のファウンデーションモデル(foundational models)をエージェントに提供するために Amazon Bedrock を活用しています。Auth Gateway Lambda は、軽量なサーバーレスのエントリーポイントとして認証処理を担当し、専用サーバーを維持することなく安全なアクセスを実現します。Monolith Service は、コア API(GraphQL および REST)の提供を継続し、信頼性と自動メンテナンスを提供する管理型リレーショナルデータベースである Amazon RDS にアプリケーションデータを永続化しています。
AI 側では、AI Agent Service が Amazon ECS Fargate で実行されており、これによりコンテナ化されたマイクロサービスが基盤インフラの管理なしで自動的にスケールします。AI Agent Service への着信トラフィックはネットワークロードバランサ(NLB)を介して分散され、Fargate タスク間で高性能かつ低遅延なルーティングを提供します。これらの AWS コンポーネントにより、レガシーなモノリスと現代的な AI マイクロサービスが安全な認証、耐障害性の高いデータストレージ、弾力的なコンピューティングスケーリングを備えつつ効率的に相互運用する堅牢なシステムが実現されています。

今後の展望
Monte Carlo は現在、可視性と検証に注力しています。つまり、トレース上でバグがどこで発生しているかを理解し、エージェントが一貫して顧客に価値を提供し続けるための堅牢なフィードバックメカニズムを構築することです。彼らは、各調査においてエージェントが根本原因を正しく特定できているかを測定するための検証シナリオに取り組んでいます。
将来に向けて、Monte Carlo はコアとなるバリュープロポジション——データチームがこれまで以上に迅速かつ包括的に課題を解決できるように支援する——を維持しつつ、エージェントの機能を拡張する計画です。データと AI の観測性(observability)ツール構築における先行者としての優位性に加え、LangGraph の柔軟なアーキテクチャと LangSmith のデバッグ機能を活用することで、データおよび AI 観測性 の分野で引き続きリーダーシップを発揮していくことが期待されます。
原文を表示
A high-level overview of Monte Carlo’s [Troubleshooting Agent architecture](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/69cbaa78bf847dfe35ef103d_data-src-image-dd30ebdc-8c0a-4c5a-9060-1e2d8ccbf975.png)
Monte Carlo is a leading data + AI observability platform for enterprises, helping organizations monitor data and AI reliability issues, and trace them back to their root causes. After years of building sophisticated data monitoring and troubleshooting tools, Monte Carlo realized they had been unknowingly building the foundation for what would become their flagship AI agent— a system that can launch hundreds of sub-agents to investigate data issues and accelerate root cause analysis in a compelling, actionable way.
Automating data pipeline troubleshooting at enterprise scale
Data engineers at enterprise organizations spend countless hours manually troubleshooting data alerts—investigating failed jobs, tracking down code changes, and determining whether issues require immediate resolution or can be deprioritized. This manual process forces engineers to follow single investigation paths sequentially, often missing parallel issues or taking too long to identify root causes in complex, interconnected data systems.
Monte Carlo's customers are primarily large enterprises where data drives significant revenue. For these customers, data that remains incorrect or unavailable can affect millions of dollars of business. While Monte Carlo had built comprehensive troubleshooting tools, they identified an opportunity to further reduce this “data downtime:” have AI agents process and reason through hundreds of hypotheses concurrently to accelerate data + AI team’s ability to quickly spot and fix the root cause behind specific data quality incidents.

Troubleshooting multi-paths with LangGraph
Monte Carlo chose LangGraph as the foundation for their AI Troubleshooting Agent because their investigation process naturally mapped to a graph-based decision-making flow. When an alert is triggered, their system follows a structured troubleshooting methodology that mirrors how experienced data engineers approach problems, but at scale.
Alert → Check Code Changes → Analyze Timeline → Investigate Dependencies → Report Findings
Their LangGraph implementation starts with an alert and creates a dynamic graph of investigation nodes. Each node can spawn sub-nodes based on findings, allowing the agent to:
- Check for code changes in the past 7 days
- Narrow down to changes affecting the specific data pipeline
- Look at events occurring hours before the issue
- Investigate multiple potential root causes simultaneously
The key advantage: While human troubleshooters follow one path at a time, Monte Carlo's agent can explore multiple investigation branches in parallel, checking significantly more scenarios than any individual data engineer could handle manually.
Monte Carlo's Product Manager, Bryce Heltzel, notes that LangGraph's value was in achieving speed to market. With a tight 4-week deadline ahead of major industry summits, the team felt confident demonstrating their agent to customers— something that wouldn't have been possible with a custom-built solution.
Debugging with LangSmith
Monte Carlo started debugging using LangSmith on day one of development. As Heltzel explains, "LangSmith was a natural choice as we started building our agent in LangGraph. We wanted LangSmith to visualize what we were developing for our graph-based workflows."
As a product manager, Heltzel is very involved in the process of prompt engineering for their agents. With his deep context about customer use cases, he can now iterate quickly on prompts directly rather than going through engineering cycles.
The Monte Carlo team has been able to focus on agent logic and solving data issues for customers rather than tooling setup due to the minimal configuration LangSmith required to get up and running.
Monte Carlo's architecture
This architecture leverages several AWS services to build a scalable, secure, and decoupled system that connects Monte Carlo’s existing monolithic platform with its new AI Agent stack. We use Amazon Bedrock to empower our agents with the latest foundational models without the need to manage any infrastructure. The Auth Gateway Lambda handles authentication as a lightweight, serverless entry point, ensuring secure access without maintaining dedicated servers. The Monolith Service continues to serve core APIs (GraphQL and REST) and persists application data in Amazon RDS, a managed relational database that provides reliability and automated maintenance.
On the AI side, the AI Agent Service runs on Amazon ECS Fargate, which enables containerized microservices to scale automatically without managing underlying infrastructure. Incoming traffic to the AI Agent Service is distributed through a network load balancer (NLB), providing high-performance, low-latency routing across Fargate tasks. Together, these AWS components create a robust system where the legacy monolith and modern AI microservices interoperate efficiently, with secure authentication, resilient data storage, and elastic compute scaling.

What's next
Monte Carlo is currently focused on visibility and validation — understanding where bugs occur in their traces and building robust feedback mechanisms to ensure their agent consistently delivers value to customers. They're working on validation scenarios to measure whether the agent successfully identifies root causes in each investigation.
Looking ahead, Monte Carlo plans to expand their agent's capabilities while maintaining the core value proposition: enabling data teams to resolve issues faster and more comprehensively than ever before. Their head start in building data + AI observability tools, combined with LangGraph's flexible architecture and LangSmith's debugging capabilities, positions them to continue leading the data + AI observability space.
関連記事
Credit GenieがInsights Agentを活用し、AI財務アシスタントを改善した方法
Credit GenieはLangSmithのInsights Agentを活用し、顧客向けAI財務アシスタント「AskGenie」の品質を向上させた。この取り組みにより、アシスタントのパフォーマンスと精度が改善された。
NVIDIA SkillSpector ガイド:静的解析と SARIF レポートによる AI スキルのセキュリティリスクスキャン
NVIDIA は、SkillSpector を用いて実運用前の AI スキルにおけるセキュリティリスクを評価する手法を解説した。同ツールは悪意のある脆弱性を含むサンプルを用いた制御されたコーパスを静的解析し、リスクスコアと発見事項を SARIF 形式で出力・可視化する。
SmithDB における全文検索:オブジェクトストレージ用の逆インデックス設計
LangChain が SmithDB の性能向上のため、オブジェクトストレージ環境に適した逆インデックスの設計手法を公開しました。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み