Pendo が LangSmith を活用し、ユーザー行動からコード修正までを追跡する Novus の仕組み
Pendo は LangSmith を活用し、ユーザーの行動データからコード修正に至るまでの完全なトレーサビリティを提供する「Novus」を導入した。
キーポイント
Novus の導入と目的
Pendo が LangSmith を基盤として、ユーザーの行動データからコード修正に至るまでのプロセスを可視化する「Novus」という機能を構築・導入した。
エンドツーエンドのトレーサビリティ
単なるログ収集ではなく、ユーザーの具体的な行動(トリガー)と、それに対応するコード変更(修正)を直接リンクさせ、因果関係を明確に可視化する。
開発プロセスの効率化
従来の推測や断片的なデータに基づく開発から脱却し、データ駆動型で最も効果的なコード修正を迅速に特定・実装できる仕組みを提供する。
影響分析・編集コメントを表示
影響分析
この事例は、AI ツールが単なるコード生成や要約だけでなく、製品のライフサイクル全体における意思決定の根拠となるトレーサビリティを提供する重要なステップであることを示しています。開発チームがデータの断片を統合し、行動から修正までを一貫して追跡できることで、製品改善のスピードと精度が劇的に向上する可能性があります。
編集コメント
ユーザー行動とコード修正を直接結びつけるトレーサビリティの確立は、AI を活用した製品開発において極めて重要なインフラと言えます。LangChain エコシステム内での実装事例として、他の企業も同様のアプローチを検討するきっかけとなるでしょう。
*ゲスト投稿:Zain Lakhani氏(Pendo 首席 AI オフィサー)*
Novus は、ライブアプリケーション内の使いやすさの問題を検出し、根本的なコードを修正し、ユーザーエクスペリエンスを向上させるプロダクトエージェントです。PM がレビューした評価において90% 以上の成功率を達成しており、数ヶ月ではなく数日で本番環境への展開を実現しました。この両方を可能にした核心的な理由の一つが LangSmith です。
AI コーディングツールは出荷速度を加速させたが、製品フィードバックループを見捨てた
従来の私たちのユーザーは、ダッシュボードを確認し、ユーザーと対話し、発見に基づいて PRD(製品要件定義書)を作成するプロダクトマネージャーでした。しかし現在では、毎日コードをリリースするプロダクトエンジニアとなっています。既存のプラットフォームはこの速度には対応していませんでした。
市場の誰もが、人々を開発者になることを可能にすることに注力しています。AI コーディングツールを活用してチームが一度に 4 つのチケットを処理できるように支援し、「コーディングと出荷」の問題を実質的に解決しようとしています。その結果生じる速度は、エンドツーエンドのプロダクトライフサイクルの後半部分、つまり開発者とプロダクトマネージャーという不可欠な組み合わせを見落としています。開発者は迅速に出荷しますが、PM はフィードバックを収集し、何を改善すべきかの文脈を提供し、開発者は引き続き出荷を続けます。
その結果、フィードバックループが分断されてしまいました。以前は一般的だったユーザー受入テストを経ずにコードが生産環境にリリースされます。その結果、多くのリリース物が使いにくく、採用率や維持率の目標達成に苦労するソフトウェアとなっています。
Novus は完全なサイクルを閉じるために存在します。あなたが何かをリリースし、ユーザーが struggling しているとき、私たちはすぐにそれを修正します。スピードを維持しましょう——問題になる前に検知して対応します。
Novus は製品分析とセッション再生をコード修正に変える
ユーザーは自分のコードベースをリンクし、すべてのユーザークリックを監視しセッション再生を記録する Novus のスニペットをインストールします。Novus はこの行動データを集約し、AI を使用して解釈することで、継続的に具体的で実行可能な課題を浮き彫りにします。例えば、「1 日に千回の訪問があるページで、チェックアウトから注文確認へのファネル転換率が 3% 低下していることを検知しました」といった具合です。
エージェントの知能は、エンドツーエンドの分析にあります:セッション再生を使用して根本原因(例えば、怒りクリックの特定など)を診断し、その行動が関与する特定のコードファイルと相関付け、提案された修正を生成します。
このサイクルには多くの要素が絡み合っています。何か問題が発生したとき(ツール呼び出しが予期しないデータを返す、サブエージェントが逸脱する、プロンプトの変更により出力品質が低下するなど)、何が起きたのかを正確に把握する必要があります。そのため、Novus における Claude Agent SDK の統合の一環として、LangSmith のトレーシング機能を本番環境へ展開しました。現在、これはシステムがどのように動作するかを理解するための主要な窓となっています。
LangSmith は本番環境で Novus をデバッグする
LangSmith は、最初の設計パートナーとの会話から本番環境に至るまで、私たちのエージェントの観測プラットフォームとして機能してきました。Novus が成熟するにつれて注目すべき点は変化しましたが、LangSmith は一貫した基盤であり続けています。
Traces showed how users interacted with Novus and which use cases to prioritize
設計パートナーフェーズの間、私たちは LangSmith のトレースビューの中で生活していました。毎朝、まず最初にそれを開き、個々の会話を読み込みました——人々がエージェントに何を尋ねたか、それがどのように応答したか——そしてそれによって使用ケースを選別しました。私たちが読んだのは、推測や潜在的な誤った仮定なしに、本番環境から直接得られた実際のユーザーの行動です。時が経つにつれて、これらの使用ケースはオープンベータ版で出荷された提案プロンプトとなり、その後、評価セットの骨格となりました。
本番環境では、トレースは依然として明白な役割を果たしています。すべての実行で完全なトレースツリー(入力、出力、ツール呼び出し、サブエージェントの呼び出し、トークン数、コストデータ)が生成されるため、顧客から生成された PR が適切な課題に対応していなかったと指摘された場合、トレースを呼び出して、エージェントが行ったすべての決定を追跡します。ネスト構造はエージェントの構成方法にマップしているため、推論ステップでどこが間違っていたかを直感的に見ることができます。
LangSmith traces showed when Novus used analytics or code context, instead of both
私たちは非常に早い段階で、トレースを見守ることで、エージェントが製品分析データとコードベースのコンテキストのどちらか一方を考慮する選択をしているが、両方を同時に考慮することは極めて稀であることを発見しました。これを LangSmith で早期に検知し、Novus の真価はこれら 2 つを組み合わせることにあることをより明確にするようプロンプトを調整しました。製品分析データまたはコードベースのコンテキストのみに依存することは、私たちが Novus 以前の時代に戻ってしまうことを意味します。
結果
- 新しいユースケースの特定と評価に要する時間が、以前の製品と比較して 25% 削減されました。
- AI に起因する問題のうち、60% が顧客から報告される前にトレーシング(追跡)機能によって検出されています。
Novus は、観察速度よりも速く製品をリリースするチームのために設計されています
Novus は製品エンジニア向けに構築されたものです。つまり、製品のリリース速度と利用状況の両方に対して責任を持つチームを対象としています。AI によるコーディングツールがアイデアから本番環境への移行時間をさらに圧縮するにつれて、デプロイされたものと理解されているものの間のギャップは拡大していく一方です。私たちの役割は、ユーザーセッションから数分以内にそのギャップを自動的に埋めることです。
*Pendo は、企業がユーザーの行動を理解し、製品の採用を促進するための製品分析を提供します。*Novus*は、Pendo の製品エージェントであり、使いやすさの問題を自動的に検出し、根本的なコードを修正し、ユーザー体験を改善することで、行動データとより良いソフトウェアの間のループを閉じます。*
原文を表示
*Guest post by Zain Lakhani, Chief AI Officer, Pendo*
Novus is a product agent that detects usability issues in live applications, fixes the underlying code, and improves the user experience. It achieves a 90%+ success rate on PM-reviewed evals and we shipped it to production in days, not months. LangSmith is a core reason we could do both.
AI coding tools sped up shipping, but left the product feedback loop behind
Our users have traditionally been product managers looking at dashboards, talking to users, and writing PRDs based on their discovery. Now they're product engineers shipping code every day. Our existing platform wasn’t meant for that speed.
Everyone in the market is focused on enabling people to become developers. They’re helping teams run four tickets at once with AI coding tools, effectively solving the "coding and shipping" problem. The resulting velocity ignores the second half of the end-to-end product lifecycle: the vital combo of the developer and the product manager. The developer ships quickly, the PM collects feedback and provides context on what to iterate on, and the developer continues to ship.
The result is a broken feedback loop. Code hits production without the previously-common user acceptance testing. As a result, a lot of what's going out is difficult-to-use software that struggles to meet its adoption and retention goals.
Novus exists to close the full cycle; you've shipped something, users are struggling, and we fix it right after. Keep going fast—we'll catch and address issues before they become a problem.
Novus turns product analytics and session replays into code fixes
A user links their codebase and installs a Novus snippet that monitors all user clicks and records session replays. Novus aggregates this behavioral data and uses AI to interpret it, surfacing concrete, actionable issues continuously. It might say: *"We noticed a 3% funnel conversion drop-off from checkout to order confirmation on a page that gets a thousand visits a day."*
The agent's intelligence lies in the end-to-end analysis: using session replays to diagnose the root cause (e.g., identifying rage clicks), correlate that behavior with the specific code files involved, and generate a suggested fix.
That cycle has a lot of moving parts. When something goes wrong (a tool call returns unexpected data, a subagent goes sideways, a prompt change degrades output quality) you need to see exactly what happened. That's why we shipped LangSmith tracing to production as part of the Claude Agent SDK integration in Novus. It's now our primary window into how the system behaves.
LangSmith debugs Novus in production
LangSmith has been our agent observability platform from first design-partner conversation through production. What we look at has shifted as Novus matured, but LangSmith has remained a constant foundation.
Traces showed how users interacted with Novus and which use cases to prioritize
During the design-partner phase, we lived in LangSmith’s trace view. Every morning, first thing, we'd open it and read through individual conversations—what people asked the agent, how it responded—and that's how we picked out our use cases. We read what users actually did, straight off production, without any guessing or potentially false assumptions. Over time, those use cases became the suggested prompts we shipped at open beta, and then the backbone of our eval sets.
In production, traces still do the obvious job. Every run generates a full trace tree—inputs, outputs, tool calls, subagent invocations, token counts, cost data—so when a customer tells us a generated PR didn't address the right issue, we pull up the trace and walk through every decision the agent made. The nested structure maps to how the agent is organized, so it's straightforward to see where a reasoning step went wrong.
LangSmith traces showed when Novus used analytics or code context, instead of both
We noticed very early on, by watching traces, that the agent was choosing to take either the product analytics data into account or the code-based context, but very rarely both. We caught this early in LangSmith and tuned our prompts accordingly to make it more explicit that the power of Novus comes from combining the two. Relying solely on product analytics or code-based context brings us back to the pre-Novus era.
Results
- 25% time saved compared to previous products for identifying and evaling new use cases
- 60% of AI problems caught via traces before being caught by customers
Novus is built for product teams shipping faster than they can observe
Novus is built for product engineers. That is, teams responsible for both the shipping velocity and usage. As AI coding tools keep compressing the time between idea and production, the gap between what's deployed and what's understood is only going to grow. Our job is to close that gap automatically, within minutes of a user session.
*Pendo provides product analytics that help companies understand user behavior and drive product adoption. *Novus* is Pendo's product agent for automatically detecting usability issues, fixing the underlying code, and improving the user experience—closing the loop between behavioral data and better software.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み