Nexus の実世界での成果:早期アクセス顧客からの実際の結果
Pinecone は、エンタープライズ AI のコストと信頼性課題に対し、クエリ実行前に構造化アーティファクトを事前生成する「Nexus」を発表し、早期アクセス顧客での実証結果としてトークンコスト削減、精度向上、レイテンシ短縮の成果を示した。
キーポイント
エンタープライズ AI の課題転換
昨今の議論は機能からコストと信頼性へ移っており、推論コストの多くが検索ループ(retrieval loops)に費やされている現状を指摘。
Nexus の技術的アプローチ
従来のクエリ実行時のチャンキング・埋め込みではなく、ドメインや推論要件に基づいて事前に関係性の高い構造化アーティファクトを生成するインフラ層の革新。
ベンチマークと評価指標
トークンコスト、精度(LLM 判定)、レイテンシの 3 つの KPI で既存のアジェンティック RAG と比較し、スケーラビリティにおける経済性と一貫性を検証。
実証事例と成果
標準必須特許検索(Melange)などの早期アクセス顧客において、従来のループ型アプローチよりも効率的な回答生成を実現した具体的な結果を発表。
影響分析・編集コメントを表示
影響分析
この発表は、RAG(検索拡張生成)のアーキテクチャが単なるデータ検索から、推論を前提とした事前構造化へと進化する転換点を示しています。特に大規模なエンタープライズ環境において、AI の運用コストと信頼性を同時に解決する具体的な手法を提示した点は、業界全体の設計思想に影響を与える可能性があります。
編集コメント
従来の RAG パターンが抱える「ループによるコスト増」という本質的な課題に対し、インフラ層で解決策を提示した点は注目すべき進展です。ただし、これはまだ早期アクセス段階の成果であり、一般化されたベンチマークとしての確立にはさらなる検証が必要です。
過去1年間、エンタープライズAIの議論は主に機能性についてのものでした。しかし今ではその問いはコストと信頼性へと置き換わっています。大規模運用におけるAIの実行には多額の費用がかかり、精度やレイテンシも最も困難なデータセットにおいては依然として破綻することがあります。チームが推論支出の実際の内容を確認すると、その大部分は推論ではなく、モデルが何かを言う前に実行される検索ループに費やされています。
Pinecone Nexus はインフラストラクチャ層においてこの課題に対処します。クエリ発生時に知識を組み立てるのではなく、いかなるクエリも到着する前にコーパスから構造化されたアーティファクトをコンパイルし、検索パイプラインをデータの特定の形状に合わせて調整します。私たちは4週間前にリリースを開始し、実際のエンタープライズデータセットを持つ早期アクセスユーザーと連携してきました。私たちの初期のエンタープライズパートナーは、Nexus 導入後に精度、レイテンシ、コストにおいて現実的な成果を上げています。
ベンチマーク
各顧客に対して、現在のエンタープライズエージェント展開で最も一般的なパターンに対し Nexus を実行しました:コーパスをチャンク化し、チャンクを埋め込み、ハイブリッド検索を使用する。エージェントは、回答に必要なコンテキストが得られるまで(クエリを実行、再ランク付け、上位チャンクの読み取り、再度検索)ループします。
このアプローチは正解を生み出すことができます。問題は、トークン数、時間、一貫性においてどの程度のコストがかかるか、そしてそのコストがエンタープライズ規模でも持続可能かどうかです。
3 つの主要指標(KPIs):
- トークンコスト。1 クエリあたりどの程度のトークンを消費するのか?企業規模での運用においては、これがエージェント型展開の経済性が成立するかどうかを決定づけます。
- 精度。エージェントは正しい回答を返すのか、かつ実行ごとに再現性があるのか?ベンチマークにおける各評価セットは、人間がラベル付けした質問と、実際のコーパスから抽出された期待される回答を用いて構築されました。回答は LLM ジャッジ(claude-sonnet-4-6)によって、0 から 1 のスケールで期待出力に対して採点されました。
- レイテンシ。クエリが完了するまでにはどの程度の時間がかかるのか?ライブワークフローに埋め込まれたエージェントや、ユーザー向け製品、自動化パイプライン、あるいは取引サポートにおいては、回答までの時間が重要です。
これら 3 つの要素はすべて、同じダイナミクスに起因しています。アジェンティック RAG(Retrieval-Augmented Generation)はクエリ実行時に知識を組み立てます:チャンクの検索、再ランク付け、読み込み、不足しているものの判断、そしてループの再実行です。このループは、生データから一度構築された汎用的なインデックス上で動作しますが、そのドメインやクエリの種類、あるいはタスクに必要な推論については一切知りません。各反復は、エージェントがインデックスが知らない部分を補い、欠如したものを回避しながら作業を行うものであり、基盤の上に成り立っているわけではありません。
Nexus は異なるアプローチを採用しています。クエリが到着する前に、対象となる主題、クエリの種類、そしてエージェントが必要とする推論に適合するように設計された構造化アーティファクトをコーパスから導き出します。これにより、エージェントは正確に検索し、即座に推論を行うことができます。
Melange: 標準必須特許の検索
ドメイン:知的財産 / 特許訴訟
Melange Technologies は、特許無効化や訴訟において法律事務所によって使用される、自律型の大規模先行技術検索エンジンを運営しています。同社の核心製品は、約 1.4 億件の特許文書から最も関連性の高い dozen(数件)に絞り込み、訴訟担当者に事件を処理するために必要な法的分析の初稿を提供するエージェント型検索システムです。この作業はほぼ完全に自律的であり、人間による検証は納品直前の最終段階のみで行われます。
Melange の次の拡張計画には、標準必須特許(Standard Essential Patents: SEPs)が含まれています。SEP とは、業界規格への準拠に必要な技術を主張する特許のことです。例えば、5G 機能を備えた電話機を製造する企業は、5G 技術規格の一部を実装する必要があります。もしある特許がその必須部分のいずれかをカバーしている場合、その規格を実施することは必然的にその特許の実施を意味します。特許ライセンス事業は数十億ドル規模の業界となり、SEP は最も価値が高く争われている紛争の中心に位置しています。
これには業界にとって2つの重要な示唆があります。第一に、特許が実際に標準に対して必須であるかどうかを特定することが極めて重要です。この分析は費用がかかり、時間がかかることが多く、人間ドメインの専門家が特許請求項と長い技術的な標準文書を行ごとに比較する必要があります。第二に、標準文書自体が先行技術として機能し、標準化プロセス中にすでに開示された技術を主張する特許を無効化する可能性があります。
3GPP 技術標準のリリース1には、関連文書2.3 GBを含む約1,800の文書が含まれています。パイロット評価では、5G NR(New Radio)標準の焦点を絞った29仕様のスライス(約31 MB、マークダウン形式に変換済み)が評価されました。これらの仕様は、埋め込まれた表と規範的な要件記述に富んだ .docx/.doc ファイルとして作成されています。
コーパス: 3GPP リリース18、約1,800 の .docx/.doc ファイル、約2.3 GB。5G NR 仕様、プロトコル標準、インターフェース定義、および規範的要件を網羅。パイロット評価は、29仕様の NR スライス(約31 MB、マークダウン形式に変換済み)で行われました。
評価セット: 30 の SEP(Standard Essential Patent)候補質問。それぞれが特許様式の請求項であり、標準コーパスに対して、最終的に確定された必須の 3GPP 要件がその請求項を必ず実施するかどうかを評価します。すべての回答は5つの判決(必須、条件付き必須、任意、禁止、または存在しない)のいずれかであり、該当する仕様、条項、および情報要素が明示されます。
メトリック | エージェント型 RAG | Nexus | Δ
---|---|---|---
精度 | 52.7% | 66% | 25% より正確
レイテンシ(クエリあたりの平均)187 秒→44 秒、77% 高速化
トークンコスト(クエリあたりの平均)201,000 トークン→5,900 トークン、97% 削減
Agentic RAG(自律型 RAG: Agentic Retrieval-Augmented Generation)では、このコーパスにおいて質問あたり平均約 20 の検索ステップが実行されました。しかし、インデックスに標準の構造化やクエリの要件に関する知識がないため、ループは密な文節参照型の技術基準に対して収束しません。Nexus は、いかなるクエリを実行する前にも、標準をアドレス可能な要件アーティファクトとして整理しました。その結果、正しい文節が直接取得され、トークン数は 5,900 で済みました(対照的に従来は 201,000 トークン必要でした)。
ビジネスへの影響: トークンコストを 97% 削減したことで、以前はコスト高により実現が困難だった自律型特許検索製品が、スケール可能な経済的実現性を獲得しました。クエリあたりのレイテンシが 1 分未満であることは、このワークフローが生きた訴訟のタイムラインに適合することを意味します。精度の向上は、弁護士によるレビュー時間の直接的な削減につながります。
「これらの初期結果は本当に興奮するものです:トークンコストを 34 倍削減し、当分野で最も困難な問題の一つにおいてクエリが 1 分未満で解決されたことは、私たちが正しい方向を向いていることを示しています。Pinecone の AI インフラストラクチャに目的特化型の知識エンジン(Knowledge Engine)を追加したことで、すでに実証的なビジネスインパクトの兆候が見えています。Nexus が成熟し、スケールする特許検索の要件に完全に適合していくにつれて、共にこの技術を発展させていくことを楽しみにしています。」— Joshua Beck, CEO, Melange
M&A デューデリジェンス
ドメイン:金融技術 / 投資管理
顧客は、資産運用会社、ヘッジファンド、プライベート・エクイティ企業を対象とする大規模な金融技術企業です。同社のクライアントは文書が膨大な環境で事業を展開しており、大量の文書セットから正確な回答を抽出することが、取引の結果や規制リスクに直接影響を与えます。
ここで評価されているユースケースは M&A デューデリジェンスであり、これは同顧客のクライアント層における代表的なシナリオです。中規模市場での買収であっても、取引用データルームには 10 以上のカテゴリにわたる数百件の文書が含まれます:監査済み財務諸表、資本構成表、顧客契約、知的財産出願書類、人事記録、不動産賃貸借契約、税務スケジュール、法的ガバナンス文書などです。質問は単一の文書内に収まるものではありません。それらには、すべての文書を同時に考慮した推論が必要です。
データセットは、$42M ARR のエンタープライズ SaaS 企業を対象とした完全な合成 M&A データルームであり、10 のカテゴリフォルダに構造化されています。ファイル形式は PDF、Excel ワークブック、マークダウンを含み、制御された評価可能な形式で、実際の取引データルームの複雑さ全体を網羅しています。
ここで重要なのは、本質的に多段階の推論を要する質問です。「Vantage の優先株式におけるどの資本構成の特徴が、普通株主へのエクイティ・バリューのウォータフォールに影響を与えるのか?」という問いには、キャップテーブル(資本構成表)、優先株式の条項、および清算優先権に関する文書を同時に推論する必要があります。また、「どのような潜在的な法的責任が Vantage の予測キャッシュフローを損ない、DCF(割引キャッシュフロー)モデルにおけるリスクディスカウントを必要とするか?」という問いには、知的財産出願、訴訟記録、財務予測という 3 つの異なるフォルダカテゴリにわたる情報を結びつける必要があります。答えとなる単一の文書は存在しません。この質問が解決するのは、データルーム全体が統合された知識面として扱われた時だけです。
コーパス: 会社概要、監査済み財務諸表、ARR スケジュール、キャップテーブル、顧客契約、知的財産出願、人事記録、税務書類、不動産賃貸借契約、およびプロセス文書を網羅する 10 のカテゴリフォルダにわたる 90 ドキュメント(PDF、XLSX、マークダウン形式)。
評価セット: 文書間推論を要する M&A デューデリジェンスに関する 30 の多段階クエリ。
メトリック | エージェント型 RAG | Nexus | Δ
---|---|---|---
精度 | 57% | 65% | 14% 向上
レイテンシ(クエリ平均) | 61 秒 | 32 秒 | 48% 高速化
トークンコスト(クエリ平均) | 66k トークン | 5k トークン | 92% 削減
Nexus は、RAG の約 10 回の反復ステップに対して、各質問を単一の検索ステップで解決しました。この精度向上は、最も困難なマルチホップクエリにおいても維持されています。そのようなケースでは、エージェント型 RAG のループが文書間で不完全なコンテキストを繰り返し取得し、再クエリを行わない限り推論のギャップを埋めることができません。Nexus は、いかなるクエリが届く前にも、データルームから文書間の関係をマッピングしたアーティファクトを生成しました。
ビジネスへの影響: 分析担当者がフォルダ間を横断して情報を統合するために要していた時間を要するデューデリジェンスワークフローが、今では数秒で完了します。トークンコストが 92% 削減され、レイテンシも 48% 低下したことで、取引パイプライン全体に AI を展開する経済性は根本的に変化しました。マルチホップ質問に対する精度の向上は、見落としのある債務や誤解された財務構造のリスクを低減します。
Gong トランスクリプトからの収益インテリジェンス
ドメイン: SMS マーケティング / E コマース SaaS
E コマースブランド向けの主要な SMS マーケティングおよび販売プラットフォームの営業チームとカスタマーサポート(CS)チームは、毎週大量の顧客対応通話を処理しています。価格交渉、オンボーディング通話、更新に関する議論、競合他社との取引サイクルなど、すべてのやり取りが Gong に記録されています。
課題は、それらの通話記録に閉じ込められたインサイトが大規模にはアクセスしにくい点にあります。「これらの通話全体で、どの競合他社が他のどの企業よりも遥かに多く言及されているか?」や「RCS が議論の主要なトピックとなっている複数の顧客アカウントを挙げよ」といった問いは、数十件の通話を同時に横断してパターンを統合する必要があります。アジェンシー・ループが行うような通話記録を一つずつ検索するだけでは、リアルタイムの収益ワークフローには遅すぎてコストも高すぎます。信号は集計データの中にあります。
このデータセットは、1 週間の実際の Gong 通話エクスポートです。営業、カスタマーサポート、価格交渉に関する構造化された JSON 形式の通話記録で、企業固有のトラッカーデータ(メッセージ送信レート、リスト成長率、離脱指標、競合他社の言及、拡大シグナルなど)が随所に埋め込まれています。
コーパス: 営業、価格設定、カスタマーサクセスに関する会話を含む 217 件の Gong 通話記録。構造化された JSON 形式の通話データは約 45 MB で、完全なトラッカーおよびトピックメタデータを備えています。
評価セット: 通話間での統合、トレンド特定、パターン認識を必要とする収益インテリジェンスに関するクエリが 40 件あります。
Metric | Agentic RAG | Nexus | Δ
---|---|---|---
Accuracy (精度) | 36% | 70% | 94% more accurate (94% 高精度)
Latency (avg per query) (レイテンシ/クエリ平均) | 28s | 23s | 18% faster (18% 高速化)
Token cost (avg per query) (トークンコスト/クエリ平均) | 27K tokens | 4K tokens | 85% fewer tokens (85% トークン削減)
※注記:原文の表形式は、Markdown のテーブル構文として保持されています。技術用語「Agentic RAG」および「Nexus」は固有名詞・製品名として原文のままとし、「レイテンシ」には原語を括弧で添えています。
⟦CODE_0⟧
⟦CODE_1⟧
ここでの精度向上は 3 つのケースの中で最も大きく、エージェント型 RAG と集約合成ワークロードの間にある根本的な不一致を反映しています。217 のトランスクリプトに対するエージェントループは、文書を一つずつ走査して部分的な回答を検索し、それらを再構成して応答を作成します。しかし、全文コーパスを同時に把握することはできません。Nexus は、通話データから構造化された表現を導き出し、通話間パターンを直接照会可能にしました。ほぼ 2 倍の精度向上は、実務におけるコーパスレベルでのコンパイルがどのようなものかを示しています。
ビジネスへの影響: 従来はアナリストによる手動レビューが必要だった収益知能クエリが自動化可能になります。競合信号、離脱指標、拡大パターン、価格感度などが、通話全体をリアルタイムで照会できるようになります。トークンコストが 85% 削減されるため、新しい通話が流入するたびにこれらのクエリを継続的に実行することが経済的に実現可能です。
3 つの顧客における結果
3 つの顧客、3 つの業界(金融サービス、知的財産、収益運用)、3 つの知識課題。Nexus は、精度、レイテンシ、トークンコストのすべての面でエージェント型 RAG を上回りました。
顧客 / ドメインユースケース成果
Melange / IP & 特許訴訟3GPP 標準に対する SEP クレーム検証トークン数 97% 削減、処理速度 77% 向上、精度 25% 向上
FinTech / 投資管理多カテゴリデータルームにわたる M&A デューデリジェンストークン数 92% 削減、処理速度 48% 向上、精度 14% 向上
SMS SaaS / E コマース
217 の Gong 通話記録にわたる収益インテリジェンス
トークン数 85% 削減、処理速度 18% 向上、精度 94% 向上
このパターンは、コーパスの形状やクエリの種類、ドメインに関わらず一貫して見られました。あらゆる展開において、エージェント型 RAG(Retrieval-Augmented Generation)は同じ地点から始まります:生データソースから構築された汎用的なベクトルインデックスであり、ドメイン知識もクエリタイプも、タスクに必要な推論プロセスも含まれていません。その後に続く検索ループは、そのような設計に付随するものではなく、むしろインデックスがドメインやクエリタイプ、タスク構造に関する知識を欠いている場合に生じる現象です。
Nexus は根本原因に迫ります。M&A データルームから導き出されるアーティファクトは、特許標準コーパスや Gong 通話記録データベースから導き出されるものとは構造的に異なります。なぜなら、対象分野、クエリタイプ、推論要件が異なるからです。クエリが届く頃には、知識層はすでに問題に合わせて形成されています。エージェントは汎用的なチャンクを漁って十分な文脈を組み立てようとするのではなく、正確に検索し、即座に推論を行います。
実務的な帰結は明白です:以前はビジネスケースを満たせなかったプロジェクトが、今では可能になります。トークン数を 92–97% 削減することで、企業規模では高価すぎた推論コストが管理可能なレベルになります。レイテンシを 48–77% 低下させることで、従来のライブワークフローに組み込めなかったエージェントも、今では実装可能です。困難なコーパスにおいても精度を維持できるため、常時人的レビューが必要だった展開が、自律型システムへと進化します。
早期アクセスの申請
Nexus は、ドキュメント、契約書、提出書類、通話記録、技術仕様書などの企業知識を基にエージェントを構築するチーム向けに設計されています。アジェンティック RAG がコーパスに対して頭打ちになっている場合、その原因はほとんどがモデルではなく、検索ループにあります。
深刻な知識問題を抱える企業は、早期アクセス に申請し、一般公開前の段階で自社のデータ上でベンチマークを実行できます。私たちが共に取り組みます。
原文を表示
For the past year, most enterprise AI discussions were about capability. The question that replaced it is about cost and reliability. AI is expensive to run at scale, and accuracy and latency still break down on the hardest corpora. When teams look at where their inference spend is actually going, most of it isn't on reasoning. It's on retrieval loops that run before the model can say anything.
Pinecone Nexus addresses this at the infrastructure layer. Rather than assembling knowledge at query time, it compiles structured artifacts from a corpus before any query arrives, tuning the retrieval pipeline to the specific shape of the data. We launched four weeks ago and have been engaged with early access users with real enterprise datasets. Our early enterprise partners are seeing real results. Here's what happened to their accuracy, latency, and costs after Nexus.
The Benchmark
For each customer, we ran Nexus against the most common pattern in enterprise agent deployments today: chunk the corpus, embed the chunks, use hybrid retrieval. The agent loops (run the query, rerank, read the top chunks, retrieve again) until it has enough context to answer.
That approach can produce correct answers. The question is at what cost in tokens, time, and consistency, and whether that cost holds at enterprise scale.
Three KPIs:
- Token cost. How many tokens does a single query consume? At enterprise volume, this determines whether the economics of an agentic deployment hold.
- Accuracy. Does the agent return the correct answer, repeatable across runs? Each eval set in our benchmark was built from human-labeled questions with expected answers drawn from the actual corpus. Answers were graded by an LLM judge (claude-sonnet-4-6) on a 0–1 scale against the expected output.
- Latency. How long does a query take, end to end? For agents embedded in live workflows, user-facing products, automated pipelines, or deal support, time to answer matters.
All three trace back to the same dynamic. Agentic RAG assembles knowledge at query time: retrieve chunks, rerank, read, decide what's missing, loop again. The loop runs on a generic index built once from the raw source, with no knowledge of the domain, the query types, or the reasoning the task requires. Each iteration is the agent compensating for what the index doesn't know and working around an absence, not a foundation.
Nexus works differently. Before any query arrives, it derives structured artifacts from the corpus shaped to the subject matter, the query types, and the reasoning the agent will need to do. The agent retrieves precisely and reasons immediately.
Melange: Standard Essential Patent Search
Domain: Intellectual Property / Patent Litigation
Melange Technologies runs an autonomous, large-scale prior art search engine used by law firms in patent invalidation and litigation.Their core product is an agentic search system which filters the total corpus of around 140 million patent documents down to the most relevant dozen and provides litigators with a first draft of the legal analysis necessary to prosecute their case. The work is nearly fully autonomous with human verification only at the final stage before delivery.
Melange’s next plan of expansion involves Standard Essential Patents, or SEPs. An SEP is a patent that claims technology required to comply with an industry standard. For example, any company building a phone with 5G capability must implement portions of the 5G technical standard. If a patent covers one of those mandatory portions, then practicing the standard may necessarily practice the patent. Patent licensing has become a multi-billion dollar industry, with SEPs at the center of the most valuable and contested disputes.
This has two important implications for the industry. First, it is critical to determine whether a patent is actually essential to the standard. That analysis can be expensive and time-consuming, often requiring human domain experts to compare patent claims against long, technical standards documents line by line. Second, standards documents themselves can serve as prior art, potentially invalidating patents that claim technology already disclosed during the standards-development process.
In just release 1 of the 3GPP technical standard, there are roughly 1,800 documents including 2.3 GB of relevant documents. The pilot evaluated a focused 29-spec slice of the 5G NR standards (~31 MB, converted to markdown). These specifications originate as .docx/.doc files dense with embedded tables and normative requirement language.
Corpus: 3GPP Release 18, ~1,800 .docx/.doc files, ~2.3 GB, covering 5G NR specifications, protocol standards, interface definitions, and normative requirements. Pilot evaluated on a 29-spec NR slice (~31 MB, converted to markdown).
Eval set: 30 SEP-candidacy questions, each a patent-style claim evaluated against the standards corpus for whether a finalized, mandatory 3GPP requirement necessarily practices it. Every answer is one of five verdicts (mandatory, conditionally mandatory, optional, forbidden, or absent) with the exact spec, clause, and information element cited.
Metric Agentic RAGNexusΔ
Accuracy52.7%66%25% more accurate
Latency (avg per query)187s44s77% faster
Token cost (avg per query)201k tokens5.9k tokens97% fewer tokens
Agentic RAG averaged ~20 retrieval steps per question on this corpus. The loop does not converge on dense, clause-referenced technical standards because the index carries no knowledge of how the standards are structured or what the query requires. Nexus organized the standards into addressable requirement artifacts before any query ran. The correct clause was retrieved directly, at 5.9K tokens versus 201K.
Business impact: At 97% lower token cost, a previously cost-prohibitive autonomous patent search product becomes economically viable at scale. Latency under one minute per query means the workflow fits live litigation timelines. The accuracy improvement directly reduces attorney review time.
"These early results are genuinely exciting: a 34x reduction in token cost and queries resolving in under a minute on one of the hardest problems in our space tells us we're pointing in the right direction. Adding a purpose-built knowledge engine to Pinecone’s AI infrastructure is already showing signs of real business impact, and we're looking forward to evolving this together as Nexus matures to fully fit the demands of patent search at scale." — Joshua Beck, CEO, Melange
M&A Due Diligence
Domain: Financial Technology / Investment Management
The customer is a large financial technology company serving asset managers, hedge funds, and private equity firms. Their clients operate in document-heavy environments where extracting precise answers from large document sets directly affects deal outcomes and regulatory risk.
The use case evaluated here is M&A due diligence, which is a representative scenario for this customer's client base, where a deal dataroom for even a mid-market acquisition spans hundreds of documents across 10+ categories: audited financials, capitalization tables, customer contracts, IP filings, HR records, real estate leases, tax schedules, legal governance docs. Questions aren't contained within a single document. They require reasoning across all of it simultaneously.
The dataset is a full synthetic M&A dataroom for a $42M ARR enterprise SaaS company, structured across 10 category folders with files spanning PDFs, Excel workbooks, and markdown, covering the full complexity of a live deal room in a controlled, evaluable form.
The questions that matter here are inherently multi-hop. "What capital-structure feature in Vantage's preferred stock affects the equity-value waterfall to common shareholders?" requires reasoning across the cap table, preferred stock terms, and liquidation preference documents simultaneously. "What contingent legal liability could impair Vantage's projected cash flows or warrant a DCF risk discount?" requires connecting IP filings, litigation records, and financial projections across three separate folder categories. No single document holds the answer. The question only resolves when the full dataroom is treated as a unified knowledge surface.
Corpus: 90 documents across 10 category folders (PDFs, XLSX, and markdown) covering company overview, audited financials, ARR schedules, cap tables, customer contracts, IP filings, HR records, tax documents, real estate leases, and process documents.
Eval set: 30 multi-hop M&A diligence queries requiring cross-document reasoning.
MetricAgentic RAGNexusΔ
Accuracy57%65%14% more accurate
Latency (avg per query)61s32s48% faster
Token cost (avg per query)66k tokens5k tokens92% fewer tokens
Nexus resolved each question in a single retrieval step against RAG's approximately 10 iterative steps. The accuracy improvement holds on the hardest multi-hop queries, where agentic RAG's loop repeatedly retrieves incomplete context across documents and cannot close the reasoning gap without re-querying. Nexus derived artifacts from the dataroom that mapped the cross-document relationships before any query arrived.
Business impact: Due diligence workflows that required analyst hours to synthesize across folders now complete in seconds. At 92% lower token cost and 48% lower latency, the economics of deploying AI across deal pipelines are fundamentally different. Higher accuracy on multi-hop questions reduces the risk of missed liabilities or misread financial structures.
Revenue Intelligence from Gong Transcripts
Domain: SMS Marketing / E-commerce SaaS
The sales and CS teams for a leading SMS marketing and sales platform for e-commerce brands run a high volume of customer-facing calls every week, pricing conversations, onboarding calls, renewal discussions, competitive deal cycles, all captured in Gong.
The challenge is that insights locked in those transcripts are largely inaccessible at scale. Questions like "Which competitor is mentioned far more than any other across these calls?" or "Name several accounts where RCS is a major topic of discussion" require synthesizing patterns across dozens of calls simultaneously. Searching one transcript at a time, which is what an agentic loop does, is too slow and too expensive for a live revenue workflow. The signal is in the aggregate.
The dataset is one week of real Gong call exports: structured JSON transcripts covering sales, CS, and pricing conversations, with company-specific tracker data (message rate, list growth, churn indicators, competitor mentions, expansion signals) embedded throughout.
Corpus: 217 Gong call transcripts, ~45 MB of structured JSON call data spanning sales, pricing, and customer success conversations with full tracker and topic metadata.
Eval set: 40 revenue intelligence queries requiring cross-call synthesis, trend identification, and pattern recognition.
MetricAgentic RAGNexusΔ
Accuracy36%70%94% more accurate
Latency (avg per query)28s23s18% faster
Token cost (avg per query)27K tokens4K tokens85% fewer tokens
The accuracy improvement here is the largest of the three cases and reflects the fundamental mismatch between agentic RAG and aggregate synthesis workloads. An agentic loop over 217 transcripts is iterating through documents one at a time, searching for partial answers, and reassembling them into a response. It cannot see across the full corpus simultaneously. Nexus derived structured representations of the call data that made cross-call patterns directly addressable. The nearly 2x accuracy gain is what corpus-level compilation looks like in practice.
Business impact: Revenue intelligence queries that required manual analyst review become automatable. Competitive signals, churn indicators, expansion patterns, and pricing sensitivities become queryable in real time across the full call corpus. At 85% lower token cost, running these queries continuously as new calls come in becomes economically viable.
Results Across Three Customers
Three customers, three industries (financial services, intellectual property, revenue operations), three knowledge problems. Nexus outperformed agentic RAG on accuracy, latency, and token cost across all three.
Customer / DomainUse CaseOutcome
Melange / IP & Patent LitigationSEP claim validation against 3GPP standards97% fewer tokens, 77% faster, 25% more accurate
FinTech / Investment ManagementM&A due diligence across multi-category datarooms92% fewer tokens, 48% faster, 14% more accurate
SMS SaaS / E-commerceRevenue intelligence across 217 Gong transcripts85% fewer tokens, 18% faster, 94% more accurate
The pattern held regardless of corpus shape, query type, or domain. In every deployment, agentic RAG started from the same place: a generic vector index built from the raw source, with no knowledge of the domain, the query types, or the reasoning the task requires. The retrieval loop that follows isn't incidental to that design. It's what happens when the index carries no knowledge of the domain, query types, or task structure.
Nexus gets to the root cause. The artifacts it derives from an M&A dataroom are structurally different from the ones it derives from a patent standards corpus or a Gong transcript database, because the subject matter, query types, and reasoning requirements are different. By the time a query arrives, the knowledge layer has already been shaped to the problem. The agent retrieves precisely and reasons immediately rather than sifting through generic chunks hoping to assemble enough context to answer.
The practical consequence is direct: projects that couldn't clear the business case now can. At 92–97% fewer tokens, inference costs that were prohibitive at enterprise volume become manageable. At 48–77% lower latency, agents that couldn't fit live workflows now do. At accuracy rates that hold on hard corpora, deployments that required constant human review become autonomous.
Apply for Early Access
Nexus is built for teams building agents over enterprise knowledge: documents, contracts, filings, call transcripts, technical specifications. If agentic RAG has hit its ceiling on a corpus, the issue is almost always in the retrieval loop, not the model.
Enterprises with a hard knowledge problem can apply for Early Access and run a benchmark on their own data before public preview. We'll work with you.
関連記事
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
社内データ分析エージェントの構築方法について
GitHub は、大規模なデータ組織が直面する自己完結型のデータアクセスと洞察提供の課題に対し、AI を活用した信頼性の高い解決策として、社内でデータ分析エージェントを構築したことを発表した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み