意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介
NVIDIA NeMo Retrieverチームは、セマンティック類似性を超えた汎用的なエージェント型検索パイプラインを開発し、ViDoRe v3パイプラインリーダーボードで1位、BRIGHTリーダーボードで2位を獲得した。
キーポイント
汎用性重視の設計思想
特定データセットに特化したヒューリスティクスに依存せず、動的に検索・推論戦略を適応させるエージェント型パイプラインを構築し、多様なベンチマークで最先端性能を実現した。
リーダーボードでの優位性実証
同一パイプラインアーキテクチャでViDoRe v3パイプラインリーダーボード1位、推論集約型のBRIGHTリーダーボード2位を獲得し、汎用性能を実証した。
セマンティック類似性の限界克服
複雑な文書検索には推論スキル、現実世界システムの理解、反復的探索が必要であり、従来の密な検索手法の限界を超えるアプローチを提案している。
実世界企業アプリケーションへの対応
完全に整理された単一ドメインデータが稀な実世界の企業アプリケーションにおいて、複雑な視覚的レイアウトの解析から深い論理的推論の実行まで幅広い課題に適応できるシステムを目指している。
エージェント型検索の仕組み
ReACTアーキテクチャに基づき、LLMと検索エンジンが能動的・反復的なループを形成し、検索クエリを動的に調整・再構成しながら複雑なクエリを分解する。
速度とスケーラビリティのためのエンジニアリング
当初のMCPサーバーアーキテクチャから、スレッドセーフなシングルトン検索エンジンに移行し、ネットワーク遅延と運用負荷を削減した。
クロスドメイン適応性の実証
INF-X-Retrieverのパイプラインを同じ埋め込みモデルでテストしたところ、BRIGHTリーダーボードでの優位性が失われ、著者らのエージェント型パイプラインの汎用性が強調された。
影響分析・編集コメントを表示
影響分析
この技術は、従来のセマンティック検索の限界を超え、複雑な推論を必要とする実世界の企業アプリケーションへのAI検索適用を加速させる可能性がある。汎用性を重視した設計は、特定タスクに特化した従来アプローチからの重要な転換点を示している。
編集コメント
NVIDIAが検索技術の新たなパラダイムを示した重要な発表。汎用性と実用性の両立を目指す姿勢が、企業向けAIソリューションの進化方向を示唆している。
記事に戻る
意味的類似性を超えて:NVIDIA NeMo Retriever の汎用可能なアジェント型検索パイプラインの紹介
従来の意味的類似性に基づくアプローチの限界を突破し、NVIDIA は「NeMo Retriever」という新たなツールを発表しました。これは単なるキーワードやベクトルマッチングに依存するのではなく、複雑なタスクを自律的に分解・実行できる「アジェント型(agent)」の検索パイプラインを実現します。
この新しいシステムは、ユーザーの意図を深く理解し、必要な情報を取得するために複数のステップを自動的に計画・実行します。例えば、特定の技術ドキュメントを検索する際、単に用語が一致する文書を返すだけでなく、関連する概念を推論し、複数の情報源を横断して統合された回答を生成することが可能です。
NeMo Retriever の最大の特徴は「汎用性」にあります。特定のドメインやタスクに特化せず、多様なユースケースに適応できる設計となっています。これにより、企業は独自のデータセットやワークフローに合わせて柔軟にカスタマイズし、より高度な検索体験を提供できるようになります。
技術的には、大規模言語モデル(LLM)の推論能力と効率的なインデックス構造を組み合わせることで、従来の検索エンジンでは不可能だった複雑なクエリ処理を実現しています。これにより、ユーザーは自然言語で問いかけるだけで、高度に構造化された情報を即座に得ることが可能になります。
NVIDIA は今後、この技術をさらに拡張し、開発者コミュニティとの連携を強化していく方針です。NeMo Retriever の導入により、検索の精度と効率性が飛躍的に向上し、AI 応用分野における新たな可能性が開かれることが期待されています。
Upvote - Radek Osmulski radekosmulski-nvidia Follow
nvidia
Reza Esfandiarpoor rezaesfandiarpoor Follow
nvidia
Yauhen Babakhin ybabakhin Follow
nvidia
Gabriel de Souza Pereira Moreira gmoreira-nv Follow
nvidia Bo Liu BoLiu Follow
nvidia 私たちは、NVIDIA NeMo Retriever チームが、正式に ViDoRe v3 パイプラインリーダーボードで第 1 位を獲得した新しいエージェント型検索パイプラインを開発したことを発表できることを嬉しく思います。さらに、この全く同じパイプラインアーキテクチャは、非常に要求が高く推論集約型の BRIGHT リーダーボードでも第 2 位の成績を収めました。
急速に進化する AI 検索の状況において、多くのソリューションは非常に特化しており、特定の狭いタスクに対して極めて高いパフォーマンスを発揮するように設計されています。しかし、現実世界のエンタープライズアプリケーションでは、完璧にキュレーションされた単一ドメインのデータという贅沢な条件が整うことはめったにありません。複雑な視覚レイアウトの解析から深い論理的推論の実行まで、多様な課題にシームレスに適応できるシステムが必要です。
そのため、私たちは設計において一般化可能性を最優先しました。データセット固有のヒューリスティック(経験則)に依存するのではなく、手元のデータに応じて検索および推論戦略を動的に適応させるエージェント型パイプラインを構築しました。これにより、根本的なアーキテクチャの変更を必要とせず、はるかに異なるベンチマーク全体で最先端のパフォーマンスを提供することが可能になります。
以下に、その構築プロセスをご紹介します。
動機:なぜ意味的類似性だけでは不十分なのか
長年にわたり、意味的類似性に基づく密な検索(Dense Retrieval)が情報探索の標準となってきました。しかし、検索の応用範囲が拡大するにつれて、関連文書の発見は単なる意味的類似性を超えたものとなっています。複雑なドキュメント検索には、推論スキル、現実世界のシステムへの理解、そして反復的な探索が必要です。
根本的なギャップが存在します:LLM は思考や推論に優れていますが、一度に数百万の文書を処理することはできません。一方、検索システムは数百万の文書から容易に情報を取り出せますが、推論能力には限界があります。アジェンティック・リトリーバルはこのギャップを埋めるために、LLM と検索システムの間に能動的で反復的なループを構築します。
仕組み:アジェンティック・ループ

アジェンティック・リトリーバル・パイプラインの概要
当社のアジェンティック・リトリーバル・パイプラインは、ReACT アーキテクチャ(Reasoning and Acting)に依存しています。単一の「一度きり」のクエリではなく、エージェントは検索、評価、そしてアプローチの精緻化を反復的に行います。
エージェントは組み込みツールを利用します:think(思考)、retrieve(query, top_k)(検索)
より良いクエリの生成:エージェントは新たに発見された情報に基づいて、動的に検索クエリを調整します。
持続的な言い換え:有用な情報が得られるまで、クエリを継続的に言い換えます。
複雑性の分解:複雑で多段階のクエリを、明確な目標を持つ複数の単純なクエリに変換します。
最後に、反復的な発見を統合するために、エージェントは final_results(最終結果)関数を呼び出します。
速度とスケールのためのエンジニアリング
アジェンティック・ワークフローは、一般的に遅く、リソース集約的であることで知られています。このパイプラインをリーダーボード規模の評価で実用可能にするために、LLM エージェントと検索システムがどのように通信するかについて根本的な再考が必要でした。
当初、検索機能はモデル・コンテキスト・プロトコル(MCP)サーバーを介してエージェントに公開されていました。これは LLM が外部ツールにアクセスできるように設計されているため、自然な選択でした。しかし実際には、このアーキテクチャが実験の速度に対して複合的なコストを課すことになりました。各実行では、個別の MCP サーバーを起動し、適切なデータセット・コーパスを GPU メモリに読み込み、クライアントとサーバーの両方のライフサイクルを調整する必要がありました。これらの各ステップは、設定ミスが静かに発生する機会や、高負荷のリクエスト下でのサーバーフリーズのリスクとなりました。ネットワークの往復遅延がすべての検索呼び出しに追加され、2 プロセス構成を管理するための全体的な認知負荷が高いため、他のチームがこのパイプラインを採用して反復開発を行うことが大幅に困難になりました。
これを解決するため、MCP サーバーを置き換え、プロセス内で動作するスレッドセーフなシングルトン型の検索機能を実装しました。このシングルトンはモデルとコーパスの埋め込みベクトルを一度だけ読み込み、再入可能ロック(reentrant lock)によってすべてのアクセスを保護し、同じ retrieve() 関数を公開します。
ベンチマークにおける一般化と特化の比較
現代の検索評価において一般的な観察として、特定のタスクタイプに対して高度に最適化されたソリューションは、全く異なるドメインに適用されると性能ギャップが生じることがあります。
NeMo エージェント型検索 (Opus 4.5 + nemotron-colembed-vl-8b-v2)
密な検索 (nemotron-colembed-vl-8b-v2)
INF-X-Retriever (INF-Query-Aligner + nemotron-colembed-vl-8b-v2)
INF-X-Retriever
INF-X-Retriever
NeMo Agentic Retrieval (Opus 4.5 + nemotron-reasoning-3b)
推論集約型の BRIGHT リーダーボードにおいて、NDCG@10 が 50.90 で 2 位を獲得しました。同リーダーボードで 1 位となっている INF-X-Retriever は、驚異的な 63.40 を達成しています。しかし、ドメイン横断的な適応性をテストするため、INF-X パイプライン(同じ nemotron-colembed-vl-8b-v2 と組み合わせたもの)をベンチマークしました。
一方、私たちの同様のエージェント型パイプライン(Opus 4.5 を nemotron-colembed-vl-8b-v2 とペアリングしたものは、
これは、私たちのアプローチの中核的な強みである一般化能力を浮き彫りにしています。データセット固有のヒューリスティックやクエリ再書き換え器/整列器に依存するのではなく、私たちのエージェント型ループは、多段階の論理的推論が必要か、複雑な視覚レイアウトの解析が必要かを問わず、対象となるデータセットに対して自然に適応した戦略を採用します。
アブレーションスタディ:オープンモデル vs クローズドモデル
埋め込みモデル
クエリあたりの平均秒数
総入力トークン(M)
総出力トークン(M)
平均検索呼び出し回数
nemotron-colembed-vl-8b-v2
nemotron-colembed-vl-8b-v2
llama-nemotron-embed-vl-1b-v2
nemotron-colembed-vl-8b-v2
llama-nemotron-embed-vl-1b-v2
埋め込みモデル
クエリあたりの平均秒数
総入力トークン(M)
総出力トークン(M)
平均検索呼び出し回数
llama-embed-nemotron-reasoning-3b
llama-embed-nemotron-reasoning-3b
llama-nemotron-embed-vl-1b-v2
llama-embed-nemotron-reasoning-3b
llama-nemotron-embed-vl-1b-v2
最先端のクローズドモデルとオープンウェイトの代替案との間のトレードオフを理解するために、広範なアブレーションスタディを実施しました:
モデルの選択:ViDoRe v3 では、Opus 4.5 をオープンソースの gpt-oss-120b に置き換えています。
埋め込みベクトル:エージェントに専門的な埋め込みベクトル(nemotron-colembed-vl-8b-v2, llama-embed-nemotron-reasoning-3b)を組み合わせることで、より強力なモデルと weaker な埋め込みモデルの間のギャップを埋めることができる点も興味深いです。例えば ViDoRe において、より強力な nemotron-colembed-vl-8b-v2 と llama-nemotron-embed-vl-1b-v2 の間、あるいは llama-embed-nemotron-reasoning-3b と llama-nemotron-embed-vl-1b-v2 の間の差を、エージェントが埋めることが可能です。
自律性のコストと今後の展望
無料の昼食など存在しません。エージェント型検索は、標準的な密な検索(dense retrieval)よりもコストが高く、処理速度も遅くなります。ViDoRe v3 の結果を見ると、1 クエリあたり平均 136 秒を要し、入力トークンが約 760k、出力トークンが約 6.3k を消費します。(注:この逐次レイテンシは、単一の A100 GPU で単一の並行 Claude API 呼び出しを用いて測定されたものであり、複数のクエリを同時に検索するものではないため、実世界のユースケースにおける実際の検索時間を反映しています)。
しかしながら、私たちはエージェント型検索が高リスクかつ複雑なクエリに対して非常に有効なアプローチであると信じています。私たちの直近の次のステップはコスト削減に焦点を当てています:これらのエージェント思考パターンをより小さく専門的なオープンウェイトのエージェントに凝縮(distill)する方法を積極的に研究しています。より小さなモデルをファインチューニングして、思考プロセスを調整し、検索を実行する役割を担わせることで、効率化を図ります。
自分自身でエージェント型パイプラインを構築する
当社のリーダーボード上位のランでは、Claude Opus と gpt-oss の組み合わせや、llama-nemotron-embed-vl-1b-v2 などの特定の埋め込みモデルとの組み合わせを検証しました。
原文を表示
Back to Articles Beyond Semantic Similarity: Introducing NVIDIA NeMo Retriever’s Generalizable Agentic Retrieval Pipeline
Upvote - Radek Osmulski radekosmulski-nvidia Follow
nvidia
Reza Esfandiarpoor rezaesfandiarpoor Follow
nvidia
Yauhen Babakhin ybabakhin Follow
nvidia
Gabriel de Souza Pereira Moreira gmoreira-nv Follow
nvidia Bo Liu BoLiu Follow
nvidia We are thrilled to announce that NVIDIA NeMo Retriever team has developed a new agentic retrieval pipeline that has officially secured the #1 spot on the ViDoRe v3 pipeline leaderboard. In addition, this exact same pipeline architecture achieved the #2 spot on the highly demanding, reasoning-intensive BRIGHT leaderboard.
In the rapidly evolving landscape of AI retrieval, many solutions are highly specialized, engineered to perform exceptionally well on specific, narrow tasks. However, real-world enterprise applications rarely have the luxury of perfectly curated, single-domain data. They require systems that can seamlessly adapt to a wide variety of challenges—from parsing complex visual layouts to executing deep logical reasoning.
That is why we prioritized generalizability in our design. Rather than relying on dataset-specific heuristics, we built an agentic pipeline that dynamically adapts its search and reasoning strategy to the data at hand. This allows us to deliver state-of-the-art performance across vastly different benchmarks without requiring any underlying architectural changes.
Here is a look at how we built it.
The Motivation: Why Semantic Similarity Isn't Enough
For years, dense retrieval based on semantic similarity has been the standard for finding information. However, as the applications of retrieval expand, finding relevant documents goes beyond semantic similarity alone. Complex document search requires reasoning skills, an understanding of real-world systems, and iterative exploration.
There is a fundamental gap: LLMs are great at thinking and reasoning but cannot process millions of documents at once. Conversely, retrievers can easily sift through millions of documents but possess limited reasoning skills. Agentic retrieval bridges this gap by creating an active, iterative loop between the LLM and the retriever.
How It Works: The Agentic Loop

Agentic retrieval pipeline overview
Our agentic retrieval pipeline relies on a ReACT architecture. Instead of a single "one-and-done" query, the agent iteratively searches, evaluates, and refines its approach.
The agent utilizes built-in tools like think
retrieve (query, top_k)
Generating better queries: The agent dynamically adjusts its search queries based on newly discovered information.
Persistent rephrasing: It continually rephrases queries until useful information is found.
Breaking down complexity: It translates complex, multi-part queries into multiple simpler queries with clear goals.
Finally, to synthesize the iterative discoveries, the agent calls a final_results
Engineering for Speed and Scale
Agentic workflows are notoriously slow and resource-intensive. To make this pipeline viable for leaderboard-scale evaluation, we had to rethink how the LLM agent and the retriever communicate.
Initially, the retriever was exposed to the agent via a Model Context Protocol (MCP) server—a natural choice, since MCP is designed precisely for giving LLMs access to external tools. But in practice, this architecture imposed a compounding tax on experiment velocity. Every run required spinning up a separate MCP server, loading the right dataset corpus into GPU memory, and orchestrating the lifecycle of both client and server. Each of these steps was an opportunity for silent misconfiguration or a server freeze under high-volume requests. The network round-trips added latency to every retrieval call, and the overall cognitive burden of managing the two-process setup made it significantly harder for other teams to adopt and iterate on the pipeline.
To resolve this, we replaced the MCP server with a thread-safe singleton retriever that lives in-process. The singleton loads the model and corpus embeddings once, protects all access with a reentrant lock, and exposes the same retrieve()
Generalization vs. Specialization Across Benchmarks
A common observation in modern retrieval evaluation is that solutions highly optimized for one specific type of task often experience a performance gap when applied to a completely different domain.
NeMo Agentic Retrieval (Opus 4.5 + nemotron-colembed-vl-8b-v2)
Dense retrieval (nemotron-colembed-vl-8b-v2)
INF-X-Retriever (INF-Query-Aligner + nemotron-colembed-vl-8b-v2)
INF-X-Retriever
INF-X-Retriever
NeMo Agentic Retrieval (Opus 4.5 + nemotron-reasoning-3b)
We placed #2 on the reasoning-intensive BRIGHT leaderboard with an NDCG@10 of 50.90. The #1 solution on that leaderboard, INF-X-Retriever, achieves an impressive 63.40. However, to test cross-domain adaptability, we benchmarked the INF-X pipeline (coupled with the same nemotron-colembed-vl-8b-v2
In contrast, our same agentic pipeline (pairing Opus 4.5 with nemotron-colembed-vl-8b-v2
This highlights a core strength of our approach: generalizability. Rather than relying on dataset-specific heuristics or a query-rewriter/aligner, our agentic loop naturally adapts its strategy to the dataset at hand, whether it requires multi-step logical reasoning or parsing complex visual layouts.
Ablation Studies: Open vs. Closed Models
Embedding Model
Average sec/query
Total input tokens (M)
Total output tokens (M)
Average retrieval calls
nemotron-colembed-vl-8b-v2
nemotron-colembed-vl-8b-v2
llama-nemotron-embed-vl-1b-v2
nemotron-colembed-vl-8b-v2
llama-nemotron-embed-vl-1b-v2
Embedding Model
Average sec/query
Total input tokens (M)
Total output tokens (M)
Average retrieval calls
llama-embed-nemotron-reasoning-3b
llama-embed-nemotron-reasoning-3b
llama-nemotron-embed-vl-1b-v2
llama-embed-nemotron-reasoning-3b
llama-nemotron-embed-vl-1b-v2
We conducted extensive ablations to understand the tradeoff between frontier closed models and open-weights alternatives:
Model Choice: On ViDoRe v3, swapping Opus 4.5 for the open gpt-oss-120b
Embeddings: Pairing the agent with specialized embeddings (nemotron-colembed-vl-8b-v2
llama-embed-nemotron-reasoning-3b
It's also interesting to note that the agent can close the gap between stronger and weaker embedding models. For example, on ViDoRe, the gap between the stronger nemotron-colembed-vl-8b-v2
llama-nemotron-embed-vl-1b-v2
llama-embed-nemotron-reasoning-3b
llama-nemotron-embed-vl-1b-v2
The Cost of Autonomy and What's Next
There is no free lunch. Agentic retrieval is more expensive and slower than standard dense retrieval. Looking at our ViDoRe v3 results, the agent averages 136 seconds per query and consumes roughly 760k input and 6.3k output tokens per query. (Note: the sequential latency is measured on a single A100 GPU with a single concurrent Claude API call—i.e., not searching multiple queries at the same time—to reflect true search time in real-world use cases).
However, we believe agentic retrieval is a highly viable approach for high-stakes, complex queries. Our immediate next steps focus on cost reduction: we are actively researching ways to distill these agentic reasoning patterns into smaller, specialized open-weight agents. By fine-tuning smaller models to orchestrate the think
Build Your Own Agentic Pipeline
While our leaderboard-topping runs explored combinations like Claude Opus and gpt-oss
llama-nemotron-embed-vl-1b-v2
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み