NVIDIA の Vera Rubin プラットフォームがアジェンティック AI のスケールアップ問題を解決する方法
NVIDIA は、非確定的な軌道を持つアジェンティック AI のスケーラビリティ課題に対し、Vera Rubin NVL72 と Groq 3 LPX を組み合わせた極限の共設計プラットフォームで、低遅延かつ高スループットな推論を実現する解決策を提示した。
キーポイント
アジェンティック AI の新しい推論要件
従来のバッチ処理型推論とは異なり、非確定的な軌道(行動・観測・意思決定)を持つアジェンティック AI は、数百回のリクエストにわたるエンドツーエンドの遅延と、小バッチでの低遅延・高スループットを同時に要求する。
Vera Rubin NVL72 と Groq 3 LPX の組み合わせ
NVIDIA Vera Rubin NVL72 をコアコンピュートエンジンとし、Groq 3 LPX と組み合わせることで、パレート曲線の最適点において、トリリオンパラメータの MoE モデルと長いコンテキストウィンドウを同時に処理する初のプラットフォームとなる。
予測可能なスケールアップ・ネットワークング
マルチエージェントパイプラインにおける KV キャッシュやシステムプロンプトの膨張に対応するため、数百から数千チップにわたる低遅延かつ決定論的な実行を可能にする、従来のデータセンター向けファブリックとは異なるネットワーク設計が求められている。
アジェンティックワークロードの複雑化と状態管理
ユーザーリクエストは複数のエージェントやサブエージェントを経由し、KVキャッシュ、プロンプト、ツール呼び出し、履歴など、膨大なコンテキストと状態情報を生成する。
大規模MoEモデルにおける並列処理の必要性
最先端の混合专家(MoE)モデルは、膨大なパラメータを効率的に処理するために並列化が必須であり、これには高速なネットワーク接続が不可欠である。
決定論的かつ高速なプロセッサ間通信の重要性
アジェンティックワークロードと大規模MoEモデルの両方を支える基盤として、遅延を最小化し予測可能な動作を保証する高速で決定論的なネットワークが求められる。
従来のアプローチの限界
従来のランタイム依存型ネットワークやオンダイリソースの集約は、マルチチップ間でのパフォーマンス劣化やタイミングの不確実性を招くボトルネックとなっている。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI の次のフェーズである「アジェンティック AI」の実用化において、ハードウェアとネットワークアーキテクチャの根本的な再設計が必要であることを示唆しています。特に、大規模モデルを低遅延で動作させるための具体的なハードウェア構成案(Vera Rubin NVL72 + Groq 3 LPX)を提示することで、業界全体が直面しているスケーラビリティとコストのジレンマに対する方向性を示す重要なマイルストーンとなります。
編集コメント
アジェンティック AI の実用化において、単なるモデルの性能向上だけでなく、推論プロセスそのものの非確定的性質に対応できるインフラ基盤の重要性が浮き彫りになりました。NVIDIA と Groq の連携によるこのアプローチは、次世代 AI サービスの品質基準を再定義する可能性があります。
Agentic inference は、AI エージェントがタスクを処理する間に生成する非確定的な軌道(アクション、観測、意思決定)を導入することで、推論ワークロードのランタイムダイナミクスを根本的に変化させました。これらの軌道は、1 セッションあたり数百件の推論リクエストにわたってエンドツーエンドのレイテンシを増幅します。
NVIDIA Vera Rubin NVL72 は、NVIDIA Vera Rubin platform の中核コンピュートエンジンとして、その推論負荷の大部分を処理します。最も要求の厳しい新興マルチエージェントワークロードには、長いコンテキストウィンドウを持つトリリオンパラメータ規模の MoE モデル(Mixture of Experts)において、持続的な低レイテンシと高スループットな生成能力が求められます。
これまで、この新興ワークロードを経済的に提供できるプラットフォームはありませんでした。NVIDIA Groq 3 LPX を Vera Rubin NVL72 と組み合わせた本システムは、パレート曲線上のこの点において、高スループットと低レイテンシの両方を初めて実現するものです。
本記事では、数百から数千のチップにわたる低レイテンシかつ決定的な実行を備えた高スループットコンピュートを組み合わせる極限の共設計(extreme co-design)を通じて、NVIDIA Vera Rubin Platform がこの課題をどのように解決するかを探ります。
なぜエージェントワークロードには予測可能なスケールアップネットワークが必要なのか
従来のデータセンター・ネットワークファブリックは、大規模なトレーニングジョブやボリューム推論ワークロード向けに最適化されており、これらの環境では小さなバッチ内のネットワークジッターが平均化されます。一方、プレミアム AI サービスでは、より高いモデル能力と、ユーザーが直接体感する高応答性が求められます。このレベルでは、アジェンティック・デコードは以下のような根本的に異なる要件をもたらします:
- 複数回にわたるモデルリクエスト
- 小規模なバッチ処理
- 極めて低いレイテンシ
プレミアム AI サービスで使用されるロングコンテキストおよび大規模 MoE モデル(Mixture of Experts)は、追加のネットワーク課題をもたらします(図 1)。マルチエージェントパイプライン内の各エージェントは、それぞれが拡大する KV キャッシュ、システムプロンプト、ツール定義、会話履歴を保持しています。この KV キャッシュと新しいトークンは、異なるアクセラレータにまたがるトリリオンパラメータモデルおよび関連するエキスパートを経由してルーティングされなければなりません。
image*図 1. アジェンティックワークロードがコンテキストと状態をどのように増大させるかを示す概念図。フロンティアの MoE モデルは並列処理を必要とし、両者は高速で決定論的なプロセッサ間ネットワークに依存しています*
これを成し遂げるためには、ネットワークレベルでのオーケストレーションにより、チップ間のホップにおける変動を最小限に抑える必要があります。モデルを単一のチップ上に保持できない SRAM ベースのアーキテクチャでは、このクロスチップ間の交換は避けられません。この交換が物理的に発生するメカニズムが、サービングシステムにおける主要なボトルネックとなります。
業界は従来、この課題に対処するために以下の方法を用いてきました:
- フロー制御が反応的であり、タイミングが統計的に制限されるのみで保証されない、ランタイム仲裁型ネットワークファブリック。
- 大規模なオンダイ計算リソースとメモリを集中配置し、モデルやコンテキストウィンドウのサイズが大きくなって初めてスケールアップ・アウトが必要となるまでネットワーク問題を先送りするアプローチ。これにより、マルチチップ間のパフォーマンスが劣化しています。
アジェンティック AI のスケールアップ規模においてスループットとレイテンシのトレードオフを打破するには、シリコン、コンパイラ、サービングスタックと共に設計されたネットワークファブリックが必要です。LPU C2C は、極限までの共設計(co-design)を実現することで、大規模な数兆パラメータモデルの運用を可能にしています。
NVIDIA Groq 3 LPX がスケールアップ課題に対処する方法
NVIDIA Groq 3 LPX の LPU C2C は、スケールアップ問題を直接的に解決するために設計されています。相互接続を、ランタイムで競合やタイミングの不確実性を吸収しなければならない従来のネットワークとして扱うのではなく、LPU C2C は Groq の決定論的実行モデル(deterministic execution model)を多数の LPU に拡張します。これは以下の 3 つの密接に連携する技術を通じて実現されます:
- 高ラディクス(high-radix)ポイントツーポイントリンク
- LPU コンパイラによるスケジューリングされたデータ移動
- ハードウェア駆動型プレシオ同期タイミング
これらの技術は組み合わせることで、Groq の 3 LPU アクセラレータに数千チップへのスケーラビリティを柔軟に提供しつつ、予測可能な通信、固定レイテンシ、低ジッター実行を維持します。以下のセクションでは、それぞれ順を追って検討します。
High-radix point-to-point links(高ラディックスポイントツーポイントリンク)
各 LPU は 112 Gbps の C2C リンクを 96 本備えており、LPU あたり約 2.5 TB/s のスケーラブル帯域幅と、ラックレベルでは 640 TB/s を提供します。NVIDIA MGX ラックスケールアーキテクチャに基づいて設計されたこのシステムは、ケーブルレストレイとポイントツーポイントの高ラディックス C2C トポロジーを採用し、トレイ間およびラック間に計算と通信を密結合させています。
直接ピア接続、専用パス、負荷下での対称ルート、そして低いホップ数により、効率的な集合通信が可能になります。また、コンパイラが転送をすべて実行時ではなく静的に計画するためです。
Compiler-scheduled data movement(コンパイラスケジューリングによるデータ移動)
LPU の C2C スケーリングはソフトウェアスケジューリングによって実現されます。LPUs 間の通信は、計算に使用されるのと同じ固定サイズ単位である 320 バイトのベクトルで移動し、フロー制御とスケジュール管理がコンパイル時に実行され、行列、ベクトル、スイッチの実行モジュールと同様に第一級関数ユニットとして扱われます。コンパイラは各ベクトルのソース LPU からどのリンクを経由していつ出発し、いつ到着するかを含むすべての転送を事前に計画します。これにより、負荷分散、経路選択、同期がハードウェアスケジューラによる競合下での動的処理ではなく、静的に解決されます。その結果、コンパイラは数千の相互接続された LPUs を単一のスケジュール実行表面として扱い、これは独立したチップ間のネットワークというよりも、1 つのダイ上の機能ユニット間の配線に近いものとなります。
image*図 2. LPU コンパイラとチップ間相互接続を介して複数の計算トレイが接続され、多数の LPUs を単一の決定論的実行クラスターとして同期させる概念図*
ハードウェア駆動型プレシオシンクロナスタイミング
各 LPU は独自のクロック上で動作しており、クロックは自然にドリフトするため、LPU の C2C スケーリングでは plesiosynchronous またはニアシンクロナスな C2C プロトコル(plesiosynchronous/near-synchronous C2C protocol)を使用してドリフトを相殺し、数千の LPU を単一のコアとして同期させます。予測可能なデータ到着と定期的なソフトウェア同期により、ランタイムは防御バッファリングを不要とし、多くのアーキテクチャが及ばない規模でコンパイル時に既知のネットワークレイテンシを実現します。予測不能なネットワークホップを排除し、データ移動を調整し、レイテンシをコンパイル時に固定することで、これらのスケールアップ技術により Groq 3 LPX は、ツール、メモリ、多段階プランを高速で協調処理する必要があるアジェンティックワークロードに対して、数百から数千の LPU を一貫性のある低ジッターシステムとして単一のユニットとして動作させることが可能になります。
アジェンティックワークロードが LPU C2C から得るメリット
LPU C2C の中核的な利点は、ラックスケールでの決定論的動作です。128 GB の統合オンチップ SRAM を備え、スケーリングしても性能が予測可能に保たれます(図 3)。テンソル並列ドメインにおけるこの量の SRAM は、生産環境で稼働する SRAM ベースの ASIC の中で最大規模であり、LPU アーキテクチャが SRAM スケーリングにおいて優位であることを示しています。
image*図 3. NVIDIA Groq 3 LPX のスケールアップ帯域幅が LPU 数に対してほぼ線形に増加し、LPX ラックレベルで約 640 TB/s に達し、統合された 128 GB SRAM プールを実現する様子を示す折れ線グラフ(256 LPU)*
LPU コンパイラは、レイヤーごとのパーティショニングなどの戦略を用いて、トリリオンパラメータ規模のモデルをそのプール全体に分割します。これにより、オンチップ SRAM の和集合が、単一のチップでは提供できないよりもはるかに大きな作業メモリとして機能します。エージェントワークロードにおいては、これはコンテキストウィンドウや精度で妥協を強いることなく、低レイテンシで動作する最先端の MoE モデルを実現することを意味します。マルチエージェントセッションにおけるバースト性の高いファンアウトパターンにおいても、遅延の最大値(tail latency)は制限された範囲内に保たれ、トークンあたりのレイテンシも予測可能となります。
低レイテンシだけでは不十分です。AI ファクトリーの展開には、大規模な GPU プールから得られる計算容量、スループット、および同時実行サービス能力も必要となります。ここで Vera Rubin NVL72 との共同設計が役割を果たします。Vera Rubin NVL72 は、ラックあたり最大 3,600 PFLOPS の NVFP4 計算性能、20.7 TB の HBM4(High Bandwidth Memory)、1.6 PB/s のメモリ帯域幅を提供し、プリフェッチ処理、長文脈デコードアテンション、高同時実行サービスの各タスクを処理します。レイテンシの予算がさらに厳しくなる場合、NVIDIA Dynamo(図 4)は、Attention-FFN Disaggregation (AFD) を用いて異種混合型のデコードループをオーケストレーションします。この AFD ループは以下のように構成されます:
- Rubin GPU が蓄積された KV キャッシュに対してデコードアテンションを実行する
- LPX が FFN(Feed-Forward Network)の実行を加速する
- 中間活性化値は、低オーバーヘッドの KV 対応転送を通じてトークンごとに交換される
image*図 4. NVIDIA Dynamo が、prefill(事前計算)と attention(注意機構)の処理を Vera Rubin NVL72 GPU にルーティングし、FFN(フィードフォワードネットワーク)のデコード処理を Groq 3 LPX にルーティングする様子を示す概念図。KV(キー・バリュー)対応データ交換を含む*
この役割分担が機能するのは、両エンジンが異なるタイミングレジームを対象としているからです。prefill と decode attention はスループット主導であり、大規模なバッチ処理を行い、多数のトークンにわたって KV キャッシュ読み出しを分散できるため、NVIDIA NVLink の高帯域幅スケールアップ相互接続に最適なプロファイルです。一方、FFN デコードループは小規模なバッチサイズで逐次的なトークン生成を行うため、マイクロジッターがユーザーが体感するレイテンシの主要因となります。コンパイル時にスケジュールされる C2C(チップ間通信)はこのレジームのために特別に設計されています。
Groq 3 LPX、Vera Rubin NVL72、そして Dynamo を組み合わせることで、同一のサービングパスにおいて、決定論的な低レイテンシ、最先端モデル規模の処理能力、長文コンテキスト対応、および高スループットを実現するプラットフォームが構築されます。400K トークンのコンテキストを持つトリリオンパラメータ規模の MoE(混合専門家)モデルにおいて、ユーザーあたり 1 メガワットあたりのスループットは NVIDIA GB200 NVL72 と比較して最大 35 倍向上し、アジェンティックワークロードにおける収益機会は最大 10 倍拡大します。
Vera Rubin プラットフォームの仕様や LPX に関する詳細については、以下のブログ記事をご覧ください:
- アジェンティックシステムの複雑化に対応する極限のコデザインによる構築
- NVIDIA Groq 3 LPX の内部:NVIDIA Vera Rubin プラットフォーム向けの低遅延推論アクセラレーター
- NVIDIA Vera Rubin プラットフォームの内部:6 つの新チップと 1 つの AI スーパーコンピュータ
原文を表示
Agentic inference has fundamentally changed the runtime dynamics of inference workloads by introducing non-deterministic trajectories—actions, observations, and decisions that an AI agent produces while working through a task. These trajectories compound end-to-end latency across hundreds of inference requests per session.
NVIDIA Vera Rubin NVL72 handles the bulk of that inference load as the core compute engine of the NVIDIA Vera Rubin platform. The most demanding emerging multi-agent workloads require sustained low-latency and high-throughput generation on trillion-parameter MoE models with long-context windows.
Until now, no platform has served this emerging workload economically. NVIDIA Groq 3 LPX, paired with Vera Rubin NVL72, is the first to deliver both high throughput and low latency at this point on the Pareto curve.
This post explores how the NVIDIA Vera Rubin Platform solves this challenge through extreme co-design, combining high-throughput compute with low-latency, deterministic execution across hundreds to thousands of chips.
Why agentic workloads require predictable scale-up networking
Conventional data center networking fabrics are optimized for large training jobs and volume inference workloads, where small amounts of network jitter average out inside large batches. Premium AI services, by contrast, demand higher model capability and highly responsive user-visible performance. At this tier, agentic decode brings a fundamentally different set of requirements, including:
- Multi-turn model requests
- Smaller batches
- Extremely low latency
Long context and large MoE models (used in premium AI services) introduce additional networking challenges (Figure 1). Each agent in a multi-agent pipeline carries its own expanding KV cache, system prompt, tool definitions, and conversation history. That KV cache and any new tokens must be routed through trillion-parameter models and their associated experts across different accelerators.

To pull this off, network-level orchestration must ensure minimal variability in the hops between chips. This cross-chip exchange is unavoidable in any SRAM-based architecture that can’t hold the model on a single chip. The physical mechanism by which the exchange occurs becomes a key bottleneck in the serving system.
The industry has traditionally addressed this challenge by using:
- Runtime-arbitrated networking fabrics where flow control is reactive, and timing is statistically bounded rather than guaranteed.
- Large concentrations of on-die compute and memory that postpone the networking problem until model and context window sizes require them to scale up and out, resulting in deteriorating multi-chip performance.
Breaking the throughput-latency tradeoff at agentic scale requires networking fabric designed with the silicon, compiler, and serving stack. The LPU C2C achieves this with extreme co-design enabling multi-trillion parameter models at scale.
How NVIDIA Groq 3 LPX addresses scale-up challenges
The NVIDIA Groq 3 LPX LPU C2C is designed for solving scale-up problems directly. Rather than treating interconnects as a conventional network that must absorb contention and timing uncertainty at runtime, LPU C2C extends Groq’s deterministic execution model across many LPUs. It does this through three tightly connected technologies:
- High-radix point-to-point links
- LPU Compiler-scheduled data movement
- Hardware-driven plesiosynchronous timing
Together, these technologies enable Groq 3 LPU accelerators the flexibility to scale to thousands of chips while preserving predictable communication, fixed latency, and low-jitter execution. The following sections examine each in turn.
High-radix point-to-point links
Each LPU exposes 96 C2C links at 112 Gbps, delivering roughly 2.5 TB/s of scale-up bandwidth per LPU and 640 TB/s at the rack level. Built on the NVIDIA MGX rack-scale architecture, the design uses cableless trays and point-to-point, high-radix C2C topology to tightly couple compute and communication across trays and racks.
Direct peer connections, dedicated paths, symmetric routes under load, and low hop counts enable highly efficient collective communication while the compiler plans every transfer statically rather than at runtime.
Compiler-scheduled data movement
LPU C2C scaling is software-scheduled. Communication between LPUs moves in 320-byte vectors, the same fixed-size unit used for compute, and is flow-controlled and scheduled at compile time as a first-class functional unit alongside the matrix, vector, and switch execution modules. The compiler plans every transfer in advance, including when each vector leaves its source LPU, which link it takes, and when it arrives, so load balancing, route selection, and synchronization are resolved statically rather than by hardware schedulers under contention. As a result, the compiler treats thousands of interconnected LPUs as a single scheduled execution surface, closer to wires between functional units on one die than to a network of independent chips.

Hardware-driven plesiosynchronous timing
Each LPU runs on its own clock, and because clocks naturally drift, LPU C2C scaling uses a plesiosynchronous or near-synchronous C2C protocol to cancel drift and align thousands of LPUs to act as a single core. With predictable data arrival and periodic software synchronization, the runtime avoids defensive buffering, making compile-time-known network latency possible at a scale most architectures can’t match. By eliminating unpredictable network hops, coordinating data movement, and fixing latency at compile time, these scale-up technologies enable Groq 3 LPX to operate hundreds or thousands of LPUs as one coherent, low-jitter system for agentic workloads that must coordinate tools, memory, and multi-step plans at speed.
How agentic workloads benefit from LPU C2C
The core payoff of LPU C2C is rack-scale determinism: 128 GB of unified on-chip SRAM with performance that stays predictable as you scale (Figure 3). This amount of SRAM in a tensor-parallel domain is the largest of any SRAM-based ASIC in production, and shows the LPU architecture’s superiority in scaling SRAM.

The LPU compiler partitions trillion-parameter models across that pool using strategies like layer-wise partitioning, so the union of on-chip SRAM acts as a working memory far larger than any single chip can offer. For agentic workloads, this translates to frontier MoE models that run at low-latency without forcing tradeoffs in context window or accuracy. Tail latency stays bounded under the bursty fan-out patterns of multi-agent sessions, and per-token latency is predictable.
Low latency only goes so far on its own. AI factory deployments also need the compute capacity, throughput, and concurrent serving that come from a large GPU pool. That is where co-design with Vera Rubin NVL72 takes over. Vera Rubin NVL72 delivers up to 3,600 PFLOPS of NVFP4 compute, 20.7 TB of HBM4, and 1.6 PB/s of memory bandwidth per rack, handling prefill, long-context decode attention, and high-concurrency serving. When latency budgets tighten further, NVIDIA Dynamo (Figure 4) orchestrates a heterogeneous decode loop using Attention-FFN Disaggregation (AFD). This AFD loop is orchestrated in the following way:
- Rubin GPUs run decode attention over the accumulated KV cache
- LPX accelerates FFN execution
- Intermediate activations are exchanged each token through low-overhead, KV-aware transfers

The division of labor works because the two engines target different timing regimes. Prefill and decode attention are throughput-dominated, with large batches, and KV-cache reads that amortize over many tokens, a profile well-matched to NVLink’s high-bandwidth scale-up interconnect. The FFN decode loop runs at small batch sizes with sequential token generation, where micro-jitter starts to dominate user-visible latency. Compile-time-scheduled C2C is purpose-built for that regime.
Together, Groq 3 LPX, Vera Rubin NVL72, and Dynamo form a platform that delivers deterministic low latency, frontier-model scale, long-context support, and high throughput in the same serving path. At 400 tokens per second per user on trillion-parameter MoE models with 400K-token context, NVIDIA co-design delivers up to 35x higher throughput per megawatt than NVIDIA GB200 NVL72 and unlocks up to 10x more revenue opportunity for agentic workloads.
For more details on the Vera Rubin platform specs and LPX, explore the following blog posts:
- Building for the Rising Complexity of Agentic Systems with Extreme Co-Design
- Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin Platform
- Inside the NVIDIA Vera Rubin Platform: Six New Chips, One AI Supercomputer
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み