エージェンシーシステムの複雑化に対応する極限の共設計
NVIDIA は、従来のチャットボットから自律的なエージェントへの移行に伴う複雑性の急増に対し、トークン消費やレイテンシの課題を解決する「Extreme Co-Design」アプローチと新プラットフォーム「Vera Rubin」の重要性を解説している。
キーポイント
チャットボットからエージェントへのパラダイムシフト
従来の定型的な対話モデル(1 対 1 のやり取り)から、ツール呼び出し、サブエージェントの生成、メモリ管理を行う自律的な行動パターンへと進化しており、システム負荷が非線形的に増大している。
従来型インフラの経済的限界
エージェントは予測不能なトークン消費と長大なコンテキストウィンドウを必要とするため、従来のサービス提供モデルではコストとレイテンシの面で経済的に成立しなくなる。
エージェント特化型インフラスタックの必要性
NVIDIA は「Extreme Co-Design」の概念に基づき、ハードウェアからソフトウェアまでを統合設計した新スタックと「Vera Rubin」プラットフォームを提案し、複雑なエージェントシステムへの対応を図っている。
AI インタラクションの複雑性の進化
標準チャットボットの線形プロセスから、ツール連携による可変プロセスへ、そして最終的にアジェンティックシステムにおける連鎖的でエントロピーの高いプロセスへと、AI の相互作用パターンは複雑化している。
極限の共設計(Extreme Co-Design)の必要性
アジェンティックシステムの台頭に伴う複雑性を管理し、性能を最大化するためには、ソフトウェアとハードウェアを分離せず、統合的に最適化する「極限の共設計」アプローチが不可欠である。
ツール呼び出しによる入力の不確実性
ツールの応答サイズがクエリや設計に依存するため、標準的なチャットとは異なり入力シーケンスの予測可能性が失われる。
エージェントにおける構造的確率性の増加
ツール使用の数と順序をモデルが決定するようになると、セッションの構造自体がケースごとに大きく異なる「構造的に確率的」な負荷となる。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI の次のフェーズである「エージェント型システム」が、単なる機能追加ではなくインフラ層の根本的な再設計を迫る転換点であることを示唆しています。NVIDIA が自社の新プラットフォームをこの文脈で位置づけることで、企業や開発者が従来のチャットボット向けアーキテクチャから脱却し、エージェント特化型の基盤へ移行する必要性を強く促す内容となっています。
編集コメント
チャットボットの時代から自律型エージェントの時代へ移行する際のインフラ課題を、ハードウェアレベルでの解決策と共に解説した重要な記事です。
生成 AI の爆発的な最初の章は、人間がリクエストを送りモデルが応答するという形に定義されていました。しかし、エージェントの章は異なります。
エージェントは事前に決定された行動シーケンスに従いません。ツールを呼び出し、異なるタスクとモデルを持つサブエージェントを起動し、メモリに情報を保持し、自身のコンテキストウィンドウを管理し、完了したかどうかを自分自身で判断します。その過程で、これらのシステムはトークン消費量、コンテキスト長、レイテンシ要件を極めて厳しい領域へと押し上げます — これがまさに現在、NVIDIA の極限共設計スタックと NVIDIA Vera Rubin プラットフォームを形作っている圧力です。
本稿では、この進化を 3 つのパートに分けて分析します:
- エージェントがトークンをどのように消費するか
- なぜ従来のサービング方式ではその経済性が成り立たないのか
- エージェント向けに特別に設計されたインフラスタックはどのようなものか
チャットボットからエージェントへの移行
図 1 に示すように、生成 AI の普及は単純な相互作用モデルから始まりました:ユーザーのメッセージ 1 つに対しチャットボットの応答が 1 つ返り、これを繰り返します。モデルはコンテキストウィンドウ内の記憶から応答し、チャット履歴は線形的に成長し、システムへの要求も予測可能です。
image*図 1. 複雑さの順に並べた 3 つの AI 相互作用パターン:標準チャットボット(線形);ツール付きチャット(有界、可変);およびエージェント型(連鎖型、高エントロピー)*
ツール呼び出しの導入は、AI チャットボットの動作方法を根本的に変えます。モデルが計算機を呼び出して数学を推測する代わりにできるようになると、全体の作業負荷が変わります。ツールの応答はコンテキストウィンドウに直接追加されるため、入力シーケンスに予測不可能性が生じます。これは、ツールの出力サイズが特定のクエリとツールの設計(関連データをどのように処理するかを含む)に依存するためです。プロセスはまだプロンプトと最終回答によって制限されていますが、標準的なチャットの単純な予測可能性は失われます。
エージェントを導入すると、この動的性はさらに複雑になります。モデルが1 つのツールを呼び出す力を持つなら、それはいくつのツールを使用するか、そしてどのような順序で使用するかを決定する力も持つことになります。例えば、メール作成を任されたエージェントは以下のようなことができます:
- 既存の correspondence を読む
- コンテキストのためにドライブを確認する
- 受信者の身元を確認する
- その後、メールを作成する
この連鎖がモデルがエージェントとなる場所であり、作業負荷が「確率的なスパイクを伴う線形的予測可能性」から「構造的に確率的なもの」へとシフトする場所です。その結果、各エージェントセッションの形状は互いに非常に異なる振る舞いを示す可能性があります。
エージェントアーキテクチャの特徴
現代のエージェントアーキテクチャは、効果的なコンテキスト管理、ツール使用、タスク最適化を可能にする、エージェント階層と最適化技術の混合で構成されています:
image*図 2. 標準的なエージェント/サブエージェントアーキテクチャの単純なフローダイアグラム*
- プライマリエージェント: エンドツーエンドでタスク全体を遂行する責任を負う。サブタスクに取り組むサブエージェントをオーケストレーションする場合もある。通常、プライマリエージェントは最も賢いモデルによって駆動され、ユーザーと直接対話を行う。
- サブエージェント: プライマリエージェントによって生成され、より狭義のタスクを処理するものであり、プライマリエージェントと同様にコンテキストウィンドウを自己管理する能力を持つ。多くの場合、サブエージェントはアーキテクチャ上、プライマリエージェントと同一か非常に類似しているが、実際のプライマリエージェントから提供されるプロンプトに基づいてより限定的なタスクスコープを持つ点で異なる。
- ファイルシステムの状態維持: エージェントがメモリやツール呼び出しの出力をファイルに書き込み、その後その内容を検索または再読することによって生じる追加的な状態維持機能。これはコンテキスト管理および記憶のための手法として機能する。
- 要約と圧縮: エージェントのコンテキストウィンドウを要約して圧縮し、新しい情報のためのスペースを確保するとともに入力処理コストを削減する技術。
image*図 3. エージェントセッション全体にわたるリクエストごとの入力トークン増加を示す簡略化された定性的グラフ*
今日、最も人気のあるエージェントツールのいくつかは、類似したアーキテクチャを採用しています。Claude Code などのツールにおける主要エージェントは、より小さなコンテキストウィンドウを活用しタスクを並列化するために、作業をサブエージェントに委譲することが頻繁にあります。システムは推論ステップのたびに入力トークンを処理しなければならないため、より小さなコンテキストを利用することは、より高い効率性をもたらし、結果として入力トークンの処理コストを低下させます。このアーキテクチャは、context rot と呼ばれる現象に対する必要な防御策を提供します。これは、拡大するコンテキストが必然的に出力品質の低下をもたらすという現象です。タスクの複雑さが増大すると、意図的な圧縮イベントが発生し、トークンを無限にスケールできないことへの対応として、主要エージェントのコンテキストウィンドウを急激に縮小します。
エージェントシステムのワークロードダイナミクスと経済性
Anthropic は multi-agent system(マルチエージェントシステム)の構築に関するレポートにおいて、これらのシステムが標準的なチャットよりも最大で 15 倍ものトークンを消費すると推定しています。この大幅な増加は、これらのアプリケーションが大規模に経済的に利益を生むために、トークンの単位経済性の改善を必要とします。この推論経済性への課題に対処するには、エージェントの経済性を支配するシステムレベルのトークンスループットおよびレイテンシ要件に対する深い理解が必要です。
これらのワークロードのコストと複雑さは、実際のエージェントセッションの分析を通じて最もよく理解できます。図 4 は、Claude Code のコーディングタスクにおける測定例を示しています。グラフ上の線は、セッション中にサブエージェント(オレンジ色)およびメインエージェント(灰色)によって行われた各リクエストにおける入力シーケンス長(コンテキスト+ISL)を表しています。単一のセッションであっても、このトレースは、ロングコンテキスト容量、キャッシュのプログラム可能性、予測可能なトークンあたりのレイテンシが、純粋なモデル品質と同様に重要である理由を明確に示しています。
image*図 4. メインエージェントとサブエージェントにわたる 33 分間に及ぶ 283 リクエストを含む、ライブの Claude Code エージェントコーディングセッションからのコンテキスト成長トレース*
この 33 分のセッションでは、225 のサブエージェント呼び出しを調整する 58 のメインエージェントターンを追跡しています。283 回の推論リクエスト全体で、コンテキストウィンドウは 15K トークンからピーク時の 156K トークンまで成長しますが、その後コンテキスト圧縮イベントにより約 20K トークンに減少します。このトレースは、エージェントのトークン消費量がタスクの性質だけでなく、エージェントシステムの動作によっても大きく形成されることを明確に示しています。
デフォルトのエージェントは、委任やコンパクションを行っていない場合に入力コンテキストを急速に蓄積するため、キャッシュ読み込みによる入力トークンコストがターンごとに再発します。最初の 40 ターンを通じて、主要なエージェントは平均して約 85K トークンのコンテキストを持ち、コンパクション後にセッションでさらに 100 万トークンを追加する前に、合計で約 350 万の入力トークンを処理します。これらはまさに、高帯域幅メモリ(HBM)や Vera Rubin NVL72 のような高スループットプラットフォームが重要となる条件です。なぜなら、長文コンテキストのプロンプトは経済的に扱いやすいまま維持されつつ、プリフィル需要が拡大し続ける必要があるからです。
プロンプトキャッシングがこのパターンを可能にしています。KV キャッシュの再利用がない場合、すべての入力トークンを完全に再処理する必要があります。主要な API プロバイダーはキャッシュヒットに対して約 90% の割引を提供しているため、キャッシュヒット率が 95% の場合、入力処理コストは約 85% 低下します。プロンプトキャッシングがなければ、このコストはおよそ 6 倍高くなります。コーディングエージェントは、特にツール出力が小さい場合に 95-98% のキャッシュヒット率を維持することが一般的です。そのため、プロンプトキャッシングは単なる API 機能ではなく、システム全体の課題として認識されるようになっています。高いキャッシュヒット率を維持するには、効率的な CPU 側の KV キャッシュ管理と、NVIDIA CMX のような専用設計の高容量コンテキストストレージが必要であり、これにより長いプレフィックスを保持し、セッションがスケールする際に迅速に復元することが可能になります。
サブエージェントのトレースに含まれる 225 のリクエストは、それぞれ固有のコンテキストと特定のツール定義を利用する個別の推論セッションを示しています。サブエージェントは総出力トークン量を増加させる傾向がありますが、新鮮なコンテキストウィンドウから開始し、委譲されたタスクに関連する情報のみを継承することで、入力コストを削減します。また、より小さなモデル上で実行可能であり、これにより遅延とコストが削減されつつも、狭い範囲のタスクに対する精度は維持されます。
コンテキストの圧縮(compaction)も同様に重要です。これはコンテキストウィンドウの制限に達するのを回避し、コンテキストローテーションの影響を軽減するとともに、コスト管理における副次的な効果をもたらします。コンテキストウィンドウを 156K トークンから 20K トークンに縮小することは、キャッシュされた入力トークンの支出を即座に削減し、次のタセットのための余地を生み出します。
以下の図 5 では、定性的に見て処理されたトークンの大部分がキャッシュから取得されていることが明白です。これが起こると、ネットワークおよびメモリシステムの挙動がユーザーが知覚する遅延に直接影響を与え始めます。NVLink 6、ConnectX-9、BlueField-4、Spectrum-X といった低遅延ファブリックは、共有コンテキストへのアクセスを維持し、複数のエージェント間でセッションが分岐した際の再計算ペナルティを軽減するのに役立ちます。
image*図 5. 生実行中の Agentic Claude Code コーディングセッションからのトークンキャッシング内訳トレース。33 分間にわたる 283 のリクエストにわたって、キャッシュされた入力トークンと未キャッシュの入力トークンを区別しています(図 4 と同じセッション)*
この例から、エージェントのトークン動向は非常に複雑であり、トークンの消費量がプライマリエージェントとサブエージェント全体に急速に拡大することが明確になります。この増大するトークン需要の下でこれらのアプリケーションをスケーリングする際の課題を理解するには、提供されるパフォーマンス要件を検討する必要があります。
エージェントワークロードのパフォーマンス要件
エージェントワークロードの価値を引き出すには、高いモデル知能、大きなコンテキスト、そして低遅延が必要です。これらのエージェントが洞察を生成する速度が速いほど、その価値は指数関数的に高まります。この速度により R&D サイクルが短縮され、ハーン制御が改善され、複雑なマルチエージェントループが可能になります。これらの機能を可能にするトークンは本質的に処理コストが高いため、提供されるパフォーマンスがこれらのシステムをスケーラブルかつ収益性のあるものとするための重要なレバーとなります。
これらのトークンのコストを下げるには、プロデューサーが大規模モデルに対して大規模なコンテキストで高い相互動作領域におけるスケールを維持する必要があります。以下の図 6 は、標準的な推論パフォーマンスのパレート曲線を通じてこのボトルネックを示しています。曲線の左側は高いスループットを提供しますが、エージェントワークロードが機能できない相互動作の低い極端な領域です。
image*図 6. GPU 単位でのバッチ処理、標準的なコーディング、およびエージェントアプリケーションワークロードにおけるスループットと相互動作のトレードオフを示す定性的なパレート曲線*
これらのワークロードは、代わりに曲線の右側にある高インタラクティブ側にシフトして初めて正常に動作できます。エージェントシステムは膨大なトークン量を消費しながらも、エンドユーザーのインタラクションを維持するために高速な生成速度を要求します。問題は、この低遅延を実現しようとすると、通常システムのスループットが劇的に低下してしまうことです。スループットの低下は、トークンあたりのコストが高額になることを意味し、スケールしたエージェントシステムの経済性を困難にします。
image*図 7. バッチ処理、標準的なコーディング、およびエージェントアプリケーションのワークロードにおける、100 万トークンあたりのコストとインタラクション性のトレードオフを示す定性的なパレート曲線*
このボトルネックを打破するには、インフラ設計の完全な転換が必要です。現代の GPU は膨大な計算能力と広帯域を提供していますが、低遅延でのスケール維持には、単一のアーキテクチャが提供できるもの以上のものが求められます。その答えは「極限共設計(Extreme Co-Design)」です。このアプローチでは、各フェーズに特化したハードウェアを最適化し、これらの固有の課題を単一のプロセッサではなく、プラットフォーム全体に委ねます。
1 つのプロセッサでは不十分な理由
これらの独自の要求は、計算能力(FLOPs)やメモリ容量を増やすだけでは解決されません。その理由は、エージェントが動作するアーキテクチャの性質によるものであり、単一のプロセッサでこれらを同時に解決することは不可能だからです。
image*図 8. エージェントワークロードに対する恩恵を強調する NVIDIA の極限共設計戦略の一部を示す図*
必要とされているのは、各ボトルネックが専用ハードウェアにマッピングされ、極限共設計(extreme co-design)によって統合システムとしてオーケストレーションされたプラットフォームです(上記の図 8 を参照)。
- プラットフォーム
Vera Rubin NVL72 は、Blackwell の百万トークンあたりのコストの 10 分の 1 でキャパシティと計算能力を提供します。HBM(High Bandwidth Memory)の容量が、長期コンテキストパイプラインを扱いやすくする要因であり、計算密度がスケール時のプレフィルコストを吸収します。
- Vera CPU は、エージェントレイテンシの低減、シームレスな KV キャッシュオフロード、統合された CPU-GPU 実行により、ツール実行のギャップを埋めます。
- Groq 3 LPX は、スループットとレイテンシのトレードオフを打破します。SRAM(Static Random Access Memory)ファーストアーキテクチャは、厳密にバウンドされた低ジッターのトークン生成を実現し、これは単一エージェントの変動がパイプライン全体に伝播する際に特に重要です。
- ネットワーキングチップ(NVLink 6 スイッチ、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-X Ethernet)は、エージェントワークロード向けの統合された低レイテンシサービングファブリックを構築し、エージェントがより迅速に協調し、共有コンテキストへのアクセスを維持し、セッションの拡大に伴う高コストな再計算を回避できるようにします。
- ソフトウェアスタックコンポーネント:
Dynamo と Attention-FFN Disaggregation (AFD) は、最適なプロセッサに処理を分割し、実行を調整することでリソース競合とレイテンシを削減し、一貫したサービングパスを実現します。さらに、Dynamo はエージェント・ハネスに対してキャッシュのプログラム可能性を公開しています。
- NVFP4 は精度オーバーヘッドを低減するため、MoE エージェントは知能性を犠牲にすることなく、より低いレイテンシ、より高いスループット、およびより少ないメモリ負荷で実行できます。
- TRT-LLM WideEP は最先端の MoE に対する大規模なエキスパート並列処理を最適化し、エージェントがより低いレイテンシとより高いスループットで高知能な応答を提供できるようにします。
- Speculative Decoding (推測的デコーディング) は、可能性の高いトークンを並列生成して迅速に検証することで、エージェントの応答レイテンシを削減し、大規模モデルにおける低レイテンシ推論を加速します。
これら 7 つのチップとソフトウェア・スタックを極限まで共設計 (Extreme Co-Design) によって組み合わせることで、Vera Rubin プラットフォームは、400k の大規模コンテキストを持つトリリオンパラメータ級の MoE モデルにおいて、ユーザーあたり 400 トークン以上の処理速度を実現できます。このレベルのパフォーマンスは、エージェントにおける歴史的なトレードオフの概念を転換します — 高いユーザーあたりの速度と高いシステム・スループットを提供するために、モデルを小さくして品質を犠牲したり、コンテキストウィンドウを制限したりする必要はもはやありません。この領域において、アジェンティック・アーキテクチャは高価な実験ではなく、大規模展開可能な製品として実現可能になります。
Vera Rubin プラットフォームの仕様や LPX に関する詳細については、それぞれのローンチ日ブログをご覧ください:
- NVIDIA Vera Rubin プラットフォームの内部:6 つの新チップと 1 つの AI スーパーコンピュータ
- NVIDIA Groq 3 LPX の内部:NVIDIA Vera Rubin プラットフォーム向けの低遅延推論アクセラレーター
原文を表示
Generative AI’s explosive first chapter was defined by humans sending requests and models responding. The agentic chapter is different.
Agents don’t follow a pre-determined sequence of actions. They call tools, spawn sub-agents with different tasks and models, retain information in memory, manage their own context window, and decide for themselves when they’re finished. In doing so, these systems push token consumption, context length, and latency requirements into extremely demanding regions — exactly the pressures now shaping the NVIDIA extreme co-design stack and the NVIDIA Vera Rubin platform.
This post analyzes that evolution across three parts:
- How agents consume tokens
- Why their economics break under conventional serving
- What an infrastructure stack purpose-built for agents looks like
Transition to agents from chatbots
As shown in Figure 1, below, the popularization of generative AI began with a simple interaction model: one user message, one chatbot message, repeat. The model responds from memory in the context window, the chat history grows linearly, and demands on the system are predictable.

The introduction of tool calling fundamentally shifts the way an AI chatbot operates. Once a model can call a calculator instead of guessing at math, the entire workload changes. Since tool responses are added directly to the context window, they introduce unpredictability to the input sequence. This happens because the size of a tool’s output depends on the specific query and the tool’s design, including how it handles relevant data. Even though the process is still bounded by a prompt and a final answer, the simple predictability of a standard chat is lost.
This dynamic becomes even more complex when we introduce agents. If a model has the power to call one tool, it also has the power to decide how many tools to use and in what order to use them. For instance, an agent tasked with drafting an email might:
- Read existing correspondence
- Check drive for context
- Confirm a recipient’s identity
- Then draft the email
This chaining is where models become agents, and where the workload shifts from “linearly predictable with probabilistic spikes” to “structurally probabilistic,”such that the shape of each agent session can behave very differently from one another.
Characteristics of agentic architectures
The modern agentic architecture is composed of a mix of agent hierarchies and optimization techniques that enable effective context management, tool usage, and task optimization:

- Primary agent: Responsible for the delivery of the entire task end-to-end. May orchestrate sub-agents that tackle subtasks. Typically, the primary agent is powered by the smartest model and talks directly with the user.
- Sub-agents: Spawned by the primary agent to handle narrower tasks, with ability to self-manage their context windows like the primary agent. Often, sub-agents are architecturally identical or very similar to primary agents, except with a more limited task scope from the prompt provided by the actual primary agent to the sub-agent.
- File system statefulness: Additional statefulness derived from agents writing memory and tool call output to files and later searching or re-reading their contents. This serves as a method of context management and memory.
- Summarization and compaction: A technique where the context window of an agent is summarized and thereby compressed to make space for new information and reduce input processing costs.

Some of the most popular agentic tools today follow similar architectures. Primary agents in tools like Claude Code frequently delegate work to sub-agents to exploit smaller context windows and parallelize tasks. Because the system must process input tokens during every single inference step, utilizing smaller contexts drives greater efficiency and results in lower input token processing costs. This architecture provides a necessary defense against a phenomenon called context rot, where an expanding context inevitably degrades output quality . When tasks grow in complexity, deliberate compaction events force sharp drops in the context window of the main agent to compensate for the inability to scale tokens infinitely.
Workload dynamics and economics of agentic systems
In their report on building a multi-agent system, Anthropic estimated that these systems consumed up to 15x more tokens than standard chat. This significant increase requires improved unit economics for tokens in order for these applications to become economically profitable at scale. Addressing this inference economics challenge requires a deep understanding of the system-level token throughput and latency requirements that govern agentic economics.
The cost and complexity of these workloads is best understood through the analysis of a real agentic session. Figure 4 provides a measured example of a Claude Code coding task. The lines on the chart represent the input sequence length (context + ISL) at every request made during the session by sub-agents (orange) and the main agent (grey). Even in a single session, the trace makes clear why long-context capacity, cache programmability, and predictable per-token latency matter as much as raw model quality.

This 33-minute session tracks 58 main-agent turns coordinating 225 sub-agent invocations. Across 283 inference requests, the context window grows from 15K tokens to a peak of 156K before a context compaction event reduces it to approximately 20K. The trace makes it clear that agent token consumption is shaped as much by agentic system behavior as by the nature of the tasks.
The primary agent accumulates input context quickly when it is not delegating or compacting context, which causes cache-read input token costs to recur every turn. Across the first 40 turns, the main agent averages roughly 85K tokens of context and accumulates around 3.5 total processed million input tokens before adding another million in the session following a compaction. These are exactly the conditions where high bandwidth memory (HBM), high-throughput platforms such as Vera Rubin NVL72 become relevant, because long-context prompts need to stay economically tractable while prefill demand continues to scale.
Prompt caching is what makes this pattern workable. Without KV cache re-use, every input token would need to be fully reprocessed. Popular API providers discount cache hits by approximately 90%, so at a 95% cache hit rate, input processing cost drops by about 85%; without prompt caching, the cost here would be roughly 6x higher. Coding agents commonly sustain 95-98% cache hit rates, especially when tool output stays small. That is why prompt caching is increasingly a systems problem rather than just an API feature: Sustaining high cache hit rates depends on efficient CPU-side KV cache management and purpose-built high-capacity context storage, such as NVIDIA CMX, to preserve long prefixes and restore them quickly as sessions scale.
The 225 requests in the sub-agent traces highlight separate inference sessions that each utilize unique contexts and specific tool definitions. Sub-agents often increase total output token volume, but they lower input cost by starting from fresh context windows and carrying forward only what is relevant to the delegated task. They can also run on smaller models, which reduces latency and cost while still preserving accuracy for narrower tasks.
Context compaction is equally important. It provides a mechanism to avoid hitting the context window limit, reduces the effects of context rot, and provides cost-management side-effects. Reducing the context window from 156K tokens to 20K forces an immediate reduction in cached input token spend and creates room for the next set of tasks.
In Figure 5, below, it is qualitatively evident that most processed tokens are retrieved from cache. Once that happens, network and memory-system behavior start to affect user-perceived latency directly, and low-latency fabrics such as NVLink 6, ConnectX-9, BlueField-4, and Spectrum-X help keep shared context accessible and reduce recomputation penalties as sessions fan out across multiple agents.

From this example, it becomes clear that agent token dynamics are quite complex and token consumption can quickly scale across primary and sub-agents. To understand the challenges of scaling these applications under this growing token demand, we must consider the delivered performance requirements.
Performance requirements of agentic workloads
Unlocking the value of agentic workloads requires high model intelligence, large context, and low latency. The faster these agents produce insights, the more exponentially valuable they become. This speed shortens R&D cycles, improves harness control, and enables complex multi-agent loops. Because the tokens enabling these capabilities are inherently expensive to process, delivered performance stands as the critical lever to making these systems both scalable and profitable.
Driving down the cost of these tokens requires producers to sustain scale in the high interactivity region for large models across large contexts. Figure 6, below, illustrates this bottleneck through a standard inference performance pareto. The left side of the curve offers high throughput but at the lower extremes of interactivity where agentic workloads cannot function.

These workloads must instead shift to the high interactivity side of the curve (right) to operate successfully. Agentic systems consume massive token volumes while demanding fast generation speeds to maintain end-user interactivity. The problem is that achieving this low latency typically causes system throughput to drop dramatically. Diminished throughput leads to prohibitive per-token costs, making agentic systems economically challenging at scale.

Breaking this bottleneck requires a complete shift in infrastructure design. Modern GPUs offer enormous compute and substantial bandwidth, but sustaining scale at low latency demands more than any single architecture can provide. The answer is extreme co-design. This approach optimizes inference across hardware specialized for each phase and delegates these unique challenges to an entire platform rather than just one processor.
Why one processor isn’t enough
These unique demands won’t be resolved by simply adding more compute FLOPs and memory capacity. The demands are due to the architectural properties of how agents work, and no single processor can solve them simultaneously.

What is needed is a platform where each bottleneck maps to specialized hardware, orchestrated as a unified system with extreme co-design (see Figure 8, above):
- The Platform
Vera Rubin NVL72 handles capacity and compute at one-tenth the cost per million tokens of Blackwell. The HBM capacity is what makes long-context pipelines tractable; the compute density absorbs prefill cost at scale.
- Vera CPU closes the tool-execution gap with lower agent latency, seamless KV cache offload, and unified CPU-GPU execution.
- Groq 3 LPX breaks the throughput-latency tradeoff. SRAM-first architecture delivers tightly bounded, low-jitter token generation — critical when variance in any single agent propagates through the entire pipeline.
- The Networking Chips (NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, and Spectrum-X Ethernet) create a unified, low-latency serving fabric for agentic workloads, so agents can coordinate faster, keep shared context accessible, and avoid costly recomputation as sessions grow.
- Software Stack Components:
Dynamo and Attention-FFN Disaggregation (AFD) creates a coherent serving path by splitting work across the best-suited processors and coordinating execution to reduce resource contention and latency. Additionally, Dynamo exposes cache programmability to the agent harness.
- NVFP4 lowers precision overhead so MoE agents can run with lower latency, higher throughput, and lower memory pressure without sacrificing intelligence.
- TRT-LLM WideEP optimizes large expert parallelism for frontier MoEs, allowing agents to provide high intelligence responses with lower latency and higher throughput.
- Speculative Decoding cuts agent response latency by generating likely tokens in parallel and verifying them quickly, accelerating low-latency inference for large models.
By combining these seven chips and a software stack through extreme co-design, the Vera Rubin platform can deliver 400+ tokens per second per user on trillion-parameter MoE models with large 400k context. This level of performance shifts the historical trade off paradigm for agents — no longer do you need to compromise quality with smaller models and limited context windows in order to deliver high per user speeds and high system throughput. In this region agentic architectures become viable products at scale rather than expensive experiments.
For more details on the Vera Rubin platform specs and LPX, explore their respective launch day blogs:
- Inside the NVIDIA Vera Rubin Platform: Six New Chips, One AI Supercomputer
- Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin Platform
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み