NVIDIA、初のエージェント型 AI ベンチマークでコーディング性能において業界最高を達成
NVIDIA が実施した初のエージェント型 AI ベンチマークにおいて、同社の技術が競合製品を凌駕するコーディング性能を示し業界トップの成果を記録しました。
キーポイント
初回ベンチマークでの首位獲得
NVIDIA が実施した最初のエージェント型 AI ベンチマークにおいて、同社の技術が他社製品を上回るコーディング性能を発揮し、業界トップのスコアを記録しました。
競合との明確な差
今回の評価では、NVIDIA のアプローチが他の主要競合製品と比較して優位性を示し、特にコーディングタスクにおける性能の高さが際立ちました。
エージェント型 AI の実用化への道
この成果は、単なるコード生成を超えた自律的な開発プロセス(アジェンシー)において、NVIDIA が先行していることを示す重要な指標となっています。
影響分析・編集コメントを表示
影響分析
今回の結果は、AI エージェントが実際のソフトウェア開発現場で即座に活用可能なレベルにあることを示唆しており、開発効率化の新たな基準を打ち立てる可能性があります。特に NVIDIA がハードウェアとソフトウェアの統合において優位性を維持していることは、業界全体の技術競争の行方に大きな影響を与えるでしょう。
編集コメント
ベンチマークの初回実施というタイミングで首位を獲得した点は、NVIDIA の技術力と市場戦略の成功を象徴する出来事と言えます。ただし、これは特定のベンチマーク結果であり、実際の開発ワークフロー全体での評価は今後の検証が待たれます。
AI エージェントは、推論ワークロードの複雑さを根本的に変化させました。これまで業界は、これらの条件下での推論システムの性能を測定する標準を定義することに苦戦してきました。Artificial Analysis AgentPerf(AA-AgentPerf)は、現実世界の AI エージェント コーディングタスクに代表されるトレイジェクトリをプロファイリングする、業界初のマルチベンダーオープンベンチマークを提供します。
本記事では、AA-AgentPerf がアジェンティックワークロードの性能測定における新たな基準を設定する方法と、NVIDIA の極限的な共同設計が前世代と比較して最大 20 倍のアジェンティックコーディング性能を実現する仕組みについて解説します。
AA-AgentPerf とは何か?
AA-AgentPerf は、Artificial Analysis が作成したハードウェアベンチマークであり、推論システムが事前に定義されたモデル固有の性能サービスレベル目標(SLO)ティアを満たしながら、同時にサポートできる AI エージェントの数を測定するものです。SLO は、出力トークン速度および初回トークン到達時間(TTFT)の特定の閾値として定義されます。ベンチマーク結果は、ハードウェア構成間での比較を可能にするため、アクセラレータごとおよびメガワットあたりに正規化されています。
image*図 1. AA-AgentPerf ハードウェアベンチマークは、複数の AI エージェントを並列実行する際のスループットと効率性を測定します*
代表的なエージェント型コーディングパフォーマンスの測定
エージェントワークロードは、LLM(大規模言語モデル)による意思決定が非決定的なリクエストとツール呼び出しのシーケンスを生み出す点で独自性があります。エージェントのパフォーマンスを測定する上で最も困難な部分は、タスクの開始から終了までエージェントが行う一連の行動、意思決定、観測を含む代表的なエージェント軌道(Figure 2)において、この非決定的性を正確に捉えることです。
image*図 2. ユーザーのリクエストから最終回答に至るまでのエージェントの軌道*
AA-AgentPerf は、推論とツールの使用が交互に行われる事前録画されたエージェント型コーディング軌道にわたって GPU パフォーマンスを測定し、CPU のツール呼び出しパフォーマンスに対する代表的なベースラインを用いてターン間のレイテンシをシミュレーションすることで、これを捉えています。これらの軌道は、いくつかのユースケース、12 以上のプログラミング言語、および最先端モデルからの応答にわたる公開コードリポジトリの問題解決を中心に構築されています。軌道の厳密な定義に加え、Artificial Analysis チームはまた以下の点も実施しました。
- リクエストに対して、5K から 131K の範囲(平均約 27K)の代表的なキャッシュ済み入力および出力シーケンス長を活用した。
- エージェント型コーディングワークフローにおける代表的な CPU サイドのタスクにツール呼び出しをマッピングし、中央値遅延時間が 1 秒の分布全体でツール呼び出しをシミュレーションしました。その後、テストされたすべてのシステムに対して同じ CPU ツール呼び出しベースラインが適用されました。
- ベンチマーク対象の最適化を防ぐために、テストセットは非公開に保たれます。
AA-AgentPerf テストおよび測定手法
AA-AgentPerf ハーネスは、SLO(サービスレベル目標)要件を満たしながら推論システムがサポートできる並列エージェント数を計測します(図 3)。ローンチ時点では、このベンチマークは Artificial Analysis サーバーレス API ベンチマークデータから導出された複数の SLO タイアにわたって DeepSeek-V4-Pro をテストすることに焦点を当てています。これにより、ベンチマークが今日の生産環境プロバイダーで観測されているサービス品質レベルを反映することが保証されます。
image*図 3. SLO しきい値は、目標速度で提供できるユーザー数の上限を決定します*
ベンチマーク実行中、AA-AgentPerf は事前記録されたエージェント軌道データセットから抽出した数千の並行リクエストを GPU に送信します。各実行で独立した結果を得るため、すべての軌道フェーズの開始時に動的プレフィックスが追加されます。軌道全体を通じて厳格な SLO(サービスレベル目標)閾値が適用され、その要件を満たす最高並行度レベルが、特定の SLO に対する公式ベンチマーク結果として記録されます(図 3)。このプロセスは、異なるユーザー体験ターゲットを捉えるために複数の SLO チアで繰り返されます(表 1)。
モデルSLO チアP25 出力速度(トークン/秒)P95 TTFT(秒)
DeepSeek-V4-ProSLO #13010
SLO #21005
SLO #33003
*表 1. AA-AgentPerf DeepSeek-V4-PRO テストにおける SLO チアおよび TTFT 要件*
AA-AgentPerf 結果の解釈方法
AA-AgentPerf の中核となる指標は、メガワットあたりのランタイム電力です。これはデータセンター規模のパフォーマンスを表すための実用的な正規化値です。表 2 は、報告されたパフォーマンスを活用して、特定の電力予算でサポート可能なエージェントセッション数をどのように推定するかを概説しています。
ベンチマーク指標の値NVIDIA GB300 NVL72NVIDIA H200
MW あたり並行エージェント数エネルギー効率: 特定の電力予算でシステムがサポート可能なアクティブなエージェントの数61.4K2.6K
GPU あたり並行エージェント数ハードウェア効率: GPU あたり達成されるサービング容量57.51.4
*表2. AgentPerf が報告する指標を活用し、大規模なエージェント型アプリケーションのサポートを目指すデータセンターのキャパシティプランニングを支援する方法。数値は SLO=30 構成における AA-AgentPerf の結果を示しています*
ローンチ当日、NVIDIA GB300 NVL72 は、前世代の NVIDIA H200 に比べてメガワットあたり最大 20 倍もの同時実行エージェントを提供します(図4)。
image*図4. NVIDIA GB300 NVL72 は、H200 に比べてメガワットあたりの同時実行コーディングエージェントを大幅に多くサポートし、20 トークン/秒および 60 トークン/秒のサービスレベル目標(SLO)の両方で、約 20 倍の高いエージェント容量を実現します*
このパフォーマンスは、GB300 NVL72 が大規模なエージェント型コーディングワークロード全体で発揮される能力を浮き彫りにしています。具体的には、長期セッションの効率的なルーティングから、多数の同時実行エージェントセッションにわたる エキスパート混合モデル(MoEs) および GPU のフル活用までです。
- SGLang、TensorRT LLM、または vLLM:エージェントランタイムは、WideEP や DeepEP といった最適化を適用し、MoE エキパートの実行を NVL72 ドメイン全体に分散させることで、実効バッチサイズを最大化し、数千のエージェントへのスケーリングを効果的に実現します。
- DeepGEMM および Mega MoE の最適化:MXFP4/MXFP8 カーネルと融合された MoE 重なり処理により、NVLink 通信をテンサーコアの計算と重ね合わせることで、推論およびコード生成におけるトークンスループットを向上させます。
- NVIDIA NVLink スケールアップドメイン:GB300 NVL72 は 72 個の GPU を単一の高性能帯域幅を持つ NVLink ファブリックに接続し、すべての GPU がパラメータ、KV キャッシュ、中間結果を高速で共有できるようにします。これは、アジェンティックコーディングシステムの迅速かつ協調的な実行にとって不可欠です。
展望:NVIDIA Vera Rubin プラットフォーム
AA-AgentPerf はアジェンティック推論の評価基準としての標準を設定し、ハードウェアとソフトウェアの緊密な統合が並列処理と効率において段階的な飛躍をもたらす可能性を浮き彫りにしています。NVIDIA GB300 NVL72 は、最大 20 倍の高いアジェンティックコーディング性能を示します。
NVIDIA Vera Rubin プラットフォームは、50 PFLOPs の NVFP4 計算能力を活用し、Vera CPU を用いて LLM ツール呼び出しを加速することで、これらの性能向上をさらに拡大すると期待されています。これにより、アジェンティックワークフローにおけるエンドツーエンドのパフォーマンス、経済性、および効率性が改善されます。
アジェンティックワークロードが推論インフラストラクチャにどのような独自の要求を課し、NVIDIA Vera Rubin platform がどのようにパフォーマンスを最適化するかについては、Extreme Co-Design を用いたアジェンティックシステムの複雑さの増大への対応 をご覧ください。
謝辞
*本稿は、Jatin Gangani, Iman Tabrizian, Xiaoming Chen, Peiheng Hu, Taizhong Wu, Shichen Li, Manu Maheswari および多くの有能な NVIDIA エンジニアの専門知識とエンジニアリングへの貢献によって実現されました。
著者紹介
原文を表示
AI agents have fundamentally changed the complexity of inference workloads. Until now, the industry has struggled to define a standard for measuring how inference systems perform under these conditions. Artificial Analysis AgentPerf (AA-AgentPerf) offers the industry’s first multi-vendor open benchmarks profiling trajectories that are representative of real-world AI agent coding tasks.
This post explains how AA-AgentPerf sets a new standard for measuring agentic workload performance, and how NVIDIA extreme co-design helps deliver up to 20x better agentic coding performance than previous generations.
What is AA-AgentPerf?
AA-AgentPerf is a hardware benchmark created by Artificial Analysis that measures the number of concurrent AI agents an inference system can support while meeting predefined, model-specific performance service level objective (SLO) tiers. An SLO is defined as a specific threshold of output token speed and time-to-first-token (TTFT). The benchmark results are normalized per accelerator and per megawatt to enable comparison across hardware configurations.

Measuring representative agentic coding performance
Agentic workloads are unique because LLM-driven decisions often produce non-deterministic sequences of requests and tool calls. The most difficult part of measuring agent performance is to accurately capture this non-determinism in a representative agent trajectory—the complete sequence of actions, decisions, and observations made by an agent as it traverses through a task from beginning to end (Figure 2).

AA-AgentPerf captures this by measuring GPU performance across prerecorded agentic coding trajectories with interleaved reasoning and tool use, while simulating interturn latency with a representative baseline for CPU tool-call performance. These trajectories are built around solving issues in public code repositories across several use-cases,12+ programming languages, and response from frontier models. In addition to rigorous definition of the trajectories, the Artificial Analysis team also:
- Leveraged representative cached, input, and output sequence lengths for requests, ranging from 5K to 131K with a mean of approximately 27K.
- Mapped tool calls to representative CPU-side tasks in agentic coding workflows and simulated tool calls across a distribution with a one-second median delay time. The same CPU tool-call baseline was then applied across all systems tested.
- Keeps the test-set private to prevent benchmark-targeted optimization.
AA-AgentPerf testing and measurement methodology
The AA-AgentPerf harness measures the number of concurrent agents an inference system can support while meeting SLO requirements (Figure 3). At launch, this benchmark focuses on testing DeepSeek-V4-Pro across multiple SLO tiers derived from Artificial Analysis serverless API benchmarking data. This ensures that the benchmarks reflect quality-of-service levels observed in production providers today.

During a benchmarking run, AA-AgentPerf sends GPUs thousands of concurrent requests drawn from its prerecorded agent trajectory dataset. To ensure independent results for each run, dynamic prefixes are added at the start of every trajectory phase. Strict SLO thresholds are enforced throughout the trajectory, and the highest concurrency level that satisfies those requirements is recorded as the official benchmark result for a given SLO (Figure 3). This process is then repeated across multiple SLO tiers to capture different user experience targets (Table 1).
How to interpret AA-AgentPerf results
The core AA-AgentPerf metric is runtime power per megawatt—a practical normalization for representing data center scale performance. Table 2 outlines how to leverage the reported performance to estimate how many agentic sessions could be supported for a given power budget.
On launch day, NVIDIA GB300 NVL72 delivers up to 20x more concurrent agents per megawatt than the previous generation, NVIDIA H200 (Figure 4).

This performance highlights how GB300 NVL72 is able to deliver across large-scale agentic coding workloads, from routing long-lived sessions efficiently to keeping mixture of experts (MoEs) and GPUs fully utilized across many concurrent agent sessions..
- SGLang, TensorRT LLM, or vLLM: Agent runtimes apply optimizations such as WideEP and DeepEP to spread MoE expert execution across the full NVL72 domain, maximizing effective batch sizes and scaling effectively to thousands of agents.
- DeepGEMM and Mega MoE optimizations: MXFP4/MXFP8 kernels and fused MoE overlap NVLink communication with tensor core compute to boost token throughput for reasoning and code generation.
- NVIDIA NVLink scale-up domain: GB300 NVL72 links 72 GPUs into a single high-bandwidth NVLink fabric, so every GPU can rapidly share parameters, KV cache, and intermediate results—critical for fast, coordinated execution of agentic coding systems.
Looking forward: NVIDIA Vera Rubin platform
AA-AgentPerf establishes the standard for evaluating agentic inference, and the results highlight how tightly integrated hardware and software can unlock step-function gains in concurrency and efficiency. NVIDIA GB300 NVL72 demonstrates up to 20x higher agentic coding performance.
The NVIDIA Vera Rubin platform is expected to extend these gains by leveraging 50 PFLOPs of NVFP4 compute and leveraging the Vera CPU to accelerate LLM tool calls and improve end-to-end performance, economics, and efficiency for agentic workflows.
To learn more about why agentic workloads place unique demands on inference infrastructure and how the NVIDIA Vera Rubin platform optimizes performance, see Building for the Rising Complexity of Agentic Systems with Extreme Co-Design.
Acknowledgments
*This work was made possible through the expertise and engineering contributions of Jatin Gangani, Iman Tabrizian, Xiaoming Chen, Peiheng Hu, Taizhong Wu, Shichen Li, Manu Maheswari, and many other talented NVIDIA engineers.*
About the Authors
関連記事
Moonshot AI、コーディング特化モデル「Kimi K2.7-Code」をリリースし、ベンチマークで前作より +21.8% の性能向上を達成
Moonshot AI は長期的なソフトウェアエンジニアリングに特化したエージェント型コードモデル「Kimi K2.7-Code」を公開した。このモデルは Hugging Face で利用可能であり、Kimi Code ベンチ v2 において前バージョン K2.6 よりも +21.8% の性能向上を示している。
シャオミのオープンソース・エージェント型 AI コーディングハルネス「MiMo Code」が、200 ステップを超える超長尺タスクにおいて Claude Code を上回る
シャオミが開発したオープンソースのターミナルネイティブ AI コーディングアシスタント「MiMo Code V0.1.0」は、独立したサブエージェントによるクロスセッション記憶システムを備え、200 ステップを超える長期的な多段階タスクにおいて Claude Code を上回る性能を示す。
Google、Gemini-SQL2 を発表:Gemini 3.1 Pro 搭載の Text-to-SQL で BIRD リーダーボードで 80.04% の実行精度を達成
Google Research チームは、Gemini 3.1 Pro を基盤とする新システム「Gemini-SQL2」を発表した。このシステムは BIRD テキスト・トゥ・SQL リーダーボードのシングルモデル部門で 80.04% の実行精度を記録し、既存の同社製品を上回る成果を示した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み