NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark｜NVIDIA、初のエージェント型 AI ベンチマークでコーディング性能において業界最高を達成 | AIニュース最前線

AI エージェントは、推論ワークロードの複雑さを根本的に変化させました。これまで業界は、これらの条件下での推論システムの性能を測定する標準を定義することに苦戦してきました。Artificial Analysis [AgentPerf](https://artificialanalysis.ai/benchmarks/hardware)（AA-AgentPerf）は、現実世界の [AI エージェント](https://www.nvidia.com/en-us/glossary/ai-agents/) コーディングタスクに代表されるトレイジェクトリをプロファイリングする、業界初のマルチベンダーオープンベンチマークを提供します。 本記事では、AA-AgentPerf がアジェンティックワークロードの性能測定における新たな基準を設定する方法と、NVIDIA の極限的な共同設計が前世代と比較して最大 20 倍のアジェンティックコーディング性能を実現する仕組みについて解説します。 ## AA-AgentPerf とは何か？ AA-AgentPerf は、[Artificial Analysis](https://artificialanalysis.ai/) が作成したハードウェアベンチマークであり、推論システムが事前に定義されたモデル固有の性能サービスレベル目標（SLO）ティアを満たしながら、同時にサポートできる AI エージェントの数を測定するものです。SLO は、出力トークン速度および初回トークン到達時間（TTFT）の特定の閾値として定義されます。ベンチマーク結果は、ハードウェア構成間での比較を可能にするため、アクセラレータごとおよびメガワットあたりに正規化されています。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/what-aa-agentperf-benchmark-measures-1.webp)*図 1. AA-AgentPerf ハードウェアベンチマークは、複数の AI エージェントを並列実行する際のスループットと効率性を測定します* ## 代表的なエージェント型コーディングパフォーマンスの測定 エージェントワークロードは、LLM（大規模言語モデル）による意思決定が非決定的なリクエストとツール呼び出しのシーケンスを生み出す点で独自性があります。エージェントのパフォーマンスを測定する上で最も困難な部分は、タスクの開始から終了までエージェントが行う一連の行動、意思決定、観測を含む代表的なエージェント軌道（Figure 2）において、この非決定的性を正確に捉えることです。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/ai-agent-trajectory.gif)*図 2. ユーザーのリクエストから最終回答に至るまでのエージェントの軌道* AA-AgentPerf は、推論とツールの使用が交互に行われる事前録画されたエージェント型コーディング軌道にわたって GPU パフォーマンスを測定し、CPU のツール呼び出しパフォーマンスに対する代表的なベースラインを用いてターン間のレイテンシをシミュレーションすることで、これを捉えています。これらの軌道は、いくつかのユースケース、12 以上のプログラミング言語、および最先端モデルからの応答にわたる公開コードリポジトリの問題解決を中心に構築されています。軌道の厳密な定義に加え、Artificial Analysis チームはまた以下の点も実施しました。 - リクエストに対して、5K から 131K の範囲（平均約 27K）の代表的なキャッシュ済み入力および出力シーケンス長を活用した。 - エージェント型コーディングワークフローにおける代表的な CPU サイドのタスクにツール呼び出しをマッピングし、中央値遅延時間が 1 秒の分布全体でツール呼び出しをシミュレーションしました。その後、テストされたすべてのシステムに対して同じ CPU ツール呼び出しベースラインが適用されました。 - ベンチマーク対象の最適化を防ぐために、テストセットは非公開に保たれます。 ## AA-AgentPerf テストおよび測定手法 AA-AgentPerf ハーネスは、SLO（サービスレベル目標）要件を満たしながら推論システムがサポートできる並列エージェント数を計測します（図 3）。ローンチ時点では、このベンチマークは Artificial Analysis サーバーレス API ベンチマークデータから導出された複数の SLO タイアにわたって DeepSeek-V4-Pro をテストすることに焦点を当てています。これにより、ベンチマークが今日の生産環境プロバイダーで観測されているサービス品質レベルを反映することが保証されます。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/slo-thresholds-define-max-concurrency.webp)*図 3. SLO しきい値は、目標速度で提供できるユーザー数の上限を決定します* ベンチマーク実行中、AA-AgentPerf は事前記録されたエージェント軌道データセットから抽出した数千の並行リクエストを GPU に送信します。各実行で独立した結果を得るため、すべての軌道フェーズの開始時に動的プレフィックスが追加されます。軌道全体を通じて厳格な SLO（サービスレベル目標）閾値が適用され、その要件を満たす最高並行度レベルが、特定の SLO に対する公式ベンチマーク結果として記録されます（図 3）。このプロセスは、異なるユーザー体験ターゲットを捉えるために複数の SLO チアで繰り返されます（表 1）。 **モデル****SLO チア****P25 出力速度（トークン/秒）****P95 TTFT（秒）** DeepSeek-V4-ProSLO #13010 SLO #21005 SLO #33003 *表 1. AA-AgentPerf DeepSeek-V4-PRO テストにおける SLO チアおよび TTFT 要件* ## AA-AgentPerf 結果の解釈方法 AA-AgentPerf の中核となる指標は、メガワットあたりのランタイム電力です。これはデータセンター規模のパフォーマンスを表すための実用的な正規化値です。表 2 は、報告されたパフォーマンスを活用して、特定の電力予算でサポート可能なエージェントセッション数をどのように推定するかを概説しています。 **ベンチマーク****指標の値****NVIDIA GB300 ****NVL72****NVIDIA H200** MW あたり並行エージェント数**エネルギー効率**: 特定の電力予算でシステムがサポート可能なアクティブなエージェントの数61.4K2.6K GPU あたり並行エージェント数**ハードウェア効率**: GPU あたり達成されるサービング容量57.51.4 *表2. AgentPerf が報告する指標を活用し、大規模なエージェント型アプリケーションのサポートを目指すデータセンターのキャパシティプランニングを支援する方法。数値は SLO=30 構成における AA-AgentPerf の結果を示しています* ローンチ当日、[NVIDIA GB300 NVL72](https://www.nvidia.com/en-us/data-center/gb300-nvl72/) は、前世代の [NVIDIA H200](https://www.nvidia.com/en-us/data-center/h200/) に比べてメガワットあたり最大 20 倍もの同時実行エージェントを提供します（図4）。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/nvidia-gb300-nvl72-agentic-coding-performance-1.webp)*図4. NVIDIA GB300 NVL72 は、H200 に比べてメガワットあたりの同時実行コーディングエージェントを大幅に多くサポートし、20 トークン/秒および 60 トークン/秒のサービスレベル目標（SLO）の両方で、約 20 倍の高いエージェント容量を実現します* このパフォーマンスは、GB300 NVL72 が大規模なエージェント型コーディングワークロード全体で発揮される能力を浮き彫りにしています。具体的には、長期セッションの効率的なルーティングから、多数の同時実行エージェントセッションにわたる [エキスパート混合モデル（MoEs）](https://www.nvidia.com/en-us/glossary/mixture-of-experts/) および GPU のフル活用までです。 - SGLang、TensorRT LLM、または vLLM：エージェントランタイムは、WideEP や DeepEP といった最適化を適用し、MoE エキパートの実行を NVL72 ドメイン全体に分散させることで、実効バッチサイズを最大化し、数千のエージェントへのスケーリングを効果的に実現します。 - DeepGEMM および Mega MoE の最適化：MXFP4/MXFP8 カーネルと融合された MoE 重なり処理により、NVLink 通信をテンサーコアの計算と重ね合わせることで、推論およびコード生成におけるトークンスループットを向上させます。 - NVIDIA NVLink スケールアップドメイン：GB300 NVL72 は 72 個の GPU を単一の高性能帯域幅を持つ NVLink ファブリックに接続し、すべての GPU がパラメータ、KV キャッシュ、中間結果を高速で共有できるようにします。これは、アジェンティックコーディングシステムの迅速かつ協調的な実行にとって不可欠です。 ## 展望：NVIDIA Vera Rubin プラットフォーム AA-AgentPerf はアジェンティック推論の評価基準としての標準を設定し、ハードウェアとソフトウェアの緊密な統合が並列処理と効率において段階的な飛躍をもたらす可能性を浮き彫りにしています。NVIDIA GB300 NVL72 は、最大 20 倍の高いアジェンティックコーディング性能を示します。 [NVIDIA Vera Rubin プラットフォーム](https://www.nvidia.com/en-us/data-center/technologies/rubin/)は、50 PFLOPs の [NVFP4](https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/) 計算能力を活用し、Vera CPU を用いて LLM ツール呼び出しを加速することで、これらの性能向上をさらに拡大すると期待されています。これにより、アジェンティックワークフローにおけるエンドツーエンドのパフォーマンス、経済性、および効率性が改善されます。 アジェンティックワークロードが推論インフラストラクチャにどのような独自の要求を課し、[NVIDIA Vera Rubin platform](https://www.nvidia.com/en-us/data-center/technologies/rubin/) がどのようにパフォーマンスを最適化するかについては、[Extreme Co-Design を用いたアジェンティックシステムの複雑さの増大への対応](https://developer.nvidia.com/blog/building-for-the-rising-complexity-of-agentic-systems-with-extreme-co-design/) をご覧ください。 ## 謝辞 *本稿は、Jatin Gangani, Iman Tabrizian, Xiaoming Chen, Peiheng Hu, Taizhong Wu, Shichen Li, Manu Maheswari および多くの有能な NVIDIA エンジニアの専門知識とエンジニアリングへの貢献によって実現されました。 ## 著者紹介

NVIDIA、初のエージェント型 AI ベンチマークでコーディング性能において業界最高を達成

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する

調べる

選ぶ

サイト