AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年6月1日 12:59·約11分で読める

NVIDIA Vera CPU が AI ファクトリーにおけるアジェンティックワークロードの新たな基準を設定

#Agentic AI#Reinforcement Learning#NVIDIA Vera CPU#AI Factories#Tool Calling
TL;DR

NVIDIA は新 CPU「Vera」を発表し、AI ファクトリーにおけるアジェンティック AI や強化学習のワークロードをスケーリングする新たな基準を確立した。

AI深層分析2026年6月11日 22:13
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

AI スケーリング法の進化

事前学習、ポストトレーニング、テストタイムスケーリングに続く第 4 の段階として、「アジェンティック AI」と「強化学習」によるアクションのスケーリングが重要視されている。

2

Vera CPU の役割と機能

NVIDIA Vera CPU は、モデル生成コンテンツの実行(ツール呼び出し、サンドボックスコード実行、データ処理など)を高速化し、アジェンティックな推論ループのボトルネックを解消する。

3

AI ファクトリーへのインパクト

CPU 実行時間の短縮とタスクスループットの向上により、より賢く長時間思考するエージェントの実装が可能となり、AI ファクトリーの全体出力が大幅に改善される。

4

CPU の役割の進化:AI ループの中核へ

Vera CPU は、モデル生成されたコンテンツ(ツール呼び出し、サンドボックス化されたコード、データ処理など)を実行し、次のステップへの文脈を提供することで、AI エージェントのループに不可欠な要素となっています。

5

Agentic Workloads における実行能力

従来の推論だけでなく、複雑なタスクの実行やデータ処理を担うことで、NVIDIA Vera CPU は AI ファクトリーにおける新しい基準を設定し、エージェント型ワークロードの効率と信頼性を向上させています。

6

CPU が AI ファクトリのクリティカルパスに

エージェンティック AI や強化学習では、コード実行やデータ処理などモデル周辺の処理が CPU で行われ、レイテンシと効率を決定する重要な役割を果たす。

7

AI ファクトリ向けの新設計要件

多数の並列エージェント対応のための高コア数、逐次実行に依存するステップへの対応としての高単体性能、およびボトルネック解消のための省電力メモリ帯域幅が求められる。

影響分析・編集コメントを表示

影響分析

この記事は、大規模言語モデルの推論能力だけでなく、その実行環境(CPU)の重要性を再定義する重要な転換点を示しています。特に、自律的なエージェントや強化学習が主流となる未来において、インフラ全体の最適化が不可欠であることを強調しており、AI インフラ設計の新たな基準を提示しています。

編集コメント

従来の GPU 中心の AI インフラ議論から、アジェンティックワークロードを支える CPU の重要性が浮き彫りになりました。Vera CPU の登場は、単なるハードウェア更新ではなく、AI エージェントの実用化に向けたインフラ基盤の再構築を意味しています。

AI の各波は新たなスケーリング法則を生み出してきました。事前学習は、より大規模なデータセット、より多くのパラメータ、そして大規模並列 GPU システムを通じて知能を拡張しました。事後学習は、指示微調整と生成推論のための GPU の再バランス化を通じて有用性を拡張しました。テスト時スケーリングは、モデルに思考のために生成されるトークンを増やすことで推論能力を向上させました。

現在、エージェント型 AI と強化学習が行動のスケールを実現しています。モデルはより多くのステップを実行し、より多くのツールを呼び出し、より多くの評価を行い、タスクを実行するために実行環境と相互作用します。

このブログでは、NVIDIA Vera CPU が、CPU 実行時間の短縮、タスクスループットの向上、AI ファクトリ全体の出力改善、そしてより賢く長時間思考するエージェントの実現を通じて、AI ファクトリがエージェント型 AI と強化学習をスケールさせる方法を解説します。

imageimage*図 1. CPU 実行は AI ループの一部となる*

エージェント時代において CPUs がより重要になる理由

GPU はモデル推論と学習に引き続き不可欠です。しかし、エージェント型 AI、強化学習、データ集約型 AI サービス全体を通じて、モデルを取り巻く実行の多くは CPU で実行されます。具体的には以下の通りです:

  • サンドボックス化されたコードおよびツール実行
  • データ検索およびデータ処理
  • 結果計算
  • スケジューリングとオーケストレーション

これは精密なループです:

  • プロンプト(ユーザー、推論トークン、または前回のターンからの結果のいずれか)が生成を開始します:「hello.c をコンパイルして実行する必要がある」
  • GPU は CPU で実行されるツール呼び出しのパラメータを生成します:gcc -o hello hello.c ; ./hello
  • CPU がツール呼び出しを実行し、その結果は強化学習中の重み更新のために GPU にフィードバックされたり、エージェントが次のプロンプトを生成するために使用されます:Output: 'Hello, world!' – Task Returned (0) – Successful
  • GPU は結果によって促された推論トークンを生成します:"Hmm! It looks like that worked!"

エージェントの能力が高まるにつれ、実行ステップが増え、呼び出されるツールも増え、チェック回数も増加します。これにより、リクエスト全体にわたる CPU 処理時間が複利のように積み重なっていきます。

このため、CPU はクリティカルパスの一部となりました。もはや GPU にデータを提供する単なるホストプロセッサではなく、レイテンシやアクセラレータの利用率、そしてワットあたり・ドルあたりの AI ファクトリの出力を決定づける要素となっています。

過去 10 年間にわたり、データセンター用 CPU マーケットは、コア数の増加、仮想マシンの増加、コアあたりのコスト低下というクラウド経済性を軸に最適化されてきました。これは汎用クラウドサービスにとって依然として重要ですが、コアあたりの性能向上率は同じペースで改善していません。

さらに、CPU における世代ごとの性能向上を制限するムーアの法則の終焉がこれを複雑にしています。一方、GPU アーキテクチャとワークロードは継続的な共最適化サイクルによって恩恵を受けてきました。

AI ファクトリでは、評価指標が「ドルあたりのコア数」から「ドルあたりのトークン数」へとシフトします。つまり、「データセンターで借りられる CPU コアの数」ではなく、「生成できる AI 出力の量」が問われるのです。

これにより、AI ファクトリ向けに新たな CPU の設計指針が必要となります:

  • 数千の並行エージェント、強化学習環境、サンドボックス、およびサービスを実行するための高コア数。
  • 各アジェンティックステップが逐次実行によって制御されるため、コアあたりの高性能が必要。
  • CPU インフラストラクチャをボトルネックにしないよう、データを移動させるための省エネルギーなメモリ帯域幅。

imageimage*図 2. AI は新しい CPU の必要性を生み出す*

AI エージェント向けに設計された NVIDIA Vera CPU

NVIDIA Vera CPU は、現代のワークロードの実情に合わせて設計されており、コアあたりの高速なパフォーマンス、高い並行処理能力、および AI ファクトリを稼働させるための省電力メモリ帯域幅を備えています。

Vera CPU は、88 個の NVIDIA Olympus コアと最大 1.2 TB/s の LPDDR5X メモリ帯域幅を組み合わせ、ツール呼び出し、ネイティブコードや Python や JavaScript などの言語によるサンドボックス化された実行、データ取得、データ処理、およびオーケストレーションを通じてコアにデータを供給し続けます。

重要な要件は、常に維持されるコアあたりの高速なパフォーマンスです。クラウド仮想マシンとは異なり、CPU ソケットは常に最大負荷で稼働し、多数の並行エージェントの作業を担います。高いシステム負荷下でも高速性を保つコアはタスク完了時間を短縮し、より迅速な結果を提供すると同時に、次のリクエストに応えるためのリソースを解放します。

エージェントにとっては、これは多段階リクエスト全体でのレイテンシ低下を意味します。強化学習においては、より多くの完了した評価と各トレーニングウィンドウからのデータ増加をもたらし、モデルがより高い品質基準に素早く到達するのを助けます。AI ファクトリーにおいては、高速コアがアクセラレータの待機(オーケストレーション、ツール実行、またはデータ転送によるもの)を防ぎます。

これを達成するには、分岐処理の多いコード、高帯域幅データ転送、負荷下での予測可能なパフォーマンスのために、コア、メモリサブシステム、ファブリックを一体的に設計する必要があります。

これは、Vera CPU 内部の NVIDIA カスタム Olympus コアから始まります。

imageimage*図 3. Vera CPU はエージェント向け設計ポイントのために構築されています*

NVIDIA Olympus コアとメモリサブシステム

NVIDIA Olympus コアは、広範なフロントエンド、高度な分岐予測、深いアウト・オブ・オーダー命令スケジューリング、および専用のメモリアヘッド読み込み(prefetching)を組み合わせることで、NVIDIA Grace よりも IPC が最大 50% 向上し、分岐処理の多いメモリ敏感なエージェントコードにおいて高いスループットを維持します。

Olympus はニューラル分岐予測器を使用して、分岐処理の多いコードにおけるストールを削減します。他の予測メカニズムと組み合わせることで、ゼロペナルティでサイクルあたり 2 つの分岐(taken branches)を維持し、PyTorch、グラフワークロード、スクリプティングエンジンなどの深いソフトウェアスタックのスループットを保ちます。

Olympus はさらに、10 個のデコードユニットと、高いサイクルあたりの命令実行数を維持するために設計された深いアウト・オブ・オーダーエンジンも備えています。大きなバッファと高度な命令スケジューリングにより、コアはコードパス、依存関係、メモリアクセスパターンが変化する中でも前進を維持できます。

負荷下で高い IPC を維持するには、コアにデータを供給し続ける必要があります。Vera CPU は最大 1.2 TB/s の LPDDR5X メモリ帯域幅を提供し、負荷下でもピークメモリ帯域幅の 90% 以上を維持します。また、x86 CPU と比較してピークメモリアクセスレイテンシが 40% 低く、検索、分析、サンドボックス実行、オーケストレーションを通じて Olympus コアがタイムリーにデータを供給されることを保証しています。

Olympus はさらに、グラフ解析やエージェントメモリ走査で一般的な間接メモリアクセスパターン向けに構築された革新的なグラフプリフェッチャーを追加しました。コアあたりの高いメモリ帯域幅と組み合わせることで、Vera CPU は x86 ベースのアーキテクチャと比較してグラフ走査ワークロードで 3 倍以上のパフォーマンスを発揮します。

NVIDIA Scalable Coherency Fabric (SCF) は、すべてのコアと統一キャッシュをモノリスメッシュ上で接続し、予測可能なレイテンシを実現するとともに、計算を複数のダイに分割する CPU と比較してコア間データ転送を 50% 高速化します。強化学習やアジェンティック AI においては、この予測可能性がフル負荷下でも評価ループを維持するのに役立ちます。

Olympus コア、NVIDIA SCF、LPDDR5X メモリサブシステムを組み合わせることで、Vera CPU はフルロード時のエージェントワークロードにおいて、競合製品と比較してサンドボックスパフォーマンスが 1.8 倍以上向上します(図 4 参照)。

imageimage*図 4. Vera CPU は業界をリードするエージェント用サンドボックスパフォーマンスを実現*

システム効率

パフォーマンスだけでなく、エージェント型 AI はインフラの効率性にもさらなる圧力をかけています。AI ファクトリが数千個の CPU にスケールするにつれ、メモリの電力消費はプラットフォーム全体の電力、冷却需要、運用コストの主要な要因となり得ます。

Vera CPU は、従来の DDR サーバー設計と比較してメモリ電力を削減するため、高帯域幅の SOCAMM LPDDR5X メモリとアーキテクチャを組み合わせています。LPDDR5X サブシステムは通常 30 ワット未満の消費電力ですが、DDR5 構成では 100 ワットを超えます。MRDIMM ベースのシステムでは、さらにメモリ電力が増大する可能性があります。

設定可能な 250 W から 450 W の TDP(熱設計電力)範囲により、Vera CPU はエージェント推論および強化学習環境に必要な帯域幅を提供しつつ、CPU とメモリのサブシステムの合計消費電力を削減します。AI ファクトリにとっては、これはワットあたりのパフォーマンス向上、運用コストの低下、電力および冷却インフラのより効率的な利用を意味します。

エージェント向け AI ファクトリ用 CPU

エージェント AI の時代には、CPU デザインの転換が必要です。ドルあたりのコア数を最大化するのではなく、ワットあたりおよびドルあたりの AI ファクトリ出力を最大化することが求められます。NVIDIA Vera CPU はエージェント専用の CPU であり、高速なシングルコア性能、高い並行処理能力、そして電力効率に優れたメモリ帯域幅を兼ね備えています。カスタム設計の Olympus コア、LPDDR5X メモリ、および NVIDIA スケーラブル・コヒーレンシー・ファブリック(Scalable Coherency Fabric)により、Vera CPU は従来の x86 アーキテクチャと比較してエージェント用サンドボックスのパフォーマンスを 1.8 倍以上向上させます。これにより AI ファクトリはより多くのツール呼び出しを完了し、より多くの評価結果を返却し、アクセラレータの稼働を継続させることが可能になります。

Vera CPU について詳しく知る、NVIDIA Vera Rubin NVL2、および Phoronix による Vera CPU ベンチマーク をご覧ください。

*相対性能は測定データに基づくものであり、変更される可能性があります。NVIDIA Vera CPU の LPDDR5X 性能は、最新の x86 CPU をベースラインとして比較しています。*

原文を表示

Each wave of AI has created a new scaling law. Pretraining scaled intelligence through larger datasets, more parameters, and massively parallel GPU systems. Post-training scaled usefulness through instruction tuning, and re-balancing GPUs for generative inference. Test-time scaling improved reasoning by giving models more generated tokens for thinking.

Now, agentic AI and reinforcement learning scale actions. Models take more steps, call more tools, run more evaluations, and interact with execution environments to perform tasks*.*

This blog explains how NVIDIA Vera CPUs help AI factories to scale agentic AI and reinforcement learning by shortening CPU execution time, increasing task throughput, improving overall AI factory output, and enabling smarter, longer-thinking agents.

Figure 1. CPU execution becomes part of the AI loop
Figure 1. CPU execution becomes part of the AI loop

Why CPUs matter more in the agentic era

GPUs remain essential for model inference and training. But across agentic AI, reinforcement learning, and data-intensive AI services, much of the execution surrounding the model runs on CPUs, such as:

  • Sandboxed code and tool execution
  • Data retrieval and data processing
  • Results computation
  • Scheduling and orchestration

This is a precise loop:

  • A prompt (either from a user, reasoning tokens, or a previous turn’s result) kicks off generation: “I should compile and run hello.c.”
  • The GPU generates the parameters of the tool call to be performed on the CPU: gcc -o hello hello.c ; ./hello
  • The CPU executes the tool call, producing results that are fed back to the GPUs to update weights during reinforcement learning, or used by the agent to generate the next prompt: Output: ‘Hello, world!’ – Task Returned (0) – Successful
  • The GPU generates reasoning tokens prompted by the result: “Hmm! It looks like that worked!”

As agents become more capable, they take more steps, call more tools, and run more checks. CPU time compounds across the request.

This makes the CPU part of the critical path. It’s no longer just a host processor feeding the GPU. It shapes latency, accelerator utilization, and AI factory output per watt and per dollar.

For the last decade, much of the data center CPU market optimized around cloud economics of more cores, more virtual machines, and lower cost per core. This remains important for general-purpose cloud services, but performance per core has not improved at the same rate.

This is further compounded by the end of Moore’s law, which limited generation-on-generation performance improvements in CPUs, even while GPU architectures and workloads benefited from a continuous cycle of co-optimization.

AI factories shift the metric from cores per dollar to tokens per dollar—from how many CPU cores a data center can rent, to how much AI output it can produce.

This demands a new CPU design point for AI factories:

  • High core counts to run thousands of concurrent agents, RL environments, sandboxes, and services.
  • High per-core performance, because each agentic step is gated by sequential execution.
  • Energy-efficient memory bandwidth to keep data moving without turning CPU infrastructure into a bottleneck.
Figure 2. AI creates a need for a new CPU
Figure 2. AI creates a need for a new CPU

The NVIDIA Vera CPU: Built for AI agents

The NVIDIA Vera CPU is designed for the reality of modern workloads, with fast per-core performance, high concurrency, and power-efficient memory bandwidth to keep the AI factory moving.

The Vera CPU combines 88 NVIDIA Olympus cores with up to 1.2 TB/s of LPDDR5X memory bandwidth to keep cores fed through tool calls, sandboxed execution of both native code and languages like Python or JavaScript, data retrieval, data processing, and orchestration.

The key requirement is fast per-core performance, sustained at all times. Unlike cloud virtual machines, the CPU sockets stay fully loaded, doing the work of many concurrent agents. Cores that remain fast under high system load reduce task completion time, delivering faster results while freeing up resources to serve the next request.

For agents, this means lower latency across multistep requests. For reinforcement learning, this means more completed evaluations and more data from each training window, helping models reach a higher quality bar faster. For AI factories, fast cores keep accelerators from waiting on orchestration, tool execution, or data movement.

Delivering this requires the core, memory subsystem, and fabric to be designed together for branch-heavy code, high-bandwidth data movement, and predictable performance under load.

This starts with the NVIDIA custom Olympus core inside the Vera CPU.

Figure 3. The Vera CPU is built for the agentic design point
Figure 3. The Vera CPU is built for the agentic design point

NVIDIA Olympus core and memory subsystem

The NVIDIA Olympus core delivers up to 50% higher IPC than NVIDIA Grace, combining a wide front end, advanced branch prediction, deep out-of-order instruction scheduling, and specialized memory prefetching to sustain high throughput on branch-heavy, memory-sensitive agentic code.

Olympus uses a neural branch predictor to reduce stalls in branch-heavy code. Combined with other prediction mechanisms, it can sustain two taken branches per cycle with zero penalty, maintaining throughput for deep software stacks such as PyTorch, graph workloads, and scripting engines.

Olympus also includes a 10-wide decode unit and a deep out-of-order engine designed to sustain high instructions per cycle. Large buffers and advanced instruction scheduling help the core maintain forward progress as code paths, dependencies, and memory access patterns shift.

Sustaining high IPC under load requires keeping the cores fed with data. Vera CPUs deliver up to 1.2 TB/s of LPDDR5X memory bandwidth, sustaining over 90% of peak memory bandwidth under load. It also offers 40% lower peak memory latency compared to x86 CPUs, ensuring Olympus cores are fed on time through retrieval, analytics, sandbox execution, and orchestration.

Olympus also adds a novel graph prefetcher built for indirect memory access patterns common in graph analytics and agent memory traversal. Combined with high-memory per-core bandwidth, Vera CPUs deliver more than 3x performance on graph traversal workloads compared with x86-based architectures.

The NVIDIA Scalable Coherency Fabric (SCF) connects all cores and a unified cache across a monolithic mesh, delivering predictable latency and 50% faster core-to-core data movement compared with CPUs that fragment compute across dies. For reinforcement learning and agentic AI, that predictability helps keep evaluation loops sustained under full load.

Together, the Olympus core, NVIDIA SCF, and LPDDR5X memory subsystem enable the Vera CPU to deliver more than 1.8x higher sandbox performance across agentic workloads under full load compared with the competition, as shown in Figure 4.

Figure 4. The Vera CPU delivers industry-leading agentic sandbox performance
Figure 4. The Vera CPU delivers industry-leading agentic sandbox performance

System efficiency

Beyond performance, agentic AI places increasing pressure on infrastructure efficiency. As AI factories scale to thousands of CPUs, memory power can become a major contributor to platform power, cooling demand, and operating cost.

The Vera CPU pairs its architecture with high-bandwidth SOCAMM LPDDR5X memory to reduce memory power compared with traditional DDR server designs. The LPDDR5X subsystem typically consumes less than 30 watts, compared with well over 100 watts for DDR5 configurations. MRDIMM-based systems can drive memory power even higher.

With a configurable 250 W to 450 W TDP range, the Vera CPU reduces combined CPU and memory subsystem power while delivering the bandwidth needed for agentic inference and reinforcement learning environments. For AI factories, this translates into better performance per watt, lower operating costs, and more efficient use of power and cooling infrastructure.

The AI factory CPU for agents

The era of agentic AI requires a shift in CPU design—from maximizing cores per dollar to maximizing AI factory output per watt and per dollar. NVIDIA Vera CPU is the CPU for agents, combining fast per-core performance, high concurrency, and power-efficient memory bandwidth. With the custom Olympus core, LPDDR5X memory, and NVIDIA Scalable Coherency Fabric, Vera CPU delivers more than 1.8x higher agentic sandbox performance than traditional x86 architectures, helping AI factories complete more tool calls, return more evaluations, and keep accelerators moving.

Learn More about the Vera CPU, the NVIDIA Vera Rubin NVL2, and the Vera CPU benchmarking by Phoronix.

*Relative performance based on measured data, and subject to change. NVIDIA Vera CPU with LPDDR5X performance baselined to the latest x86 CPU. *

この記事をシェア

関連記事

MarkTechPost★42026年6月20日 07:06

VibeThinker-3B:Qwen2.5-Coder-3Bを基盤にスペクトルから信号へのポストトレーニングパイプラインで構築された 30 億パラメータの密着型推論モデル

中国の新浪微博研究所が開発した「VibeThinker-3B」は、大規模なパラメータ数に依存しない効率的なアプローチを採用し、検証可能なタスクにおいて数百倍サイズのモデルと同等の性能を発揮する 30 億パラメータの推論モデルとして公開された。

AWS Machine Learning Blog★42026年6月19日 23:05

Adobe Marketing Agent for Amazon Quick によるキャンペーンワークフローの加速

AWS と Adobe は、Amazon Quick と Adobe Marketing Agent を連携させることで、マーケティングチームが自然言語で質問するだけで、ガバナンスされた会話環境内で数秒以内にキャンペーンのパフォーマンスやオーディエンスに関するインサイトにアクセスできるようにした。

AI News★42026年6月19日 23:02

SAP と Google Cloud がエージェント型コマースアーキテクチャを展開

SAP と Google Cloud は、企業規模でのマルチエージェントマーケティングおよび小売業務の自動化を目的として、エージェント型コマースアーキテクチャの展開を開始した。両社は顧客データの共有不足という構造的課題への対応を掲げている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む