フルスタック推論・学習最適化による AI ファクトリのエネルギー効率最大化
NVIDIA は、AI ファクトリ全体のエネルギー効率を最大化するために、推論と学習の両領域における包括的な最適化手法を提案している。
キーポイント
フルスタックな最適化アプローチ
ハードウェアからソフトウェアまで全体を見据えた最適化により、エネルギー効率の向上を図る戦略が示されている。
推論と学習の両面での改善
モデルのトレーニング(学習)フェーズだけでなく、運用時の推論フェーズにおいてもエネルギー削減に焦点を当てた手法が提案されている。
スケーラビリティとコスト効率
大規模な AI ファクトリ運営において、電力消費の抑制を通じて運用コストを削減し、持続可能性を高めることを目的としている。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI ブームによる急増する電力需要に対する解決策として、ハードウェアとソフトウェアの連携による効率化の重要性を浮き彫りにしています。業界全体が「性能のみ」から「エネルギー対性能比」へと意識をシフトさせる転換点となる重要な指針です。
編集コメント
生成 AI の普及に伴い、電力消費がボトルネックとなる中、NVIDIA が提唱する「フルスタック最適化」は、今後のデータセンター設計における必須の視点と言えます。単なるハードウェア性能競争から、持続可能な運用への転換を促す内容です。
電力は、AI ファクトリを稼働させる運用コスト(OpEx)の [40%] (https://www.uschamber.com/assets/documents/ctec_datacenterrpt_lowres.pdf) を占める可能性があります。各ワットは、オーバーヘッド、データ取り込み、トレーニング、または顧客へのトークン生成に費やすことができます。そして、ほとんどのサイトは地域プロバイダから提供される固定された電力レベルで制限されています。これらの条件下では、ワットあたりのパフォーマンスが、トークンコストに直接反映される重要な効率指標となります。
NVIDIA は、[AI 推論] (https://www.nvidia.com/en-us/solutions/ai/inference/) ワークロードにおいて最も低いトークン単価を提供し、大規模モデルのトレーニングにおいても最低のコストを実現します。これは、電力、冷却、システムインフラストラクチャとの極限までの共同設計と、OEM、ODM、CSP、NCP、システムインテグレータ、ISV、およびモデルエコシステムのパートナーとの深い協力によって可能になっています。
本記事では、オペレーターが AI ファクトリにおいてワットあたりのパフォーマンスを最大化し、トークンコストを最小化するために活用できるレバーについて探ります。
なぜ推論最適化は AI ファクトリにとって重要なのか?
推論は収益を生み出すため、最適化するべき主要なワークロードです。オペレーターがワットあたりの推論スループットを増加させれば、販売可能なトークン数や生成できる洞察の数を直接的に増やすことができます。これはまた、単位時間あたりの追加収益にもつながります。
100 メガワットからギガワット規模において、メガワットあたりのスループットがわずかに数パーセント改善されるだけでも、利益における有意義な向上をもたらす可能性があります。
モデルアーキテクチャも重要です。Mixture-of-experts (MoE) モデルは、同様の総パラメータ数を持つ密結合モデルと比較して、知能の単位あたりのエネルギー効率が通常高いです。これは、トークンごとにアクティブになるエキスパートのサブセットのみが使用されるためです。例えば、DeepSeek-R1 は大きなパラメータ数を有していますが、各トークンに対してその一部のみが活性化されます。このモデルは、密結合の先行モデルと同程度かそれ以下のトークンあたりの計算コストで、より高いタスクパフォーマンス を達成しています。つまり、MoE 設計は、各トークンを生成する際に同じ、あるいは少ないエネルギー消費で、より多くの知能を提供します。
システムレベルのエネルギー使用とワットあたりのパフォーマンスを最適化する方法
NVIDIA のアーキテクチャおよびプラットフォームは、世代ごとにワットあたりに生産される知能の量を増やすように設計されています。6 つのアーキテクチャ世代にわたって、NVIDIA はメガワットあたりの推論スループットを 1,000,000 倍 向上させています。
NVIDIA GB200 NVL72 のラックスケールシステムは、極限まで設計された共設計と、ワットあたりのスループットを向上させる高密度の直接チップ冷却アーキテクチャにより、エネルギー効率を大幅に高めています。また、ラック内の電力平滑化機能を用いてピーク電流スパイクを平準化することで、オペレーターは同じ電力およびインフラ予算内でより多くの GPU を安全に展開できるようになります。
さらに、NVIDIA DSX は、動的な電力割り当て、リアルタイムのテレメトリ、そして未利用の電力を回復しワットあたりのトークン数を増加させる高度なラックレベル制御を実現する、オープンで AI ファクトリースケールのプラットフォームです。
浮動小数点精度はさらに別の層を加えます:高精度な計算は一般的に処理速度が遅くエネルギー消費も大きくなりますが、NVFP4 のような狭帯域フォーマットはエネルギー効率が優れており、FP8 と同等の精度を維持しながらより高いスループットを実現できます。同様に重要なのは、NVIDIA Dynamo と NVIDIA TensorRT-LLM が、これらの効率化を実際の推論パフォーマンスに転換し、GPU インフラストラクチャ全体でスループットの向上、コスト削減、および推論モデルのより効率的な拡張を可能にすることです。
image*図 1. NVFP4 に代表される狭い精度フォーマットは、FP8 に代表される高い精度フォーマットと比較して、インタラクションレベルに関わらずワットあたりのトークン生成数において優れており、固定された電力予算内でより多くの AI 出力を可能にします*
全体のエネルギー使用量は、計算量、ハードウェアの効率性、GPU の利用率、およびシステムが速度とエネルギーのトレードオフのフロンティア上でどこで動作するかによって支配されます。その結果、システム設計、非 GPU ボトルネックの排除、ユースケース・メモリ・並列化に応じたバッチサイズの調整は、ワットあたりのエネルギー使用量とスループットを最適化するための重要なレバーとなります。
LLM 学習におけるエネルギー効率の最適化
大規模モデルの学習には、複数の並列化手法を組み合わせて作業を複数の GPU に分散する必要があります。学習中、最大のスループット(反復速度)を追求することは、非常に大きなエネルギー消費を伴います。
さらに、個々の GPU のワークロード割り当ては完璧にバランスが取れていないため、一部の GPU が計算を終了する間に他の多くの GPU がアイドル状態になります。すべての GPU がタスク完了のために全力で走っても、他者の完了と同期を待ってアイドル状態になる場合、エネルギーは無駄になります。
ミシガン大学の ML.ENERGY イニシアチブ の研究者たちは、個々の GPU に対して処理速度を調整することで、大規模モデルのトレーニングにおけるエネルギーの無駄遣いを削減できることを示しました。パイプライン内の最も遅いタスク連鎖(クリティカルパス)に属し、より多くの作業を抱える GPU は最大速度で稼働させ、一方、作業量の少ない GPU は意図的に速度を落とします。
これにより、以下の効果が得られます:
- 早期に完了した GPU のアイドル時間が最小化される
- 低速で動作する GPU のエネルギー消費量が削減される
- トレーニングの全体所要時間は変更されない
image*図 2. 協調的な GPU 速度調整は、エンドツーエンドのトレーニング時間への影響をほとんどまたは全く与えずに、総トレーニングエネルギー消費量を削減し、追加のトレーニング実行や推論のための電力を確保します*
Megatron-LM は、大規模言語モデルのトレーニングにおける NVIDIA のオープンソース参照実装です。ML.ENERGY チームとの協力のもと、NVIDIA はカーネル(kernel)、スケジューリング、並列処理レベルでの電力およびパフォーマンス動作のプロファイリングを行い、その測定結果を基にエネルギー意識型の標的型最適化を推進することで、Megatron-LM のトレーニングエネルギー効率の向上を継続しています。
この取り組みには以下が含まれます:
- 計算、メモリ、通信、電力のボトルネック領域を特定するために、細粒度のカーネルおよびフェーズレベルでのエネルギープロファイリングを実装する
- パラレル化構成、パイプラインの不均衡、通信のオーバーラップがワットあたりの性能に与える影響を分析する
これらの知見は、トレーニングイテレーションにおける真のクリティカルパス(パイプライン内の最も遅いタスクチェーン)と整合したエネルギー意識型のスケジューリング設計および GPU 周波数/電力キャップ調整に活用されます。次のステップでは、これらの手法がより大規模な Megatron-LM トレーニングにどのように適用されるかを概説します。
この研究の目的は、同じ電力制約内でモデルトレーニングをより短時間で完了させるか、あるいは同等のトレーニングスループットをより少ないエネルギーで達成することにより、エネルギー効率を向上させることです。その結果、電力は追加のトレーニング実行に振り向けられるか、または最適化されたインフラ上でトレーニングから推論へと転換され、総サイト電力を増加させることなくトークン生成量を拡大できます。詳細については、Kareus: Joint Reduction of Dynamic and Static Energy in Large Model Training をご覧ください。
image*図 3. エネルギー意識型のスケジューリングとランタイム最適化は、トレーニングをより優れたエネルギー–時間のパレートフロンティアへシフトさせ、類似のイテレーションステップ時間において最大約 25% のエネルギー削減を実現します*
NVIDIA DSX はどのように AI ファクトリのパフォーマンスを最適化するのか?
ML.ENERGY イニシアチブは、測定結果からの観察を共有するための リーダーボード と ベンチマーク を開発し、特定のエネルギー挙動が観測される理由を説明する 推論フレームワーク も提供しています。
これらのベンチマークは、電力コスト、炭素強度、熱管理、冷却能力、およびグリッド制限といった実際の展開制約下で AI ファクトリを稼働させる方法を示す、テレメトリ駆動型のエネルギー意識型運用(energy aware operations)と連携することができます。
NVIDIA DSX はこれらのエネルギー意識型運用を提供します。このプラットフォームは、コンピューティング、ラック、冷却、施設電力、およびワークロードスケジューリングにわたる統合されたビューを提供し、設計時のシミュレーションとランタイムのテレメトリを接続する共通の運用アーキテクチャを実現します。これにより、オペレーターは電力がどこで使用されているか、どこで遊んでいる(stranded)のか、そして固定されたサイトエンベロープ内でさらにどの程度の有用なコンピューティング能力を追加できるかを理解できるようになります。
DSX は、チップやシステムからインフラストラクチャソフトウェア、施設、デジタルツイン、パートナー技術に至るまで、フルスタックにわたって AI ファクトリがどのように設計・構築・最適化されるかを定義します。これは、オープンなソフトウェアライブラリ、ワークフローガイド、および参考設計を NVIDIA コンピューティングプラットフォームと共同設計された OEM インフラストラクチャと組み合わせることで、広範なソフトウェアおよびハードウェアソリューションのエコシステムを実現可能にします。
共通アーキテクチャを通じてすべてのレイヤーを整合させることで、DSX はワットあたりのトークン数を向上させ、デプロイメントを加速し、運用の信頼性と回復力を強化します。
DSX は、ラック内における電力効率と動作、AI ファクトリレベルでの管理、および AI ファクトリとグリッド間の制御を担当します。DSX MaxLPS は AI ファクトリ内部で稼働し、DSX Flex はグリッドとファクトリの間で機能します。
DSX MaxLPS は、AI ファクトリのスループットを最大化するための技術スイートであり、以下を含みます:
- 45°C 液体冷却: 統合されたチップ、熱、およびシステムレベルのイノベーションを活用することで、運用者はより高い 45°C の入口温度を利用でき、電力使用効率 (PUE) を改善できます。これにより、AI ファクトリの電力のうち収益を生む計算リソースに割り当てられる割合を大きくすることができます。
- ダイナミックな電力割当: ソフトウェアは GPU およびラックレベルの電力消費を継続的に監視し、必要な場所に再配分することで、未利用の容量を活用し、全体の利用率を最適化します。これは定義された電力予算内で動作し、予算の変化にリアルタイムで適応して、安全かつコンプライアンスに沿った実行を保証します。
- 高度な技術: NVIDIA GPU に直接統合されたこれらの高度な手法は、同等の性能水準においてワットあたりのパフォーマンスを向上させます。これには、電力ステアリング、迅速な GPU 設定のための最適化されたワークロードプロファイル、およびラック間の電力とパフォーマンスの最適化をオーケストレーションする NVIDIA Dynamo などのソフトウェアが含まれます。
DSX Flex は、AI ファクトリをグリッド信号や外部エネルギー源に接続する、グリッド対応の電力オーケストレーション層です。
電力、冷却、およびグリッド統合がエンドツーエンドで最適化されることで、注目はワークロード自体からの最大効率の抽出へとシフトできます。
鍵となる機会は、最適化された AI ファクトリの上に、ベンチマークを用いてモデル、バッチ処理、および精度の選択を導くことです。ワークロードの配置、スケジューリング、電力配分を、最も効率的な計算および冷却ゾーンと整合させることで、運用者はインフラレベルでの向上の上にワークロードレベルの最適化を重ねることができます。
これには、固定された電力予算の下でワークロードを再バランスすること、より効率的な構成やモデルファミリーを通じて電力削減が可能なワークロードを特定すること、そしてトークンあたりの収益が大きいという理由から高い電力予算を正当化するワークロードに優先順位をつけることが含まれます。そうすることで、私たちは AI ファクトリをワットあたりの最大トーク数へと継続的に誘導し、時間経過とともにトークンあたりのコストを引き下げます。
将来を見据え、AI トークノミクス指標 は第一級の設計目標として扱われるべきです。チームは、デジタルツイン駆動型のインフラ最適化 と ベンチマーク駆動型 のワークロードチューニングを組み合わせることを探求すべきです。
このアプローチは、トークン容量と収益の両方において、制約された電力を目的別に構築された競争優位性へと転換します。
image*図 4. パフォーマンス・パワーマイル最適化された AI ファクトリは、ターゲットの相互運用性において、非最適化された AI ファクトリと比較して、メガワットあたり秒間あたりのトークン数を最大 2.6 倍多く提供できます*
さらに詳しく知る
AI ファクトリは根本的に電力によって制約されており、ワットあたりのパフォーマンスがトークンコストと収益性の主要な駆動要因となっています。推論の最適化は、トークン出力の増加を通じて直接的に収益を向上させるため極めて重要であり、ハードウェア、ソフトウェア、モデル設計全体におけるフルスタックの改善が効率性を高めます。
トレーニングも、アイドル状態の GPU 時間を削減することで速度を損なうことなく、より省エネルギー化が可能です。NVIDIA DSX は、インフラストラクチャ全体にわたってリアルタイムかつエネルギー意識型の最適化を実現し、ワットあたりのトークン数とメガワットあたりの収益を最大化します。
電力制約下での AI ファクトリ設計、シミュレーション、運用、および NVIDIA DSX についてさらに詳しく知りたい場合は、ISC 2026 の NVIDIA ブースへお越しください。
謝辞
*ミシガン大学の ML エネルギー・イニシアチブに所属する Mosharaf Chowdhury 氏、Jae-Won Chung 氏、Ruofan Wu 氏の貢献に対し、心より感謝いたします。*
原文を表示
Power can account for 40% of the operating expenses (OpEx) to run an AI factory. Each watt can be spent on overhead, data ingestion, training, or generating tokens for customers. And most sites are capped at a fixed power level provided by a regional provider. Under these conditions, performance per watt becomes a key efficiency metric that directly translates to token costs.
NVIDIA delivers the lowest cost per token for AI inference workloads and the lowest cost to train large models. This is possible through extreme co-design with power, cooling, and system infrastructure and deep collaboration with the OEM, ODM, CSP, NCP, systems integrator, ISV, and model ecosystems partners.
This post explores the levers that an operator can use to maximize performance per watt and minimize token cost in an AI factory.
Why is inference optimization important for AI factories?
Inference drives revenue, so it is the key workload to optimize. When operators increase inference throughput per watt, they directly increase the number of tokens they can sell or insights they can create. This also translates to additional revenue per unit of time.
At the hundred megawatt to gigawatt scale, even a few percentage points of throughput improvement per megawatt can translate into meaningful gains in profit.
Model architecture is also important. Mixture-of-experts (MoE) models are typically more energy efficient per unit of intelligence compared to dense models with similar total parameters because only a subset of experts is active per token. For example, DeepSeek-R1 has a large parameter count, a fraction of which is activated for each token. It achieves higher task performance at a similar or lower per‑token compute cost than dense predecessors. In other words, the MoE design delivers more intelligence for the same or less energy spent producing each token.
How to optimize for system-level energy use and performance per watt
NVIDIA architectures and platforms are engineered to increase the amount of intelligence produced per watt with each generation. Across six architecture generations, NVIDIA has improved inference throughput per megawatt by 1,000,000x.
The NVIDIA GB200 NVL72 rack-scale system increases energy efficiency through extreme co-design, with dense, direct-to-chip liquid-cooled architecture that delivers more throughput per watt. It uses in-rack power smoothing to flatten peak current spikes, enabling operators to safely deploy more GPUs within the same power and infrastructure budget.
In addition, NVIDIA DSX is an open, AI factory-scale platform that drives dynamic power allocation, real-time telemetry, and applying advanced rack-level controls that recover stranded power and increase tokens per watt.
Floating point precision adds another layer: higher‑precision calculations are generally slower and consume more energy, while narrow-precision formats like NVFP4 are more energy‑efficient and can deliver higher throughput, at equivalent accuracy to FP8.Equally important, NVIDIA Dynamo and NVIDIA TensorRT-LLM help translate these gains into real-world inference performance by boosting throughput, lowering costs, and scaling reasoning models more efficiently across GPU infrastructure.

Overall energy use is governed by the amount of computation, hardware efficiency, GPU utilization, and where the system operates on the speed/energy tradeoff frontier. As a result, system design, removing non‑GPU bottlenecks, and tuning batch size for use case, memory, and parallelism are key levers for optimizing energy use and throughput per watt.
Optimizing energy efficiency in LLM training
Large model training requires the distribution of work across multiple GPUs using a combination of multiple parallelization methods. During training, pushing for maximum iteration speed comes at the cost of very large energy consumption.
Further, individual GPU workload allocation is not perfectly balanced, leading to several GPUs in idle state while few GPUs finish computations. Energy is wasted if all GPUs sprint to the finish to complete a task only to sit idle waiting for others to finish theirs and sync.
Researchers from the ML.ENERGY Initiative at the University of Michigan have shown that tuning the processing speed for individual GPUs can reduce energy bloat in large model training. Those with more work are on the critical path (the slowest chain of tasks in the pipeline) and run at maximum speed, while those with less work are intentionally slowed down.
This achieves the following:
- Idle time from GPUs finishing early is minimized
- GPUs running at lower speed use less energy
- End-to-end training time remains unchanged

Megatron-LM is the NVIDIA open source reference implementation for training large-scale language models. In collaboration with the ML.ENERGY team, NVIDIA continues to advance Megatron-LM training energy efficiency by profiling power and performance behavior at the kernel, scheduling, and parallelism levels, and then using those measurements to guide targeted, energy‑aware optimizations.
This work includes:
- Implementing fine‑grained kernel and phase‑level energy profiling to identify compute, memory, communication, and power‑limited regions
- Analyzing how parallelism configurations, pipeline imbalance, and communication overlap impact performance‑per‑watt
These insights are used to design energy‑aware scheduling and GPU frequency/power‑cap tuning aligned with the true critical path (the slowest chain of tasks in the pipeline) of training iterations. The next step is to outline how these techniques will be applied to larger scale Megatron-LM training.
This work aims to increase energy efficiency so that model training can be completed faster within the same power envelope or achieve the same training throughput with less energy. As a result, power can be redirected to additional training runs or from training to inference on the same optimized infrastructure—increasing token generation without raising total site power. To learn more, see Kareus: Joint Reduction of Dynamic and Static Energy in Large Model Training.

How does NVIDIA DSX optimize AI factory performance?
The ML.ENERGY Initiative has developed a leaderboard and benchmark for sharing observations from their measurements and a reasoning framework that explains why they observe certain energy behaviors.
These benchmarks can be tied into energy aware operations- telemetry-driven systems that show how to run an AI factory under real deployment constraints, including power cost, carbon intensity, thermals, cooling capacity, and grid limits.
NVIDIA DSX provides these energy-aware operations. The platform delivers a coordinated view across compute, racks, cooling, facility power, and workload scheduling. It provides a common operational architecture that can connect design-time simulation with runtime telemetry, helping operators understand where power is being used, where it is stranded, and how much additional useful compute can fit within a fixed site envelope.
DSX defines how AI factories are designed, built, and optimized across the full stack, from chips and systems to infrastructure software, facilities, digital twins, and partner technologies. It combines open software libraries, workflow guides, and reference designs with NVIDIA compute platforms and co-designed OEM infrastructure to enable a broad ecosystem of software and hardware solutions.
By aligning every layer through a common architecture, DSX improves tokens per watt, accelerates deployment, and strengthens operational reliability and resiliency.
DSX manages power efficiency and behaviors within the rack, at the AI factory level, and between the AI factory and the grid. DSX MaxLPS operates inside the AI factory, while DSX Flex operates between the grid and the factory.
DSX MaxLPS is a suite of technologies for maximizing AI factory throughput, including:
- 45°C liquid cooling: By leveraging integrated chip, thermal, and system-level innovations, operators can utilize higher 45°C inlet temperatures to improve power usage effectiveness (PUE), ensuring that a larger portion of AI factory power is redirected toward revenue-generating compute.
- Dynamic power allocation: Software continuously monitors GPU and rack-level power consumption, reallocating it where needed to unlock stranded capacity and optimize overall utilization. It operates within defined power budgets, adapts to budget changes in real time, and ensures safe, compliant execution.
- Advanced techniques: Integrated directly into NVIDIA GPUs, advanced methodologies boost performance per watt at iso-performance. These include power steering, optimized workload profiles for rapid GPU configuration, and software such as NVIDIA Dynamo for orchestrating inter-rack power and performance optimization.
DSX Flex is the grid-aware power orchestration layer that connects the AI factory to grid signals and external energy sources.
With power, cooling, and grid integration optimized end to end, attention can shift to extracting maximum efficiency from the workloads themselves.
The key opportunity is to use benchmarks to guide model, batching, and precision choices on top of the optimized AI factory. By aligning workload placement, scheduling, and power allocation with the most efficient compute and cooling zones, operators can stack workload-level optimizations on top of infrastructure-level gains.
This includes rebalancing workloads under a fixed power budget, identifying workloads where power can be reduced through more efficient configurations or model families, and prioritizing workloads that justify higher power budgets because they generate more revenue per token. In doing so, we continuously steer the AI factory toward maximum tokens per watt, driving down cost per token over time.
Looking ahead, AI tokenomics metrics should be regarded as first‑class design goals. Teams should explore combining digital‑twin‑driven infrastructure optimization with benchmark‑driven workload tuning.
This approach turns constrained power into a purpose‑built competitive advantage in both token capacity and revenue.

Learn more
AI factories are fundamentally limited by power, making performance per watt a key driver of token cost and profitability. Optimizing inference is critical because it directly increases revenue through higher token output, while full-stack improvements across hardware, software, and model design boost efficiency.
Training can also be made more energy-efficient without compromising speed by reducing idle GPU time. NVIDIA DSX enables real-time, energy-aware optimization across infrastructure, maximizing tokens per watt and revenue per megawatt.
To learn more about power-constrained AI factory design, simulation, operations, and NVIDIA DSX, visit the NVIDIA booth at ISC 2026.
Acknowledgments
*We’d like to thank Mosharaf Chowdhury, Jae-Won Chung, and Ruofan Wu from the ML Energy initiative at the University of Michigan for their contributions.*
関連記事
半導体メーカーNvidia、2021年以来初の債券発行で250億ドル超の調達を検討
半導体大手のNvidiaは、AIセクターへの投資意欲を試すため、米国市場で250億ドル規模の投資適格債を販売する計画である。これは同社が過去5年間で初めて行う債券発行であり、7つの異なる満期期間を設定した大規模な発行となる見込みだ。
NVIDIA と AWS が大規模な AI の実用化に向けて協力
NVIDIA と Amazon Web Services(AWS)が、AI を大規模に生産環境で運用するための協力を開始した。両社はインフラと技術の統合により、企業による AI の実装を加速させる方針を示している。
NVIDIA Blackwell で DFlash 推測デコーディングを活用し、推論パフォーマンスを最大 15 倍に向上
NVIDIA は、DFlash 推測デコーディング技術を採用することで、Blackwell アーキテクチャ上の推論パフォーマンスを最大 15 倍まで向上させることに成功したと発表した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み