リアルタイムの GPU ファーム可視化と最適化を可能にする「NVIDIA Fleet Intelligence」の発表
NVIDIA は大規模 GPU クラスターの運用課題に対応するため、電力・温度・パフォーマンス・健康状態を包括的に監視するエージェント型管理サービス「Fleet Intelligence」の一般提供を開始した。
キーポイント
大規模クラスター運用の複雑性への対応
異種ハードウェア、急速に進化するソフトウェアスタック、電力制約、スパイクするマルチテナントワークロードなど、スケーラビリティに伴う課題を解決し、SLA 違反やコスト浪費を防ぐ必要性が強調されている。
5 つの主要監視領域の定義
電力(スロットリングと効率)、温度(ホットスポット検知)、パフォーマンス(利用率和帯域)、健康状態(ECC/XID エラー)、構成整合性(ドライバー/ファームウェア)という 5 つの観点から GPU を包括的に監視する枠組みを提示。
エージェント型管理サービスの一般提供
NVIDIA データセンター GPU の継続的なモニタリングを行う「Fleet Intelligence」がエージェントベースのマネージドサービスとして正式に一般提供され、リアルタイムな可視化と最適化を可能にした。
ROI 最大化のためのワークロード移行
低利用率の領域を特定し、そこでワークロードを移行することで、大規模クラスター全体の投資対効果(ROI)を最大化する具体的な運用戦略が示されている。
低負荷なホストベースエージェントによるリアルタイム可視化
LinuxパッケージマネージャーやHelmを使用してインストール可能な軽量エージェントが、GPUとCPUのテレメトリデータをクラウドサービスへストリーミングし、データセンター全体およびクラウドにわたるグローバルなインベントリを可視化します。
NVIDIA製品群の技術とIPを活用した管理型サービス
数百万台規模のGPU運用からの知見や、DCGM、GPUd、アテステーションSDKなどのオープンソース技術を統合し、ソフトウェアスタックやスケジューラーに依存しない低レベルの管理型サービスとして提供されます。
監査可能性と早期アクセス顧客による検証
エージェントは監査目的のためにGitHubでオープンソース化されており、NVIDIA Cloud PartnersやLambdaなどの早期アクセス顧客からのフィードバックを反映して開発されました。
影響分析・編集コメントを表示
影響分析
この発表は、AI インフラの規模拡大に伴う運用コストとリスク管理の難易度が限界に達している現状に対する、NVIDIA からの決定的なソリューション提示である。特に、単なる稼働状況の確認を超えて、電力効率や個々のコンポーネントの劣化まで監視できる機能は、大規模 AI クラスターを運用する企業にとって、SLA 遵守とコスト最適化を実現するための基盤技術として即座に重要度を高めるだろう。
編集コメント
大規模 AI クラスターの運用において、ハードウェアの故障や設定ミスが引き起こす連鎖的な影響を最小限に抑えるための、NVIDIA による重要な管理ツールが登場しました。これは単なる監視ツールの進化ではなく、AI インフラの信頼性と経済性を支える新たな標準となり得るものです。
大規模 GPU ファームの計算能力は、記録的なスピードで革新を起こし、顧客に価値を提供する前例のない機会をもたらします。しかし、これらの進展にはさまざまな課題が伴います。スケールが大きくなるにつれて、チームは多様なハードウェア、急速に変化するソフトウェアスタック、厳しい電力制限、そしてスパイク状のマルチテナントワークロードを同時に処理しなければなりません。単一のホットスポット、誤設定されたドライバー、あるいは微妙なハードウェア障害が連鎖し、ジョブのスロットリング、SLA の未達成、無駄な支出を引き起こす可能性があります。
また、大規模クラスターに関与するコンポーネントの複雑さと数は圧倒的なものとなるため、日々の運用を可視化し、任意の時点での運用状態を理解することが不可欠です。ジョブ実行中の GPU 利用率の監視やボトルネックの特定はより困難になります。低利用率の領域を特定し、ワークロードをそこに移行することは、投資対効果を最大化するための最良の方法の一つです。
これらの理由から、スケールにおいては GPU 対応型のモニタリングが不可欠です。チームはノードが稼働しているかどうかだけでなく、任意の時点ですべてのアクセラレータが期待通り、安全に、かつ一貫して動作しているかどうかを知る必要があります。
本記事では、NVIDIA Fleet Intelligence をご紹介します。これはNVIDIA データセンター GPUの継続的な監視のためのエージェントベースのマネージドサービスであり、現在一般提供されています。
GPU モニタリングの主要な焦点領域とは何ですか?
GPU モニタリングの重要な領域には、電力、温度、パフォーマンス、健全性、および一貫した構成が含まれます。
- 電力:ワットあたりのパフォーマンスを最大化しながらデータセンターの予算内に収まるよう、電力使用状況とスロットリングを追跡します。
- 温度:サーマルスロットリングや部品の早期劣化を防ぐために、ホットスポットや空気流の問題を早期に検出します。
- パフォーマンス:利用率、メモリ帯域幅、相互接続の健全性、およびスロットリングの原因を監視し、フリート全体での性能低下や不均衡を検出します。
- 健全性:ECC エラー、XID エラー、リタイア済みページ、HBM/NVLink/PCIe の異常、その他の RAS(信頼性・可用性・保守性)シグナルを表面化し、故障する前に不良部品を特定します。
- 一貫した構成と整合性:GPU インベントリの検証の一環として、再現可能な結果と安全な運用を確保するために、ドライバー、ファームウェア、BIOS 設定が統一されているかを確認し、ファームウェアの整合性を検証します。
NVIDIA Fleet Intelligence とは何か?
NVIDIA Fleet Intelligence は、ソフトウェアスタックやスケジューラーの選択に関係なく使用できる、低レベルでデプロイメントに依存しないマネージドサービスです。当初、このサービスは自社のインフラストラクチャを管理しているデータセンター GPU および CPU の顧客、および GPU や CPU の動作についてより深い洞察を必要とするエンジニアを対象としています。
本サービスは、NVIDIA 製品ポートフォリオ全体にわたる技術と知的財産(IP)、および NVIDIA DGX Cloud で数十万基の GPU を運用して得た知見を活用しています。
Fleet Intelligence は、低負荷のホストベースエージェントを使用して、GPU のテレメトリデータを完全に管理された Fleet Intelligence クラウドサービスへストリーミングします。監査可能性を確保するため、NVIDIA は Fleet Intelligence エージェントをオープンソースプロジェクトとして公開しています。このエージェントは、GPUd や NVIDIA Data Center GPU Manager (DCGM)、さらに NVIDIA の Attestation SDK といった、他の NVIDIA オープンソースソリューションを活用しています。詳細については、GitHub の NVIDIA/fleet-intelligence-agent をご覧ください。Fleet Intelligence は、NVIDIA Cloud Partners (NPCs)、Lambda、IREN などを含む早期アクセス(EA)顧客からのフィードバックを反映して開発されました。
この一般提供(GA)リリースでは、主に以下の 3 つの領域に焦点を当てています:
- インベントリと可視化
- レポート、アラート、およびヘルスチェック
- 整合性とアテステーション
インベントリと可視化
Fleet Intelligence は、データセンターやクラウド全体にわたるグローバルなインベントリを可視化する豊富な機能を提供します。最小限の負荷で動作するエージェントは、GPU ワーカーノード上で Linux パッケージマネージャーまたは Helm を使用してインストールされます。
image*図 1. NVIDIA Fleet Intelligence ダッシュボードは、GPU およびメモリの利用率や稼働中の GPU の総数など、ファーム全体を集約したデータを要約して表示します*
登録完了後、エージェントはノードレベルの情報を捕捉し、NVIDIA NGC に常駐するヘルスポータルに表示されます。ユーザーとして、あなたはグローバルに、あるいは計算ゾーン別に GPU ファームの利用状況を表示できます。これには、同じ物理的またはクラウド環境に登録されたノードのグループも含まれます。
インフラストラクチャのあらゆるレベルで、異常は即座に検出されます。例えば、電力消費量や温度が閾値を超えた場合のエラーなどが該当します。これにより、アラートをトリガーした詳細な情報を直接確認することが可能になります。
レポーティング、アラート、およびヘルスチェック
Fleet Intelligence エージェントは、GPUd および DCGM(Data Center GPU Manager)の技術を活用しています。両ツールから提供されるメトリクスが分析され、レビューのためにヘルスサービスへ送信されます。このエージェントにより、Fleet Intelligence はファームの健康状態をニアリアルタイムで監視し、定期的なヘルスチェックを実行できます。エージェントは、ホスト、GPU、NVLink、およびネットワークに関するテレメトリデータを収集し、システム全体の健全性に関する包括的な画像を提供します。
シグナルが収集されると、サービスは現在の状態と履歴の文脈内でエラーを分析し、修復アクションに関する推奨事項を提供します。エージェントは読み取り専用であり、ホスト設定を変更することはなく、機械テレメトリおよび状態データのみを収集します。収集されたデータを検証するには、ローカルでサンプル出力を作成するか、公開リポジトリからソースコードを確認できます。
また、エラーや障害が発生した場合に、メール、Slack、その他のチャネルを通じてアラートメッセージを受信するオプションを選択したり、低利用率閾値やその他の関心領域に対してカスタムアラートを設定したりすることも可能です。ユーザーはレポートを構成して、電力消費のインベントリと履歴グラフ、温度トレンド、エラー、ダウンタイムを表示できます。
image*図 2. マシンビューは、ソートされたマシンまたはホストのリストと、個々のマシン固有のメタデータを表示します*
Fleet Intelligence エージェントは、パッシブヘルスチェックおよび定期的なチェックを採用しています。これらのヘルスチェックは、DCGM および GPUd を通じて利用可能です。運用から得られた知見に基づいて新たに作成されたヘルスチェックは、利用可能になった次第に追加されます。Fleet Intelligence は、インストールベース全体における障害やエラーに関する匿名シグナルおよびその他のメタデータを継続的に収集します。このアプローチにより、将来のリリースで提供される予測故障分類モデルに適用するためのデータの忠実度を高めることが可能になります。
image*図 3. マシンビューは、個々のマシンに関連するアラートを表示します*
整合性とアテステーション
NVIDIA Confidential Computing ソリューションから提供される技術を活用し、Fleet Intelligence は暗号化により GPU の整合性を検証し、システムの真正性と信頼性を保証します。Fleet Intelligence エージェントは、Attestation SDK を使用して、実行時に GPU(または「証拠」)からの測定値を取得します。これらの測定値は、NVIDIA 信頼の根拠に基づくオンデバイス証明書を使用してデジタル署名されます。
その証拠は、安全なチャネルを介して NVIDIA Remote Attestation Service (NRAS) に送信され、検証が行われます。NRAS サービスは、vBIOS ビルドの一部として生成される構造体である NVIDIA の Reference Integrity Manifests (RIMs) を活用しています。NRAS サービスは、証拠が期待値と一致することを確認し、Fleet Intelligence サービスに対して合格・不合格の結果を返します。
その後、インベントリダッシュボードを表示して、毎日またはオンデマンドで実行される結果としての整合性チェックを確認できます。これらの整合性チェックにより、ファームウェア内のすべての GPU が、改ざんされておらず、最新の状態であることが確認された信頼できる設定を持っていることを保証します。また、現在の整合性ステータスを含む GPU ファームウェア情報の詳細を記載した Fleet Intelligence レポートを作成することも可能です。これらはダウンロードして、他のレポートツールと併用することができます。
Lambda のチーフサイエンティフィックオフィサーである Chuan Li 氏は、「NVIDIA Fleet Intelligence は、最小限の設定で Lambda の研究チームに、NVIDIA Blackwell/Hopper GPU ファームウェア全体にわたるエンドツーエンドの可視性をもたらしました。そのアラートは、アクティブな障害だけでなく、早期警告サインも捉えます。また、レポートによりファームウェア全体の健全性を実行可能なインサイトに変換します。」と述べています。
NVIDIA Fleet Intelligence の利用開始
NVIDIA Fleet Intelligence サービスは、NVIDIA GPU および CPU フリートの電力、温度、パフォーマンス、健全性、設定に関する包括的なインサイトを提供し、すべてのチップが最適な効率と信頼性で動作することを保証します。リアルタイムテレメトリのための低フットプリントエージェントの統合と、堅牢な可視化およびアラート機構を組み合わせることで、企業は ROI の最大化と最適な運用基準の維持を実現できます。
オープンソースの Fleet Intelligence エージェント と、最先端の整合性および証明技術の採用は、透明性とセキュリティに対する NVIDIA のコミットメントを強調するものです。企業が GPU および CPU デプロイメントを拡大し続ける中、Fleet Intelligence は現代のデータセンターの複雑さをナビゲートするための不可欠なツールを提供し、多様な環境全体で持続可能かつ予測可能なパフォーマンスを保証します。
NVIDIA Fleet Intelligenceへのアクセスをリクエストし、GPU フリートの利用可能性と整合性をどのように向上させるかを firsthand で体験してください。現在、このサービスは一般利用可能となり、NVIDIA データセンター GPU の所有者、運用者、およびクラウドテナントに対して無償で提供されています。Fleet Intelligence は、NVIDIA データセンタークラス GPU アーキテクチャである Vera Rubin、Blackwell、および Hopper をサポートしています。アテステーション(証明)機能は、Vera Rubin と Blackwell のみで利用可能です。
原文を表示
The compute capability of large GPU fleets presents unprecedented opportunities to innovate and provide value to customers in record time. Yet these advancements come with a variety of challenges. At scale, teams are juggling heterogeneous hardware, fast‑moving software stacks, tight power envelopes, and spiky, multitenant workloads. A single hotspot, misconfigured driver, or subtle hardware fault can ripple, causing throttled jobs, missed SLAs and wasted spend.
As well, the complexity and number of components involved in large-scale clusters can be daunting, so it’s essential to maintain visibility into the day-to-day operations and understand the operational state at any given time. Monitoring GPU utilization and identifying bottlenecks during job execution becomes more difficult. Identifying areas of low utilization and migrating workloads to them is one of the best ways to ensure the highest return on investment.
For these reasons, GPU‑aware monitoring is essential at scale. Teams need visibility beyond whether or not the node is up. They need to know whether, at any given moment, every accelerator is performing as expected, safely, and consistently.
This post introduces NVIDIA Fleet Intelligence, an agent-based managed service for continuous monitoring of NVIDIA data center GPUs. It is now generally available.
What are the key focus areas of GPU monitoring?
Important areas of GPU monitoring include power, temperature, performance, health, and uniform configuration.
- Power: Track power utilization and throttling to stay within data center budgets while maximizing performance per watt.
- Temperature: Detect hotspots and airflow issues early to avoid thermal throttling and premature component aging.
- Performance: Watch utilization, memory bandwidth, interconnect health, and throttling reasons to spot regressions and imbalance across the fleet.
- Health: Surface ECC and XID errors, retired pages, HBM/NVLink/PCIe anomalies, and other RAS signals to catch failing parts before they fail.
- Uniform configuration and integrity: As part of GPU inventory validation, check for consistent drivers, firmware, and BIOS settings to ensure reproducible results and safe operation, as well as verify firmware integrity.
What is NVIDIA Fleet Intelligence?
NVIDIA Fleet Intelligence is a low-level, deployment-agnostic managed service that can be used regardless of software stack or scheduler choice. Initially, the service supports data center GPU and CPU customers that are managing their own infrastructure, and engineers requiring more insight into GPU and CPU behavior.
The service leverages technology and IP from across the NVIDIA portfolio of products and learnings from running the NVIDIA fleet of hundreds of thousands of GPUs across NVIDIA DGX Cloud.
Fleet Intelligence uses a low-footprint, host-based agent to stream GPU telemetry back to the fully managed Fleet Intelligence cloud service. NVIDIA is releasing the Fleet Intelligence agent as an open source project for auditability. The agent leverages other NVIDIA open source solutions such as GPUd, NVIDIA Data Center GPU Manager (DCGM), and the NVIDIA Attestation SDK. To learn more, visit NVIDIA/fleet-intelligence-agent on GitHub. Fleet Intelligence has been developed with feedback from early access (EA) customers, including NVIDIA Cloud Partners (NPCs), Lambda and IREN.
This GA release focuses on three main areas:
- Inventory and visualization
- Reporting, alerts, and health checks
- Integrity and attestation
Inventory and visualization
Fleet Intelligence offers a rich capability to visualize global fleet inventory across data centers and clouds. An agent, with a minimal footprint, is installed through Linux packages managers or helm install on the GPU worker nodes.

Once enrolled, the agent captures node-level information which is displayed in the Health portal resident on NVIDIA NGC. As a user, you can view your GPU fleet utilization globally or by compute zones, including groups of nodes enrolled in the same physical or cloud location.
At any level of the infrastructure, anomalies are immediately surfaced—for example, from errors or thresholds that were crossed by power consumption or temperature. This enables direct access to review detailed information about what triggered the alert.
Reporting, alerts, and health checks
The Fleet Intelligence agent leverages technology from GPUd and DCGM. Metrics provided by both tools are analyzed and communicated back to the Health Service for review. The agent allows Fleet Intelligence to monitor the health of the fleet in near real time, as well as execute periodic health checks. The agent collects telemetry on host, GPUs, NVLink, and networking to provide a holistic picture of overall system health.
As signals are collected, the service analyzes errors in the context of current state and history to provide recommendations on remediation actions. The agent is read-only, will not make modifications to host configuration, and only collects machine telemetry and state data. To verify the data collected, you can write sample output locally or review the source code from the public repo.
You can also opt in to receive alert messages in event of an error or failure through email, Slack, and other channels, and configure custom alerts for low utilization thresholds or other areas of interest. Users can configure reports to view inventory and historical graphs of power consumption, temperature trends, errors, and downtime.

The Fleet Intelligence agent employs passive health checks as well as periodic checks. These health checks have been available through DCGM and GPUd. New health checks created from learnings derived from operating the fleets are added as they become available. Fleet Intelligence will continuously gather anonymous signals and other metadata around faults and errors across the install base. This approach enables greater fidelity of data to apply to predictive failure categorization models that will be available in future releases.

Integrity and attestation
Leveraging technology from NVIDIA Confidential Computing solutions, Fleet Intelligence cryptographically verifies GPU integrity, ensuring the authenticity and trustworthiness of your system. The Fleet Intelligence agent uses the Attestation SDK to obtain measurements from the GPU (or “evidence”) at run time. These measurements are then digitally signed using on-device certificates based on NVIDIA root of trust.
The evidence is then sent to NVIDIA Remote Attestation Service (NRAS) over a secure channel for verification. The NRAS service leverages NVIDIA Reference Integrity Manifests (RIMs), which are structures generated as part of vBIOS builds. The NRAS service validates that the evidence matches the expected values and returns a pass/fail to the Fleet Intelligence service.
You can then view your inventory dashboards and see the resulting integrity checks that are run daily or on demand. These integrity checks ensure every GPU in the fleet has known-good configuration that is untampered with and up to date. You can also create Fleet Intelligence reports that detail GPU Fleet information with the current integrity status. These can be downloaded and used with other reporting tools.
According to Chuan Li, Chief Scientific Officer at Lambda, “NVIDIA Fleet Intelligence gave Lambda’s research team end-to-end visibility across our NVIDIA Blackwell/Hopper GPU fleet with minimal setup. Its alerts catch both active failures and early warning signs. Its reports turn fleet-wide health into actionable insights.”
Get started with NVIDIA Fleet Intelligence
NVIDIA Fleet Intelligence service provides comprehensive insights into power, temperature, performance, health, and configuration of NVIDIA GPU and CPU fleets, ensuring that every chip operates with optimal efficiency and reliability. The integration of low-footprint agents for real-time telemetry, combined with robust visualization and alert mechanisms, empowers enterprises to maximize ROI and maintain optimal operational standards.
The open source Fleet Intelligence agent and the incorporation of cutting-edge integrity and attestation technologies underscore the NVIDIA commitment to transparency and security. As businesses continue to scale GPU and CPU deployments, Fleet Intelligence provides essential tools for navigating the complexities of modern data centers, ensuring sustainable and predictable performance across diverse environments.
Request access to NVIDIA Fleet Intelligence and experience firsthand how it can improve the availability and integrity of your GPU fleet. It is now generally available and offered at no cost to NVIDIA data center GPU owners, operators, and cloud tenants. Fleet Intelligence supports NVIDIA data center-class GPU architectures Vera Rubin, Blackwell, and Hopper. Attestation is only supported on Vera Rubin and Blackwell.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み