NVIDIA DSX OS が大規模な AI ファクトリ向けにオープンでモジュラーなソフトウェアを提供
NVIDIA は、大規模な AI ファクトリーを運用・拡張するためのオープンでモジュラーなソフトウェア基盤「DSX OS」を発表し、エネルギー効率とコスト削減を実現する新戦略を打ち出した。
キーポイント
AI ファクトリーのスケールアップ対応
NVIDIA DSX プラットフォームに新たに DSX OS を追加し、エネルギー、チップ、インフラ、モデル、アプリケーションの 5 レイヤー全体を統合したアーキテクチャで AI ファクトリーを設計・運用する完全なプレイブックを提供する。
オープンソースかつモジュラーな構成
DSX OS はオープンソースのモジュラーコンポーネントと関連技術から構成され、マルチテナント環境での AI ファクトリー運用に特化しており、柔軟な導入と拡張を可能にする。
アジェンティック AI インフラへの対応
DSX OS コンポーネントは最新の「アジェンティック AI」インフラソフトウェアを採用し、ワットあたりのトークン生成量(tokens per watt)の向上とトークンコストの低下を加速させる。
運用効率と信頼性の強化
導入の迅速化に加え、運用の信頼性とレジリエンス(回復力)を高めることで、大規模な AI インフラの安定稼働を支える基盤となる。
AIファクトリ運用のためのオープンソース基盤
DSX OS は、ハードウェア、施設、ソフトウェア、シミュレーション、耐障害性、セキュリティの各層にわたる NVIDIA DSX プラットフォーム全体を統括するオープンソースソフトウェアとして提供されます。
大規模スケーリング対応のモジュラー設計
記事タイトルおよび図説から、本システムは拡張性と柔軟性を重視したモジュラー構造を持ち、大規模な AI ファクトリの運用を可能にすることが示唆されています。
オープンソースによる収益化の加速
NVIDIA DGX Cloud で運用されているインフラとプラットフォームソフトウェアがオープンソースとして公開され、エコシステムパートナーはゼロから構築するのではなく既存コンポーネントを活用して AI サービスを迅速に提供できる。
影響分析・編集コメントを表示
影響分析
この発表は、AI インフラが単なる計算リソースの集積から、効率的に運用・管理される産業基盤(ファクトリー)へと進化することを示す重要な転換点です。特に「アジェンティック AI」への対応とエネルギー効率の重視は、今後大規模展開が進む企業やクラウドプロバイダーにとって、コスト競争力と持続可能性を決定づける標準的なアーキテクチャとなる可能性があります。
編集コメント
NVIDIA が自社ハードウェアの性能だけでなく、ソフトウェアスタック全体を「OS」として再定義し、AI ファクトリーの運用標準を主導しようとする意図が明確に示されています。特にエネルギー効率とアジェンティック AI への言及は、現在の業界課題に対する直接的な回答と言えます。
AI は現在、トークンの形で知能を生成する AI ファクトリーによって支えられた不可欠なインフラとなっています。需要が増大するにつれ、これらのファクトリーはより迅速にスケールし、より効率的に運用され、エネルギー、チップ、インフラストラクチャ、モデル、アプリケーションの 5 層スタック にわたる知能のコストを低下させる必要があります。
NVIDIA DSX プラットフォームは、計算、ソフトウェア、施設、パートナー技術にわたるスタックのすべての層を共通の共設計アーキテクチャを通じて整合させながら、AI ファクトリーの設計、シミュレーション、構築、運用のための完全なプレイブックを提供します。
DSX プラットフォームには now DSX OS ソフトウェア が追加され、AI ファクトリーの展開を加速し、運用効率を向上させています。DSX OS には、マルチテナント型 AI ファクトリーの運用とスケールに特化して設計されたオープンソースのモジュラーソフトウェアコンポーネントおよび関連する NVIDIA テクノロジーが含まれています。
これら DSX OS コンポーネントにより、NVIDIA DSX の AI ファクトリーエコシステムは、フルスタックにわたる最新のエージェント型 AI インフラストラクチャソフトウェアを採用できるようになり、ワットあたりのトークン数の向上やトークンコストの低下、展開の加速、運用信頼性と回復力の強化を実現します。
image*図 1:DSX プラットフォームにおける NVIDIA DSX OS ソフトウェア。 DSX OS は、AI ファクトリの運用のためのオープンソースソフトウェアを提供します*
AI ファクトリエコシステムにとって DSX OS が重要な理由
AI ファクトリは、消費するワット数に対して生成されるトークンの数を最大化し、オペレーターに真の価値をもたらすために、最適に機能する必要があります。
これを実現するためには、データセンター全体でスケールした AI ワークロードを運用するために必要な 複雑なコンポーネントのネットワーク が密接に調和して機能しなければなりません。これには、チップ間での調整、システム間の調整、ビルディングマネジメントコントロールや冷却装置、電力配分ユニットなどの施設インフラ、電力網、それらすべてを動かすソフトウェアおよびパートナーテクノロジー、そしてその上に動作する AI プラットフォームとサービス全体にわたる調整が必要です。
DSX OS ソフトウェアは、このコンポーネント全体のエコシステムのために設計されており、既存のプラットフォームやソフトウェアに統合・採用できる包括的なオープンで拡張可能な技術と機能を提供します。
これらの機能は、共通アーキテクチャを中心に設計および最適化されており、関連するすべてのコンポーネントが連携して、AI ファクトリの経済性を駆動する 3 つの主要な成果を実現することを可能にしています:
1) 収益化までの期間短縮
NVIDIA は NVIDIA DGX Cloud 上でインフラとプラットフォームソフトウェアを構築・運用しており、現在このソフトウェアはオープンソースとして公開されています。NVIDIA エコシステムのパートナーはこれらのコンポーネントを活用して AI サービスを提供することができ、ゼロから再構築する必要がなくなるため、数ヶ月にわたるカスタム開発の時間を削減できます。
2) より高い効率性
AI ファクトリーにおける最大の制約要因は電力であり、DSX は電力とグリッド挙動を、AI インフラストラクチャーとは切り離された施設管理の問題としてではなく、プラットフォームの一部として接続します。DSX ソフトウェアを使用することで、AI ファクトリーは固定された電力予算内でピーク時のエネルギー効率を最大化し、推論ワークロードのパフォーマンスへの影響を最小限に抑えつつ、最大 40% 多くの GPU を稼働させることが可能です。
3) より高い信頼性と回復力
AI ファクトリーでは、ハードウェア障害やグリッドイベント、運用上の変更を通じて、継続的な大規模ワークロードが実行されます。DSX OS は、クラスター運用を反応型のアラートから自動修復へとシフトし、地域全体でランタイムバージョンの一貫性を維持するとともに、オペレーターに対してファリートーカルな可視性を提供します。
DSX OS がギガワット規模の AI ファクトリーを実現する方法
DSX OS のオープンソースかつモジュラーなコンポーネントは、AI ファクトリーの構築と運用のための基盤技術を提供するものであり、ギガワット規模で AI ワークロードを効率的かつ信頼性高く運用することに伴う固有の課題を解決するために設計されています。
彼らは、標準化された通信、電力および効率の最適化、プロビジョニングとライフサイクル運用、ヘルスモニタリングと修復、インテリジェントなプラットフォームサービスなど(これらに限らない)のコア機能セットを共設計することでそれを実現します。
DSX OS がこれらの機能をどのように提供するかについての詳細は以下の通りです:
エージェント型インターフェースに対応したデータセンター全体での標準化された通信
AI ファクトリは、計算、ネットワーク、電力、冷却システムにまたがり、これらすべてがシームレスに相互運用する必要があります。DSX Exchange は、MQTT ベースの IT/OT 通信ハブを介してこれらのコンポーネントをつなぎ、グリッドイベント、サーマルデータ、電力異常などの施設レベルの信号を、AI ファクトリの残りを管理するソフトウェアに可視化します。これにより、DSX Flex、MaxLPS、およびパートナー製ソフトウェアといったコンポーネントが互いの状態をリアルタイムで検知し反応できるようになり、調整と効率性が向上します。
DSX スタック全体にわたる DSX OS ソフトウェアコンポーネントはまた、プロビジョニング、ネットワーク、観測性などに対応する MCP サーバーも提供します。これらの MCP サーバーを使用することで、AI エージェントはファクトリの運用領域全体を統一されたツールカタログとして発見でき、あらゆるシステム間でインターフェースしてドメイン横断的な相関分析を実行できるようになります。エージェント型 AI ファクトリでは、オペレーターは GPU のヘルスイベントとサーマル異常、あるいはネットワーク問題とパフォーマンス問題を容易に関連付けたり、その他の潜在的なシナリオを把握したりできます。
image*図 2. DSX Exchange は、AI ファクトリー内の通信を調整します。これには、DSX Flex からのグリッド信号、施設レベルの信号、DSX MaxLPS との間での電力ポリシー、NVIDIA Infra Controller などのプロビジョニングシステムなどが含まれます*
電力および効率最適化
静的な電力割り当ては容量を遊ばせ、反応的な冷却は熱的振動を引き起こし、分離された IT/OT システムはグリッドイベントを手動の火災訓練にしてしまいます。DSX MaxLPS には、電力をプログラム可能なリソースとして扱うソフトウェアが含まれており、GPU、ラック、冷却、ワークロードの各レベルでポリシーを動的に適用することで、AI ファクトリーが遊ばされた電力を回復し、最適な利用率で追加の計算処理を実行できるようにします。DSX Flex はこれをファクトリーの壁の外へ拡張し、ワークロードをグリッドサービスに接続するためのライブラリを提供することで、AI ファクトリーが需要応答、負荷遮断、再生可能エネルギーの利用可能性に対して自動的に適応できるようにします。
CoreWeave、Firmus、Lambda、Nscale、Phaidra などのパートナーが MaxLPS の導入を進めており、Emerald AI、ENGIE、Silicon Valley Power、UK National Grid は DSX Flex を活用しています。
プロビジョニングおよびマルチテナントライフサイクル運用
大規模展開において、プロビジョニングは継続的なワークフローです:ノードはテナント割り当てを循環し、ハードウェアは交換され、すべての移行は監査可能で安全である必要があります。NVIDIA Infra Controller (NICo) は、API ドライブ型のベアメタルライフサイクル管理と、NVIDIA BlueField DPUs および NVIDIA DOCA Platform Framework を通じたハードウェア強制型テナント分離により、これをプログラム可能にします。NVIDIA AI Cluster Runtime (AICR) は、検証済みのランタイム構成をバージョンロックされたレシピとして記録することでこれに補完し、大規模なファーム全体でサイレント障害を引き起こす設定のドリフト(drift)を排除します。
IREN、OpenNebula Systems、Mirantis、Rafay、Red Hat、Supermicro は、これらのコンポーネントを統合するパートナーの一部です。
健康モニタリングと自動化ツール
大規模な GPU ファームウェアにおいて、ハードウェアの劣化は日常的に発生する事象であり、従来のアラートページから調査を行うサイクルではワークロードへの影響を最小限に抑えるには手作業が多すぎます。NVIDIA NVSentinel は、Kubernetes ネイティブな GPU 障害検出と自動修復機能を提供し、不健康な計算ノードを隔離(コーディング)してワークロードを数秒で移行・解放します。これは従来の数分や数時間を要するプロセスに比べて劇的な改善です。NVIDIA Fleet Intelligence は、グローバルな展開全体におけるファーム全体の可視化、整合性検証、および健康モニタリングを提供します。
Lambda は Fleet Intelligence の早期採用者です。
image*図 3. NVIDIA Fleet Intelligence ダッシュボードは、GPU およびメモリの利用率や稼働状態にある GPU の総数など、ファーム全体の集計データを要約します*
インテリジェントな AI ワークロードスケジューリングとプラットフォームサービス
AI ワークロードには、GPU アクセスだけでなく、トポロジー認識型のインテリジェントなスケジューリング、分散推論、そして生産環境向けの API が必要です。KAI Scheduler と NVIDIA Run:ai は、フラクションアロケーション(断片化割り当て)と階層的クォータを備えた GPU 認識型のワークロード配置を提供します。NVIDIA Dynamo と NVIDIA Grove は、分離されたプレフィル/デコード機能とステージごとの自動スケーリングを備えた分散推論サービングを実現します。NVIDIA Cloud Functions (NVCF) は、推論、ファインチューニング、バッチワークロードにわたる統一 API と組み込みのマルチテナンシーにより、これらすべてを統合します。
Aible、Beyond AI、Bhashini、Crusoe、DCAI、Mirantis、Nebius、Rafay、Sarvam、Simplismart、Spectro Cloud、vCluster、Vultr、Yotta などのパートナー企業は、これらのコンポーネントの多くを生産環境で活用しています。
Getting started
DSX OS の各コンポーネントは GitHub で利用可能であり、段階的な導入と既存のソフトウェアスタックとの統合を想定して設計されています。
最も緊急性の高い要件に対応するコンポーネントから始め、そこから構築を進めてください。提供される機能や技術を活用することで、AI ファクトリーの展開を加速し、運用効率を向上させることができます。
以下にいくつかの例を示します:
- IT/OT 通信:DSX Exchange
- ベアメタルのライフサイクル管理とテナント分離:NVIDIA Infra Controller および DOCA Platform Framework
- フリートの可視性、健全性、完全性の確保:NVIDIA Fleet Intelligence
- 統一された AI 推論 API:NVIDIA Cloud Functions
DSX OS の全コンポーネントの詳細、実装および参照設計ガイド、クイックスタート、統合ガイダンスについては、NVIDIA DSX ドキュメント をご参照ください。
原文を表示
AI is now essential infrastructure, powered by AI factories that generate intelligence in the form of tokens. As demand grows, these factories must scale faster, operate more efficiently, and lower the cost of intelligence across the five-layer stack: energy, chips, infrastructure, models, and applications.
NVIDIA DSX platform provides the complete playbook for designing, simulating, building, and operating AI factories, aligning every layer of the stack across compute, software, facilities, and partner technologies through a common co-designed architecture.
The DSX platform now includes DSX OS software to accelerate AI factory deployments and improve operational efficiency. DSX OS includes open source, modular software components and related NVIDIA technologies purpose-built for operating and scaling multi-tenant AI factories.
Together, DSX OS components enable NVIDIA DSX’s AI factory ecosystem to adopt the latest in agentic AI infrastructure software across the full stack, improving tokens per watt and lowering token cost, accelerating deployment, and strengthening operational reliability and resiliency.

Why DSX OS matters to the AI factory ecosystem
AI factories must perform optimally in order to maximize the number of tokens they produce relative to the watts they consume, and bring real value to the operators.
In order to achieve this, the complex network of components that goes into operating AI workloads at scale across datacenters must function in close harmony, requiring coordination across chips; systems; facilities infrastructure such as building management controls, cooling, and power distribution units; the power grid; the software and partner technologies running all of these; and the AI platforms and services running on top.
DSX OS software is designed for this entire ecosystem of components and provides a comprehensive set of open and extensible technologies and capabilities that can be integrated and adopted into existing platforms and software.
These capabilities have been designed and optimized around a common architecture, enabling all of the components involved to work together to deliver on three main outcomes that drive AI factory economics:
1) Faster time to revenue
NVIDIA builds and operates infrastructure and platform software on NVIDIA DGX Cloud, and now this software is being released as open source. NVIDIA ecosystem partners can leverage these components to deliver AI services rather than rebuild from scratch, eliminating months of custom development.
2) Better efficiency
Power is the limiting factor in an AI factory, and DSX connects power and grid behavior as part of the platform rather than as a facilities concern separated from the rest of the AI infrastructure. With DSX software, AI factories can run up to 40% more GPUs at peak energy efficiency within a fixed power budget, with minimal impact on inference workload performance.
3) Higher reliability and resiliency
AI factories run continuous large-scale workloads through hardware faults, grid events, and operational changes. DSX OS shifts cluster operations from reactive alerting to automated remediation, keeps runtime versions consistent across regions, and gives operators fleet-wide visibility.
How DSX OS enables gigawatt-scale AI factories
The open source, modular components in DSX OS provide the foundational technologies for building and operating AI factories, and are designed to solve challenges unique to operating AI workloads efficiently and reliably at gigawatt scale.
They do so by providing a co-designed set of core capabilities, including (but not limited to) standardized communication, power and efficiency optimization, provisioning and lifecycle operations, health monitoring and remediation, and intelligent platform services.
More details about how DSX OS provides these capabilities follows:
Standardized communication across the data center, enabled for agentic interfaces
An AI factory spans compute, networking, power, and cooling systems that all need to interoperate seamlessly. DSX Exchange bridges these components with an MQTT-based IT/OT communication hub that makes facility-level signals such as grid events, thermal data, and power anomalies, visible to the software managing the rest of the AI factory, enabling components such as DSX Flex, MaxLPS, and partner software to react to each other’s state in real time, improving coordination and efficiency
DSX OS software components across the full DSX stack will also provide MCP servers for provisioning, networking, observability, and more. Using these MCP servers, AI agents can discover the entire operational surface of the factory as a unified tool catalog, enabling them to interface across every system and perform cross-domain correlation. With an agentic AI factory, operators can easily connect a GPU health event with a thermal anomaly, or a network issue to a performance issue, or other potential scenarios.

Power and efficiency optimization
Static power allocation strands capacity, reactive cooling creates thermal oscillations, and disconnected IT/OT systems make grid events a manual fire drill. DSX MaxLPS includes software that treats power as a programmable resource by dynamically enforcing policies at the GPU, rack, cooling, and workload level, enabling AI factories to recover stranded power to run additional compute at optimal utilization. DSX Flex extends this beyond the factory walls, with libraries for connecting workloads to grid services so AI factories can automatically adapt to demand response, load shedding, and renewable energy availability.
Partners including CoreWeave, Firmus, Lambda, Nscale, and Phaidra are deploying MaxLPS, while Emerald AI, ENGIE, Silicon Valley Power, and UK National Gridare leveraging DSX Flex.
Provisioning and multi-tenant lifecycle operations
At scale, provisioning is a continuous workflow: nodes cycle through tenant assignments, hardware is replaced, and every transition must be auditable and secure. NVIDIA Infra Controller (NICo) makes this programmable with API-driven bare-metal lifecycle management and hardware-enforced tenant isolation through NVIDIA BlueField DPUs and the NVIDIA DOCA Platform Framework. NVIDIA AI Cluster Runtime (AICR)complements this by capturing validated runtime configurations as version-locked recipes, eliminating the configuration drift that causes silent failures across large fleets.
IREN, OpenNebula Systems, Mirantis, Rafay, Red Hat, and Supermicro are among the partners integrating these components.
Health monitoring and automation tooling
In a large GPU fleet, hardware degradation is a daily occurrence, and the traditional alert-page-investigate cycle is too manual for minimizing impact on workloads. NVIDIA NVSentinelprovides Kubernetes-native GPU fault detection and automated remediation, cordoning unhealthy compute nodes and draining workloads in seconds rather than minutes or hours. NVIDIA Fleet Intelligence provides fleet-wide visibility, integrity verification, and health monitoring across global deployments.
Lambda is an early adopter of Fleet Intelligence.

Intelligent AI workload scheduling and platform services
AI workloads need more than GPU access; they need topology-aware intelligent scheduling, distributed inference, and production APIs. KAI Scheduler and NVIDIA Run:aiprovide GPU-aware workload placement with fractional allocation and hierarchical quotas. NVIDIA Dynamo and NVIDIA Grove deliver distributed inference serving with disaggregated prefill/decode and per-stage autoscaling. NVIDIA Cloud Functions (NVCF) ties it together with unified APIs across inference, fine-tuning, and batch workloads with built-in multi-tenancy.
Partners including Aible, Beyond AI, Bhashini, Crusoe, DCAI, Mirantis, Nebius, Rafay, Sarvam, Simplismart, Spectro Cloud, vCluster, Vultr, and Yotta are using many of these components in production.
Getting started
DSX OS components are available on GitHub and designed for incremental adoption and integration with existing software stacks.
Start with the component that addresses your most immediate requirements, and build from there, leveraging the capabilities and technologies provided to accelerate your AI factory deployment and improve operational efficiency.
Some examples are provided below:
- IT/OT communications: DSX Exchange
- Bare-metal lifecycle management and tenant isolation: NVIDIA Infra Controller and DOCA Platform Framework
- Fleet visibility, health, and integrity: NVIDIA Fleet Intelligence
- Unified AI inference APIs: NVIDIA Cloud Functions
ReviewNVIDIA DSX documentation for more details about all of the components of DSX OS, implementation and reference design guides, quickstarts, and integration guidance.
関連記事
1 年間の革新:Google Cloud と NVIDIA の開発者コミュニティが会員数 10 万人を達成
Google Cloud と NVIDIA が共同で運営する開発者コミュニティが設立から 1 周年を迎え、会員数が 10 万人に達した。両社は引き続き、LLM の最適化や GPU を活用したデータ分析の学習パスを提供し、開発者の支援を強化している。
TeamViewer ONE が IT 運用を消火活動から自動操縦へ変革
チームビューワーは、ハイブリッドワークやクラウド移行による複雑化する環境において、MTTR(平均修復時間)の改善だけでなく、コンプライアンス対応やシステム管理を自動化する「TeamViewer ONE」を発表し、IT 運用を消火活動から自動操縦へ転換させる。
Laguna XS.2 と M.1:詳細解説(20 分読了)
Poolside が公開したコーディング用エージェントモデル「Laguna M.1」と軽量版「XS.2」について、長期タスク対応能力やオープンソース化の概要を解説する。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み