Scale Robot Reinforcement Learning with NVIDIA Isaac Lab on Amazon SageMaker AI｜Amazon SageMaker AI で NVIDIA Isaac Lab を活用し、ロボット強化学習のスケールアップを実現 | AIニュース最前線

Physical AI は研究段階から生産段階へと移行しています。ロボットは、実世界でのトレーニングが遅く、高コストであり、しばしば危険である一方、GPU 加速シミュレーションでは数ヶ月にわたる学習を数時間に圧縮できるため、工場や倉庫、物流センターへの展開前に高精度なシミュレーションで訓練されるケースが増えています。 この変化は計算リソースの課題へと焦点を移します。荒れた地形での二足歩行のような複雑な動作に対する強化学習（Reinforcement Learning: RL）は計算集約型であり、単一ノードでのトレーニング実行では数時間から数日に及ぶこともあります。ロボット開発チームは研究段階で迅速に反復を行う必要があり、かつ計算クラスターの運用負荷を伴わずに、本番グレードの長期ホライズン（long-horizon）トレーニングジョブを実行する必要があります。 本記事では、Amazon SageMaker AI 上で NVIDIA Isaac Lab を用いて Unitree H1 二足歩行ロボットのポリシーを訓練する方法を、2 つの計算オプションである**Amazon SageMaker HyperPod**および**Amazon SageMaker Training Jobs**の両方について解説します。このソリューションの完全なコードは、[関連する GitHub リポジトリ](https://github.com/awslabs/awsome-distributed-ai/tree/main/3.test_cases/pytorch/nvidia-isaac-lab)で公開されています。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/29/ML-20813-1.png) *画像クレジット：NVIDIA* ## 1. なぜ物理 AI のトレーニングに Amazon SageMaker AI を使うのか Amazon SageMaker AI は、機械学習（ML）トレーニングのための計算インフラストラクチャ管理という、差別化の難しい重労働を排除します。このサービスはインスタンスのプロビジョニング、ドライバーとネットワークの設定、ノードヘルスの監視、ジョブ完了時のリソース解放を自動で行うため、エンジニアリングのリソースをインフラストラクチャの下支えに費やすのではなく、ロボットポリシーの開発そのものに集中させることができます。これは特にインフラ負荷の高いロボットポリシー強化学習（RL）において重要です：実行は長期化し、GPU を大量に消費し、多くの場合複数のノードに分散されます。開発には通常 2 つのフェーズが含まれます：報酬関数、観測空間、モデルアーキテクチャを調整するための短期間の反復実験と、調整済み構成を収束させるまでの長期生産用実行です。SageMaker AI はこれらのフェーズに適した 2 つの計算オプションを提供します。 ## SageMaker HyperPod を用いたクラスター耐障害性と制御 [SageMaker HyperPod](https://aws.amazon.com/sagemaker/ai/hyperpod/) は、大規模なファウンデーションモデルの分散トレーニングおよび推論のために特別に設計された管理型インフラストラクチャです。耐障害性は SageMaker HyperPod の中核にあります。スケールするとハードウェア障害が問題となり、マルチノードの強化学習（RL: Reinforcement Learning）実行における各障害は、学習進捗の喪失に加え、故障の検出、ノードの交換、最後のチェックポイントからの再起動に要する時間を意味します。SageMaker HyperPod は、各ノード上で基本的および詳細な健康診断を実行するヘルスモニタリングエージェントを実行しています。障害が検出されると、自動的に再起動または故障したインスタンスを置き換えます。自動再開機能により、交換されたノードの準備が整った後、トレーニングジョブは最後のチェックポイントから手動介入なしで再開されます。 Amazon Elastic Kubernetes Service (Amazon EKS) または Slurm と連携してオーケストレーションされる HyperPod は、クラスターノードへの直接アクセスと、実行間を跨いで持続する安定した環境を提供します。HyperPod の観測機能アドオンは、数百のクラスター、ノード、ジョブメトリクスを Amazon Managed Service for Prometheus へ公開し、事前構築された Amazon Managed Grafana ダッシュボードで可視化します。チームは、メトリクスパイプラインの設定を行うことなく、GPU 利用率、メモリ圧力、ネットワークスループット、タスクレベルのパフォーマンスを取得できます。Kueue を基盤とした HyperPod のタスクガバナンス機能により、管理者は計算クォータ、優先度、プリエンプション機能を備えた名前空間スコープのキューにクラスターを分割できます。割り当ては、インスタンス単位、全体 GPU 単位、または NVIDIA Multi-Instance GPU (MIG) を用いた GPU パーティション単位で定義可能です。微細なクォータはアクセラレーター、vCPU、メモリをカバーします。 ## Amazon SageMaker トレーニングジョブによるエフェメラルコンピューティング [SageMaker Training Jobs](https://docs.aws.amazon.com/sagemaker/latest/dg/how-it-works-training.html) は、長期的なコンピューティングリソースを維持することなく、コンテナ化されたトレーニングワークロードを実行するための完全に管理されオンデマンド型のソリューションです。各ジョブは GPU インスタンスのプロビジョニングを行い、Amazon Elastic Container Registry (Amazon ECR) からコンテナを取得し、トレーニングスクリプトを実行した後、成果物を Amazon Simple Storage Service (Amazon S3) にアップロードします。そしてジョブが完了するとインスタンスを即座に終了させます。実行間隔におけるアイドル状態のコンピューティングコストは発生しません。このモデルは、報酬関数、観測空間、ネットワークアーキテクチャが短い実行期間の間で頻繁に変更されるポリシー開発の反復フェーズに適しています。また、多数の短時間ジョブを並列実行してその後リソースを解放するハイパーパラメータチューニングのスウィープにも適しています。 ## 2. NVIDIA Isaac Lab とトレーニングタスク [NVIDIA Isaac Lab](https://developer.nvidia.com/isaac/lab) は、[NVIDIA Isaac Sim](https://developer.nvidia.com/isaac/sim?size=n_6_n&sort-field=featured&sort-direction=desc) を基盤としたオープンソースのロボット学習フレームワークです。GPU 並列シミュレーションを活用することで、1 つまたは複数の GPU 上で同時に数千ものロボットインスタンスを実行し、現実世界で数ヶ月かかる経験を数時間のシミュレーショントレーニングに変換します。Isaac Lab は、強化学習（Reinforcement Learning）と模倣学習（Imitation Learning）の両方において、タスク定義、観測・行動空間、報酬関数、およびトレーニングループを定義するための構造化された API を提供しています。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/29/ML-20813-2.png) *画像クレジット：NVIDIA* 本記事のサンプルトレーニングタスクは「Isaac-Velocity-Rough-H1-v0」であり、[Unitree H1 人型ロボット](https://www.unitree.com/h1/)が粗い地形を歩きながら速度指令を追跡する学習を行います。このロボットは、手作業で生成された不均一な表面上でのバランス維持のために、19 の関節を協調させる必要があります。トレーニングには、Isaac Lab がサポートする複数の強化学習（RL）フレームワークの一つである [skrl](https://skrl.readthedocs.io/) を通じて、近傍最適化ポリシー（PPO: Proximal Policy Optimization）が使用されます。ノード数を複数にスケールさせることで並列環境の数が倍増し、ポリシー更新ごとに多様な経験値を得られるようになり、収束が加速します。本ソリューションで提供されているスクリプトや設定を拡張することで、他のロボット学習タスクにも適用可能です。 ## 3. ソリューション概要 [付属の GitHub リポジトリ](https://github.com/awslabs/awsome-distributed-ai/tree/main/3.test_cases/pytorch/nvidia-isaac-lab)にあるソリューションは、主に 2 つの部分で構成されています。(1) SageMaker HyperPod と SageMaker Training Jobs の両方でトレーニングコードを実行する単一の Docker イメージ、(2) 共有設定ファイルから Kubernetes マニフェストと SageMaker 起動スクリプトを生成するジェネレーター・スクリプトです。この 2 つのサービスオプションは、イメージの起動方法のみが異なります。すなわち、SageMaker HyperPod 上では Kubernetes PyTorchJob として起動するか、または SageMaker Training Job の場合は CreateTrainingJob API コールを通じて起動するかの違いだけです。 ここで使用されている H1 歩行タスクは、[Amazon Elastic Compute Cloud (Amazon EC2) および AWS Batch でワークロードを実行する] [NVIDIA Isaac Lab on AWS workshop](https://catalog.us-east-1.prod.workshops.aws/workshops/075ce3fe-6888-4ea9-986e-5bdd1b767ef7/en-US/introduction) と同じです。SageMaker AI へ移行してもトレーニングコードは変更されず、マネージドクラスター、統合された障害回復機能、サーバーレスなトレーニングジョブ実行が追加されます。 ## トレーニングイメージ トレーニングコンテナイメージは nvcr.io/nvidia/isaac-sim:5.1.0 をベースに構築されています。提供される Dockerfile は Isaac Lab v2.3.2 をクローンし、Isaac Sim にバンドルされた Python 環境へインストールするとともに、SageMaker Training Jobs のリソース設定を解析して torchrun を起動するエントリーポイントスクリプトをコピーします。完全な Dockerfile は docker/Dockerfile にあります。両方のサービスオプションは同じイメージを使用します。 ## 実験追跡 トレーニングメトリクスは、追跡サーバーが構成されている場合に [Amazon SageMaker managed MLflow](https://docs.aws.amazon.com/sagemaker/latest/dg/mlflow.html) (MLflow) にストリーミングされ、両方のバックエンド間で永続的かつ検索可能な実験追跡が可能になります。MLflow はオプトイン方式です：追跡 URI を空に設定すると完全に無効化されます。[セクション 4.5](#track-experiments-with-sagemaker-managed-mlflow) で構成方法について解説しています。 ## 設定とジェネレータースクリプト ジェネレータースクリプトは、config.yaml に定義された環境固有の変数を通じて設定されます。generate.py スクリプトはこの設定を読み取り、templates/ ディレクトリ内のテンプレートをレンダリングして、generated/ ディレクトリ下に適用可能なファイルとして生成します。 ジェネレーターの実行は単一のコマンドで完了します: python generate.py 各バックエンドで使用される具体的なファイルについては、SageMaker HyperPod 向けの [セクション 4](#walkthrough-training-on-sagemaker-hyperpod-with-amazon-eks) と SageMaker Training Jobs 向けの [セクション 5](#walkthrough-training-on-sagemaker-training-jobs) のウォークスルーでそれぞれ解説されています。 ## バックエンド間でのトレーニングトポロジー 提供されたソリューションでは、両方のパスは最終的に同じイメージ上で Isaac Lab の skrl トレーナーの torchrun 呼び出しで終了します。主な違いは、各環境がコンテナにどのようにトポロジーを提供するかという点です。SageMaker HyperPod では、Kubeflow Training Operator が MASTER_ADDR、MASTER_PORT、RANK、WORLD_SIZE を各ポッドに注入します。これらはポッドレベルのトポロジーを記述するものであり（WORLD_SIZE はポッド数、RANK は各ポッド内のインデックス）、エントリーポイントがこれらを torchrun に転送し、torchrun が各ポッド内の GPU ごとにプロセスを起動します。各ポッドごとのランチャーは MASTER_ADDR:MASTER_PORT を介して合流し、グローバルなプロセスグループを形成します。一方、SageMaker Training Jobs では、ホストリストが /opt/ml/input/config/resourceconfig.json に書き込まれ、コンテナのエントリーポイントが起動時にこれを解析します。 ## GPU インスタンスの互換性 Isaac Sim は NVIDIA Omniverse を基盤に構築されており、Omniverse RTX レンダラー（RT Cores 搭載 GPU が必要）を使用します。そのため、AWS の G シリーズ GPU インスタンスは Isaac Lab ワークロードに適しています。一方、P シリーズはデータセンター向け GPU で RT コアを搭載していないため、対応していません。サポート対象および非対応のハードウェアの完全なリストについては、[Isaac Sim 5.1 要件ページ](http://docs.isaacsim.omniverse.nvidia.com/5.1.0/installation/requirements.html)をご覧ください。 **インスタンスファミリー** **GPU タイプと世代** **RT コア / Isaac Sim の互換性** ml.g5 NVIDIA A10G (Ampere) Yes ml.g6 NVIDIA L4 (Ada Lovelace) Yes ml.g6e NVIDIA L40S (Ada Lovelace) Yes ml.g7e NVIDIA RTX PRO 6000 (Blackwell) Yes ml.p4d, ml.p4de, ml.p5, ml.p5e, ml.p5en, ml.p6-b200, ml.p6-b300, ml.p6e-gb200 NVIDIA A100 (Ampere), H100 / H200 (Hopper), B200 / B300 / GB200 (Blackwell) **No** 本記事の例では、ml.g6.12xlarge インスタンスを全体で使用しています。必要に応じて config.yaml でインスタンスタイプを変更できます。ml.g6、ml.g6e、および ml.g7e ファミリーは、8xlarge サイズ以上で Elastic Fabric Adapter (EFA) をサポートしており、これにより NCCL はマルチノード集合演算に対してカーネルバイパス対応の RDMA 可能トランスポートを提供します。HyperPod で EFA を有効化するには、AWS EFA デバイスプラグインをインストールし、ポッド仕様で vpc.amazonaws.com/efa リソースを要求する必要があります。SageMaker Training Job では、コンテナイメージ内および仮想プライベートクラウド (VPC) 設定で EFA を構成する必要があります。EFA は、SageMaker HyperPod および SageMaker Training Job の両バックエンドに対して、本ソリューションを通じて自動的に構成されます。SageMaker Training Job のセットアップについては [ドキュメント](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-efa.html) を参照してください。 ## セットアップ：リポジトリのクローンとイメージの構築 両方のウォークスルーで共有されるセットアップ手順は、2 つあります。1 つは関連するリポジトリをクローンすること、もう 1 つはトレーニングイメージをビルドすることです。 ソリューションのリポジトリをクローンします： git clone https://github.com/awslabs/awsome-distributed-ai.git cd awsome-distributed-ai/3.test_cases/pytorch/nvidia-isaac-lab リポジトリには、両方のバックエンドで使用される Dockerfile、設定テンプレート、ジェネレーター、およびエントリーポイントスクリプトが含まれています。 リポジトリのルートからイメージをビルドし、Amazon ECR にプッシュします。 - セットアップに応じて環境変数を定義してください: export AWS_REGION=us-east-1 # 対象リージョン export ACCOUNT=$(aws sts get-caller-identity --query Account --output text) - 対応する ECR リポジトリが存在するか確認し、存在しない場合は作成してください: aws ecr describe-repositories --repository-names isaaclab-sagemaker --region "$AWS_REGION" 2>/dev/null || \ aws ecr create-repository --repository-name isaaclab-sagemaker --region "$AWS_REGION" - Amazon ECR で認証を実行してください: aws ecr get-login-password --region $AWS_REGION | \ docker login --username AWS --password-stdin \ $ACCOUNT.dkr.ecr.$AWS_REGION.amazonaws.com - Docker イメージをビルドしてタグ付けしてください: docker build -t isaaclab-sagemaker:5.1.0 -f docker/Dockerfile . docker tag isaaclab-sagemaker:5.1.0 $ACCOUNT.dkr.ecr.$AWS_REGION.amazonaws.com/isaaclab-sagemaker:5.1.0 - Docker イメージを Amazon ECR にプッシュしてください: docker push $ACCOUNT.dkr.ecr.$AWS_REGION.amazonaws.com/isaaclab-sagemaker:5.1.0 トレーニングジョブを使用したい場合は、[セクション 5](#walkthrough-training-on-sagemaker-training-jobs) へジャンプしてください。 ## 4. ウォークスルー：Amazon EKS でオーケストレーションされた SageMaker HyperPod でのトレーニング 今回のウォークスルーでは、Amazon EKS によってオーケストレーションされている既存の SageMaker HyperPod クラスターを使用します。GPU インスタンスグループには、2 つの ml.g6.12xlarge ノード（それぞれ NVIDIA L4 を 4 基搭載し、合計 8 GPU）が含まれています。目標は、H1 ロコモーションタスクのための分散トレーニングジョブを実行することであり、ライブメトリクスを [SageMaker managed MLflow](https://docs.aws.amazon.com/sagemaker/latest/dg/mlflow.html) で確認し、生成されたチェックポイントを FSx for Lustre に書き込むことです。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/29/ML-20813-3.png) ## 4.1 前提条件 本ソリューションを実行するには、以下の前提条件が整っている必要があります： - ターゲットリージョンにおけるクラスターおよび選択した GPU インスタンスタイプに対して、十分なサービスクォータが存在すること。HyperPod クラスターは、SageMaker HyperPod 用に ml.g6.*（またはその他の GPU ファミリ）の対応するクォータを消費します。クラスターの作成やスケーリング前に AWS Service Quotas を通じて増額リクエストを行ってください。 - Amazon EKS によってオーケストレーションされ、2 つの ml.g6.12xlarge ノードからなる GPU インスタンスグループを持つ SageMaker HyperPod クラスター。Amazon EKS オーケストレーションによる SageMaker HyperPod クラスターの作成に関するドキュメントを参照してください。 - クラスターに対して設定された kubectl およびそこにインストールされた Kubeflow Training Operator（PyTorchJob カスタムリソースが認識されるように）。 - FSx for Lustre CSI Driver がインストールされており、HyperPod ノードと同じ VPC およびサブネット内に Amazon FSx for Lustre ファイルシステムが存在すること。このファイルシステムは、トレーニングジョブによって書き込まれるログおよびチェックポイント（checkpoint）を保存します。 ## 4.2 マニフェストの構成と生成 - 例の設定ファイルをコピーする: cp config.yaml.example config.yaml - 環境値と AWS アカウント ID、リージョン、クラスターの詳細を入力してください: aws: account_id: "" # あなたの 12 桁の AWS アカウント ID region: "" # 例：us-east-2 ecr: repository: "isaaclab-sagemaker" # プッシュしたリポジトリと一致させる必要があります tag: "5.1.0" training: task: "Isaac-Velocity-Rough-H1-v0" max_iterations: 1000 # PPO（Proximal Policy Optimization）の反復回数；本番環境では増やしてください framework: "skrl" # skrl | rsl_rl | rl_games | sb3 hyperpod_eks: fsx: file_system_id: "" dns_name: ".fsx..amazonaws.com" mount_name: "" # 8 文字の FSx マウント名 jobs: training_job: instance_type: "ml.g6.12xlarge" gpus_per_node: 4 num_nodes: 2 # 単一ノード学習の場合は 1 に設定 fsx_log_dir: "/fsx/isaaclab-h1/logs" 重要な設定フィールドは以下の通りです: **aws, ecr** — これらは、すべてのポッドとトレーニングジョブで参照されるコンテナイメージ URI（.dkr.ecr..amazonaws.com/:）を形成するために使用されます。hyperpod_eks.image を通じて明示的な URI をオーバーライドとして設定することも可能です

Amazon SageMaker AI で NVIDIA Isaac Lab を活用し、ロボット強化学習のスケールアップを実現

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト