AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年4月18日 00:45·約5分で読める

NVIDIA Isaac GR00T N1.7:ヒューマノイドロボット向けオープン推論VLAモデル

#Vision-Language-Action (VLA)#Humanoid Robotics#Open Source Foundation Model#EgoCentric Video Learning#NVIDIA Isaac
TL;DR

NVIDIAは人間の中視点動画データ2万時間以上で学習した3BパラメータのVLAモデル「Isaac GR00T N1.7」をオープンソースかつ商用ライセンスで公開し、人間型ロボットの複雑な作業と指レベルの精密操作を実現する。

AI深層分析2026年4月18日 01:41
5
最重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

二重システムアーキテクチャの採用

System 2(VLMによる高次推論・タスク分解)とSystem 1(Diffusion Transformerによる低次モーター制御)を分離し、マルチステップタスクの信頼性とリアルタイムの精密動作を両立。

2

人間中視点動画によるスケーリング則の確立

従来のテレオペレーションデータに依存せず、20,854時間以上の人間の中視点動画で事前学習(EgoScale)を行うことで、データ量に比例してロボットの器用さが向上する「dexterity scaling law」を初めて実証。

3

商用ライセンスと実機検証の並行公開

オープンソースでありながら商用ライセンスを付与し、GitHubとHugging Faceで公開。Unitree G1やAGIBot Genie 1など実機プラットフォームで loco-manipulation や精密組立タスクを検証済み。

4

人間動画によるデクストロウススケーリング法

センサー付き人間のego動画を学習させることで、データ量増加に比例して作業完了率が向上するスケーリング法を確立し、22DoFの手による接触豊富なタスクの実現を可能にした。

5

主要NVIDIAプラットフォーム対応と簡易デプロイ

商用ライセンスを提供し、Ampere〜BlackwellおよびJetsonシリーズに対応。ポリシーサーバーの構築とAPI経由の環境ループ連携により、実機への組み込みが容易。

6

カスタム微調整とN1.6との互換性

LeRobot形式のデータセットを用いて独自な機体へのファインチューニングが可能で、N1.6からの移行はモデルパスの変更のみで済むドロップイン交換として実装されている。

影響分析・編集コメントを表示

影響分析

NVIDIAのこのリリースは、人間型ロボットの知能開発におけるデータ収集のボトルネックを解消し、オープンソースと商用ライセンスの併用により産業界への実装スピードを加速させる。特に人間の中視点動画による学習は、従来のテレオペレーションに依存しないスケーラブルな知能獲得パスを提示し、VLAモデルの標準化と実機普及に寄与する可能性がある。

編集コメント

オープンソースでありながら商用ライセンスを付与する戦略は、実機デモに留まらず工場現場での本格導入を目指すNVIDIAの意図を明確に示している。人間動画データによる学習スケーリング則の確立は、ロボット知能開発のコスト構造を根本から変える可能性を秘めている。

記事に戻る NVIDIA Isaac GR00T N1.7: ヒューマノイドロボット向けオープン推論VLAモデル

アップボート - Edith Llontop ellontop フォロー nvidia Kalyan Vadrevu kalyanvadrevu フォロー nvidia この度、NVIDIA Isaac GR00T N1.7(早期アクセス版)を公開します。これはオープンソースで商用ライセンスを持つ、ヒューマノイドロボット向け Vision-Language-Action (VLA) モデルであり、一つのシンプルな前提に基づいて構築されています:人間のデータは、ロボット知能にとって最もスケーラブルな源泉である。

🤖 GR00T N1.7 — オープンソース、商用ライセンスのヒューマノイド基盤モデル。Hugging FaceとGitHubで利用可能

🏭 工場現場での利用に即対応 — 商用ライセンスにより、資材搬送、包装、検査など、今日から生産環境への導入が可能

🧠 多段階タスクのための推論機能 — タスクおよびサブタスクレベルの推論により、複雑なワークフローの信頼性を向上

🖐 拡張された巧緻性マニピュレーション — 指レベルでの制御により、小型部品の組み立てや脆弱な部品の取り扱いなど、接触を伴うタスクを実現

🔬 世界初の巧緻性スケーリング則 — 20,000時間以上の人間のエゴセントリックビデオで学習。より多くの人間データが、大規模な遠隔操作なしに、ロボットの巧緻性を直接的かつ予測可能に向上させる

🚀 GitHub | Hugging Face | LeRobotデータセットフォーマットをサポート

GR00T N1.7とは?

GR00T N1.7は、視覚観測と自然言語による指示を、連続的なロボット動作にマッピングする30億パラメータの Vision-Language-Action (VLA) モデルです。Action Cascade(アクションカスケード)アーキテクチャを採用しており、これは高レベルな推論と低レベルな運動制御を分離するデュアルシステム設計です:

システム2 (Vision-Language Model: VLM): Cosmos-Reason2-2B バックボーンが画像トークンと言語指示を処理し、高レベルのアクショントークンを生成します。ここでタスク分解と多段階推論が行われます。

システム1 (Diffusion Transformer: DiT): 32層のDiTがVLMの出力とロボットの現在状態を受け取り、それらを精密なモーターコマンドへとリアルタイムでデノイジングします。

入力: RGB画像フレーム(任意解像度)+ 言語指示 + ロボットの固有受容状態(関節位置、速度、エンドエフェクタ (EEF) 姿勢)

出力: ロボットの自由度 (DoF) にマッピングされた連続値のアクションベクトル

Unitree G1、Bimanual Manipulator YAM、AGIBot Genie 1 を用いた移動マニピュレーション、卓上マニピュレーション、巧緻性を要する両手タスクにおいて検証済み。

人間のエゴセントリックビデオデータによる学習

GR00T N1.7の中核をなす研究は「EgoScale」です — 製造、小売、医療、家庭環境など20以上のタスクカテゴリにわたる合計20,854時間の人間のエゴセントリックビデオを用いた事前学習を行いました。これは、N1.6の学習に用いられた数千時間のロボット遠隔操作データから大幅に拡張したものです。

基本的な考え方:人間とロボットは類似した身体構造(両手、一人称視点、操作対象となる物体が存在する世界)を共有しています。センサーを装着した人間のビデオ(エゴカメラ、手首カメラ、手のトラッキングデータ)で学習することで、あらゆる動作を最初に物理ロボットで実演することなく、モデルに豊富なマニピュレーションの事前知識を与えることができます。これは、遠隔操作がスケールできる範囲を超えた事前学習への道筋を示します。

この研究による主な発見:私たちはロボットの巧緻性に関する世界初のスケーリング則を発見しました。より多くの人間のエゴセントリックデータは、巧緻性マニピュレーション能力を予測可能かつ一貫して向上させます — 1,000時間から20,000時間にデータを増やすことで、平均タスク完了率が2倍以上になりました。このスケーリング則は巧緻性マニピュレーション能力に直接反映され、22自由度の手による、接触を伴う複雑なタスクの実行を可能にします。これは、従来の汎用ロボットモデルが苦手としてきた領域です。

推論とデプロイメント

ご利用の身体構造(エンボディメント)向けにポリシーサーバーをインストールし、起動します:

git clone --recurse-submodules https://github.com/NVIDIA/Isaac-GR00T cd Isaac-GR00T bash scripts/deployment/dgpu/install_deps.sh source .venv/bin/activate

uv run python gr00t/eval/run_gr00t_server.py \ --embodiment-tag GR1 \ --model-path nvidia/GR00T-N1.7

その後、環境ループからクエリを実行します:

from gr00t.policy.server_client import PolicyClient policy = PolicyClient(host="localhost", port=5555) obs, info = env.reset() action, info = policy.get_action(obs) obs, reward, done, truncated, info = env.step(action)

4デノイジングステップ、単一カメラビューでの推論性能はこちらでご確認いただけます。

GR00T N1.7は商用ライセンスのもとで提供され、NVIDIA Ampere、Hopper、Lovelace、Blackwell、Jetson プラットフォームでサポートされています。

ご自身のロボットでのファインチューニング

N1.7は、LeRobotデータセットフォーマットを使用した、カスタムエンボディメントでのファインチューニングをサポートします。事前登録済みのエンボディメントには UNITREE_G1 が含まれます。

CUDA_VISIBLE_DEVICES=0 uv run python gr00t/experiment/launch_finetune.py \ --base-model-path nvidia/GR00T-N1.7 \ --dataset-path <YOUR_DATASET_PATH> \ --embodiment-tag <YOUR_EMBODIMENT> \ --modality-config-path <YOUR_MODALITY_CONFIG> \ --num-gpus 1 \ --output-dir <OUTPUT_PATH> \ --max-steps 2000 \ --global-batch-size 32

N1.6からアップグレードする場合:ドロップイン交換が可能です。--model-path を以下のように指定するだけです。

nvidia/GR00T-N1.7

📦 モデル: huggingface.co/nvidia/GR00T-N1.7

💻 コード & ドキュメント: github.com/NVIDIA/Isaac-GR00T

🌐 開発者ポータル: developer.nvidia.com/isaac/gr0ot

GR00T N1.7を使って何かを作成された方は、ぜひお知らせください。

原文を表示

Back to Articles NVIDIA Isaac GR00T N1.7: Open Reasoning VLA Model for Humanoid Robots

Upvote - Edith Llontop ellontop Follow nvidia Kalyan Vadrevu kalyanvadrevu Follow nvidia We are releasing NVIDIA Isaac GR00T N1.7 (Early Access) — an open-source, commercially licensed Vision-Language-Action model for humanoid robots, built on a simple premise: human data is the most scalable source of robot intelligence.

🤖 GR00T N1.7 — open-source, commercially licensed humanoid foundation model, available now on Hugging Face and GitHub

🏭 Factory-floor ready — commercial licensing enables production deployments today, across material handling, packaging, and inspection

🧠 Reasoning built for multi-step tasks — task and subtask-level reasoning improve reliability on complex workflows

🖐 Expanded dexterous manipulation — finger-level control enables contact-rich tasks like small parts assembly and handling fragile components

🔬 First-ever dexterity scaling law — trained on 20,000+ hours of human egocentric video, more human data directly and predictably improves robot dexterity — without mass teleoperation

🚀 GitHub | Hugging Face | Supports LeRobot dataset format

What is GR00T N1.7?

GR00T N1.7 is a 3B-parameter Vision-Language-Action (VLA) model that maps visual observations and natural language instructions to continuous robot actions. It uses an Action Cascade architecture — a dual-system design that separates high-level reasoning from low-level motor control:

System 2 (Vision-Language Model): A Cosmos-Reason2-2B backbone processes image tokens and language instructions to produce high-level action tokens. This is where task decomposition and multi-step reasoning happen.

System 1 (Diffusion Transformer): A 32-layer DiT takes the VLM's output and live robot state, then denoises them into precise motor commands in real time.

Inputs: RGB image frames (any resolution) + language instruction + robot proprioceptive state (joint positions, velocities, EEF poses)

Outputs: Continuous-value action vectors mapped to the robot's degrees of freedom

Validated across loco-manipulation, tabletop manipulation, and dexterous bimanual tasks on Unitree G1, Bimanual Manipulator YAM, and AGIBot Genie 1.

Training on Human EgoCentric Video Data

The central research that has been used for GR00T N1.7 is EgoScale — pre-training on 20,854 hours of human egocentric video spanning 20+ task categories, from manufacturing and retail to healthcare and home environments. This is a significant step up from the few thousand hours of robot teleoperation data used to train N1.6.

The intuition: humans and robots share similar embodiments — two hands, a first-person viewpoint, a world full of objects to manipulate. Training on sensorized human video (ego cameras, wrist cameras, hand tracking) gives the model rich manipulation priors without requiring every behavior to be demonstrated on a physical robot first. It moves pre-training beyond what teleoperation can scale to.

The key finding from this work: we discovered the first-ever scaling law for robot dexterity. More human egocentric data produces predictable, consistent improvements in dexterous manipulation capability — going from 1k to 20k hours more than doubles average task completion. This scaling law translates directly into dexterous manipulation capability — enabling 22 DoF hands to perform contact-rich tasks that generalist robot models have historically struggled to achieve.

Inference & Deployment

Install and launch a policy server against your embodiment:

git clone --recurse-submodules https://github.com/NVIDIA/Isaac-GR00T cd Isaac-GR00T bash scripts/deployment/dgpu/install_deps.sh source .venv/bin/activate

uv run python gr00t/eval/run_gr00t_server.py \ --embodiment-tag GR1 \ --model-path nvidia/GR00T-N1.7

Then query it from your environment loop:

from gr00t.policy.server_client import PolicyClient policy = PolicyClient(host="localhost", port=5555) obs, info = env.reset() action, info = policy.get_action(obs) obs, reward, done, truncated, info = env.step(action)

Inference performance at 4 denoising steps, single camera view can be found here.

GR00T N1.7 is commercially licensed and supported on NVIDIA Ampere, Hopper, Lovelace, Blackwell, and Jetson platforms.

Fine-Tuning on Your Robot

N1.7 supports fine-tuning on custom embodiments using the LeRobot dataset format. Pre-registered embodiments include UNITREE_G1

CUDA_VISIBLE_DEVICES=0 uv run python gr00t/experiment/launch_finetune.py \ --base-model-path nvidia/GR00T-N1.7 \ --dataset-path <YOUR_DATASET_PATH> \ --embodiment-tag <YOUR_EMBODIMENT> \ --modality-config-path <YOUR_MODALITY_CONFIG> \ --num-gpus 1 \ --output-dir <OUTPUT_PATH> \ --max-steps 2000 \ --global-batch-size 32

Upgrading from N1.6? It's a drop-in swap — point --model-path

nvidia/GR00T-N1.7

📦 Model: huggingface.co/nvidia/GR00T-N1.7

💻 Code & docs: github.com/NVIDIA/Isaac-GR00T

🌐 Developer portal: developer.nvidia.com/isaac/gr0ot

If you build something with GR00T N1.7, we'd love to hear from you.

この記事をシェア

関連記事

Hugging Face Blog2026年6月5日 03:57

Nemotron 3.5 コンテンツセーフティ:グローバル企業向けカスタマイズ可能なマルチモーダル安全性

Hugging Face は、Nemotron 3.5 のコンテンツセーフティ機能を発表し、グローバル企業の AI 利用に向けたカスタマイズ可能なマルチモーダル安全性を提供する。

Hugging Face Blog2026年6月4日 21:59

あなたの言語・ドメイン、またはアクセント向けに Nemotron 3.5 ASR をファインチューニングする方法

Hugging Face は、Nemotron 3.5 ASR モデルを特定の言語や業界ドメイン、話者のアクセントに合わせてカスタマイズするファインチューニングの手順を解説した。

Hugging Face Blog2026年6月4日 21:24

EVA-Bench Data 2.0:3 つのドメイン、121 のツール、213 のシナリオ

Hugging Face が公開した評価ベンチマーク「EVA-Bench Data 2.0」は、3 つのドメインにわたる 121 のツールと 213 のシナリオを含むデータセットであり、AI モデルの実用性を多角的に評価する基準を提供します。

ニュース一覧に戻る元記事を読む