NVIDIA、ロボットシミュレーション訓練を拡張するLyra 2.0を発表
Nvidiaの研究者は、単一の写真から大規模で一貫性のある3D環境を生成し、ロボットシミュレーションの訓練に直接利用できるリアルタイム探索可能なシーンを作成するシステムLyra 2.0を発表した。
キーポイント
Lyra 2.0の技術革新
単一の写真から大規模で一貫性のある3D環境を生成するシステムを発表した。生成されたシーンはリアルタイムで探索可能である。
ロボットシミュレーション訓練への応用
生成された3D環境は、ロボットシミュレーションの訓練に直接利用できる。これにより、シミュレーション訓練のスケーリングが可能になる。
Nvidiaの研究開発成果
Nvidiaの研究者によって開発されたこのシステムは、同社のロボティクスおよびAI分野における継続的な取り組みの一環である。
影響分析・編集コメントを表示
影響分析
この技術は、ロボットの訓練に必要な大規模で多様なシミュレーション環境の作成コストと時間を大幅に削減する可能性があり、ロボティクス開発の加速に寄与する。また、現実世界のデータに基づいたより高精度なシミュレーションを実現し、実世界への移行(Sim-to-Real)の課題緩和にもつながる。
編集コメント
単一画像からの高品質3D環境生成と、その生成物をロボット訓練に直接活用するという実用パイプラインの構築は、研究段階を超えた応用への明確な一歩を示している。
Nvidiaの研究者たちは、1枚の写真から大規模で整合性の取れた3D環境を生成するシステム「Lyra 2.0」を発表した。生成されたシーンはリアルタイムで探索可能であり、ロボットのシミュレーション(robot simulation)に直接利用することができる。
既存の3Dシーン生成(3D scene generation)用AIモデルは、長いカメラパスにおいて課題を抱えている。仮想カメラが開始地点から遠ざかるほど、色や構造の歪みが増すのだ。カメラが以前見た場所に戻ると、モデルは環境を最初から作り直すことが多い。Nvidiaの研究者たちはLyra 2.0でこの問題解決を目指している。
このシステムは1枚の写真を入力とし、シーンの仮想ウォークスルーをシミュレートするカメラ制御動画(camera-controlled videos)を生成する。これらの動画はその後、リアルタイムで閲覧できシミュレーション環境(simulation environments)で使用できる3D表現(3D representations)に自動的に変換される。研究論文によると、生成されたシーンは約90メートルにわたる範囲をカバーできるという。
Lyra 2.0が3Dシーン生成(3D scene generation)における最大の2つの課題をどのように解決するか
研究者らによると、現在の動画モデルは2つの根本的な課題で失敗している。第一に、フレームから外れるとすぐに以前見た領域を忘れてしまうことだ。第二に、段階的な動画生成(step-by-step video generation)の過程で小さなエラーが蓄積し、時間とともに大きな歪みとして積み重なることだ。
最初の課題に対処するため、Lyra 2.0は生成されるすべてのフレームに対して3Dジオメトリ(3D geometry)を保存する。カメラが以前訪れた領域へ戻る際、システムは以前のフレームを取得し、その空間情報(spatial information)を参照基準として使用する。動画モデルは実際の画像生成(image generation)を担当し続けるため、保存されたジオメトリのエラーが新しいフレームに直接波及することはない。
ドリフト(drift)を防ぐため、研究者たちはトレーニング中にモデルを意図的に自身の不完全な出力にさらす。これにより、エラーを引き渡すのではなく、品質の劣化(quality degradation)を認識して修正する方法を学習させる。
Lyra 2.0は6つの競合手法を上回る性能を発揮
Nvidiaによると、2つのデータセットでのベンチマークテストにおいて、Lyra 2.0はGEN3C、Yume-1.5、CaMを含む他の6つの手法を、画像品質(image quality)、スタイルの一貫性(style consistency)、カメラ制御(camera control)といったほぼすべての測定基準で上回った。より高速なバリアントのモデルは、同等の品質で約13倍の速度で動画を生成する。
生成された3Dシーンはインタラクティブインターフェースを通じて段階的に探索でき、Nvidia Isaac Simのような物理エンジン(physics engines)にメッシュ(meshes)としてエクスポート可能だ。同社によれば、これにより現実世界の3Dデータ(real-world 3D data)をキャプチャする必要なく、完全に生成された環境でロボットのトレーニングが可能になるという。ただし現時点では、Lyra 2.0は静的シーン(static scenes)のみをサポートしている。
過大評価なしのAIニュース – 人間がキュレーション
THE DECODERに登録して、広告なしでの読書、週刊AIニュースレター(weekly AI newsletter)、年6回の限定「AI Radar」フロンティアレポート、アーカイブへの完全アクセス、コメント欄へのアクセスをお楽しみください。
今すぐ登録する
原文を表示
Nvidia researchers have unveiled Lyra 2.0, a system that generates large, coherent 3D environments from a single photograph. The resulting scenes can be explored in real time and used directly in robot simulations.
Existing AI models for 3D scene generation struggle with long camera paths: the further the virtual camera moves from its starting point, the more colors and structures distort. When the camera returns to a previously seen location, the model often reinvents the environment from scratch. Nvidia researchers aim to solve this problem with Lyra 2.0.
The system takes a single photo and generates camera-controlled videos that simulate a virtual walkthrough of a scene. These videos are then automatically converted into 3D representations that can be viewed in real time and used in simulation environments. According to the research paper, the generated scenes can span roughly 90 meters.
How Lyra 2.0 fixes the two biggest problems in 3D scene generation
Current video models fail at two fundamental challenges, according to the researchers. First, the model forgets previously seen areas as soon as they leave the frame. Second, small errors accumulate during step-by-step video generation, building up into significant distortions over time.
To tackle the first problem, Lyra 2.0 stores the 3D geometry for every generated frame. When the camera moves back toward a previously visited area, the system retrieves the earlier frames and uses their spatial information as a reference. The video model still handles the actual image generation, which means errors in the stored geometry don't bleed directly into new frames.
To prevent drift, the researchers deliberately expose the model to its own flawed outputs during training. This teaches it to recognize and correct quality degradation instead of passing errors along.
Lyra 2.0 outperforms six competing methods
In benchmark tests on two datasets, Lyra 2.0 beats six other methods - including GEN3C, Yume-1.5, and CaM - across nearly all measured criteria like image quality, style consistency, and camera control, according to Nvidia. A faster variant of the model generates videos roughly 13 times quicker at comparable quality.
The generated 3D scenes can be explored step by step through an interactive interface and exported as meshes to physics engines like Nvidia Isaac Sim. This could let robots train in fully generated environments without needing to capture real-world 3D data, the company says. For now, though, Lyra 2.0 only supports static scenes.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
Subscribe now
関連記事
DeepStreamコーディングエージェントを使用したビジョンAIパイプライン構築方法
NVIDIAが、DeepStreamコーディングエージェントを使用してリアルタイムビジョンAIアプリケーションの開発を効率化する方法を紹介した。複雑なデータパイプラインや大量のコードを必要とする課題を解決する技術を提案している。
NVIDIA、チップソフトウェアメーカーと提携しシミュレーションと現実のギャップを縮める
NVIDIAはCadenceとの提携を拡大し、ロボットトレーニングデータの精度向上とエンジニア向けAIサービスの構築を目指す。
AI物理学でクリーンでモジュール式の原子炉設計を加速
NVIDIAは、安全でクリーンな原子炉開発のためにAI物理学を活用し、設計プロセスを加速する取り組みを進めている。