Gradient-based Planning for World Models at Longer Horizons｜長期ホライズンにおけるワールドモデルのための勾配ベース計画手法 | AIニュース最前線

![image](https://bair.berkeley.edu/static/blog/grasp/ballnav_demo.gif) ![image](https://bair.berkeley.edu/static/blog/grasp/pusht_zoomout.gif) **GRASP**は、学習されたダイナミクス（learned dynamics）「ワールドモデル」のための新しい勾配ベースのプランナー (gradient-based planner) であり、(1) 軌道を仮想状態 (virtual states) に持ち上げて時間全体で最適化を並列化する、(2) 探索 (exploration) のために状態反復値 (state iterates) に直接確率性を追加する、(3) 高次元ビジョンモデル (high-dimensional vision models) を通じた脆い「状態-入力」勾配を回避しつつ、アクションに明確なシグナルを与えながら勾配の再形成 (reshaping gradients) を行う、という3つの手法により、長期ホライズンの計画 (long-horizon planning) を実用的なものにしている。 大規模な学習済みワールドモデルは、ますます高度な能力を備えつつある。これらは高次元の視覚空間において未来観測の長期シーケンスを予測し、数年前には想像も困難だった方法でタスク間で汎化できる。これらのモデルがスケールするにつれ、それらはもはや特定のタスクに特化した予測機というよりは、汎用シミュレータのように見え始めてきている。 しかし、強力な予測モデルを持つことと、それを制御/学習/計画のために効果的に使用できることは同じではない。実際には、現代のワールドモデルを用いた長期ホライズンの計画は依然として脆いままとなっている：最適化が不適条件 (ill-conditioned) になり、非貪欲な構造 (non-greedy structure) が悪く局所的最小値 (local minima) を生み出し、高次元の潜在空間 (latent spaces) が微妙な失敗モード (failure modes) をもたらす。 このブログ記事では、このプロジェクトの動機となった問題と、それに対処する私たちのアプローチについて述べる。具体的には、現代のワールドモデルを用いた計画がなぜ驚くほど脆くなり得るのか、なぜ長期ホライズンが真のストレステスト (stress test) となるのか、そして勾配ベースの計画をより堅牢にするために私たちが何を変更したのかについて説明する。 ** このブログ記事では、Mike Rabbat, Aditi Krishnapriyan, Yann LeCun, Amir Bar との共同作業について述べる（* は同等の指導教員を示す）。ここで私たちは GRASP を提案する。 ## ワールドモデルとは何か？ 近年、「ワールドモデル」(world model) という用語はかなり多義的になっており、文脈によっては明示的なダイナミクスモデル (explicit dynamics model) を指す場合もあれば、生成モデル (generative model) が依存する何らかの暗黙的かつ信頼性の高い内部状態を指す場合もある（例：LLM がチェスの手を生成する際、盤面の内部表現が存在するかどうか）。以下に、私たちの緩やかな作業定義を示す。 行動 $a_t \in \mathcal{A}$ を取り、状態 $s_t \in \mathcal{S}$（画像、潜在ベクトル、固有受容感覚）を観察すると仮定する。ワールドモデル**は、現在の状態と未来の行動シーケンスが与えられたとき、次に何が起こるかを予測する学習済みモデルである。形式的には、観測された状態のシーケンス $s_{t-h:t}$ と現在の行動 $a_t$ 上の予測分布 (predictive distribution) を定義する： \[P_\theta(s_{t+1} \mid s_{t-h:t},\; a_t)\] これは環境の真の条件付き確率 $P(s_{t+1} \mid s_{t-h:t},\; a_t)$ を近似する。このブログ記事では、簡略化のためマルコフモデル (Markovian model) $P(s_{t+1} \mid s_{t-h:t},\; a_t)$ を仮定する（ここでの結果はより一般的なケースに拡張可能である）。また、モデルが決定論的 (deterministic) な場合、これは状態上の写像に簡約される： \[s_{t+1} = F_\theta(s_t, a_t).\]

長期ホライズンにおけるワールドモデルのための勾配ベース計画手法

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト