Multi-Agent World Models (3 minute read)｜マルチエージェント・ワールドモデル（3 分で読める） | AIニュース最前線

* **TL;DR:** γ-World は、**Simplex Rotary Agent Encoding** と **Sparse Hub Attention** を通じて独立して制御可能かつ置換対称なエージェントをサポートする生成型マルチエージェント・ワールドモデルであり、リアルタイムの **24 FPS** ロールアウトと 2 人から 4 人のプレイヤーへのゼロショット汎化を実現します。 γ-World は、マルチエージェントの行動から整合性のある未来フレームを対話的に生成しながらも、共有された世界の整合性を維持し、仮想ゲームから実世界環境までスケーリング可能です。 ![image](https://research.nvidia.com/labs/sil/projects/gamma-world/assets/teaser.png) ## ギャラリー ## γ-World 概要 多様なシーンと設定にわたる対話型マルチエージェント・ワールド生成に関する包括的な概要です。 ## 2 エージェント間の相互作用 2 エージェント間の相互作用の定性的結果。各エージェントは独立して制御可能ですが、同じ進化中の世界を共有します。 ![image](https://research.nvidia.com/labs/sil/projects/gamma-world/figures/combined_2agent_v7.png) ## 4 エージェントへの汎化 置換対称単体エージェント符号化の恩恵を受け、γ-World は追加学習なしに 2 プレイヤーから 4 プレイヤーへ一般化します。 ![image](https://research.nvidia.com/labs/sil/projects/gamma-world/figures/4agent_visualization.png) ## リアルワールドロボティクス協調 γ-World は、リアルワールドの複数ロボット協調シナリオへと拡張され、仮想環境を超えた実用的な適用可能性を示しています。 ![image](https://research.nvidia.com/labs/sil/projects/gamma-world/figures/robo_visualization.png) ## 抄録 インタラクティブ動画生成のための世界モデルは、主に単一エージェント設定に焦点を当ててきました。これは、未来の観測が単一の行動ストリーム、ユーザー入力、または制御可能な視点からロールアウトされる設定です。しかし、多くのシミュレーションされた世界は本質的に複数の主体で構成されています：複数のプレイヤー、ロボット、あるいは具身化されたエージェントが、共有され進化する環境内で同時に動作します。このような設定に世界モデルをスケールさせるには、原理的な複数エージェント設計が必要です。エージェントは独立して制御可能であり、置換対称性を保ちつつ、時間と視点の一貫性を維持しながら効率的な推論をサポートする必要があります。 本論文では、インタラクティブシミュレーションのための生成型マルチエージェント世界モデル「γ-World」を提案します。γ-World は、3D RoPE のパラメータフリーな拡張である*Simplex Rotary Agent Encoding*を導入し、回転角度空間における正単体の頂点としてエージェントを表現します。これにより、各エージェントに固有の位相を持たせつつ、すべてのエージェントが置換等価性を保つことが可能となり、学習されたスロットごとのアイデンティティや固定されたエージェント順序を用いずに、スケーラブルなエージェントアイデンティティを実現します。 効率的なクロスエージェント相互作用をサポートするため、さらに*Sparse Hub Attention*を提案します。これは、学習可能なハブトークンがエージェント間の通信を仲介し、エージェント数に対するクロスアテンションのコストを二次から線形に削減する手法です。最後に、双方向マルチエージェント教師を用いてブロック因果的学生モデルを蒸留で指導し、その後の最終因果モデルでは KV キャッシュ（Key-Value Cache）を活用してストリーミング処理を実現します。これにより、**24 FPS**のリアルタイムアクションレスポンスロールアウトが可能となります。 マルチプレイヤー仮想環境における実験結果から、γ-World はスロットベースおよび密結合アテンションのベースラインと比較して、ビデオ忠実度、アクション制御性、およびエージェント間の一貫性を向上させることが示されました。さらに、追加学習なしで2人プレイから4人プレイへの一般化も達成しています。 ## Method ![image](https://research.nvidia.com/labs/sil/projects/gamma-world/figures/multiagent_method.png) **アーキテクチャの概要。** γ-World は、各エージェントの行動ストリームを受け取り、共有されたマルチビューロールアウトを生成します。多数のエージェントへのスケーラビリティを実現する 2 つの重要な設計は以下の通りです： ## シンプレックス回転型エンコーダ 3D RoPE のパラメータ不要な拡張であり、回転角度空間における正シンプレックスの頂点としてエージェントを表現します。各エージェントは固有の位相を受け取りますが、*置換等価性*（permutation-equivalent）が保たれ、学習されたスロットごとのアイデンティティや固定されたエージェント順序の必要性を排除します。 ## 疎なハブアテンション 学習可能なハブトークンがエージェント間の通信を仲介し、エージェント数に対するクロスエージェントアテンションのコストを*二次関数*（quadratic）から*線形*（linear）に削減します。これにより、4 つ以上のエージェントへの効率的なスケーリングが可能になります。 ## 効率性：疎なハブアテンション 疎なハブアテンションはエージェント数に対して線形にスケールするのに対し、密なアテンションは二次関数的にスケールします。 ![image](https://research.nvidia.com/labs/sil/projects/gamma-world/figures/sparse_hub_timing_comparison.png)

マルチエージェント・ワールドモデル（3 分で読める）

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト