Adobe Research、状態空間モデルを用いたビデオワールドモデルの長期記憶の実現
スタンフォード大学、プリンストン大学、Adobe Research の共同研究により、計算コストを抑えつつ長期記憶を実現する「State-Space Models」を基盤とした新しい動画世界モデルが提案された。
キーポイント
長期記憶のボトルネック解消
従来のアテンション機構はシーケンス長に対して二次関数的な計算コストがかかるため、長時間の文脈を保持することが困難だったが、本手法では State-Space Models (SSM) を採用することでこの課題を解決する。
ブロック単位での SSM スキャン
動画シーケンスを管理可能なブロックに分割し、各ブロック間で圧縮された「状態」情報を伝達させることで、計算効率を維持しながら長期の時間的記憶を拡張する新しいアーキテクチャを採用している。
局所アテンションとの併用
ブロック分割による空間的な一貫性の低下を補うため、ブロック内およびブロック間での連続したフレーム間に強い関係性を保つ「Dense Local Attention」を組み合わせて、詳細な忠実度とリアルな動画生成を実現する。
Diffusion Forcing と Frame Local Attention の導入
モデルの長期一貫性を高めるために、最小限の初期コンテキストから生成を促す「Diffusion Forcing」と、計算負荷を削減しつつ広範な受容野を実現する「Frame Local Attention」の 2 つのトレーニング戦略を採用しています。
長期記憶能力における顕著な性能向上
Memory Maze や Minecraft といった長期的推論・空間検索タスクにおいて、本手法は因果アテンションや既存の Mamba2 ベースモデルを大幅に上回り、遠い過去の情報を正確に保持・利用する能力を実証しました。
影響分析・編集コメントを表示
影響分析
この技術は、動画生成モデルが単なる未来予測から、長期的な文脈を理解し複雑なタスクを遂行できる「真の知能」へと進化するための重要な転換点となります。特に計算リソースの制約下で長期依存関係を学習できるため、自律型エージェントやシミュレーション環境における実用性が大幅に向上すると期待されます。
編集コメント
計算効率と長期記憶の両立という、動画生成分野の長年の課題に対する斬新なアプローチであり、次世代 AI エージェントの実現に向けた重要な一歩です。
アクションを条件として未来のフレームを予測するビデオ・ワールドモデルは、人工知能において極めて大きな可能性を秘めており、エージェントが動的な環境で計画を立てたり推論を行ったりすることを可能にします。特にビデオ拡散モデルにおける最近の進展は、現実的な未来シーケンスを生成する能力において印象的な成果を示しています。しかし、依然として重大なボトルネックが存在します。それは長期記憶の維持です。従来のアテンション層を用いて拡張されたシーケンスを処理することに伴う高い計算コストのため、現在のモデルは過去の遠い時点での出来事や状態を記憶することが困難です。これにより、シーンに対する持続的な理解を必要とする複雑なタスクを実行する能力が制限されています。
スタンフォード大学、プリンストン大学、および Adobe Research の研究者らによる新しい論文「Long-Context State-Space Video World Models」は、この課題に対する革新的な解決策を提案しています。彼らは、計算効率性を犠牲にすることなく時間的な記憶を拡張するために、State-Space Models(状態空間モデル)を活用する新たなアーキテクチャを導入しました。
中核となる問題は、アテンション機構の計算複雑度がシーケンス長に対して二次関数的である点にあります。ビデオのコンテキストが拡大すると、アテンション層に必要なリソースが爆発的に増加し、長期記憶は実世界での応用において現実的なものではなくなります。つまり、一定数のフレームを経過した後、モデルは本質的に以前の出来事を「忘却」してしまい、広範囲にわたる整合性や長時間にわたる推論を要求するタスクにおけるパフォーマンスが阻害されます。
著者たちの核心的な洞察は、因果的なシーケンスモデリングにおける状態空間モデル(SSM)の固有の強みを活用することにあります。非因果的なビジョンタスク向けに SSM を後付けした以前の試みとは異なり、この研究ではシーケンス処理の効率性におけるその利点を完全に活用しています。
提案された長文脈状態空間動画世界モデル(LSSVWM)は、いくつかの重要な設計選択を取り入れています:
ブロック単位 SSM スキャン方式:これは彼らの設計の中核です。単一の SSM スキャンで動画シーケンス全体を処理するのではなく、ブロック単位のスキャンを採用しています。これにより、ブロック内の空間的一貫性(spatial consistency)をある程度犠牲にする代わりに、時間的な記憶を大幅に拡張するという戦略的なトレードオフを実現します。長いシーケンスを管理可能なブロックに分解することで、ブロック間を通じて情報を運ぶ圧縮された「状態」を維持し、モデルの記憶範囲を実質的に延長しています。
密な局所アテンション:ブロック単位 SSM スキャンによって導入される可能性のある空間的整合性の欠損を補うため、モデルは密な局所アテンション(dense local attention)を組み込んでいます。これにより、ブロック内およびブロック間における連続するフレーム間の強い関係性が保たれ、現実的な動画生成に必要な微細な詳細と一貫性が維持されます。このグローバル(SSM)とローカル(アテンション)処理の二重アプローチにより、長期記憶と局所的忠実度の両方を達成することが可能になります。

本論文では、長文脈性能をさらに向上させるために、2 つの重要なトレーニング戦略も紹介されています。
Diffusion Forcing:この手法は、モデルが入力の一部(プレフィックス)を条件としてフレームを生成することを促し、結果的に長い時間範囲にわたる一貫性を維持する学習を強制的に行わせます。時折プレフィックスのサンプリングを行わず、すべてのトークンをノイズ状態のまま保持することで、トレーニングは Diffusion Forcing と同等のものとなり、これはプレフィックス長がゼロという特殊なケースとしての長文脈トレーニングとして強調されています。これにより、モデルは最小限の初期コンテキストからでも一貫したシーケンスを生成できるようになります。
Frame Local Attention:より高速なトレーニングとサンプリングを実現するために、著者らは「フレームローカルアテンション(frame local attention)」メカニズムを実装しました。これは FlexAttention を活用することで、完全な因果マスクと比較して大幅な速度向上を実現します。フレームをチャンク(例:5 つのフレームからなるチャンク、フレームウィンドウサイズ 10)にグループ化し、同一チャンク内のフレームは双方向性を維持しつつ、前のチャンクのフレームにもアテンションを向けることができます。これにより、有効な受容野を確保しながら計算負荷を最適化します。

研究者らは、空間的な検索および推論タスクを通じて長期的な記憶能力をテストするために特別に設計された Memory Maze や Minecraft といった困難なデータセットを用いて、LSSVWM の評価を行いました。
実験により、本手法が長距離の記憶を保持する点において既存手法を大幅に上回ることが示されました。補足図(S1, S2, S3 など)に示される定性的な結果からは、因果的アテンションのみ、あるいはフレームローカルアテンションを持たないMamba2 などのモデルと比較して、LSSVWM がより一貫性があり正確なシーケンスを長時間にわたって生成できることがわかります。例えば、迷路データセットにおける推論タスクでは、本モデルは長い時間範囲においてより高い一貫性と精度を維持します。同様に、検索タスクにおいても、LSSVWM は遠く過去のフレームからの情報を想起し活用する能力が向上していることを示しています。重要なのは、これらの改善が実用的な推論速度を維持しながら達成されている点であり、これによりモデルは対話型アプリケーションに適したものとなっています。

論文「Long-Context State-Space Video World Models」は arXiv に掲載されています。
本記事「Adobe Research Unlocking Long-Term Memory in Video World Models with State-Space Models」は、Synced への投稿として初めて公開されました。
原文を表示
Video world models, which predict future frames conditioned on actions, hold immense promise for artificial intelligence, enabling agents to plan and reason in dynamic environments. Recent advancements, particularly with video diffusion models, have shown impressive capabilities in generating realistic future sequences. However, a significant bottleneck remains: maintaining long-term memory. Current models struggle to remember events and states from far in the past due to the high computational cost associated with processing extended sequences using traditional attention layers. This limits their ability to perform complex tasks requiring sustained understanding of a scene.
A new paper, “Long-Context State-Space Video World Models” by researchers from Stanford University, Princeton University, and Adobe Research, proposes an innovative solution to this challenge. They introduce a novel architecture that leverages State-Space Models (SSMs) to extend temporal memory without sacrificing computational efficiency.
The core problem lies in the quadratic computational complexity of attention mechanisms with respect to sequence length. As the video context grows, the resources required for attention layers explode, making long-term memory impractical for real-world applications. This means that after a certain number of frames, the model effectively “forgets” earlier events, hindering its performance on tasks that demand long-range coherence or reasoning over extended periods.
The authors’ key insight is to leverage the inherent strengths of State-Space Models (SSMs) for causal sequence modeling. Unlike previous attempts that retrofitted SSMs for non-causal vision tasks, this work fully exploits their advantages in processing sequences efficiently.
The proposed Long-Context State-Space Video World Model (LSSVWM) incorporates several crucial design choices:
Block-wise SSM Scanning Scheme: This is central to their design. Instead of processing the entire video sequence with a single SSM scan, they employ a block-wise scheme. This strategically trades off some spatial consistency (within a block) for significantly extended temporal memory. By breaking down the long sequence into manageable blocks, they can maintain a compressed “state” that carries information across blocks, effectively extending the model’s memory horizon.
Dense Local Attention: To compensate for the potential loss of spatial coherence introduced by the block-wise SSM scanning, the model incorporates dense local attention. This ensures that consecutive frames within and across blocks maintain strong relationships, preserving the fine-grained details and consistency necessary for realistic video generation. This dual approach of global (SSM) and local (attention) processing allows them to achieve both long-term memory and local fidelity.

The paper also introduces two key training strategies to further improve long-context performance:
Diffusion Forcing: This technique encourages the model to generate frames conditioned on a prefix of the input, effectively forcing it to learn to maintain consistency over longer durations. By sometimes not sampling a prefix and keeping all tokens noised, the training becomes equivalent to diffusion forcing, which is highlighted as a special case of long-context training where the prefix length is zero. This pushes the model to generate coherent sequences even from minimal initial context.
Frame Local Attention: For faster training and sampling, the authors implemented a “frame local attention” mechanism. This utilizes FlexAttention to achieve significant speedups compared to a fully causal mask. By grouping frames into chunks (e.g., chunks of 5 with a frame window size of 10), frames within a chunk maintain bidirectionality while also attending to frames in the previous chunk. This allows for an effective receptive field while optimizing computational load.

The researchers evaluated their LSSVWM on challenging datasets, including Memory Maze and Minecraft, which are specifically designed to test long-term memory capabilities through spatial retrieval and reasoning tasks.
The experiments demonstrate that their approach substantially surpasses baselines in preserving long-range memory. Qualitative results, as shown in supplementary figures (e.g., S1, S2, S3), illustrate that LSSVWM can generate more coherent and accurate sequences over extended periods compared to models relying solely on causal attention or even Mamba2 without frame local attention. For instance, on reasoning tasks for the maze dataset, their model maintains better consistency and accuracy over long horizons. Similarly, for retrieval tasks, LSSVWM shows improved ability to recall and utilize information from distant past frames. Crucially, these improvements are achieved while maintaining practical inference speeds, making the models suitable for interactive applications.

The Paper Long-Context State-Space Video World Models is on arXiv
The post Adobe Research Unlocking Long-Term Memory in Video World Models with State-Space Models first appeared on Synced.
関連記事
動画拡散潜在変数からの三角形スプラット生成(5 分読了)
研究チームが、動画拡散モデルの潜在表現から三角形スプラットを直接生成する手法を発表し、3D 再構築の効率化を実現した。
スナップの AI スペックス:笑えるほど奇妙な体験
404 Media は、チャールズ国王の肖像画を背景に、巨大で重たい Snap Specs を装着した際、デジタル版が実像に重ねられ、ナレーターが蝶に触れるよう指示する奇妙な体験を紹介している。
Amazon SageMaker AI の処理ジョブで ComfyUI ワークフローを実行する方法
AWS は、Amazon SageMaker AI の処理ジョブ上で ComfyUI ワークフローを実行可能であることを発表し、企業が大規模なコンテンツ生成を自動化できる仕組みを提供した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み