Apple Machine Learning·2026年4月24日 09:00·約1分で読める

効率的な運動学生成のための長期運動埋め込みの学習

#動画生成 #モーション埋め込み #キネマティクス #インタラクティブ制御 #アップル

TL;DR

アップル機械学習チームは、動画合成の計算コスト課題を解決し、大規模軌道データから学習した長期モーション埋め込みを直接操作することで、テキストや空間指示に基づく効率的な長尺運動生成を実現する手法を提案した。

AI深層分析2026年4月25日 04:14

重要/ 5段階

深度40%

キーポイント

動画合成の非効率性克服

現代の動画モデルはシーン動態を理解するが、完全な動画合成による多様な未来探索は計算コストが高すぎるため、代替手法を模索した。

長期モーション埋め込みの活用

トラクターモデルから得られた大規模軌道データから学習した長期モーション埋め込みを直接操作し、計算効率を桁違いに向上させた。

テキスト・空間制御による生成

テキストプロンプトや空間的なポインティング操作を目標として、現実的で長尺なモーションを効率的に生成可能にした。

影響分析・編集コメントを表示

影響分析

本手法は、動画生成AIの計算コスト課題を根本から解決する可能性を秘めており、アニメーション制作やロボシミュレーション分野への応用が期待される。アップルの研究は、生成AIの「効率化」から「実用化」への転換点を示唆する重要なマイルストーンとなる。

編集コメント

動画生成の計算ボトルネックを埋め込み空間で解決する発想は、実用化への重要な一歩である。今後は物理法則との整合性やリアルタイム制御への拡張が課題となるだろう。

運動の理解と予測は、視覚知能の基本的な構成要素です。現代のビデオモデルはシーンダイナミクスの強力な理解を示していますが、完全なビデオ合成を通じて複数の可能な未来を探索することは、実用的でないほど非効率的です。私たちは、トラッカーモデルから得られた大規模な軌道データから学習された長期運動埋め込み（long-term motion embedding）に対して直接操作することで、シーンダイナミクスを桁違いにより効率的にモデル化します。これにより、テキストプロンプトや空間的なポーク（spatial pokes）で指定された目標を満たす、長く現実的な運動を効率的に生成することが可能になります。これを実現するために、私たちは…

原文を表示

Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we…

この記事をシェア

The Decoder★42026年4月14日 02:31

新AIモデル、1枚の写真から45分間のリップシンク動画をリアルタイム生成

LPM 1.0が、1枚の静止画からリアルタイムでリップシンク・表情・感情反応を含む動画を生成する技術を開発した。現在は研究段階である。

通义大模型★42026年4月3日 15:14

Wan2.7-Videoが創作の自由をもたらす

通義実験室は、AI動画創作モデル「Wan2.7-Video」を発表した。同モデルは、生成だけでなく編集・復刻・再構築・駆動・継続など創作全工程をカバーし、より制御性の高い動画制作を可能にする。

Understanding AI★32026年3月26日 04:00

OpenAI、AI動画アプリ「Sora」のサービス終了を発表

OpenAIは、自社製AI動画アプリ「Sora」のサービスを終了すると発表した。筆者とカイ・フーは2026年の予測で意見が分かれており、筆者はディズニーとの提携によりSoraが主導権を握ると考えていたが、カイはユーザー基盤の拡大に長けたMetaの「Vibes」プラットフォームが勝つと予測していた。

ニュース一覧に戻る元記事を読む