Stability AI·2025年5月21日 00:00·約4分で読める

Stable Video 4D 2.0：単一動画からの高忠実度新視点および4D生成の新アップグレード

#Vision #3D Generation #Video Diffusion #Stable Video Diffusion #Open Source

TL;DR

Stability AI は、単一動画から高品質な 4D アセットを生成する「Stable Video 4D 2.0」を発表し、商用利用も可能となる重要なアップデートを行った。

AI深層分析2026年5月3日 02:07

重要/ 5段階

深度40%

キーポイント

SOTA を達成した 4D 生成性能

LPIPS や FVD-V など主要ベンチマークで首位を記録し、既存モデル（DreamGaussian4D, L4GM）を上回る鮮明さと一貫性を達成。

複雑な事前処理が不要に

多視点参照画像やマルチカメラセットアップを必要とせず、単一の中心対象動画から直接、一貫した多視点動画を生成可能になった。

設計アーキテクチャの刷新

3D 空間特徴と時間特徴を融合させる「3D アテンション」を採用し、事前処理なしで時空間的一貫性を向上させた。

商用利用への道筋

Stability AI コミュニティライセンスの下で商用・非商用の両方で利用可能となり、ゲームや映画制作などのプロ向けワークフローへの導入が容易に。

性能向上と評価

SV4D 2.0 は Diffusion^2、SV3D、および以前の SV4D を上回り、多視点合成において FVD-V（多視点一貫性）と FVD-F（時間的整合性）が大幅に改善されています。

商用利用の許可

Stable Video 4D 2.0 は、制限付きライセンスではなく、Stability AI のコミュニティライセンスに基づき商用・非商用を問わず自由に使用可能です。

影響分析・編集コメントを表示

影響分析

このアップデートは、単一動画から 3D/4D アセットを生成する技術のハードルを下げ、プロフェッショナルなコンテンツ制作ワークフローにおける生成 AI の実用化を加速させる画期的な進展です。特に、複雑な事前処理が不要になった点は、ゲーム開発やバーチャルワールド制作現場での導入障壁を劇的に低下させます。

編集コメント

単一動画からの高品質な 4D 生成が実用レベルに達したことは、メタバースやゲーム開発業界にとって待望のニュースです。ただし、動的な動きにおけるアーティファクトの完全排除はまだ課題として残っている点には注意が必要です。

主なポイント:

Stable Video Diffusion 4D (SV4D) を Stable Video 4D 2.0 (SV4D 2.0) にアップグレードし、実世界動画においてより高品質な出力を実現しました。

当社の分析によると、SV4D 2.0 は 4D 生成および新視点合成の両方で最先端の結果を達成しています。

Stable Video 4D 2.0 は、寛容な Stability AI コミュニティライセンスの下で、商用・非商用のいずれにも利用可能になりました。

マルチビュー生成モデルは Hugging Face でダウンロードでき、コードは GitHub で確認できます。また、4D アセット再構築プロセスについては arXiv で読むことができます。

モデルをダウンロード

Stable Video 4D 2.0

Stable Video Diffusion 4D (SV4D) を Stable Video 4D 2.0 (SV4D 2.0) にアップグレードし、実世界動画においてより高品質な出力を実現しました。このマルチビュー動画拡散モデルは、単一のオブジェクト中心の動画から動的な 4D アセットを生成する際に理想的です。これらのアップグレードにより、ゲームキャラクターのスプライトシート生成から、映画やバーチャルワールドのためのアセットサポートまで、プロフェッショナルな制作ワークフロー向けに動的な 4D アセットを作成しやすくなりました。

3D オブジェクトを未見の視点から可視化する際の本質的な曖昧さのため、マルチビュー生成は依然として複雑です。これは特に被写体が動いている場合に困難となります。SV4D 2.0 は、大規模データセットやマルチカメラ設定、前処理に依存することなく、一貫性のある多角度の出力を生成することで、この課題への解決に向けた漸進的な進展を示しています。これは前進の一歩ですが、動的な動きにおいては依然として偶発的なアーティファクト（ノイズ）が発生する可能性があります。

何が変わったか

SV4D 2.0 には複数のアップグレードが施されました。具体的には以下の通りです：

より鮮明で一貫性のある 4D 出力：モデルは段階的にトレーニングされ、まず静止した 3D アセットから始め、その後動きを追加することで、より明確で一貫性のある 4D 結果を実現しました。

参照ビュー不要：単一の動画から直接動作するため、マルチビューの参照画像を必要としません。

再設計されたネットワークアーキテクチャ：3D スパテシャル（空間）と時間的特徴を融合させるメカニズムである 3D アテンション（注意機構）を活用し、参照ビューに依存することなく時空間的一貫性を向上させました。

実世界における汎化性能の向上：実世界の動画においてより一貫して動作します。合成データでトレーニングされていますが、事前学習済みビデオモデルから得た世界知識を保持しています。

研究とベンチマーク

分析によると、SV4D 2.0 は 4D 生成において最先端の結果を達成しています。LPIPS（画像忠実度）、FVD-V（多視点一貫性）、FVD-F（時間的整合性）、および FV4D（4D 一貫性）という主要なベンチマークすべてで首位を獲得しました。DreamGaussian4D、L4GM、SV4D と比較して、このバージョンはよりシャープで一貫性の高い 4D 出力を生成します。

分析によると、SV4D 2.0 は Novel-view synthesis（新規視点合成）においても Diffusion^2、SV3D、SV4D を上回る性能を示します。このモデルは多視点一貫性（FVD-V）と時間的整合性（FVD-F）を大幅に改善し、視点の変化や時間の経過に関わらず高品質な出力を維持しています。モデルの技術的な進展の詳細については、研究論文をご覧ください。

Getting started

Stable Video 4D 2.0 は、寛容な Stability AI コミュニティライセンスの下で、商用・非商用の両方の利用が可能になりました。

マルチビュー生成モデルは Hugging Face でダウンロードでき、コードは GitHub で確認できます。また、arXiv では 4D アセット再構築のプロセスについて詳しく読むことができます。

当社の進捗を最新の状態に保つには、X、LinkedIn、Instagram でフォローするか、Discord コミュニティに参加してください。

原文を表示

Key Takeaways:

We’ve upgraded Stable Video Diffusion 4D (SV4D) to Stable Video 4D 2.0 (SV4D 2.0), delivering higher-quality outputs on real-world video.

Our analysis shows that SV4D 2.0 achieves state-of-the-art results in both 4D generations and novel-view synthesis.

Stable Video 4D 2.0 is now available for both commercial and non-commercial use under the permissive Stability AI Community License.

You can download the multi-view generation models on Hugging Face, find the code on GitHub, and read about the 4D asset reconstruction process on arXiv.

Download model

Stable Video 4D 2.0

We’ve upgraded Stable Video Diffusion 4D (SV4D) to Stable Video 4D 2.0 (SV4D 2.0), delivering higher-quality outputs on real-world video. This multi-view video diffusion model is ideal for dynamic 4D asset generation from a single object-centric video. These upgrades make it easier to create dynamic 4D assets for professional production workflows, from generating sprite sheets for in-game characters, to supporting assets for film and virtual worlds.

Multi-view generation remains complex due to the inherent ambiguity of visualizing 3D objects from unseen views. This is especially difficult when subjects are in motion. SV4D 2.0 makes incremental progress toward addressing this challenge by producing consistent, multi-angle outputs without relying on large datasets, multi-camera setups, or preprocessing. While this represents a step forward, occasional artifacts may still appear with dynamic motion.

What’s new

We’ve made multiple upgrades to SV4D 2.0, including:

Sharper and Coherent 4D Outputs: The model was trained in phases, starting with static 3D assets and then adding motion, resulting in clearer and more consistent 4D results.

No Reference Views Required: Works directly from a single video, eliminating the need for multi-view reference images.

Redesigned Network Architecture: Utilizes 3D attention, a mechanism that fuses 3D spatial and temporal features, improving spatio-temporal consistency without relying on reference views.

Improved Real-World Generalization: Performs more consistently on real-world videos. While trained on synthetic data, the model retains world knowledge from pre-trained video models.

Research and benchmarking

Our analysis shows that SV4D 2.0 achieves state-of-the-art results in 4D generation. It ranks first across all major benchmarks: LPIPS (Image fidelity), FVD-V (Multi-view consistency), FVD-F (Temporal coherence), and FV4D (4D consistency). Compared to DreamGaussian4D, L4GM, and SV4D, this version generates sharper and more consistent 4D outputs.

image

Our analysis also shows that SV4D 2.0 outperforms Diffusion^2, SV3D, and SV4D on novel-view synthesis.The model significantly improves multi-view consistency (FVD-V) and temporal coherence (FVD-F), maintaining high-quality outputs across both changing viewpoints and time. You can read more about the technical advancements of the model in the research paper.

image

Getting started

Stable Video 4D 2.0 is now available for both commercial and non-commercial use under the permissive Stability AI Community License.

You can download the multi-view generation models on Hugging Face, find the code on GitHub, and read about the 4D asset reconstruction process on arXiv.

To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.

この記事をシェア

Hugging Face Blog★42026年6月22日 22:18

Hugging Face に PP-OCRv6 を公開：150 万パラメータから 3450 万パラメータへ拡張した 50 カ国語対応 OCR

Hugging Face が、PP-OCRv6 モデルを公開しました。このモデルは、パラメータ数を 150 万から 3450 万に増やすことで、50 の言語に対応する高精度な OCR（光学文字認識）機能を実現しています。

NVIDIA Developer Blog★42026年6月25日 01:30

物理的 AI アプリケーション向け NVIDIA GPU における BEV ポーリングの高速化

NVIDIA は、物理的 AI アプリケーションにおいて BEV（Bird's Eye View）ポーリング処理を NVIDIA GPU で加速する手法を発表した。これにより、自動運転やロボティクスなどのリアルタイム処理性能が向上する。

AI News★42026年6月22日 19:00

ロレアル、ChatGPTにメイベルのバーチャル試着機能を導入

ロレアルはオープンAIと提携し、2026年のVivaTechで発表された通り、メイベルニューヨークのバーチャルメイクアップ試着機能をChatGPTに統合した。この協力は消費者向けショッピングツールや広告パイロット、研究開発など多岐にわたる領域をカバーする。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

Stability AI·2025年5月21日 00:00·約4分で読める

Stable Video 4D 2.0：単一動画からの高忠実度新視点および4D生成の新アップグレード

#Vision #3D Generation #Video Diffusion #Stable Video Diffusion #Open Source

TL;DR

Stability AI は、単一動画から高品質な 4D アセットを生成する「Stable Video 4D 2.0」を発表し、商用利用も可能となる重要なアップデートを行った。

AI深層分析2026年5月3日 02:07

重要/ 5段階

深度40%

キーポイント

SOTA を達成した 4D 生成性能

LPIPS や FVD-V など主要ベンチマークで首位を記録し、既存モデル（DreamGaussian4D, L4GM）を上回る鮮明さと一貫性を達成。

複雑な事前処理が不要に

多視点参照画像やマルチカメラセットアップを必要とせず、単一の中心対象動画から直接、一貫した多視点動画を生成可能になった。

設計アーキテクチャの刷新

3D 空間特徴と時間特徴を融合させる「3D アテンション」を採用し、事前処理なしで時空間的一貫性を向上させた。

商用利用への道筋

Stability AI コミュニティライセンスの下で商用・非商用の両方で利用可能となり、ゲームや映画制作などのプロ向けワークフローへの導入が容易に。

性能向上と評価

商用利用の許可

Stable Video 4D 2.0 は、制限付きライセンスではなく、Stability AI のコミュニティライセンスに基づき商用・非商用を問わず自由に使用可能です。

影響分析・編集コメントを表示

影響分析

編集コメント

主なポイント:

Stable Video Diffusion 4D (SV4D) を Stable Video 4D 2.0 (SV4D 2.0) にアップグレードし、実世界動画においてより高品質な出力を実現しました。

当社の分析によると、SV4D 2.0 は 4D 生成および新視点合成の両方で最先端の結果を達成しています。

Stable Video 4D 2.0 は、寛容な Stability AI コミュニティライセンスの下で、商用・非商用のいずれにも利用可能になりました。

モデルをダウンロード

Stable Video 4D 2.0

何が変わったか

SV4D 2.0 には複数のアップグレードが施されました。具体的には以下の通りです：

参照ビュー不要：単一の動画から直接動作するため、マルチビューの参照画像を必要としません。

研究とベンチマーク

Getting started

Stable Video 4D 2.0 は、寛容な Stability AI コミュニティライセンスの下で、商用・非商用の両方の利用が可能になりました。

当社の進捗を最新の状態に保つには、X、LinkedIn、Instagram でフォローするか、Discord コミュニティに参加してください。

原文を表示

Key Takeaways:

We’ve upgraded Stable Video Diffusion 4D (SV4D) to Stable Video 4D 2.0 (SV4D 2.0), delivering higher-quality outputs on real-world video.

Our analysis shows that SV4D 2.0 achieves state-of-the-art results in both 4D generations and novel-view synthesis.

Stable Video 4D 2.0 is now available for both commercial and non-commercial use under the permissive Stability AI Community License.

You can download the multi-view generation models on Hugging Face, find the code on GitHub, and read about the 4D asset reconstruction process on arXiv.

Download model

Stable Video 4D 2.0

What’s new

We’ve made multiple upgrades to SV4D 2.0, including:

Sharper and Coherent 4D Outputs: The model was trained in phases, starting with static 3D assets and then adding motion, resulting in clearer and more consistent 4D results.

No Reference Views Required: Works directly from a single video, eliminating the need for multi-view reference images.

Redesigned Network Architecture: Utilizes 3D attention, a mechanism that fuses 3D spatial and temporal features, improving spatio-temporal consistency without relying on reference views.

Improved Real-World Generalization: Performs more consistently on real-world videos. While trained on synthetic data, the model retains world knowledge from pre-trained video models.

Research and benchmarking

image

Getting started

Stable Video 4D 2.0 is now available for both commercial and non-commercial use under the permissive Stability AI Community License.

You can download the multi-view generation models on Hugging Face, find the code on GitHub, and read about the 4D asset reconstruction process on arXiv.

To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.

この記事をシェア

Hugging Face Blog★42026年6月22日 22:18

Hugging Face に PP-OCRv6 を公開：150 万パラメータから 3450 万パラメータへ拡張した 50 カ国語対応 OCR

NVIDIA Developer Blog★42026年6月25日 01:30

物理的 AI アプリケーション向け NVIDIA GPU における BEV ポーリングの高速化

AI News★42026年6月22日 19:00

ロレアル、ChatGPTにメイベルのバーチャル試着機能を導入

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む