Seedance 2.0 正式リリース
字节跳动は、統一マルチモーダル音视频連合生成アーキテクチャを採用し、複雑な運動表現でSOTAを達成し、工業級創作シーンへの対応を強化した次世代ビデオ創作モデル「Seedance 2.0」を正式にリリースした。
キーポイント
統一マルチモーダル音视频連合生成アーキテクチャ
文字、画像、音声、動画の4モダリティ入力をサポートし、最大9枚の画像、3本の動画、3本の音声および自然言語命令を同時に入力可能な統合アーキテクチャを採用した。
複雑な運動・インタラクションシーンでのSOTA性能
複雑なインタラクションや運動シーンでの生成可用率が業界最高水準に達し、物理的精度、リアリズム、制御性が大幅に向上した。
工業級コンテンツ制作への深い対応
15秒の高品質マルチカット音视频出力とステレオ音声機能をサポートし、映画、広告、EC、ゲームなどのシーンでの制作コスト削減を実現する。
生成制御性と指令遵守能力の大幅向上
指令遵守と一貫性表現が全面的に向上し、安定した動画延長・編集をサポートし、一般ユーザーでも監督のように創作プロセス全体を制御できる。
视频编辑与延长功能
Seedance 2.0新增视频编辑能力,支持对指定片段、角色、动作或剧情进行定向修改,并提供视频延长功能,可按用户提示生成连续镜头。
双声道音频与沉浸式音效
模型升级了音频能力,集成双声道立体声技术,支持背景音乐、环境音效等多轨并行输出,并能真实还原细腻音效,强化场景沉浸感。
全场景适配与成本降低
Seedance 2.0展现出极高的场景适配性,适用于商业广告、影视特效等多种场景,通过AI生成替代复杂制作流程,降低专业内容制作成本。
影響分析・編集コメントを表示
影響分析
このリリースは、AI動画生成技術が単なる研究段階から実用的な工業応用段階へと移行する重要なマイルストーンを示している。特に複雑な運動表現とマルチモーダル統合能力の向上は、映画・広告制作などプロフェッショナルな創作ワークフローへのAI導入を加速させる可能性が高い。
編集コメント
PR要素を含むが、複雑な運動表現でのSOTA達成と工業級応用への具体的な対応は、AI動画生成分野における実用的な進展として評価できる。
オリジナル 字节跳动 Seed 2026-02-12 12:50 北京
統一多モーダル音声・映像の共同生成、複雑な運動表現における SOTA(State of the Art:最良性能)
本日、私たちは次世代の動画制作モデル「Seedance 2.0」を正式にリリースいたします。
Seedance 2.0 は統一された多モーダル音声・映像共同生成アーキテクチャを採用しており、テキスト、画像、オーディオ、ビデオの 4 つのモダリティ(様式)を入力可能とし、現在業界で最も包括的な多モーダルコンテンツ参照および編集機能を統合しています。
バージョン 1.5 と比較して、Seedance 2.0 の生成品質は大幅に向上し、複雑な相互作用や運動シーンにおける実用性がより高まっています。物理的精度、リアリティ、制御性が顕著に強化され、産業レベルの制作シーンのニーズにより適応しています。
その核心的な特徴は以下の通りです:
複雑なシーンにおける高い実用性:優れた運動安定性と物理再現能力を背景に、モデルは多主体間の相互作用や複雑な運動シーンにおいて卓越したパフォーマンスを発揮し、生成されたコンテンツの実用性は業界最高水準(SOTA)に達しています。
多モーダル能力の顕著な強化:統一された多モーダル音声・映像共同アーキテクチャに基づく訓練により、混合モダリティ入力をサポートします。ユーザーは最大 9 枚の画像、3 本のビデオクリップ、3 件のオーディオファイル、および自然言語による指示を同時に入力することができ、モデルは入力素材内の構図、動作、カメラワーク、エフェクト、音声などの要素を参照できます。これにより、従来の動画生成における素材の境界を打破します。
動画生成の制御性の大幅な向上:モデルの指示遵守と一貫性表現が全面的に強化され、安定した動画延長や動画編集をサポートします。これにより、一般ユーザーも監督(ディレクター)のように振る舞い、動画制作の全プロセスを容易に掌握できるようになります。
産業レベルコンテンツ制作への深い対応:モデルは 15 秒間の高品質なマルチショット音声・映像出力をサポートし、ステレオ(二声道)オーディオ機能を備えています。これにより究極に近い臨場感のある視聴覚効果を実現可能で、参照および編集機能と組み合わせることで、映画、広告、EC(電子商取引)、ゲームなどのシーンにおけるコンテンツ制作コストを大幅に削減できます。
現在、Seedance 2.0 は「即夢 AI」や「豆包」などのプラットフォームにて提供を開始しており、体験とフィードバックをお待ちしています。
プロジェクトホームページ:
https://seed.bytedance.com/seedance2_0
体験エントリーポイント:
1)即夢 Web 版 - 動画生成 - Seedance 2.0 を選択;
2)豆包 App ダイアログボックス - Seedance2.0 - 2.0 モデルを選択;
3)火山方舟体験センター - Doubao-Seedance-2.0 を選択。
リアルな視聴覚効果と監督級コントロール
音声・映像生成を「所想即所見(想うがままに見る)」へ
基本能力と多モーダル効果の飛躍的な向上により、Seedance 2.0 はユーザーに全く新しい創作体験をもたらします。
Seedance 2.0 は前世代モデルでは実現が難しかった複数人による競技スポーツの生成を完了でき、オーディオ効果はより自然で没入感があり、入力も単一のテキストや画像に限られず、創作プロセスはより自然かつ効率的になります。これにより、ユーザーは真の「監督」のように創作を掌握できるようになります。以下に、その能力の特徴を具体的に紹介します。
- 複雑な動きと相互作用を安定して表現し、物理法則を忠実に再現
Seedance 2.0 の生成パフォーマンスは大幅に向上し、特に人物の動作モデリングにおいては、これまでに見られなかった自然さ、一貫性、そして物理的な妥当性を示しています。
時系列の精密さを要する複雑な相互作用シーンを高忠実度で合成することが可能で、例えば二人組フィギュアスケートのシーンでは、モデルは同期したジャンプ、空中での回転、正確な着氷といった一連の高難度動作を巧みに演じ出します。同時に、生成プロセスにおいては現実世界の運動法則への遵守が保たれ、従来の AI 動画に見られるような物理的な誤謬を回避しています。
T2V プロンプト:競技レベルの二人組フィギュアスケートの現場。オープニングはローアングルで氷上の滑走を追跡し、氷屑と反射の詳細が鮮明に描写される。回転パートに入ると、男性選手の軸がわずかに逸れてミスが発生し、回転のリズムが一時的に崩れる。女性選手は即座に重心を調整し、冷静な眼差しで「私についてきて」と合図を送り、男性選手を無理やりリズムに合わせようとする。その後、トワール(持ち上げ)動作へとシームレスにつながり、ラインは清潔で安定している。ハイライトは同期ジャンプの組み合わせで、空中での姿勢はまっすぐ、着氷は断固としており、音と映像が完璧に同期している。女性選手は濃紺のフィギュアスケートドレスを着用し、男性選手は競技用のスポーツウェア姿である。全体として、緊張感のあるミスから冷静な完走までの完全な物語を提示しており、トップレベルの二人組フィギュアスケートにおける技術力と心理的強度が体現されている。
より繊細なクローズアップショットにおいても、微妙な光と影の屈折変化、衣類が風に揺れる際に現れる重力感、あるいは人物と環境との間にある自然で滑らかな相互作用動作など、モデルが生成する映像は極めて写実的なディテールと厳密な物理的論理を示し、まるで実際の撮影された映像のようである。
I2V プロンプト:女の子が優雅に洗濯物を干し、干し終わったらバケツから別の一枚を取り出し、力強く服を揺らす。
- 多様な「全能リファレンス」に対応し、創作の自由度が大幅に向上
Seedance 2.0 は多様な「全能リファレンス」をサポートしており、異なるテキスト、画像、動画、音声を入力として組み合わせることが可能である。モデルは多様な入力内容を正確に理解し、指示に従ってそれらの映像構成、カメラワーク、動作のリズム、音響の特徴などの要素を参考にして生成を行うことができる。さらには文字によるストーリーボード(分鏡)の内容そのものを直接参照することもでき、創作の自由度が大幅に向上している。
R2V プロンプト:@画像 1 女の子が次元の壁を破り、連続して複数の名画の世界へ穿越する。リアルな質感を保ちつつ、油彩画の世界は 3D の高彩度アニメーションスタイルで表現される。彼女は @画像 2 の回転する星空の下で興奮した表情を浮かべ、次に @画像 3 のカップルの抱擁を好奇心を持って見つめる。カップルは照れくさそうに毛布で顔を隠す。その後、@画像 4 の真珠の耳飾りの少女と一緒にセルフィー(自撮り)をし、直ちに @画像 5 の二人の侍の間をすり抜ける。@画像 6 と一緒にグーフェイス(おどけた顔)をして叫び、@画像 7 のモナリザの隣へ走っていき、頭を撫でられ頬に顔を寄せられる。@画像 8 の女性の前で振り返り衣装を変え、二人はお互いに礼をする。その後、@画像 9 のゴッホと一緒に絵を描き、最後にカメラから背を向けて夕日を見つめ、すぐに振り返って甘く微笑む。コントラストが高く、映画のような質感で、トランジション(転換)は滑らかでシームレス、人物は生き生きとしている。
R2V プロンプト:@画像 1 のストーリーボード(分鏡脚本)を参照し、@画像 1 の分鏡、画角、カメラワーク、映像、およびキャプションを参考にする。登場人物は @画像 2、シーンは @画像 3、小道具は @画像 4 で、15 秒間の癒やし系動画を創作する。
- より強力な制御性で、生成と編集の指示を正確に遵守
Seedance 2.0 の動画生成における制御性も大幅に向上している。その指示への従順性は顕著であり、多数のキャラクター間相互作用や微細な動作記述を含む複雑なスクリプトに対しても、正確に再現して生成し、安定した主役の一貫性を保つことができる。同時に、モデルは一定の演出家としての思考能力を持ち、自らカメラワークを計画し、視覚的なプレゼンテーションテンプレートを設計することも可能である。
T2V プロンプト:馬年の新春家庭映像。アルバムをめくるように一列に並んだ家族メンバーの一人ずつの写真が素早くスクロールされ、各写真がカメラが通り過ぎる瞬間に「生き返る」:おじいちゃん、おばあちゃん、両親、そして子供たちが微細な表情変化と共に、それぞれ固有の動作(例:赤包み(お年玉)を渡す、ぬいぐるみを掲げる、猫が鈴を振るなど)を一組行う。異なる人物同士は、背景の赤いランタンと春聯(春節の飾り)が動的に点灯する中で、ページをめくるように素早く横移動し、シームレスにつながっていく。最終的に画面は賑やかな家族写真へと集約され、全員で「馬年の団らん、すぐに福が来る」と一斉に叫ぶ。効果音も笑い声に合わせて同期し、雰囲気は温かみから歓喜へと転換し、光と影は自然に流動する。
同時に、Seedance 2.0 は動画編集機能を新たに追加し、指定された断片、キャラクター、動作、あるいはプロットに対する定向修正をサポートするようになりました。本モデルはまた動画延長機能も提供しており、ユーザーの指示に従って連続したショットを生成することが可能で、単に生成が得意なだけでなく、「続きを撮影する」こともできます。
R2V プロンプト:動画を延長し、茶色の馬に乗ったオレンジ色の服を着た男性を追跡撮影。彼は前方にあるオレンジ色の花を咲かせた大きな木に向かってスピードを上げ、枝から二つの花を折ります。その後、他の人々も次々と馬に乗ってカメラの画面内に入ってきます。カメラはこのオレンジ色の服を着た男性が馬から降りる様子をズームインし、彼を素早く周囲を取り囲むように撮影します。彼は振り返り、白い馬に乗った白衣の女性へと歩み寄り、花を捧げます。中国風の仕女画スタイル、3D、陽気な民謡、皮影芸風、主調は黒・白・オレンジ。
- 二声道オーディオ機能、高仿真没入型音響効果の同期生成
Seedance 2.0 はさらにオーディオ機能をアップグレードし、二声道ステレオ技術を統合することで、高仿真かつ没入型の音響効果生成を実現しました。本モデルは背景音楽、環境音、あるいはナレーションなど、複数のオーディオトラックを並列出力することをサポートし、画面のリズムに正確に同期させることができます。
T2V プロンプト:武侠スタイルの視覚・聴覚的大作。竹林の中で白衣の剣客と蓑衣(さやがい)を着た刀客が対峙しています。カメラは二人の間をゆっくりと移動し、焦点は雨滴と剣柄の間で切り替わり、雰囲気は極限まで圧迫され、雨音しか聞こえません。突然稲妻が走り、二人同時に突撃します。サイドアングルからの撮影でカメラが急速に横移動し、泥が飛び散る足元を捉えます。二兵が交差する瞬間、画面は極端なスローモーションに切り替わり、刀剣が雨水を震わせて形成した円環状の衝撃波や、剣気によって切断された竹の葉を明確に描写します。その後通常速度に戻り、二人は背中合わせに着地し、蓑衣刀客の斗笠(たかさぎ)が割れます。画面は突然切り替わります。
同時に、本モデルの音響設計は非常に自然で、すりガラスの軽やかなこすれ声、毛織物の揉みほぐす音、アクリル板を軽く叩く音、気泡紙を軽く押さえる音など、繊細な音響効果を実際に再現し、シーンの没入感を強化します。厳格な音声と映像の時系列制御と相まって、オーディオと視覚的な動作がきっちり一致するように確保され、プロフェッショナルレベルの視聴覚コンテンツ制作をよりよくサポートすることができます。
T2V プロンプト:没入型第一人称視点の手元 ASMR 動画。近接クローズアップショット。暖かい黄色い柔らかな光の下、細い手が順番に異なるアイテムを優しくトリガーします:すりガラスの軽やかなこすれ声、毛織物の揉みほぐす音、アクリル板を軽く叩く音、気泡紙を軽く押さえる音、木製の櫛の歯がなぞる軽やかな音。指の動きはゆっくりと優しく、背景音楽はなく純粋に自然なトリガー音のみで、画面の雰囲気はリラックスして癒やされます。
- 全シーン広範対応、専門的なコンテンツ制作のハードル低下
動画コンテンツ生産の多様なニーズに対応するため、Seedance 2.0 は極めて高いシーン適応性を示しています。商業広告、映画・テレビの特効、ゲームアニメーション、ナレーション動画など、あらゆる分野において本モデルは高品質な生成効果を提供します。
AI による生成で複雑な特効制作や実写撮影プロセスを代替することで、Seedance 2.0 は専門的なオーディオ・ビデオコンテンツの制作コストを大幅に削減し、生産サイクルを短縮します。これにより、クリエイターや企業がアイデアをより効果的に実現することを支援します。
I2V プロンプト:絵の中の人物が罪悪感を感じており、目を左右に動かして絵枠から顔を覗かせ、素早く手を伸ばして絵枠の外に出し、コカ・コーラを一口飲んで満足そうな表情を見せます。その時足音が聞こえ、絵の中の人物は慌ててコカ・コーラを元の位置に戻します。すると西部劇の牛仔(カウボーイ)がコップに入ったコカ・コーラを持って立ち去ります。エンディングではカメラがズームインし、純黒の背景の下で頂光に照らされたコカ・コーラのクローズアップになります。画面最下部には芸術的なフォントで字幕とナレーションが表示されます:「宜口可乐,不可不尝!」(宜口コークは、必ず味わうべし!)。
T2V プロンプト:1920 年代ジャズクラブ風のチャールストンダンス。金色のフリンジドレスを着た女性ダンサーと縞模様のスーツを着た男性ダンサーがハイレベルなパフォーマンスを披露します。動作には高速のカットステップ、空中での投げ受け、そして大げさな腕振りを含みます。カメラはダイナミックに追従撮影し、足元のクローズアップショットを挿入します。重点的に表現するのは、蹴り上げのたびにフリンジが狂ったように揺れる物理的なディテール、肌についた汗の輝き、そして煙に包まれたレトロなフィルムの粒状質感です。背景にはジャズバンドと歓声を送る観客がおり、熱狂的なパーティーの雰囲気を盛り上げています。
*注意:上記のデモに含まれる人物主体を参照とした生成動画はすべてモデル能力の演示であり、関連する人物主体は AI によって生成されたものか、あるいは既に権限を取得したものです。実写の人物像を主体参照として使用して動画を生成する場合は、本人の確認または事前に合法的な権限取得が必要です。
Seedance 2.0 評価結果
総合的なパフォーマンスが業界をリード
Seedance 2.0 の多様なマルチモーダルシナリオにおける総合能力を客観的かつ包括的に評価するため、チームは映画・映像分野の専門家と連携し、音声・映像生成、参照、編集の各シーンを網羅する総合評価セットおよび関連評価基準を構築しました。本次评估重点考察模型在多模态参考生成、复杂音视频指令遵循、复杂运动稳定性、专业镜头语言、音视频表现力及视听一体化协同等维度的表现。
- テキストから動画へ、画像から動画への評価
動画の次元において、Seedance 2.0 は業界でトップレベルに位置しています。その運動安定性、指示の遵守、そして画面の美しさの各次元において顕著な向上が見られ、構造の正確さや崩壊の問題が効果的に改善され、生成される複雑な動作は滑らかで繊細なものとなっています。モデルは高張力の大規模アクションから微細な表情に至るまで精密に表現でき、プロフェッショナルレベルの組み合わせカメラワークと物語のリズム制御もサポートします。
長いスクリプトや開放的な指示に対しては、モデルは良好に応答し、適切に发挥します。また、生成される動画には一定の映画化された美しさがあり、物体の質感、光影の構図、衣装・小道具のデザインにおいて高い完成度が示されています。ただし、Seedance 2.0 は詳細な安定性、擬似現実度、そして動的な生き生きとした表現について継続的な改善が必要です。
音声の次元においては、Seedance 2.0 は依然として強力なパフォーマンスを発揮し、音声表現力が大幅に向上しました。そのステレオ(二声道)オーディオは層が豊富で繊細であり、シナリオに応じてより適切なプロンプト情境にマッチする効果音や曲調旋律を生成できます。前バージョンと比較して、モデルの視聴覚一体化体験がさらに強化され、セリフ、効果音、バックグラウンドミュージック、そして画面内容がより密接に融合しています。同時に、中国語の方言、戏曲(伝統的な演劇)、歌唱シーンにおける指示への応答精度も顕著に向上しました。ただし、Seedance 2.0 は依然として複数人物の口型マッチングや偶発的な音声歪みなどの課題を解決し続ける必要があります。
Seedance 2.0 テキスト生成動画能力評価
Seedance 2.0 画像生成動画能力評価
- マルチモーダル参照生成評価
Seedance 2.0 は業界をリードする総合的なパフォーマンスを示しています。モデルがカバーする参照タスクはより包括的となり、マルチモーダル参照生成、動画編集、動画の継続など多様な創作シーンをサポートします。同時に、参照コンテンツに対する理解の深さと応答精度において優位性を持ち、編集タスクにおいては他モデルと比較して Seedance 2.0 の指示への応答がより完全で、生成される画像もより現実的です。一貫性の表現においては、主体のイメージと音声の再現において相対的に良好なパフォーマンスを示し、特に動作論理、エフェクトスタイル、そして物語的ナレーションにおける参照の一貫性において顕著な優位性を示しています。ただし、モデルは複数主体間の一貫性、文字の再現精度、そして複雑な編集効果においては依然として改善の余地があります。
Seedance 2.0 の多様なタスクにおけるパフォーマンス評価
まとめと展望
Seedance 1.5 の「音画一体の同期生成」から、Seedance 2.0 の「統一された多様なメディアによる音声・映像の共同生成」へと進化を遂げました。Seedance シリーズは常に、究極かつ統一されたアルゴリズムフレームワークを通じて、現実世界を精密に再現することを目指しています。
膨大な世界の知識、スパースアーキテクチャ(sparse architecture)の効率性、そして多様なメディアによる共同訓練によって生み出される強力な汎化能力を背景に、今回のバージョンでは物理法則の遵守と長期的な一貫性の課題を解決しました。同時に、クリエイターには前例のない自由度を与え、音声・映像生成の品質と制御性をプロフェッショナルな生産現場の要件を満たすレベルまで引き上げました。
しかしながら、Seedance 2.0 はまだ完璧ではありません。生成結果には依然として多くの欠陥が残っています。今後は、大規模モデルと人間のフィードバック(human feedback)との深いアライメントを継続的に探求し、より効率的で、より安定した、そしてより想像力豊かな音声・映像制作ツールを通じて、より多くのクリエイターをサポートしていく所存です。
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 字节跳动Seed 2026-02-12 12:50 北京
image
统一多模态音视频联合生成,复杂运动表现SOTA
image
今天,我们正式发布新一代视频创作模型 Seedance 2.0。
Seedance 2.0 采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力。
相比 1.5 版本,Seedance 2.0 的生成质量大幅提升,其在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强,更加贴合工业级创作场景的需求。
其核心亮点如下:
复杂场景下更高可用率:凭借出色的运动稳定性和物理还原能力,模型在多主体交互和复杂运动场景中表现出色,生成可用率达到业界 SOTA 水平。
多模态能力显著强化:基于统一的多模态音视频联合架构训练,支持混合模态输入,允许用户同时输入多达 9 张图片、3 段视频、3 段音频以及自然语言指令,模型可参考输入素材中的构图、动作、运镜、特效、声音等元素,打破传统视频生成的素材边界。
视频生成可控性大幅提升:模型的指令遵循与一致性表现全面提升,并支持稳定可控的视频延长、视频编辑,让普通用户也能像导演一样,轻松掌控视频创作全流程。
深度支持工业级内容创作:模型支持 15 秒高质量多镜头音视频输出,具备双声道音频能力,可实现极致拟真的视听效果,配合参考和编辑能力,能大幅降低影视、广告、电商、游戏等场景的内容制作成本。
目前,Seedance 2.0 已上线即梦AI、豆包等平台,欢迎体验和反馈。
项目主页:
https://seed.bytedance.com/seedance2_0
体验入口:
1)即梦网页端-视频生成-选择 Seedance 2.0;
2)豆包 App 对话框-Seedance2.0-选择 2.0 模型;
3)火山方舟体验中心-选择 Doubao-Seedance-2.0。
拟真视听效果和导演级操控
让音视频生成“所想即所见”
凭借基础能力和多模态效果的跃升,Seedance 2.0 将为用户带来全新的创作体验。
Seedance 2.0 能完成前代模型难以实现的多人竞技运动生成,音频效果更加自然沉浸,输入也不再局限于单一的文字或图片,创作过程更自然、高效,让用户能像真正的“导演”一样掌控创作。下面,我们将具体介绍其能力特点。
1.稳定呈现复杂运动和交互,真实还原物理规律
Seedance 2.0 的生成表现显著提升,尤其在人物动作建模方面展现出此前未有的自然性、连贯性与物理合理性。
它能高保真地合成时序精密的复杂交互场景,比如在双人花滑场景中,模型较好地演绎了同步起跳、空中旋转、精准落冰等一系列高难度动作,同时,生成过程保持了对现实世界运动规律的遵循,避免了以往 AI 视频常见的物理谬误。
T2V prompt:竞技级双人花样滑冰现场。开场低机位跟随冰刀滑行,冰屑与反光细节清晰。进入旋转段,男选手轴线微偏出现失误,旋转节奏短暂塌陷。女选手迅速调整重心,眼神冷静并示意“Stay with me”,主动引导男选手重新对齐节奏。随后无缝衔接托举动作,线条干净稳定。高潮为同步跳跃组合,空中姿态笔直,落冰果断,音画完美对齐。女选手身着深蓝花滑裙,男选手为竞技运动装。整体呈现从紧张失误到冷静完成比赛的完整叙事,体现顶级双人花样滑冰中的技术能力与心理强度。
在更细腻的特写镜头中,无论是微妙的光影折射变化、衣物随风颤动时所呈现的重力感,还是人物与环境之间自然流畅的交互动作,模型生成的画面均展现出高度逼真的细节与严密的物理逻辑,宛如真实实拍。
I2V prompt:女孩优雅地晒衣服,晒完接着在桶里拿出另一件,用力抖一抖衣服。
2.支持多模态“全能参考”,创作自由度大幅提升
Seedance 2.0 支持多模态全能参考,允许组合输入不同文本、图片、视频、音频。模型可精准理解多模态输入内容,并按指令要求参考其画面构图、镜头语言、动作节奏、音效特点等元素进行生成,甚至可以直接参考文字分镜内容,创作自由度大幅提升。
R2V prompt:@图片 1 女孩打破次元壁,连续穿越多幅名画世界,保留真实质感,油画世界呈现 3D 高饱和度动画风格。她站在 @图片 2 的旋转星空下神情激动;接着好奇看着 @图片 3 的情侣拥抱,情侣不好意思地用被子将头遮住;随后与 @图片 4 戴珍珠耳环少女一起自拍;紧接着进入 @图片 5 在两名武士中间穿过;与 @图片 6 一起扮鬼脸呐喊;跑到 @图片 7 蒙娜丽莎身旁,被摸头贴脸;在 @图片 8 女人面前转身换装,二人互行礼;随后与 @图片 9 中的梵高一起画画;最后背对镜头看夕阳,随即转身甜美一笑。对比度高,电影质感,转场丝滑无缝,人物鲜活。
R2V prompt:参考 @图片 1 分镜头脚本,参考 @图片 1 的分镜、景别、运镜、画面和文案,人物角色是 @图片 2,场景是 @图片 3,道具是 @图片 4,创作一段 15s 的治愈片。
3.更强可控性,精准遵循生成和编辑指令
Seedance 2.0 视频生成的可控性也大幅提升。其指令遵循表现出色,即便面对包含大量角色互动和精细动作描述的复杂脚本,也能做到精准还原生成,并保持稳定的主体一致性。同时,模型还具备一定的编导思维,可自主规划镜头语言,并设计视觉呈现模版。
T2V prompt:马年新春家庭影像,像翻阅相册般快速扫过一排家庭成员单人照,每张照片在镜头掠过的瞬间“活过来”:爷爷、奶奶、父母及孩子伴随微表情做出一组专属动作(如发红包、举玩偶、猫咪摇铃)。不同人物间通过快速平移像翻页般连贯衔接。随着背景中红灯笼与春联动态点亮,画面最终汇聚成一张热闹的全家福合照,全员全员齐喊“马年团圆,马上有福”。音效同步配合欢笑声,氛围由温馨转为欢腾,光影自然流动。
同时,Seedance 2.0 新增了视频编辑能力,支持对指定片段、角色、动作或剧情进行定向修改。模型还提供了视频延长功能,可按用户提示生成连续镜头,不止擅长生成,还能“接着拍”。
R2V Prompt:延长视频,镜头跟拍骑棕马的橙衣男人,他加快速度跑到前方一棵开着橙色花朵的大树前,将树枝上的两朵花折下,随后其他人也陆续骑着马跑进镜头内。镜头推进拍摄这个橙衣男人翻身下马,镜头快速环绕他,他转身走向骑着白马的白衣女子,将花献给白衣女子。中国风仕女图风格,3D,欢快民乐,皮影风格,黑白橙色为主调。
4.双声道音频能力,高仿真沉浸音效同步生成
Seedance 2.0 还升级了音频能力,集成双声道立体声技术,可实现高仿真、沉浸式的音效生成。模型支持背景音乐、环境音效或人物解说等音频多轨并行输出,精准对齐画面节奏。
T2V prompt:武侠风格视听大片,竹林里白衣剑客与蓑衣刀客对峙。镜头在两人之间缓慢推移,焦点在雨滴和剑柄之间切换,气氛压抑到极点,只能听见雨声。突然一道惊雷闪过,两人同时冲锋,侧拍镜头极速平移,捕捉泥浆飞溅的脚步。双兵相接瞬间画面切换为极慢动作,清晰展示刀剑震飞雨水形成的圆环激波,以及被剑气切断的竹叶。随后恢复常速两人背对背落地,蓑衣刀客的斗笠裂开,画面戛然而止。
同时,模型的音效设计高度自然,能真实还原磨砂玻璃轻刮声、毛绒织物揉搓声、亚克力板轻敲声、气泡纸轻捏声等细腻音效,强化场景沉浸感。配合严格的音画时序控制,确保音频与视觉动作严丝合缝,可以更好地支持专业级视听内容创作。
T2V prompt:沉浸式第一视角手部 ASMR 视频。近景特写镜头,暖黄柔光下,一双纤细的手依次轻轻触发不同物品:磨砂玻璃轻刮声、毛绒织物揉搓声、亚克力板轻敲声、气泡纸轻捏声、木质梳子梳齿轻划声。手指动作缓慢轻柔,无背景音乐纯自然触发音,画面氛围松弛治愈。
5.全场景广泛适配,降低专业内容制作门槛
针对视频内容生产的多元化需求,Seedance 2.0 展现出极高的场景适配性。无论是商业广告、影视特效,还是游戏动画、解说视频,模型均能提供高质量的生成效果。
通过 AI 生成替代复杂的特效制作和实拍流程,Seedance 2.0 可大幅度降低专业音视频内容的制作成本,缩短生产周期,帮助创作者和企业更好地落地创意。
I2V prompt:画中人物心虚,眼睛左右看了看探出画框,快速地将手伸出画框拿起可乐喝了一口,并露出一脸满足的表情。这时传来脚步声,画中的人物赶紧将可乐放回原位,此时一位西部牛仔拿起杯子里的可乐走了。结尾镜头推进至纯黑背景下的顶光可乐特写,画面最下方出现艺术感字幕和旁白:“宜口可乐,不可不尝!”。
T2V prompt:20 年代爵士俱乐部风格的查尔斯顿舞。身着金色流苏裙的女舞者与穿条纹西装的男舞者进行高强度表演。动作包含极速切分音步法、空中抛接与大幅度摆臂。镜头采用动态跟随拍摄,穿插足部特写动作。重点表现流苏随每一次踢腿疯狂甩动的物理细节、皮肤上的汗水光泽以及烟雾缭绕的复古胶片颗粒电影质感。背景爵士乐队与欢呼观众烘托出狂热的派对氛围。
*注意:以上 Demo 中含人物主体参考的生成视频均为模型能力演示,相关人物主体为 AI 生成或已取得授权。如需使用真人人像作为主体参考生成视频,须经本人验证或事先取得合法授权。
Seedance 2.0 评测结果
综合表现达到行业领先
为客观全面地评估 Seedance 2.0 在多模态场景的综合能力,团队协同影视领域的专家,建立了覆盖音视频生成、参考及编辑场景的综合评测集及相关评测标准。本次评估重点考察模型在多模态参考生成、复杂音视频指令遵循、复杂运动稳定性、专业镜头语言、音视频表现力及视听一体化协同等维度的表现。
1.文生视频、图生视频评测
在视频维度,Seedance 2.0 处于业内领先水平。其运动稳定性、指令遵循及画面美感维度均有显著提升,有效改善了结构准确性和崩坏问题,生成的复杂动作流畅细腻。模型可精准呈现高张力大动作与精细的微表情,并支持专业级组合运镜与叙事节奏控制。
针对长脚本及开放性指令,模型能较好响应并合理发挥。同时,其生成视频具有一定的影视化美感,物体材质、光影构图及服化道设计均表现出较好的完成度。不过,Seedance 2.0 仍需持续改进细节稳定性、拟真度及动态生动性。
在音频维度,Seedance 2.0 依然表现强劲,音频表现力大幅提升。其双声道音频层次丰富、细腻,并可根据场景匹配更适合提示词情境的音效或曲调旋律。相比上一版本,模型的视听一体化体验进一步强化,台词、音效、背景音乐和画面内容更加契合,同时,针对中文方言、戏曲及演唱场景,其指令响应准确度明显提升。不过,Seedance 2.0 仍需继续解决多人口型匹配、偶现音频失真等问题。
Seedance 2.0 文字生成视频能力评测
Seedance 2.0 图片生成视频能力评测
2.多模态参考生成评测
Seedance 2.0 有着行业领先的综合表现。模型覆盖的参考任务更全面,支持多模态参考生成、视频编辑、视频延续等多种创作场景。同时,其对参考内容的理解深度和响应精度具备优势,在编辑任务中,相比其他模型,Seedance 2.0 指令响应更加完整,生成画面更加真实。在一致性表现上, 模型在主体形象与声音还原方面表现相对较好,尤其在动作逻辑、特效风格及剧情叙事的参考一致性上显著占优。不过,模型在多主体一致性、文字还原精度及复杂编辑效果上,仍有优化的空间。
Seedance 2.0 多模态任务表现评测
总结与展望
从 Seedance 1.5 的“音画一体同步生成”,到 Seedance 2.0 的“统一多模态音视频联合生成”,Seedance 系列始终希望,通过极致、统一的算法框架,实现对现实世界的精准还原。
依靠海量世界知识、稀疏架构的效能优势,以及多模态联合训练涌现的强大泛化能力,我们在这一版本中解决了物理规律遵循及长效一致性的难题,同时也赋予创作者前所未有的自由度,让音视频生成的质量和可控性达到专业生产场景要求。
不过,Seedance 2.0 还远不完美,其生成结果仍存在诸多瑕疵。未来,我们将持续探索大模型与人类反馈的深度对齐,让更高效、更稳定、更具想象力的音视频生产工具,服务更多创作者。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み