音声と映像を完璧に融合、一つのシーンで没入感を | Seedance 1.5 Pro 音声・動画創作モデル正式リリース
字节跳动が発表した多機能音声・動画生成モデル「Seedance 1.5 pro」は、音画の完全同期や映画級カメラワーク、複雑なナレーション理解を実現し、AI 動画生成の品質と実用性を大幅に向上させた。
キーポイント
音声・映像の統合生成と高精度同期
テキストから音声を伴う動画へ、あるいは画像からの音声付き動画生成を可能にし、口型、语调、リズムの完全な一致を実現。多言語や方言への対応も強化されている。
映画級カメラワークと動的表現
希区コック・ズームや長镜头跟随など高度なカメラ操作を自律的に実行し、雪崩やスノーボードなどの高動態シーンでも臨場感ある映像を生成する。
文脈理解と物語的整合性の向上
単なる断片的な生成から脱却し、複雑な感情の移ろいやストーリー構成を理解して、一貫性のあるナレーションと視覚表現を統合する能力を獲得した。
即夢 AI と豆包への実装
本モデルはすでに字节跳动傘下の「即夢 AI」および「豆包」アプリに搭載され、一般ユーザーによるプロ級コンテンツ制作への利用が可能となっている。
自発的運鏡と高精度生成
高難易度のカメラワーク(例:紅毯での急なパン、製品追随)を自律的に実行し、複雑なシーンでも音画の同期と雰囲気再現に優れる。
多言語・方言対応による表現力向上
中国語、英語等多言語に加え、四川話や広東語などの方言を自然に生成し、短劇やエンタメコンテンツのリアリティを大幅に強化する。
環境音とゲーム効果音の精密合成
キャラクターの動作(歩行、呼吸)や背景環境(鳥の声、8-bit 効果音)を視覚内容に同期して生成し、没入感を高める。
影響分析・編集コメントを表示
影響分析
この発表は、AI 動画生成が単なる視覚効果の生成から、音声と映像を統合した『物語』を作る段階へと進化したことを示す重要な転換点です。特に、映画のような高度なカメラワークや複雑な感情表現への対応は、クリエイターが制作コストをかけずに高品質な短編映画や広告を生成できる可能性を開き、業界の生産性基準を大きく引き上げるでしょう。
編集コメント
従来の動画生成 AI が「動く画像」に留まっていたのに対し、Seedance 1.5 pro は『音』と『物語』を統合した真の意味での映画制作ツールへと進化しました。特にカメラワークの自律制御は、クリエイターにとって新たな表現手段として極めて注目すべき技術です。
声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作モデル正式発表
原文:字节跳动 Seed 2025-12-16 18:43 北京
新たな視聴体験の幕開け
舞台の中央、スポットライトが集中する中、一段と高らかに響く旦角(たんかく)の唱腔に合わせて、役者が鼓点に合わせた一連の槍の動作を披露します。これは実際の公演ではなく、Seedance 1.5 pro が一鏡で生成した創作断片です。その演技は専門的な戏曲(けいぎょく)表演とはまだ大きな隔たりがありますが、声と韻律の雏形(すうけい)はすでに窺えます。
注:生成された動画における役者の唱腔、化粧・衣装、身振り手振りは、実際の劇種の規範とは依然として明らかな隔たりがあり、台詞も伝統的な戯文ではありません。これは AI 技術が戏曲の美学に挑む一次探索としての試みです。
本日、私たちは次世代のオーディオビジュアル創作モデル「Seedance 1.5 pro」を正式に発表いたします。
Seedance 1.5 pro はオーディオとビデオの共同生成をサポートしており、テキストからオーディオ・ビデオへの合成や、画像による誘導でのオーディオ・ビデオ生成など、多様なタスクを実行可能です。これにより、Seedance の動画生成は視覚的な次元に限定されず、自然に音声を融合させるものとなりました。
Seedance 1.0 バージョンでは、モデルの性能における「下限」を改善することに重点を置き、運動生成の安定性を最適化しました。一方、Seedance 1.5 pro はオーディオ同期生成をサポートするだけでなく、視覚的なインパクトと運動効果の「上限」を引き上げることに注力しています。より大胆な技術アプローチを採用することで、Seedance 1.5 pro は視聴覚の協調性、視覚的緊張感、物語の整合性などの面で飛躍的な進歩を遂げました:
精密な音画同期と多言語・方言サポート:モデルは生成過程において高い視聴覚的一貫性を達成し、役者の口パク(リップシンク)、トーン、そしてパフォーマンスのリズムとの適合精度を向上させました。モデルはネイティブに多言語および特徴的な方言のアクセントをサポートしており、それら固有の音声韻律と情感の緊張感を捉えることができます。
映画並みのカメラワーク制御と動的緊張感:モデルには自発的なカメラ演出能力が備わっており、ロングショットでの追従やヒッチコック・ズーム(ドリーイン/アウト)といった難易度の高いカメラワークを実行可能です。同時に、映画並みの映像のつなぎ目と専門的なトーンを実現し、動画の動的緊張感を大幅に向上させました。
意味理解と物語の整合性の強化:意味理解を強化することで、モデルは物語的文脈をよりよく解析できるようになりました。これにより、音声・映像セグメント全体の物語的整合性が大幅に向上し、プロフェッショナルなコンテンツ制作を強力に支えるものとなっています。
総合評価において、Seedance 1.5 pro は優れた結果を残し、主要な能力は業界の最前列にあります。現在、Seedance 1.5 pro は即夢 AI(Dreamina)および豆包(Doubao)で利用可能です。ご使用いただき、フィードバックをお寄せください。
Model Card:https://arxiv.org/pdf/2512.13507
プロジェクトホームページ:https://seed.bytedance.com/seedance1_5_pro
体験エントリーポイント:
(1)即夢 Web 版 - ビデオ生成 - 「ビデオ 3.5 Pro」を選択;
(2)豆包 App ダイアログボックス - 「写真を動かす」- 写真のアップロード -「1.5 Pro モデル」を選択 - プロンプトを入力(ベータテスト中)
音と映像だけでなく、物語も。
素材生成から作品表現へ
Seedance 1.5 pro は単なるコンテンツ断片の生成に満足するのではなく、動画と音声を一つのまとまりとして捉え、多様な創作ニーズに応えることを目指しています。モデルが持つ視聴覚の協調性、動的な演出制御、そして文化的文脈への理解は、映画制作、短編ドラマ生成、広告生産、そして伝統芸能の演劇など、あらゆるシーンにおいて優れた物語表現力と視聴の融合度を示しています。
次章では、具体的なシナリオを通じて、Seedance 1.5 pro がどのようにプロフェッショナルな創作を支援するかを詳しく解説します。
- 繊細で一貫性のある物語表現力による映画芸術制作への対応
Seedance 1.5 pro は意味理解において大きな飛躍を遂げ、これにより繊細で複雑な人間の感情を解析し、緊張感あふれる芸術的表現へと変換することが可能になりました。同時に、高精度の視聴覚協調技術により、モデルは音声・映像・シーン雰囲気を深く融合させ、一貫性のある精緻な表現を生成することで、コンテンツの物語的な感染力を強化します。
クローズアップショットにおいて、モデルは繊細な感情の捉え能力を発揮します。セリフがない場合でも、微細な表情の変化を通じて感情の铺垫を引き継ぎます。例えば、生成されたサイバーパンク映画風の動画では、指示に基づいて物語の背景を推測し、人物の状態を精緻に演じ分けます。その感情変化は自然で層があり、環境や音楽の雰囲気と見事に調和しています。
デモ視聴時のヒント:音量を大きくすると、より効果を実感できます。
T2V プロンプト:サイバーパンク廃墟スタイル、暖色と寒色の光影が交互に現れる。カメラは手持ちで若い東アジア女性を追跡し、彼女の目から涙を浮かべた抑圧された悲しみから、朝日の金色の光が顔に降り注ぐにつれて、優しくて確かな表情へと変化する微細な変化をクローズアップで捉える。人物の肌にはリアルなフィルムの質感があり、浅い被写界深度で背景はボケる。
物語性のあるクローズアップショットの生成に加え、Seedance 1.5 pro はプロンプトに基づいて基本的な物語構造を持つショットシーケンスを構成することもできます。例えばアニメ作品の制作では、花火が咲き誇る様子や男女主人公による日本語での告白シーンを複数の連続したショットとして生成し、感情を込めた声線と組み合わせることで、流れるような物語的論理を示します。
T2V プロンプト:夏の祭りの花火大会アニメスタイル、花火の爆発が柔らかい輪郭光を提供。カメラは広角の花火から和服を着た男女主人公がいる人群中へとズームインし、クローズアップで告白前の心理準備をする女生徒と、照れくさそうに「実は...」と口を開く男生徒を捉える。女生徒が先に「大好きです」と告白し、二人が互いの気持ちを確かめた後、親密に抱き合う。花火の音や群衆の環境音、そして日本語のセリフが融合し、ロマンチックで一貫性のある物語的雰囲気を醸成する。
- プロフェッショナルなカメラワークと動的緊張感による高難易度シーンへの対応
Seedance 1.5 pro はカメラワークの制御と動的緊張感を最適化し、高難易度の複雑なシーンの生成をより効果的に処理できるようになりました。
モデルは、高いダイナミクスと強いインパクトを持つ運動シーンを比較的余裕を持って演じ分けることができます。スキーの動画では、音と映像の動きが協調することで、Seedance 1.5 pro は強烈な臨場感を創出します。カメラはスノーボーダーの軌跡を高速で横切り追従し、雪霧が飛び散る瞬間を繊細に捉えることで、極限運動の速度と力をリアルに再現しています。
I2V プロンプト:スキーヤーは専門装備を身にまとい、雪山の背景の中で機敏な技巧を見せる。カメラは長回しで低アングルからスキーヤーを追って滑り降りる様子を捉え、カービングによる刃切りと雪霧が炸裂する瞬間を捉えた後、クイックカットでスローモーションのクローズアップへ移行し、最後にスキーヤーがターンしてコーナーを飛び出す様子を追い続ける。BGM は Future Bass のダイナミックな曲調で、風の環境音と合わせて、全体的に活気あふれる雰囲気を演出する。
同時に、モデルは自発的なカメラワークの調整能力を備えており、難易度の高いカメラ運動を実行し、精度が求められる生成シーンにも対応可能である。赤い絨毯でのプレミア上映会シーンをシミュレーションする際、モデルはカメラを素早くパンさせる効果を生み出し、現場の慌ただしさや華やかさを演出。女性の明確な中国語の発声と相まって、現場の雰囲気を効果的に再現した。
T2V プロンプト:晩礼服を着たアジア系のファッションブロガーが赤い絨毯に登場し、興奮気味にこう語る。「空気には香水と野望の匂いが満ちている!今夜の紅地毯はまさにファッション編年史の現場だ。さあ、あのハイライトな瞬間を捉えにきて!」
生成された掃除ロボットのプロモーションビデオでは、商業広告のようなスタイルでカメラがゆっくりと押し込み、ロボットの動きに密着して追従し、製品を効果的に焦点化している。
T2V プロンプト:ミニマリスト調の現代豪邸。夕暮れの余韻が大理石の床面に映り込む。一台の黒い高級フローリングクリーナーが自動作動中、微かな青い光を発して塵を検出する。カメラワークは床に密着した低アングルで追従し、機械の流線型のラインを披露する。音声には AI 女性によるナレーションを合わせ、「見えない微細な塵こそがアレルギーの元凶。レーザーで塵を可視化し、インテリジェントな周波数変換で、床を裸足で歩く自由へと返す。」
- 多言語と方言への対応により、コメディなどのスタイル化された演技の質感を強化
Seedance 1.5 pro は多言語音声生成をサポートし、中国語、英語、日本語、韓国語、スペイン語、インドネシア語など、各言語の発音や韻律を比較的自然的に表現できる。特に中国語の文脈においては、四川方言や広東語など複数の方言アクセントもシミュレート可能で、短編ドラマやエンターテインメントコンテンツに対してより自然な演技の質感を提供する。
例えば、パンダが竹を食べる最中に突然四川弁でカメラに向かって愚痴をこぼす際、モデルは方言特有の発音と表情をマッチングさせ、動画に生き生きとした生命力を与える。
T2V プロンプト:実写による高級な質感。竹林の中で本物のパンダが竹を噛み砕いているが、突然止まって四川弁で愚痴る。「今日の竹、ちょっと古くないか?どうなってんの?ちょっと可哀想すぎるよ〜」。その後カメラは急激にズームインして近接クローズアップとなり、パンダは首を傾げて狡い笑みを浮かべ、カメラに近づいて小声でこう言う。「ねえ、カメラマンのお兄さん、外卖(外食)頼んでもいい?微辛でお願い!」
- 精密な効果音生成により、ゲームなどの視聴覚コンテンツの没入感を向上
人声だけでなく、Seedance 1.5 pro は環境効果音や音楽的な雰囲気に対しても優れた理解力を示す。モデルは画面の内容に基づいて環境音を叠加し、空間感を作り出し、「見ているものが聞こえる」を実現する。
ピクセルアート風のゲーム映像においては、キャラクターのランニングやジャンプに滑らかに追従するカメラワークだけでなく、シーンに即した 8-bit ゲーム効果音も同期して生成され、高速な動きの中での音と映像の協調性を示している。
T2V プロンプト:8 ビットピクセルアートスタイル。夕陽の下で勇者が走り跳ねる。スキャンライン効果が加わり、レトロな電子ゲーム風の BGM が流れる。
3D スタイルのゲーム映像においては、モデルは詳細に富むオープンワールドを生成し、キャラクターの移動に合わせて足音や息遣いが正確に同期。遠くで聞こえる低いカラスの声と相まって、視聴覚的なインタラクションの没入感を高めている。
I2V プロンプト:3D ゲーム CG 映像。革ジャンを着た男が廃墟となった教会跡地で行動する。彼は警戒して立ち止まり、安全を確認した後にダッシュし、最後にアーチの縁で急停止して周囲を注視する。画面は左側の高い窓からの逆光撮影で、暖色系の黄褐色を呈している。音声には足音、心臓の鼓動、フクロウの声が精密に叠加され、緊張感のある背景音楽と相まってサスペンスな雰囲気を醸し出す。
上記の能力を基盤として、Seedance 1.5 pro は映画、広告、短編ドラマ、アニメーションなど、多様なジャンルでの創作を強力にサポートする。特に I2V タスクにおいては、モデルは高いスタイルの一貫性を示し、複数のカット切り替えや複雑な動きの中でも人物の特徴を安定して維持し、素材クリップから完成作品までの制作プロセスにおける連続性を向上させる。
Seedance 1.5 pro 評価結果
指示の遵守と音声表現が突出
モデルの総合能力を客観的に評価するため、チームは総合評価ベンチマーク SeedVideoBench 1.5 を構築しました。このテストセットは映画監督と技術専門家が共同で策定した評価基準に基づき、モデルが視覚的複雑指令の遵守、運動の安定性と生動性、美的品質、ならびに音声指令の遵守、音画同期、音質表現力などの次元におけるパフォーマンスを重点的に検証します。
動画生成においては、比較対象となる他モデルと比較して、Seedance 1.5 pro は動作やカメラワークといった複雑な指令に対する理解が相対的に精密であり、プロンプトで設定された物語性と映像スタイルをより良くマッチングさせることができます。評価結果によると、その動的表現は比較的豊かで、人物表情のクローズアップも生々しく、複雑なカメラワークは比較的滑らかで参考画像とのスタイル接続も自然に統一されており、全体的な画面質感は実写撮影により近いものとなっています。ただし、運動の安定性についてはさらなる向上余地があります。
Seedance 1.5 pro の動画生成能力評価
音声生成においては、Seedance 1.5 pro は業界トップレベルに位置しています。モデルは音声指令の遵守、音画同期、音質と表現力などの次元において安定かつ均衡したパフォーマンスを発揮し、相対的に正確に対応する人声や指定された効果音を生成できます。特に中国語セリフシーンにおいては高い完全性と発音の明瞭さを備えており、多種多様な方言指令にも対応可能です。
同種モデルと比較して、Seedance 1.5 pro が生成する人声はより自然で機械的な違和感が少なく、効果音のリアリティと空間的反響も実態に近く、同時に音画のズレ現象が顕著に減少しています。今後、複数キャラクターの交代会話や歌唱シーンにおけるパフォーマンスを重点的に向上させる必要がありますが、総合的に見れば、このモデルはすでに中国語および方言による対話駆動型の短編ドラマ、舞台芸術、映画ナレーションなどのシナリオにおいて部分的に応用可能です。
Seedance 1.5 pro の音声生成能力評価
マルチモーダル統合生成アーキテクチャ
視覚・聴覚ストリームの精密な協働を実現
Seedance 1.5 pro は、音声と映像を共同で生成する基盤モデル設計を採用しており、基盤アーキテクチャ、データリンク、後期トレーニング、推論プロセスの再構築を通じて、多様な複雑タスクにおけるモデルの汎化性能を向上させました。
Seedance 1.5 pro のトレーニング・推論フレームワーク図
多様なモダリティを統合したアーキテクチャ:チームは、MMDiT アーキテクチャに基づく統一された音声・映像の共同生成フレームワークを提案しました。このフレームワークは、深い跨モダリティ情報相互作用メカニズムを通じて、視覚と聴覚の流れが時間的な同期と意味的整合性において精密に協調することを可能にしています。大規模な混合モダリティデータセット上で多様なタスクのトレーニングを行うことで、当モデルは様々な下流タスクにおいて堅牢な汎化能力を実現しました。
多段階データパイプライン:チームは、音声・映像の一貫性、運動表現力、そしてカリキュラム化されたスケジューリングをバランスよく調整する多段階データリンクを設計しました。このアプローチは、ビデオ記述の豊かさと専門性を著しく強化し、音声記述も組み込むことで、高忠実度の音声・映像生成タスクに対して高品質で多様なデータ基盤を提供します。
精緻な後学習最適化:チームは高品質な音声・映像データセットを用いて教師あり微調整 (SFT) を実施し、音声・映像シーンに特化した RLHF アルゴリズムを導入しました。具体的には、多次元報酬モデルが文からビデオを生成するタスク (T2V) や画像からビデオを生成するタスク (I2V) のパフォーマンスを効果的に強化し、運動の質、視覚的な美しさ、および音声の忠実度を包括的に向上させました。
効率的な推論加速:チームはさらに多段階蒸留フレームワークを最適化し、生成に必要な関数評価回数 (NFE) を大幅に削減しました。量子化や並列処理などの推論インフラストラクチャの最適化を統合することで、モデルのパフォーマンスを維持しつつ、エンドツーエンドの推論速度で 10 倍以上の加速を実現しました。
まとめと展望
前世代のビデオ生成モデルである Seedance 1.0 と比較して、Seedance 1.5 pro は没入感のある音画体験と作品レベルの物語表現において決定的な一歩を踏み出しました。
音声・映像の共同アーキテクチャと精緻な後学習に支えられ、Seedance 1.5 pro は多様なモダリティからの指示に対して良好に従うことを実現しています。映画館レベルの高ダイナミックなカメラワークから、口パクの精度が求められる方言演技に至るまで、高い可能性を示しています。ただし、モデルは高難易度の運動における物理的な安定性や、複数キャラクター間の対話・歌唱などにおいてさらに改善の余地があることも認識しています。
今後、Seed チームはより長時間にわたる物語生成と、よりリアルタイムなエッジデバイスでの体験を突破することに注力し、モデルが物理世界の法則を理解する能力と多様なモダリティの知覚能力をさらに強化していきます。Seedance シリーズのモデルが、より生き生きとし、より効率的で、ユーザーにより理解される存在となり、クリエイターが感覚の境界を打破し、視覚・聴覚の創造を実現できるよう支援することを願っています。
声と画の両方が完璧に揃い、一瞬で物語の世界へ没入 | Seedance 1.5 pro の音声・映像創作モデルが正式発表(続き 6/6)
原文を読む
WeChat で開くにはこちらへ
原文を表示
原创 字节跳动Seed 2025-12-16 18:43 北京
开启视听新体验
舞台中央,灯光聚焦,随着一段高亢的旦角唱腔,角色完成了一连串配合鼓点的长枪动作。这并非真实演出,而是 Seedance 1.5 pro 尝试一镜生成的创作片段,其演绎与专业戏曲表演尚有很大差距,但声韵已初见雏形。
注:生成视频中角色的唱腔、妆造及身段与真实剧种规范仍有明显差距,台词也非传统戏文,仅作为 AI 技术对戏曲美学的一次初步探索。
今天,我们正式发布新一代音视频创作模型 Seedance 1.5 pro。
Seedance 1.5 pro 支持音视频联合生成,它能够执行多种任务,包括从文本到音视频的合成以及图像引导的音视频生成等。至此,Seedance 视频生成不再局限于视觉维度,而是自然融合了声音。
在 Seedance 1.0 版本中,我们更侧重改善模型表现的“下限”,优化了运动生成的稳定性;而 Seedance 1.5 pro 除了支持音频同步生成外,还致力于提升视觉冲击力和运动效果的“上限”。通过采用更加大胆的技术方案,Seedance 1.5 pro 在视听协同、视觉张力和叙事协调性等方面实现突破:
精准音画同步与多语言、方言支持:模型在生成中实现了较高的视听一致性,提升了角色的口型、语调与表演节奏的拟合精度。模型原生支持多语种和特色方言口音,能够捕捉其独有的语音韵律与情感张力。
电影级运镜控制与动态张力:模型具备自发的镜头调度能力,可执行长镜头跟随、希区柯克变焦等高难度运镜,同时还能实现电影级的画面衔接与专业影调,大幅提升了视频的动态张力。
语义理解与叙事协调性增强:通过增强语义理解,模型实现了对叙事语境的较好解析。它显著提升了音视频段落的整体叙事协调性,为专业级内容创作提供有力支撑。
在综合评测中,Seedance 1.5 pro 取得领先的结果,各项关键能力处于业界前列。目前,Seedance 1.5 pro 已上线即梦AI和豆包,欢迎使用反馈。
Model Card:https://arxiv.org/pdf/2512.13507
项目主页:https://seed.bytedance.com/seedance1_5_pro
体验入口:
(1)即梦网页端-视频生成-选择视频3.5 Pro;
(2)豆包 App 对话框-照片动起来-上传照片-选择 1.5 Pro 模型-输入 prompt(内测中)
不止音画,更有叙事
从素材生成到作品表达
Seedance 1.5 pro 不再满足于生成简单的内容片段,而是将视频和音频视为一个整体,以满足多样化的创作需求。模型对视听协同、动态调度和文化语境的掌握,使其在影视创作、短剧生成、广告生产及戏曲演绎等场景中,均展现出较好的叙事表现力与视听融合度。
接下来,我们将通过具体场景,拆解 Seedance 1.5 pro 如何助力专业创作。
- 细腻连贯的叙事表现力,支持影视艺术创作
Seedance 1.5 pro 在语义理解上实现了较大提升,这使它能够解析细腻复杂的人类情感,并将其转化为富有张力的艺术表达。同时,依靠高精度的视听协同,模型可深度融合语音、画面和场景氛围,生成相对一致的精细呈现,从而增强内容的叙事感染力。
在特写镜头中,模型展现出细腻的情绪捕捉能力。即使在没有台词的情况下,它也能通过细微的表情变化延续情绪铺垫。例如,在生成的赛博朋克电影感视频中,模型可根据指令推测故事背景,并精细演绎人物状态,其情绪变化自然且富有层次,与环境和音乐氛围达到统一。
Demo 观看提示:可调大音量,效果更佳
T2V prompt:赛博朋克废墟风格,冷暖光影交替。镜头手持跟随年轻东亚女性,特写捕捉她从眼眶含泪的压抑悲伤,随着朝阳金光洒在脸上,神情转为温柔坚定的微表情变化。人物皮肤具备真实胶片质感,浅景深背景虚化。
除了带有故事感的特写镜头生成,Seedance 1.5 pro 还可根据提示语组织出具备基本叙事结构的镜头序列。比如,在动漫作品创作中,模型能生成烟火绽放、男女主日语告白的多个连续镜头,配合情绪化声线,展现出流畅的叙事逻辑。
T2V prompt:夏日花火大会动漫风格,烟花绽放提供柔和轮廓光。镜头从全景烟花推至人群中穿和服的男女主,特写镜头捕捉女生做告白前的心理准备,男生羞涩开口「実は...」,女生抢先一步告白「大好きです」,两人互表心意后亲密相拥。烟花声、人群环境声与日语对白融合,营造浪漫且连贯的叙事氛围。
- 专业运镜与动态张力,满足高难度场景需求
Seedance 1.5 pro 优化了运镜控制和动态张力,能更好地应对高难度的复杂场景生成。
模型可以相对从容地演绎高动态、高冲击力的运动场景。在滑雪视频中,通过声音和画面运动的协同,Seedance 1.5 pro 创造了强烈的临场感:镜头高速侧切紧随滑雪者轨迹,雪雾迸溅的瞬间被细腻捕捉,真实还原了极限运动的速度与力量。
I2V prompt:滑雪者身着专业装备在雪山背景中展现敏捷技巧。镜头以长镜头低角度跟随滑雪者滑下雪坡,捕捉卡宾切刃、雪雾炸开瞬间,随后快切至慢镜头特写,最后跟随滑雪者转向冲出弯道。背景音乐为动感 Future Bass,配合风声环境音,整体氛围充满活力。
同时,模型具备自发的运镜调度能力,能够执行高难度镜头运动,可应对精度要求较高的生成场景。在模拟红毯首映礼场景时,模型能生成镜头快速摇移的效果,营造现场的匆忙与繁华,配合女生清晰的中文说话声,有效还原了现场氛围。
T2V prompt:身穿晚礼服的亚洲时尚博主在红毯出镜,兴奋地说道:“空气里都是香水和野心的味道!今晚的红毯简直是时装编年史的现场,快跟我来捕捉那个高光时刻!”
在生成的扫地机器人宣传片中,画面可按商业广告片风格缓慢地推动镜头,并紧密追随机器人的运动,较好地聚焦产品。
T2V prompt:极简主义现代豪宅,落日余晖倒映在大理石地面。一台黑色高端洗地机,自动工作时发出幽幽蓝光探测灰尘。运镜采用贴地低角度跟随,展示机器流线线条。音频配合 AI 女声口播:“看不见的微尘,才是过敏的元凶。激光显尘,智能变频,把地板还给赤脚行走的自由。”
- 支持多语种和方言,增强喜剧等风格化表演质感
Seedance 1.5 pro 支持多语种语音生成,能够相对自然地呈现中文、英文、日文、韩语、西班牙语、印尼语等语种的声韵。尤其在中文语境下,模型还能模拟四川语、粤语等多种方言口音,为短剧和娱乐内容提供了更自然的表演质感。
例如,大熊猫啃竹子时突然用四川口音对着镜头吐槽,模型能匹配方言的声韵和表情,赋予视频鲜活的生命力。
T2V prompt:实拍高级质感。竹林中一只真实的熊猫拿竹子咀嚼,突然停下用四川话吐槽:“今天的竹子咋有点老哦!啷个的喃?有点造孽哦~”。随后镜头急推至近特写,熊猫歪头狡黠一笑,凑近镜头压低声音说:“喂,摄像的大哥,帮我点个外卖要得不!要微辣的哈!”
- 精准音效生成,提升游戏等视听内容沉浸感
除了人声,Seedance 1.5 pro 对环境音效和音乐氛围同样有较好的理解。模型能够根据画面内容叠加环境音,营造空间感,实现“所见即所听”。
在像素风游戏片段中,模型不仅实现了随角色跑步、跳跃而流畅跟随的运镜,还可同步生成契合场景的 8-bit 游戏音效,展现了在快节奏运动中的音画协同。
T2V prompt:8-bit 像素艺术风格,勇者夕阳下奔跑跳跃,带扫描线效果,复古电子游戏配乐。
在 3D 风格的游戏片段中,模型生成了细节丰富的开放世界,且随着角色移动,脚步声与喘息声精准同步,配合远处低沉的乌鸦鸣叫,提升了视听交互的沉浸感。
I2V prompt:3D 游戏 CG 视频,皮夹克男人在废弃教堂遗址中行动,他警觉停下,确认安全后冲刺,最后在拱门边缘急停观察。画面采用左侧高窗逆光拍摄,呈现暖色调黄褐色。音频精准叠加脚步声、心跳声和猫头鹰叫声,配合紧张背景乐营造悬疑氛围。
依托上述能力, Seedance 1.5 pro 可有力支持影视、广告、短剧、动漫等类型化创作。尤其在 I2V 任务中,模型展现出较强的风格一致性,有效保持了多镜头切换与复杂运动中的人物特征稳定,提升了从素材片段到成片制作的连贯性。
Seedance 1.5 pro 评测结果
指令遵循、音频表现突出
为了客观评估模型的综合能力,团队建立了综合评测基准 SeedVideoBench 1.5。该测试集由影视导演与技术专家联合制定评估标准,重点考察模型在视觉复杂指令遵循、运动稳定性与生动性、美学质量,以及音频指令遵循、音画同步、音质表现力等维度的表现。
在视频生成方面,相比对比评测的其他模型,Seedance 1.5 pro 对动作、镜头等复杂指令的理解相对精准,可更好匹配提示词设定的叙事与影像风格。评测显示,其动态表现较为饱满,人物表情特写生动,复杂运镜相对流畅且与参考图风格衔接自然统一,整体画面质感更贴近实拍;不过,其运动稳定性仍有提升空间。
Seedance 1.5 pro 视频生成能力评测
在音频生成方面, Seedance 1.5 pro 处于业内头部水平。模型在音频指令遵循、音画同步、音质与表现力等维度表现稳定且均衡:能相对准确地生成匹配的人声与指定音效,尤其在中文台词场景中具备较高的完整性与发音清晰度,并可响应多种方言指令。
相比同类模型,Seedance 1.5 pro 生成的人声相对更自然、机械感更少,音效真实感与空间混响较为贴近实际,同时音画错位现象显著减少。尽管后续仍需重点提升其在多角色交替对话及歌唱类场景的表现,但综合来看,该模型已能部分应用于中文及方言对白驱动的短剧、舞台演艺及电影类叙事场景。
Seedance 1.5 pro 音频生成能力评测
多模态联合生成架构
实现视听流精准协同
Seedance 1.5 pro 采用音视频联合生成的基座模型设计,通过底层架构、数据链路、后训练与推理环节的重构,提升了模型在多样化复杂任务中的泛化性能。
Seedance 1.5 pro 训推框架图
多模态联合架构:团队提出了一种基于 MMDiT 架构的统一音视频联合生成框架,通过深度跨模态信息交互机制,实现了视觉与听觉流在时间同步与语义一致性上的精准协同。通过在大规模混合模态数据集上进行多任务训练,我们的模型在各种下游任务中实现了稳健的泛化能力。
多阶段数据 Pipeline:团队设计了平衡音视频一致性、运动表现力与课程化调度的多阶段数据链路。该方案显著增强了视频描述的丰富度与专业性,并融入音频描述,为高保真音视频生成任务提供了高质量、多样化的数据基础。
精细化后训练优化:团队采用了高质量音视频数据集进行监督微调 (SFT),并引入专为音视频场景定制的 RLHF 算法。具体而言,多维奖励模型有效增强了文生视频 (T2V) 和图生视频 (I2V) 任务的表现,全面提升了运动质量、视觉美感及音频保真度。
高效推理加速:团队进一步优化了多阶段蒸馏框架,大幅降低生成所需的函数评估次数 (NFE)。通过集成量化、并行等推理基础设施优化,在保持模型性能的同时,实现了超过 10 倍的端到端推理加速。
总结与展望
相较我们的前代视频生成模型 Seedance 1.0,Seedance 1.5 pro 在沉浸式音画体验和作品级叙事表达上迈出关键一步。
依托音视频联合架构与精细化后训练,Seedance 1.5 pro 实现了对多模态指令的较好遵循——无论是在影视级的高动态运镜,还是对口型精准度有要求的方言表演中,它均展现出较高潜力。不过,我们也注意到,模型在高难度运动的物理稳定性、多角色对话及演唱等方面仍有提升空间。
未来,Seed 团队将致力于突破更长时长的叙事生成与更实时的端侧体验,并进一步增强模型对物理世界规律的理解及其多模态感知能力。我们希望 Seedance 系列模型能更生动、更高效、更懂用户,助力创作者打破感官界限,实现视听创意。
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み