PrismAudio:音声と映像の同期、音響効果の追従
通義大模型は、動画と環境音の同期・品質・空間位置を同時に最適化する「PrismAudio」を开源し、思考チェーンと強化学習を用いてマルチ目標生成の課題を解決した。
キーポイント
分解型思考チェーンによる「先考案、後生成」アーキテクチャ
従来の端到端モデルの黒箱問題を解決し、生成前に「何・いつ・どう・どこ」を記述する行動指南を作成することで、生成の透明性と制御性を確保した。
4つの専門教師による独立評価と統合報酬
语义(MS-CLAP)、时序(Synchformer)、美学(Meta Audiobox Aesthetics)、空間(StereoCRW)の各指標を独立した報酬関数で評価し、マルチトレードオフを同時に最適化した。
高速強化学習アルゴリズムFast-GRPOの実装
拡散モデルのRL訓練で必須だった高コストなランダム探索を極限まで制限し、200ステップで従来600ステップ分の性能を達成する訓練効率を実現した。
軽量設計と高速推論による実用レベルの達成
5.18億パラメータというコンパクトな規模で9秒の音声生成を0.63秒で完了させ、VFXやゲーム制作などリソース制約のある現場への即時適用を可能にした。
互动活动
鼓励用户为无声视频配音并试用PrismAudio,留言反馈可参与定制周边抽奖。
核心功能
语音双模型正式上线,支持“一句话即可自由生成”的便捷配音体验。
关联项目
推荐Fun-CineForge,作为首个影视级配音多模态大模型供进一步阅读。
影響分析・編集コメントを表示
影響分析
PrismAudioは、マルチモーダル生成における「品質と同期のトレードオフ」という長年の課題を、思考チェーンと多目標強化学習の組み合わせで解決し、業界標準を更新する可能性を秘めている。軽量かつ高速な実装は、VFX制作やインディーゲーム開発など、リソース制約のある現場でも即時採用できる道を開く。今後は空間オーディオやリアルタイムインタラクティブメディアへの応用が期待され、生成AIの制作ワークフローを根本から変革する基盤技術となるだろう。
編集コメント
マルチモーダル生成において「パラメータ規模の肥大化」から「アーキテクチャと訓練手法の最適化」へシフトする明確な兆候である。今後は空間オーディオやリアルタイムインタラクティブコンテンツへの応用が、生成AI制作現場の標準ツールとなる可能性が高い。
オリジナル 通義実験室 2026-03-24 15:34 浙江
より思考する AI 音響師、PrismAudio オープンソース公開!
あなたが動画を見ています:馬が草原を走っている。
この動画に音を付けようとするなら、音が本物らしく見えること、そして映像と「同期」していることを保証する必要があります。
上記の「とても簡単」なタスクを完了するには、同時に四つの試練を通過しなければなりません。
音は正しいか? 必ず蹄の音でなければならず、鳥の声や風の音であってはならない(意味的一貫性)
タイミングは正確か? 蹄が地面に落ちる瞬間、音も同期して鳴り始め、早すぎず遅すぎてもならない(時系列同期性)
聞こえは良いか? 音には質感と階層性があり、電子合成音のように耳障りであってはならない(美的品質)
位置は正しいか? 馬が左から右へ走っていくなら、音も左チャンネルから右チャンネルへと移動するべきである(空間的正確性)
現在の音声生成モデルは時として「片方を見て他方を忘れる」ことがあります:音を本物らしくすることに追求すると、タイミングが不正確になったり、タイミングの正確さに追求すると、音質が悪化したりします。これは、モデルが一つの基準で全ての要求を同時に満たそうとするため、目標同士が互いに「ぶつかり合う」からです。
この問題を解決するために、私たちは PrismAudio を持ち込みました。
論文アドレス:arXiv: 2511.18833
オープンソースアドレス:https://prismaudio-project.github.io/
PrismAudio とは何か?何ができるのか?
PrismAudio は動画から音声を生成する(Video-to-Audio)フレームワークです。
特別注記:私たちの研究の重点は、環境音/効果音の合成にあります。例えば、馬の蹄の音、風雨の音、金属を叩く音など、映像内容と同期する背景音であり、人物に吹き込む音声ではありません~
PrismAudio は、強化学習(Reinforcement Learning)と思考連鎖(Chain of Thought)を緊密に結びつけた初の動画生成環境音フレームワークです。簡単に言えば、モデルに「まず考え、次に発声する」ことを教え、同時に四人の「先生」が評価を行う仕組みです。
意味の先生は映像を見つめ、モデルに「これは馬の蹄の音であり、鳥の声ではない」と認識させるよう教えます。
時系列の先生はストップウォッチを持ち、音と動作がきっちり一致しているかを監督します。
美学の先生は音質を厳しく選び抜き、音が自然で階層性があり、耳障りであってはならないと要求します。
空間の先生は音を聞いて位置を特定し、音が来るべき方向から来ているかを確認します。
しかし、ここで問題が生じます:四人の先生が同時に評価する場合、要求が異なる場合はどうすればよいのでしょうか?例えば、意味の先生が「この音は似ている」と言い、時系列の先生が「だが半拍遅れている」と言う場合、どちらに従えばよいのか?
PrismAudio の解決策は、モデルにまず考えさせ、その後に行動させることです。
第一段階:まずメモを書き、次に発声する
従来の音声生成モデルは「エンドツーエンド」です:動画を入力し、直接音声を出力します。モデル内部で何が起こっているのか、誰も知らず、誰も制御できません。
しかし、私たちはモデルが「当てずっぽう」ではなく、「考えを持って」生成することを望んでいます。そのため、モデルにいきなり音声を生成させるのではなく、まず「メモを書く」ようにしました。
「この動画には何が映っているか?どのような音を発すべきか?」
「音はいつ始まり、いつ終わるか?順序はどうなるか?」
「音の質感はどうあるべきか?清脆なのか、それとも低く響くのか?遠近感はどのように処理するか?」
「音源は左側にあるのか右側にあるのか?移動はあるか?」
四つのメモを書き上げ、一つの完全な「行動指針」に拼接(つなぎ合わせ)し、それを音声生成モデルに実行させます。これが私たちが言う分解型思考連鎖です。モデルが「思いつきで」音を出すのではなく、思考プロセスを分解して書き出し、各ステップが根拠を持つようにするのです。
第二段階:四人の先生による継続的な評価
生成されたオーディオの良し悪しをどう判断するか?「リアルな声に似ているか」という一つの基準だけでは、モデルが再び「片手間に他方を犠牲にする」という老舗の問題に陥ってしまいます。そこで、私たちは各専門家に「採点者」(報酬関数)を一人ずつ割り当て、四人の専門家が互いに干渉することなく各自で採点する仕組みを導入しました。
意味理解担当の先生は MS-CLAP を用いて、音声と映像の内容が一致しているかを確認します。
時間軸担当の先生は Synchformer を用いて、音声と動作の同期を精密に測定します。
美学担当の先生は Meta Audiobox Aesthetics を用いて、明瞭度、ダイナミクス、豊かさなど複数の次元から音質を評価します。
空間担当の先生は StereoCRW を用いて、左右チャンネルの情報と映像内の音声源の位置が一致しているか検証します。
これら四つの得点を合計して総合スコアとし、モデルの目標はこの総スコアを常に高めていくことです。こうすることで、モデルは一つの基準に振り回されることなく、四つの要件を同時に満たす必要が生じ、どの次元でも遅れをとることがなくなります。
第三步:効率的なトレーニングによるボトルネックの解消
採点メカニズムが整ったので、次は強化学習を用いてモデルを最適化します。
しかし、ここには現実的な問題があります。拡散モデルに対する強化学習のトレーニングは、非常に時間がかかるのです。
従来の方法では、各ステップでランダムサンプリングを行う必要があり、コストが極めて高くなります。もし各ステップでこのように手間をかければ、トレーニングを一つ完遂するまでに数週間かかるかもしれません。そこで私たちは、効率的なトレーニングアルゴリズム「Fast-GRPO」を設計しました。
その核心となる考え方は非常にシンプルです。「ランダム探索」を刃の先だけに限定することです。生成プロセスの極めて短い時間だけランダムサンプリングを行い、残りの時間は高速チャネルを進みます。これにより、探索空間は維持しつつ、トレーニング時間を大幅に短縮できます。
結果として、特定の指標のみを最適化する際にも、Fast-GRPO は従来の方法が 600 ステップかかる性能を、わずか 200 ステップで達成しました。
効果はいかほどでしょうか?
私たちは厳格なテストを実施し、従来の VGGSound テストセットにおいて、PrismAudio が既存の最良手法を全面的に上回りました:
私たちが独自に構築した複雑なシナリオ向けテストセット「AudioCanvas」では、その差はさらに広がりました:
🎉 PrismAudio はパラメータ数がわずか 5.18 億で、9 秒分のオーディオ生成に要する時間は 0.63 秒です。数十億のパラメータを有するモデルと比較しても、はるかに軽量かつ実用的です。
AI に高品質な動画吹き替えを行わせる鍵は、パラメータやデータをただ積み重ねることではなく、人間のように思考し、バランスを取る方法をモデルに学ばせることにあります。「タスクの分解」「多角的フィードバック」「効率的最適化」というこのアプローチは、動画吹き替えだけでなく、他の多目的生成タスクに対しても新たな視点を提供するものです。本研究はトップカンファレンスである ICLR 2026 に採択され、コードも近日中にオープンソース化されます。ぜひ一緒に探索してください。
創空間(スペース)
https://huggingface.co/spaces/FunAudioLLM/PrismAudio
PrismAudio:声画同频,音效随行 (続き 3/3)
https://www.modelscope.cn/studios/iic/PrismAudio
オープンモデルの重み(ウェイト)公開
https://huggingface.co/FunAudioLLM/PrismAudio
https://www.modelscope.cn/models/iic/PrismAudio
💬 今日のインタラクション
手元に「音声なしの動画」で吹き替えが必要なものはありますか?ぜひ PrismAudio で試してみてください。ご使用後のフィードバックはコメント欄へお気軽にどうぞ。抽選でオリジナルグッズをプレゼントします。
おすすめ記事
一言で自由生成!音声双モデルがリリース
Fun-CineForge:初の映画・テレビ作品レベルの吹き替えに対応する多モーダル大規模モデル
WeChat で開くにはこちらへジャンプ
原文を表示
原创 通义实验室 2026-03-24 15:34 浙江
image
更会思考的AI音效师,PrismAudio开源发布!
当你看到一段视频:一匹马在草原上奔跑。
要给这段视频配上声音,我们要保证声音像真的,还要和画面"合拍"。
想完成上述这个"很简单"的任务,要同时通过四重考验:
声音对吗? 必须是马蹄声,不能是鸟叫或风声(语义一致性)
时机准吗? 马蹄落地的瞬间,声音必须同步响起,不能早也不能晚(时序同步性)
好听吗? 声音要有质感、有层次,不能像电子合成音那样刺耳(美学质量)
位置对吗? 马从左边跑向右边,声音也该从左声道移动到右声道(空间准确性)
现在的配音模型有时会“顾此失彼”:为了追求声音像,可能时机就不准了;为了追求时机准,音质有可能会变差。这是因为模型试图用一套标准同时满足所有要求,导致目标之间互相“打架”。
为了解决这个问题,我们带来了PrismAudio。
论文地址:arXiv:2511.18833
开源地址:https://prismaudio-project.github.io/
PrismAudio 是什么?它能做什么?
PrismAudio 是一个视频生成音频(Video-to-Audio)框架。
特别说明:我们的研究重点是 环境音/音效合成,比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音,而不是给人物配音哦~
PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说,我们教模型学会了“先思考,再发声”,并且有四位“老师”同时给它打分。
语义老师盯着画面,教模型认准“这是马蹄声,不是鸟叫声”。
时序老师拿着秒表,监督声音和动作必须严丝合缝。
美学老师挑剔音质,要求声音自然、有层次、不刺耳。
空间老师听声辨位,检查声音是不是从该来的方向来。
但问题来了:四个老师同时打分,如果要求不一样怎么办?比如语义老师说“这个声音像了”,时序老师说“但慢了半拍”,听谁的?
PrismAudio 的解法是:让模型先想清楚,再动手。
第一步:先写笔记,再发声
传统的配音模型是“端到端”的:输入视频,直接输出音频。模型内部发生了什么,没人知道,也没人控制。
但我们希望模型不是“瞎蒙”,而是“有思路”地生成。所以,我们没让模型一上来就生成音频,而是先让它“写笔记”。
“
这段视频里有什么?应该发出什么声音?
声音什么时候开始?什么时候结束?顺序怎么排?
声音应该是什么质感?清脆还是低沉?远近怎么处理?
声源在左边还是右边?有没有移动?
”
四份笔记写完,拼接成一份完整的“行动指南”,再交给音频生成模型去执行。这就是我们说的分解式思维链,不是让模型“一拍脑袋”出声音,而是让它把思考过程拆开、写下来,每一步都有据可依。
第二步:四位老师,持续打分
生成音频后,怎么判断它做得好不好?光靠“像不像真实声音”这一个标准,仍然会让模型再次陷入“顾此失彼”的老问题。所以,我们给每个老师配了一个“打分器”(奖励函数),让四个老师各自打分,互不干扰:
语义老师用MS-CLAP 打分,检查声音和画面内容是否匹配
时序老师用 Synchformer打分,精准测量声音和动作是否同步
美学老师用Meta Audiobox Aesthetics 打分,从清晰度、动态、丰富度等多个维度评估音质
空间老师用StereoCRW打分,验证左右声道信息是否与画面中的声源位置一致
四个分数加在一起,形成一个综合评分。模型的目标,就是不断调整自己的生成策略,让这个总分越来越高。这样模型不会被单一标准牵着走,而是必须同时满足四个的要求,哪个维度都不掉队。
第三步:高效训练,解决效率瓶颈
有了打分机制,下一步就是用强化学习来优化模型。
但这里有一个现实问题:强化学习训练扩散模型,太慢了。
传统方法每一步都要做随机采样,成本极高。如果每一步都这么折腾,训练一轮可能要好几周。所以我们设计了一个高效训练算法 Fast-GRPO。
它的核心思路很简单:把随机探索限制在刀刃上。只在生成过程的极短时间内做随机采样,其余时间走快速通道。这样既保留了探索空间,又把训练时间大幅缩短。
结果显示:在单独优化某个指标时,Fast-GRPO 只用 200 步就达到了传统方法 600 步的性能水平。
效果怎么样?
我们做了严格的测试,在传统的 VGGSound 测试集上,PrismAudio 全面超越了现有最好方法:
在我们自己搭建的复杂场景测试集 AudioCanvas 上,差距拉得更大:
🎉 PrismAudio 只有5.18 亿参数,生成 9 秒音频只要0.63 秒,比那些动辄几十亿参数的模型更轻量、更实用。
想让 AI 做好视频配音,关键不在于堆参数、堆数据,而在于让模型学会像人一样思考和权衡。「拆解任务、多维反馈、高效优化」这套方法论不仅适用于视频配音,也为其他多目标生成任务提供了新思路。这项研究已被顶级会议ICLR 2026收录,代码即将开源,欢迎大家一起探索。
创空间
https://huggingface.co/spaces/FunAudioLLM/PrismAudio
https://www.modelscope.cn/studios/iic/PrismAudio
开放模型权重
https://huggingface.co/FunAudioLLM/PrismAudio
https://www.modelscope.cn/models/iic/PrismAudio
💬 今日互动
你手头有"无声视频"需要配音吗?快来用PrismAudio试试效果~使用反馈欢迎评论区留言,随机掉落定制周边。
推荐阅读
一句话即可自由生成!语音双模型上线
Fun-CineForge:首个影视级配音多模态大模型
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み