一言で自由に生成!音声二重モデルがリリース
通義大模型は、自然言語指令による自由な表現制御が可能な「FreeStyle」機能搭載の音声生成モデルFun-CosyVoice3.5とFun-AudioGen-VDをリリースし、多言語対応や発音精度の向上などを実現した。
キーポイント
FreeStyle指令制御の実現
従来の固定タグに依存せず、自然言語で「语气坚定一点」などの細かな表現指示を直接入力して音声生成できる新パラダイムを採用。
モデルの二軸展開と多言語対応
音声複製と制御特化のFun-CosyVoice3.5、およびゼロからのサウンドデザイン特化のFun-AudioGen-VDをリリース。泰語、インドネシア語など4言語を追加し13言語に対応。
発音精度と音質の技術的向上
生僻字や複雑な文脈における読み間違い率を15.2%から5.3%に大幅削減。強化学習(DiffRO+GRPO)により韻律と音質を最適化。
リアルタイム性への最適化
Tokenizerのフレームレートを半減させ、首包遅延を35%短縮し、対話型アプリケーションにおける応答速度と体験の滑らかさを向上。
Fun-AudioGen-VD的核心功能:一体化声音设计
该模型支持通过自然语言描述生成目标音色、情绪表达及完整听觉场景,实现“人物+场景”的一体化声音创造。
精细化的可控音色与角色模拟
支持对性别、年龄、口音等基础属性,以及沙哑、磁性等音质特征和愤怒、悲伤等情绪进行精细化控制,甚至能模拟复杂的心理状态。
沉浸式环境与空间声学模拟
不仅能生成人声,还能叠加背景环境音(如咖啡馆、战场)并模拟空间混响效果(如大教堂、水下),打造极具沉浸感的听觉场景。
影響分析・編集コメントを表示
影響分析
このリリースは、音声合成技術が「正確な文字読み上げ」から「意図的な表現制御」へパラダイムシフトしたことを示している。特に自然言語による細かなニュアンス制御が可能になったことは、ゲーム、インタラクティブストーリーテリング、アクセシビリティなどの分野で、より没入感のある音声体験の実現を可能にする。また、多言語対応と低遅延の両立は、グローバルなリアルタイムコミュニケーションツールの競争をさらに激化させる要因となる。
編集コメント
従来のTTSが抱えていた「感情の硬直性」を自然言語指令で解決するFreeStyle機能は、ユーザー体験の質を根本から変える可能性を秘めている。技術的な数値改善(遅延削減、発音精度)も実用面での障壁を下げているため、今後はこのモデルを活用したクリエイティブな応用例が注目される。
一言で自由生成!音声双モデルがリリース
オリジナル記事 通義実験室 2026年3月2日 10時38分 浙江
FreeStyle 指令に対応した生成モデル2種がリリースされました!
従来の音声生成においては、表現方法は事前設定されたタグに依存することが多く、例えば以下のような制限がありました。
固定された感情オプション
事前に定義されたトーンカテゴリ
限定されたスタイルテンプレート
ユーザーは限られた選択肢の中から選ぶしかできず、より自由で繊細な表現制御を行うことが困難でした。
FreeStyle という新パラダイムの核心的な突破点は、固定タグに依存するのではなく、自然言語の指令を用いて望む表現方法を直接記述できる点にあります。
通義実験室音声チームは、FreeStyle 指令生成に対応した2つのモデル「Fun-CosyVoice3.5」と「Fun-AudioGen-VD」を正式にリリースしました。音響表現の微細な制御から、ゼロから音色やシーンを設計するに至るまで、すべて自然言語の指令によって直接生成することが可能です。
両モデルとも自然言語指令による音声生成制御をサポートしていますが、適用方向は異なります。
Fun-CosyVoice3.5:多言語リピケーション+微細な表現制御
Fun-AudioGen-VD:サウンドデザイン+シナリオ別オーディオ生成
01
FreeStyle 指令による制御をサポート
CosyVoice3.5 は Instruct-TTS(指示型テキスト読み上げ)の方向で能力が向上し、FreeStyle 指令による生成効果の制御をサポートしました。一言で自由な音声生成が可能となっています。
表現方法を自然言語で直接記述することもできます。例えば、「トーンをもう少し強く」「少し声を低くして、話す速度をゆっくりめに」「多少の感情の起伏を持たせて」などです。モデルはこれらの指示を理解し、対応する表現を生成します。
ここでは参考音声を用いて、異なる指令により標準中国語版と広東語版をそれぞれ生成した例を示します。
標準中国語 👉 標準中国語
指令:ナビゲーションが目的地に到着した際の軽快なフィードバックを模倣し、トーンは軽く、ユーザーの旅程完了に伴う達成感を伴ったものとする。
合成テキスト:「はい、目的地はあなたの右手側にあります。今回のナビゲーションサービスはここまでです。お忙しい一日の終わりに、ぜひ良い締めくくりとなりますよう願っております。また次回!」
標準中国語 👉 方言(広東語)
指令:広東語ニュース番組のリポーターを模倣し、明確で落ち着きがあり、誘導力のある声線でインタビュー対象者に質問する。
合成テキスト:「另外,有冇计划喺中国海外物业组合嘅占比提高至几多嘅水平咧?」
02
多言語拡張:4 つの新たな小语种を追加
新たにサポートされた言語:タイ語、インドネシア語、ポルトガル語、ベトナム語。同時に、13 か国語における WER(単語誤り率)および SpkSim(話者類似度)という客観指標において業界をリードする水準を維持しています。
インドネシア語
合成テキスト:プロジェクトを昨日完了させるお手伝いをいただき、ありがとうございます。あなたの努力に深く感謝しています。
ポルトガル語
合成テキスト:あなたが学ぶことができる最も重要なことは、愛し、そして愛されることです。
03
発音の正確性の大幅な向上
生僻字(あまり使われない漢字)や複雑な文など、誤読されやすいシナリオに特化して最適化を行いました。生僻字の誤読率は 15.2% から 5.3% に低下し、複雑なテキストでの表現がより安定し、長文の朗読もさらに滑らかで安定したものとなりました。
生僻字/長文テスト
合成テキスト:甪直(ルージーチー)から黟県(イシエン)へ、そして歙州古道を経て、白壁と黒瓦が薄い霧の中に浮かび上がります。
04
韻律と音質の最適化
強化学習技術を用いた特化調整により、聴感(聞き心地)を二重に向上させ、全体的な自然さを高め、表現に深みを持たせました。
言語モデル部分では DiffRO + GRPO を使用し、時間長と韻律に関するマルチチャネル報酬を導入したことで、韻律の表現が顕著に改善されました。
Flow Matching(音声生成)には Flow-GRPO を採用し、類似度の再現性と音質をさらに向上させました。
音質向上比較
中国語参考オーディオ:ノイズの多いオーディオ
合成テキスト:その後、ここは新興芸術家たちの集会所となりました。
05
パフォーマンス最適化:より低い遅延
Tokenizer のフレームレートが半分になりました
最初のデータパケット(首包)の遅延が 35% 削減されました
リアルタイムインタラクションシーンにおいて応答速度が向上し、体験がさらに滑らかになりました。
Fun-CosyVoice3.5 が「いかに表現を高めるか」を解決するのに対し、
Fun-AudioGen-VD は——「いかに音声を設計するか」を解決します。
Fun-AudioGen-VD は自然言語による記述に基づき、対象となる音色や情緒表現、そして完全な聴覚シーンを生成することをサポートし、「人物+シーン」の一体化した音声生成を実現します。
01
制御可能な音色とキャラクター化生成
指示による音響特徴の精密制御をサポート
基本属性:性別、年齢、アクセント、ピッチ、話速
音質特性:ざらつきのある声、清らかな声、低音、磁性のある声……
情緒表現:怒り、悲しみ、興奮、決意……
キャラクター模倣:カスタマーサポート、老兵、子供、AI、アナウンサー……
複雑な心理状態:繊細な状態の表現も可能(例:「表面上は冷静だが内心は震えている」)
キャラクター音声生成の例
指示:【キャラクター】狂った悪役;【音響スタイル】邪悪かつ神経質。音色:高い声。要求:文の中盤で突然声が上がり、不規則な飲み込み音と軽蔑的な冷笑を伴い、傲慢さが溢れる口調で、心理的な歪みを表現すること。
合成テキスト:ハハハ!お前らはこの程度の小技で私を止められると思うのか?あまりに天真爛漫だ!まもなく世界が真の芸術を目撃するだろう。そしてお前たちは、その壮大な物語の中で最も卑しい生贄となるだけだ!
02
環境と空間の音響シミュレーション
Fun-AudioGen-VD は単に音を生成するだけでなく、音が存在する「世界」さえも生成し、没入型の聴覚シーンを構築します。
背景環境音:都市の喧騒、カフェの雑音、戦場の轟音などを重ねて追加;
空間残響効果:大聖堂、金属製の牢屋、水中などの空間での反響をシミュレーション;
機器による聴感フィルター:レトロなラジオ、無線機、呼吸用マスクなど特殊な音質を再現;
動的環境インタラクション:風の騒音の断続、残響の変化、声のかすれ効果などのリアルタイムインタラクションをサポート。
シナリオ別音声の例
指示:シーンは賑やかなカフェの中。背景にはコーヒー豆を挽く機械の嗡嗡という音、磁器のカップがぶつかる清脆な音、そして遠くでかすかに聞こえる人々の声が聞こえる。話し手の口調は非常にリラックスしており、向かいに座ってアフタヌーンティーを楽しんでいるような雰囲気。
合成テキスト:ねえ、ここの新商品を試してみて。味はかなり特別だよ。実は今思ってたんだが、来週は老李も誘ってみない?三人で久しぶりに集まってゆっくり話そうよ。
FreeStyle 指令制御と音声デザイン能力の融合により、音声生成は単なる「機能ツール」から「創作ツール」へと進化しました。
映画・アニメーション、ゲーム、オーディオブック、AI キャラクターなどのシーンにおいて、クリエイターは自然言語を用いて音色や感情、シーンを素早く定義できるため、録音とデバッグのコストを大幅に削減し、コンテンツの没入感を高めることができます。さらに、Fun-AudioGen-VD は高品質なリファレンスオーディオも生成可能で、音声復元により豊富な素材基盤を提供します。
これは単にいくつかのオプションタグを追加するだけでなく、音声生成が真に「自然言語による制御表現」の段階へと移行したことを意味します:
Fun-CosyVoice3.5:復元と表現制御に特化し、より自然で従順な音声を可能にします。
Fun-AudioGen-VD:音色とシーンの一体化設計を拡張し、音をゼロから創造することを可能にします。
音声の描写・理解・精密生成が可能になれば、声音創作はもはやテンプレートやタグに縛られず、編成可能で塑造可能なデジタル表現能力へと進化します。
API 呼び出し:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
ドキュメント:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2
おすすめ記事
Qwen3.5:アクティブ化パラメータを削減し、より強力なエージェント能力を実現
AI に「優しくも毅然とした」口調で話させるには?
原文を読む
WeChat で開くためにジャンプ
原文を表示
原创 通义实验室 2026-03-02 10:38 浙江
image
两款支持 FreeStyle 指令生成模型发布!
在传统语音生成中,表达方式往往依赖预设标签,例如:
固定情绪选项
预定义语气类别
限定风格模板
用户只能在有限选项中选择,而难以进行更自由、细腻的表达控制。
FreeStyle 新范式的核心突破在于
不再依赖固定标签,而是支持通过自然语言指令直接描述想要的表达方式。
通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5与Fun-AudioGen-VD。无论是精细控制声音表达,还是从零设计音色与场景,都可以通过自然语言指令直接生成。
两款模型均支持通过自然语言指令控制语音生成,但应用方向不同:
Fun-CosyVoice3.5:多语种复刻 + 精细化表达控制
Fun-AudioGen-VD:声音设计 + 场景化音频生成
01
支持 FreeStyle 指令控制
CosyVoice3.5 在 Instruct-TTS 方向实现能力升级,支持 FreeStyle 指令控制生成效果,一句话自由生成语音。
你可以直接用自然语言描述表达方式,例如:“语气坚定一点”、“稍微压低音调,语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。
我们以这段参考音频为例,通过不同指令,分别生成普通话与粤语版本:
普通话 👉 普通话
指令:模拟导航在目的地到达时的欢快反馈,语气轻盈,带有一种伴随用户完成旅程的成就感。
合成文本:好啦,目的地就在您的右手边。本次导航就为您服务到这里,希望能为您忙碌的一天画个圆满的句号,下次再见!
普通话 👉 方言
指令:模拟粤语新闻节目记者,用清晰、稳重、有引导感的声线向受访者提问。
合成文本:"另外,有冇计划喺中国海外物业组合嘅占比提高至几多嘅水平咧?"
02
多语种扩展:新增 4 个小语种
新增支持:泰语、印尼语、葡萄牙语、越南语。同时在 13 种语言的 WER 和 SpkSim 客观指标上保持业内领先。
印尼语
合成文本:Terima kasih sudah membantu saya menyelesaikan proyek kemarin, saya sangat menghargai kerja kerasmu.
葡萄牙语
合成文本:A coisa mais importante que você pode aprender é só amar e ser amado em troca.
03
发音准确性显著提升
针对生僻字、复杂语句等容易读错的场景专项优化,生僻字读错率从 15.2% 降至 5.3%,复杂文本表现更加稳定,长文本朗读也更稳定流畅。
生僻字/长文本测试
合成文本:从甪直到黟县,再经歙州古道,白墙黛瓦在薄雾中若隐若现。
04
韵律与音质优化
通过强化学习技术专项调优,双重提升听感,使整体听感更加自然,表达更有层次。
语言模型部分使用 DiffRO + GRPO,增加时长与韵律多通道 reward,韵律表现明显提升。
Flow Matching(音频生成)使用 Flow-GRPO,复刻相似度和音质进一步提升。
音质提升对比
中文参考音频:噪音更大的音频
合成文本:随后这里便成为了新兴艺术家们的聚会所。
05
性能优化:更低延迟
Tokenizer 帧率减半
首包延迟降低 35%
在实时交互场景下响应更快,体验更流畅。
如果说Fun-CosyVoice3.5 解决的是“如何更好地表达”,
那么 Fun-AudioGen-VD 解决的是——声音如何被设计。
Fun-AudioGen-VD 支持根据自然语言描述,生成目标音色、情绪表达和完整听觉场景,实现“人物 + 场景”的一体化声音生成。
01
可控音色与角色化生成
支持通过指令精细化控制声音特征
基础属性:性别、年龄、口音、音高、语速
音质特征:沙哑、清亮、低沉、磁性......
情绪表达:愤怒、悲伤、兴奋、坚定......
角色模拟:客服、老兵、孩童、AI、播音员......
复杂心理:支持细腻状态表达(如“表面镇定但内心颤抖”)
角色语音生成示例
指令:【角色】疯狂反派;【声学风格】邪恶且神经质。音色:尖细。要求:语调在句子中段突然拔高,带有不规律的吞咽声和轻蔑的冷笑,语气充满了狂妄自大,表现出一种心理扭曲的状态。
合成文本:哈哈哈哈!你们以为凭这点微末的伎俩就能阻止我吗?太天真了!整个世界即将见证真正的艺术,而你们,只能成为这宏大篇章中最卑微的祭品!
02
环境与空间声学模拟
Fun-AudioGen-VD 不仅能生成声音,还能生成声音所处的“世界”,打造沉浸式听觉场景。
背景环境音:叠加城市喧嚣、咖啡馆背景、战场轰鸣等环境音;
空间混响效果:模拟大教堂、金属牢房、水下等空间回声;
设备听感滤镜:还原老式广播、对讲机、呼吸面罩等特殊音质;
动态环境互动:支持风噪断续、回声变化、嘶哑效果等实时互动。
场景化音频示例
指令:场景是在一家热闹的咖啡馆里。背景能听到磨豆机的嗡嗡声、瓷杯碰撞的清脆声,还有远处模糊的人声。说话人语气很松弛,就像是坐在对面跟你喝下午茶。
合成文本:哎,你尝尝他家这个新品,味道挺特别的。我刚才还想呢,咱下周要不把老李也约出来?咱三个好久没凑一块儿坐坐了。
FreeStyle 指令控制与声音设计能力的结合,使语音生成从“功能工具”升级为“创作工具”。
在影视动画、游戏、有声书及 AI 角色等场景中,创作者可通过自然语言快速定义音色、情绪与场景,大幅降低录制与调试成本,提升内容沉浸感。此外,Fun-AudioGen-VD 还能生成高质量参考音频,为声音复刻提供更丰富的素材基础。
这并非简单增加几个可选标签,而是让语音生成真正进入「自然语言控制表达」的阶段:
Fun-CosyVoice3.5:专注于复刻与表达控制,让声音更自然、更听话。
Fun-AudioGen-VD:拓展了音色与场景的一体化设计,让声音从无到有被创造。
当语音可以被描述、被理解、被精准生成,声音创作将不再受限于模板与标签,而成为一种可编排、可塑造的数字表达能力。
API调用:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
文档:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2
推荐阅读
Qwen3.5:更少激活参数,更强智能体能力
如何让 AI 用“温柔但坚定”的语气说话?
阅读原文
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み