通义大模型·2026年3月2日 11:38·約8分

一言で自由に生成！音声二重モデルがリリース

#TTS #音声合成 #自然言語制御 #通義大模型 #多言語AI

TL;DR

通義大模型は、自然言語指令による自由な表現制御が可能な「FreeStyle」機能搭載の音声生成モデルFun-CosyVoice3.5とFun-AudioGen-VDをリリースし、多言語対応や発音精度の向上などを実現した。

AI深層分析2026年4月27日 03:59

重要/ 5段階

深度40%

キーポイント

FreeStyle指令制御の実現

従来の固定タグに依存せず、自然言語で「语气坚定一点」などの細かな表現指示を直接入力して音声生成できる新パラダイムを採用。

モデルの二軸展開と多言語対応

音声複製と制御特化のFun-CosyVoice3.5、およびゼロからのサウンドデザイン特化のFun-AudioGen-VDをリリース。泰語、インドネシア語など4言語を追加し13言語に対応。

発音精度と音質の技術的向上

生僻字や複雑な文脈における読み間違い率を15.2%から5.3%に大幅削減。強化学習（DiffRO+GRPO）により韻律と音質を最適化。

リアルタイム性への最適化

Tokenizerのフレームレートを半減させ、首包遅延を35%短縮し、対話型アプリケーションにおける応答速度と体験の滑らかさを向上。

Fun-AudioGen-VD的核心功能：一体化声音设计

该模型支持通过自然语言描述生成目标音色、情绪表达及完整听觉场景，实现“人物+场景”的一体化声音创造。

精细化的可控音色与角色模拟

支持对性别、年龄、口音等基础属性，以及沙哑、磁性等音质特征和愤怒、悲伤等情绪进行精细化控制，甚至能模拟复杂的心理状态。

沉浸式环境与空间声学模拟

不仅能生成人声，还能叠加背景环境音（如咖啡馆、战场）并模拟空间混响效果（如大教堂、水下），打造极具沉浸感的听觉场景。

影響分析・編集コメントを表示

影響分析

このリリースは、音声合成技術が「正確な文字読み上げ」から「意図的な表現制御」へパラダイムシフトしたことを示している。特に自然言語による細かなニュアンス制御が可能になったことは、ゲーム、インタラクティブストーリーテリング、アクセシビリティなどの分野で、より没入感のある音声体験の実現を可能にする。また、多言語対応と低遅延の両立は、グローバルなリアルタイムコミュニケーションツールの競争をさらに激化させる要因となる。

編集コメント

従来のTTSが抱えていた「感情の硬直性」を自然言語指令で解決するFreeStyle機能は、ユーザー体験の質を根本から変える可能性を秘めている。技術的な数値改善（遅延削減、発音精度）も実用面での障壁を下げているため、今後はこのモデルを活用したクリエイティブな応用例が注目される。

一言で自由生成！音声双モデルがリリース

オリジナル記事通義実験室 2026年3月2日 10時38分浙江

image

FreeStyle 指令に対応した生成モデル2種がリリースされました！

従来の音声生成においては、表現方法は事前設定されたタグに依存することが多く、例えば以下のような制限がありました。

固定された感情オプション

事前に定義されたトーンカテゴリ

限定されたスタイルテンプレート

ユーザーは限られた選択肢の中から選ぶしかできず、より自由で繊細な表現制御を行うことが困難でした。

FreeStyle という新パラダイムの核心的な突破点は、固定タグに依存するのではなく、自然言語の指令を用いて望む表現方法を直接記述できる点にあります。

通義実験室音声チームは、FreeStyle 指令生成に対応した2つのモデル「Fun-CosyVoice3.5」と「Fun-AudioGen-VD」を正式にリリースしました。音響表現の微細な制御から、ゼロから音色やシーンを設計するに至るまで、すべて自然言語の指令によって直接生成することが可能です。

両モデルとも自然言語指令による音声生成制御をサポートしていますが、適用方向は異なります。

Fun-CosyVoice3.5：多言語リピケーション＋微細な表現制御

Fun-AudioGen-VD：サウンドデザイン＋シナリオ別オーディオ生成

image

FreeStyle 指令による制御をサポート

CosyVoice3.5 は Instruct-TTS（指示型テキスト読み上げ）の方向で能力が向上し、FreeStyle 指令による生成効果の制御をサポートしました。一言で自由な音声生成が可能となっています。

表現方法を自然言語で直接記述することもできます。例えば、「トーンをもう少し強く」「少し声を低くして、話す速度をゆっくりめに」「多少の感情の起伏を持たせて」などです。モデルはこれらの指示を理解し、対応する表現を生成します。

ここでは参考音声を用いて、異なる指令により標準中国語版と広東語版をそれぞれ生成した例を示します。

標準中国語 👉 標準中国語

指令：ナビゲーションが目的地に到着した際の軽快なフィードバックを模倣し、トーンは軽く、ユーザーの旅程完了に伴う達成感を伴ったものとする。

合成テキスト：「はい、目的地はあなたの右手側にあります。今回のナビゲーションサービスはここまでです。お忙しい一日の終わりに、ぜひ良い締めくくりとなりますよう願っております。また次回！」

標準中国語 👉 方言（広東語）

指令：広東語ニュース番組のリポーターを模倣し、明確で落ち着きがあり、誘導力のある声線でインタビュー対象者に質問する。

合成テキスト：「另外，有冇计划喺中国海外物业组合嘅占比提高至几多嘅水平咧？」

多言語拡張：4 つの新たな小语种を追加

新たにサポートされた言語：タイ語、インドネシア語、ポルトガル語、ベトナム語。同時に、13 か国語における WER（単語誤り率）および SpkSim（話者類似度）という客観指標において業界をリードする水準を維持しています。

インドネシア語

合成テキスト：プロジェクトを昨日完了させるお手伝いをいただき、ありがとうございます。あなたの努力に深く感謝しています。

ポルトガル語

合成テキスト：あなたが学ぶことができる最も重要なことは、愛し、そして愛されることです。

発音の正確性の大幅な向上

生僻字（あまり使われない漢字）や複雑な文など、誤読されやすいシナリオに特化して最適化を行いました。生僻字の誤読率は 15.2% から 5.3% に低下し、複雑なテキストでの表現がより安定し、長文の朗読もさらに滑らかで安定したものとなりました。

生僻字/長文テスト

合成テキスト：甪直（ルージーチー）から黟県（イシエン）へ、そして歙州古道を経て、白壁と黒瓦が薄い霧の中に浮かび上がります。

image

韻律と音質の最適化

強化学習技術を用いた特化調整により、聴感（聞き心地）を二重に向上させ、全体的な自然さを高め、表現に深みを持たせました。

言語モデル部分では DiffRO + GRPO を使用し、時間長と韻律に関するマルチチャネル報酬を導入したことで、韻律の表現が顕著に改善されました。

Flow Matching（音声生成）には Flow-GRPO を採用し、類似度の再現性と音質をさらに向上させました。

音質向上比較

中国語参考オーディオ：ノイズの多いオーディオ

合成テキスト：その後、ここは新興芸術家たちの集会所となりました。

パフォーマンス最適化：より低い遅延

Tokenizer のフレームレートが半分になりました

最初のデータパケット（首包）の遅延が 35% 削減されました

リアルタイムインタラクションシーンにおいて応答速度が向上し、体験がさらに滑らかになりました。

image

Fun-CosyVoice3.5 が「いかに表現を高めるか」を解決するのに対し、

Fun-AudioGen-VD は——「いかに音声を設計するか」を解決します。

Fun-AudioGen-VD は自然言語による記述に基づき、対象となる音色や情緒表現、そして完全な聴覚シーンを生成することをサポートし、「人物＋シーン」の一体化した音声生成を実現します。

制御可能な音色とキャラクター化生成

指示による音響特徴の精密制御をサポート

基本属性：性別、年齢、アクセント、ピッチ、話速

音質特性：ざらつきのある声、清らかな声、低音、磁性のある声……

情緒表現：怒り、悲しみ、興奮、決意……

キャラクター模倣：カスタマーサポート、老兵、子供、AI、アナウンサー……

複雑な心理状態：繊細な状態の表現も可能（例：「表面上は冷静だが内心は震えている」）

キャラクター音声生成の例

指示：【キャラクター】狂った悪役；【音響スタイル】邪悪かつ神経質。音色：高い声。要求：文の中盤で突然声が上がり、不規則な飲み込み音と軽蔑的な冷笑を伴い、傲慢さが溢れる口調で、心理的な歪みを表現すること。

合成テキスト：ハハハ！お前らはこの程度の小技で私を止められると思うのか？あまりに天真爛漫だ！まもなく世界が真の芸術を目撃するだろう。そしてお前たちは、その壮大な物語の中で最も卑しい生贄となるだけだ！

image

環境と空間の音響シミュレーション

Fun-AudioGen-VD は単に音を生成するだけでなく、音が存在する「世界」さえも生成し、没入型の聴覚シーンを構築します。

背景環境音：都市の喧騒、カフェの雑音、戦場の轟音などを重ねて追加；

空間残響効果：大聖堂、金属製の牢屋、水中などの空間での反響をシミュレーション；

機器による聴感フィルター：レトロなラジオ、無線機、呼吸用マスクなど特殊な音質を再現；

動的環境インタラクション：風の騒音の断続、残響の変化、声のかすれ効果などのリアルタイムインタラクションをサポート。

シナリオ別音声の例

指示：シーンは賑やかなカフェの中。背景にはコーヒー豆を挽く機械の嗡嗡という音、磁器のカップがぶつかる清脆な音、そして遠くでかすかに聞こえる人々の声が聞こえる。話し手の口調は非常にリラックスしており、向かいに座ってアフタヌーンティーを楽しんでいるような雰囲気。

合成テキスト：ねえ、ここの新商品を試してみて。味はかなり特別だよ。実は今思ってたんだが、来週は老李も誘ってみない？三人で久しぶりに集まってゆっくり話そうよ。

image

FreeStyle 指令制御と音声デザイン能力の融合により、音声生成は単なる「機能ツール」から「創作ツール」へと進化しました。

映画・アニメーション、ゲーム、オーディオブック、AI キャラクターなどのシーンにおいて、クリエイターは自然言語を用いて音色や感情、シーンを素早く定義できるため、録音とデバッグのコストを大幅に削減し、コンテンツの没入感を高めることができます。さらに、Fun-AudioGen-VD は高品質なリファレンスオーディオも生成可能で、音声復元により豊富な素材基盤を提供します。

これは単にいくつかのオプションタグを追加するだけでなく、音声生成が真に「自然言語による制御表現」の段階へと移行したことを意味します：

Fun-CosyVoice3.5：復元と表現制御に特化し、より自然で従順な音声を可能にします。

Fun-AudioGen-VD：音色とシーンの一体化設計を拡張し、音をゼロから創造することを可能にします。

音声の描写・理解・精密生成が可能になれば、声音創作はもはやテンプレートやタグに縛られず、編成可能で塑造可能なデジタル表現能力へと進化します。

API 呼び出し：https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

ドキュメント：https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

一言で自由に生成！音声二重モデルがリリース

#TTS #音声合成 #自然言語制御 #通義大模型 #多言語AI

TL;DR

AI深層分析2026年4月27日 03:59

重要/ 5段階

深度40%

キーポイント

FreeStyle指令制御の実現

従来の固定タグに依存せず、自然言語で「语气坚定一点」などの細かな表現指示を直接入力して音声生成できる新パラダイムを採用。

モデルの二軸展開と多言語対応

発音精度と音質の技術的向上

生僻字や複雑な文脈における読み間違い率を15.2%から5.3%に大幅削減。強化学習（DiffRO+GRPO）により韻律と音質を最適化。

リアルタイム性への最適化

Tokenizerのフレームレートを半減させ、首包遅延を35%短縮し、対話型アプリケーションにおける応答速度と体験の滑らかさを向上。

Fun-AudioGen-VD的核心功能：一体化声音设计

该模型支持通过自然语言描述生成目标音色、情绪表达及完整听觉场景，实现“人物+场景”的一体化声音创造。

精细化的可控音色与角色模拟

支持对性别、年龄、口音等基础属性，以及沙哑、磁性等音质特征和愤怒、悲伤等情绪进行精细化控制，甚至能模拟复杂的心理状态。

沉浸式环境与空间声学模拟

不仅能生成人声，还能叠加背景环境音（如咖啡馆、战场）并模拟空间混响效果（如大教堂、水下），打造极具沉浸感的听觉场景。

影響分析・編集コメントを表示

影響分析

編集コメント

一言で自由生成！音声双モデルがリリース

オリジナル記事通義実験室 2026年3月2日 10時38分浙江

image

FreeStyle 指令に対応した生成モデル2種がリリースされました！

従来の音声生成においては、表現方法は事前設定されたタグに依存することが多く、例えば以下のような制限がありました。

固定された感情オプション

事前に定義されたトーンカテゴリ

限定されたスタイルテンプレート

ユーザーは限られた選択肢の中から選ぶしかできず、より自由で繊細な表現制御を行うことが困難でした。

両モデルとも自然言語指令による音声生成制御をサポートしていますが、適用方向は異なります。

Fun-CosyVoice3.5：多言語リピケーション＋微細な表現制御

Fun-AudioGen-VD：サウンドデザイン＋シナリオ別オーディオ生成

image

FreeStyle 指令による制御をサポート

ここでは参考音声を用いて、異なる指令により標準中国語版と広東語版をそれぞれ生成した例を示します。

標準中国語 👉 標準中国語

標準中国語 👉 方言（広東語）

指令：広東語ニュース番組のリポーターを模倣し、明確で落ち着きがあり、誘導力のある声線でインタビュー対象者に質問する。

合成テキスト：「另外，有冇计划喺中国海外物业组合嘅占比提高至几多嘅水平咧？」

多言語拡張：4 つの新たな小语种を追加

インドネシア語

合成テキスト：プロジェクトを昨日完了させるお手伝いをいただき、ありがとうございます。あなたの努力に深く感謝しています。

ポルトガル語

合成テキスト：あなたが学ぶことができる最も重要なことは、愛し、そして愛されることです。

発音の正確性の大幅な向上

生僻字/長文テスト

合成テキスト：甪直（ルージーチー）から黟県（イシエン）へ、そして歙州古道を経て、白壁と黒瓦が薄い霧の中に浮かび上がります。

image

韻律と音質の最適化

強化学習技術を用いた特化調整により、聴感（聞き心地）を二重に向上させ、全体的な自然さを高め、表現に深みを持たせました。

言語モデル部分では DiffRO + GRPO を使用し、時間長と韻律に関するマルチチャネル報酬を導入したことで、韻律の表現が顕著に改善されました。

Flow Matching（音声生成）には Flow-GRPO を採用し、類似度の再現性と音質をさらに向上させました。

音質向上比較

中国語参考オーディオ：ノイズの多いオーディオ

合成テキスト：その後、ここは新興芸術家たちの集会所となりました。

パフォーマンス最適化：より低い遅延

Tokenizer のフレームレートが半分になりました

最初のデータパケット（首包）の遅延が 35% 削減されました

リアルタイムインタラクションシーンにおいて応答速度が向上し、体験がさらに滑らかになりました。

image

Fun-CosyVoice3.5 が「いかに表現を高めるか」を解決するのに対し、

Fun-AudioGen-VD は——「いかに音声を設計するか」を解決します。

制御可能な音色とキャラクター化生成

指示による音響特徴の精密制御をサポート

基本属性：性別、年齢、アクセント、ピッチ、話速

音質特性：ざらつきのある声、清らかな声、低音、磁性のある声……

情緒表現：怒り、悲しみ、興奮、決意……

キャラクター模倣：カスタマーサポート、老兵、子供、AI、アナウンサー……

複雑な心理状態：繊細な状態の表現も可能（例：「表面上は冷静だが内心は震えている」）

キャラクター音声生成の例

image

環境と空間の音響シミュレーション

Fun-AudioGen-VD は単に音を生成するだけでなく、音が存在する「世界」さえも生成し、没入型の聴覚シーンを構築します。

背景環境音：都市の喧騒、カフェの雑音、戦場の轟音などを重ねて追加；

空間残響効果：大聖堂、金属製の牢屋、水中などの空間での反響をシミュレーション；

機器による聴感フィルター：レトロなラジオ、無線機、呼吸用マスクなど特殊な音質を再現；

動的環境インタラクション：風の騒音の断続、残響の変化、声のかすれ効果などのリアルタイムインタラクションをサポート。

シナリオ別音声の例

image

FreeStyle 指令制御と音声デザイン能力の融合により、音声生成は単なる「機能ツール」から「創作ツール」へと進化しました。

これは単にいくつかのオプションタグを追加するだけでなく、音声生成が真に「自然言語による制御表現」の段階へと移行したことを意味します：

Fun-CosyVoice3.5：復元と表現制御に特化し、より自然で従順な音声を可能にします。

Fun-AudioGen-VD：音色とシーンの一体化設計を拡張し、音をゼロから創造することを可能にします。

API 呼び出し：https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

ドキュメント：https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

一言で自由に生成！音声二重モデルがリリース

キーポイント

影響分析

編集コメント

関連記事

一言で自由に生成！音声二重モデルがリリース

キーポイント

影響分析

編集コメント

関連記事