LLMベースのテキスト読み上げシステムの品質と堅牢性の向上
Amazon Scienceは、低ランク適応(LoRA)、データ拡張、分類器不要ガイダンス(CFG)などの技術を用いて、LLMベースのテキスト読み上げシステムにおけるアクセント漏れ、表現力、信頼性の問題を解決する取り組みを紹介している。
キーポイント
ポリグロットTTSにおけるアクセント漏れの軽減
ロケール固有のデータ拡張と低ランク適応(LoRA)を用いて、ターゲット言語のネイティブな発音を維持しつつ話者同一性を失わない、アクセントフリーなポリグロット音声クローニングを実現している。
表現力の向上
分類器不要ガイダンス(CFG)を用いて表現力豊かな合成参照音声サンプルを生成し、推論時の条件付けとして利用することで、より表現力のある韻律スタイルをモデルに促している。
信頼性の課題とその背景
従来のTTSシステムとは異なり、LLMベースのシステムは自己回帰的であり、発話トークンを逐次生成するため、持続時間を明示的にモデル化せず、幻覚的な繰り返し、予期せぬ途切れ、一貫性のない発音が発生する可能性がある。
CFGの応用と効果
拡散モデリング用に開発されたCFGをTTSに応用し、話者特性を保ちつつ目標言語のネイティブ発音を習得させることで、少数の録音音声を多言語・多地域に拡張可能にした。
品質向上の実証
MUSHRAリスニングテストによる評価で、英語・フランス語・イタリア語・ドイツ語・スペイン語の9地域における多言語出力の品質が、従来モデル比5〜20%向上した。
多言語・多地域での品質向上
LLMベースのTTSシステムは、英語(米国、南部米国、英国、オーストラリア)、スペイン語(米国、スペイン)、フランス語、ドイツ語、イタリア語など、複数の言語と地域でベースラインを上回る改善を示している。
改善度合いの地域差
改善率は地域によって異なり、特にSouthern US-Englishで+20.05%と最も大きく、Great Britain-EnglishやAustralia-Englishでは+5.97%、+5.50%と比較的小さな改善となっている。
影響分析・編集コメントを表示
影響分析
この記事は、LLMベースのTTS技術が直面する実用的な課題に対して、具体的な技術的解決策を示しており、多言語・多様な表現に対応する次世代音声合成システムの開発方向性を示している。特に、グローバルな音声サービスやアクセシビリティ向上に直接寄与する可能性が高い。
編集コメント
音声合成の品質向上という実用的な課題に対して、LoRAやCFGといった最新技術を具体的に適用した研究開発の事例として、業界関係者にとって参考価値が高い内容である。
LLMベースのテキスト読み上げシステムにおける品質と堅牢性の向上
低ランク適応(LoRA)、データ拡張、連鎖的思考推論などの技術により、アクセントのない多言語出力、表現力の向上、信頼性の高い合成が可能になっています。
会話型AI
Ammar Abbas April 01, 02:13 PM April 01, 02:13 PM 大規模言語モデル(LLM)ベースのテキスト読み上げ(TTS)モデルは、短い音声ファイルからクローンした声であっても、自然な音声を生成する能力が非常に高まっています。しかし、これらのモデルには依然として課題が残されています。
その一つが、多言語テキスト読み上げにおける「アクセント漏れ」です。英語で録音された声を、正しいアクセントを保ち、かつ声の同一性を失うことなく、フランス語やドイツ語、スペイン語などに変換できるはずです。しかし、多くのシステムでは、参照話者の母語アクセントが目標言語に混入してしまったり、逆に目標言語のアクセントが話者の声の特徴を上書きしてしまったりします。
image 英語で録音された声を、正しいアクセントで声の同一性を保ちつつ、別の言語(例えばフランス語)に変換できるはずです<i>(左)</i>。しかし、多くのシステムでは、参照話者の母語アクセントが目標言語に混入してしまいます<i>(右)</i>。表現力ももう一つの課題です。笑いやため息、間(ま)など、感情を示し音声を豊かにする要素が含まれます。
さらに信頼性の問題もあります。従来のTTSシステムとは異なり、LLMベースのシステムは自己回帰的です。これは、発話の長さを明示的にモデル化せず、音声トークンを一つずつ生成することを意味します。このため、幻覚による不自然な繰り返し、予期せぬ途切れ、発音の不整合が発生する可能性があります。
Amazonでは、これらすべての課題の解決に取り組んでいます。
多言語TTSにおけるアクセント漏れの軽減
アクセント漏れの問題に対処するため、ロケール固有のデータ拡張アプローチを採用しています。具体的には、低ランク適応(LoRA)を用いて、対象ロケールに重点を置いたデータで多言語モデルをファインチューニングします。これにより、アクセントのない多言語音声クローニングも実現できます。クローンされた声は、目標言語をネイティブに近い発音で話しますが、話者の声の特徴は保持されます。
音声クローニングを用いた多言語テキスト読み上げの例
表現力の向上
分類器不要ガイダンス(CFG)を用いて、表現力を強化した合成参照音声サンプルを生成します。推論時にこれを条件付けとして用いることで、モデルをより表現力豊かな韻律スタイルへと導きます。
CFGは元々拡散モデリングのために開発された技術で、生成過程が条件付けにどれだけ強く従うかを制御します。CFGベースの参照サンプルは、話者同一性とアクセントを分離し、モデルが目標言語のネイティブ発音を採用しつつ、声の特徴を保持することを学習させる役割を果たします。
これにより、少数の録音音声から、多くの新たなロケールと言語に対応する声を拡張できると同時に、表現力を高めることが可能になります。MUSHRA(隠し参照とアンカーを用いた複数刺激聴取テスト)による評価では、英語、フランス語、イタリア語、ドイツ語、スペイン語にまたがる9つのロケールにおける当社モデルの多言語出力品質が、従来のモデル群と比べて5%から20%向上しました。
| ロケール | ベースラインからの改善 |
|---|---|
| US-English | +12.43% |
| Southern US-English | +20.05% |
LLMベースのTTSモデルは、従来のシステムよりも明らかに自然な音声を生成します。しかし、私たちの経験では、本番環境に確実に導入する前に解決すべき、新たな種類の不具合も生み出します。私たちは、LoRAベースのファインチューニングが多言語TTSで観察される強いアクセント漏れに対処し、一方で分類器不要ガイダンス(CFG)が表現力を向上させる有用なツールであることを確認しました。信頼性に関しては、スマートなデータフィルタリングと連鎖的思考推論を、ガードレールやエージェント的再生と組み合わせることで、幻覚を大幅に削減できることが分かりました。
自己回帰型TTSのための連鎖的思考推論
ガードレール
データフィルタリング
研究分野:会話型AI
タグ:テキスト読み上げ(TTS)、大規模言語モデル(LLMs)
原文を表示
Improving quality and robustness in LLM-based text-to-speech systems
Low-rank adaptation, data augmentation, and chain-of-thought reasoning are among the techniques enabling accent-free polyglot outputs, improved expressiveness, and reliable synthesis.
Conversational AI
Ammar Abbas April 01, 02:13 PM April 01, 02:13 PM Text-to-speech models based on large language models (LLMs) have gotten very good at producing natural-sounding speech, even in voices cloned from short audio files. But some problems with these models still persist.
One is accent leakage in polyglot text to speech. It should be possible to transfer a voice recorded in English to French, German, or Spanish with the correct accent and without loss of voice identity. But with most systems, the reference speaker's native accent leaks into the target language, or the target language's accent overwrites characteristics of the speakers voice.
image It should be possible to transfer a voice recorded in English to another language say, French with the correct accent and without loss of voice identity *(left)*. But with many systems, the reference speaker's native accent leaks into the target language *(right)*. Expressiveness is another challenge, including the laughs, sighs, hesitations, and other indications of emotion that make speech engaging.
And then theres reliability. Unlike traditional text-to-speech (TTS) systems, LLM-based systems are autoregressive, meaning they generate speech tokens one at a time, without explicitly modeling duration. This can cause hallucinated repetitions, unexpected cutoffs, and inconsistent pronunciation.
At Amazon, we're working to address all these issues.
Mitigating accent leakage in polyglot TTS
We use a locale-specific data augmentation approach to address the problem of accent leakage. Specifically, we use low-rank adaptation (LoRA) to fine-tune our polyglot models on data that is heavily weighted toward target locales. This also allows us to do accent-free polyglot voice cloning: the cloned voice speaks the target language with native-like pronunciation but without loss of speaker identity.
Examples of polyglot text to speech with voice cloningImproving expressiveness
We use classifier-free guidance (CFG) to generate synthetic reference audio samples with enhanced expressiveness. Using these as conditioning during inference pushes the model toward more expressive prosodic styles.
Originally developed for diffusion modeling, CFG controls how strongly generation follows conditioning. CFG-based reference samples decouple speaker identity from accent, teaching the model to preserve voice characteristics while adopting native pronunciation in the target language.
This allows us to scale a small number of recorded voices to many new locales and languages, while increasing expressiveness. Scored according to MUSHRA (multiple stimuli with hidden reference and anchor) listening tests, the quality of our models polyglot outputs across nine locales spanning English, French, Italian, German, and Spanish improved 5% to 20% over those of our previous model family.
LocaleImprovement over baseline
US-English+12.43%
Southern US-English+20.05%
Great Britain-English+5.97%
Australia-English+5.50%
US-Spanish+11.78%
Spain-Spanish+13.23%
France-French+8.44%
Germany-German+14.12%
Italy-Italian+9.80%
Robustness
Traditional TTS had failure modes, but hallucination and random truncation weren't chief among them. LLM-based TTS can generate confident-sounding speech that doesn't match the input, and it will sometimes stop mid-sentence.
Traditional TTS pipelines have explicit stages: grapheme-to-phoneme conversion, duration prediction, and acoustic generation. More recent, non-autoregressive end-to-end models like FastSpeech predict durations explicitly before speech generation.
LLM-based TTS takes an alternate approach. Duration emerges implicitly from autoregressive generation. There's no explicit plan for how long the utterance should be or how long each phoneme should take. This is why these models hallucinate (keep generating past the intended content) or truncate (stop too early).
To address this problem, we add chain-of-thought reasoning to the model: before generating speech tokens, the model predicts phoneme sequences and estimates duration (total length and per-phoneme timing).
This isn't the same as traditional TTS pipelines. Bolting duration prediction onto an autoregressive architecture is a different problem than building it into a non-autoregressive one, and it has its own challenges.
Phoneme prediction enables the model to handle heteronyms ("read," "lead") and unusual names more reliably. Duration prediction gives the model a timing plan, which reduces both hallucination and truncation. These predictions are also useful for debugging, as you can see what the model "thought" it was going to generate before it started generating.
Our guardrails use the chain-of-thought predictions as checkpoints. We know the expected phoneme count and approximate speech duration before generation starts. After generation, we do a pair of checks: does the output duration match the prediction, and is the output length reasonable given the phoneme count? Large deviations flag likely hallucinations or truncations.
When an agent detects problems, it can prompt the TTS system to regenerate with different sampling parameters or fall back to alternative approaches.
To filter the text data passing to the TTS model, we combine speech-recognition-based metrics with metrics based on the LLMs attention mechanism. Automatic speech recognition (ASR) catches actual transcription errors. Taken together, the metrics keep data that's genuinely well aligned while preserving expressiveness that ASR-only filtering would discard.
On generic long-form text, our full array of techniques reduces critical errors to an average of less than one second per hour, where critical errors include hallucinations, cutoffs beyond one word, and mismatches between input text and output speech.
Conclusion
LLM-based TTS models sound noticeably more natural than traditional systems. However, in our experience, they introduce new failure modes that need to be addressed before they can be deployed reliably in production. We have found that LoRA-based fine tuning addresses the heavy accent leakage observed in polyglot TTS, while classifier-free guidance is a useful tool for improving expressiveness. As for reliability, we find that smart data filtering and chain-of-thought reasoning coupled with guardrails and agentic regeneration can significantly reduce hallucination.
Chain-of-thought for autoregressive TTSGuardrailsData filtering Research areas: Conversational AI
Tags: Text-to-speech (TTS), Large language models (LLMs)
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み