Mistralの初のオープンウェイトTTSモデル「Voxtral」、3秒の音声から9言語で声をクローン
フランスのAIスタートアップMistralは、わずか3秒の音声から9言語で声をクローンできる初のオープンウェイトTTSモデル「Voxtral」をリリースした。
キーポイント
革新的な音声クローニング技術
わずか3秒の音声サンプルから、ターゲットの声を高精度にクローンできる技術を実現した。
多言語対応のTTSモデル
9つの言語に対応したテキスト読み上げ機能を備え、国際的な実用性が高い。
オープンウェイトモデルの公開
Mistral初のオープンウェイトTTSモデルとして公開され、研究開発コミュニティへの貢献が期待される。
実用性の高い音声合成
短い音声サンプルでのクローニングにより、コンテンツ制作やアクセシビリティなど幅広い応用が可能。
影響分析・編集コメントを表示
影響分析
このリリースは、音声合成技術の民主化と実用性を大きく前進させる。短い音声サンプルでの高精度クローニングは、コンテンツ制作、教育、アクセシビリティなど多様な分野での応用可能性を広げ、AI音声技術の普及を加速させる可能性がある。
編集コメント
わずか3秒の音声サンプルで多言語対応の声クローンを実現する技術は、音声合成の実用性を大きく高める画期的な進展と言える。オープンウェイトモデルとして公開された点も、技術の民主化と応用拡大に寄与するだろう。

フランスのAIスタートアップMistralは、9言語をサポートし、わずか3秒の音声から声をクローンできる初のテキスト読み上げ(TTS)モデル「Voxtral TTS」をリリースしました。
この記事「Mistral初のオープンウェイトTTSモデル「Voxtral」、9言語でわずか3秒の音声から声をクローン」は、The Decoderで最初に公開されました。
原文を表示
French AI startup Mistral has released Voxtral TTS, its first text-to-speech model. The model supports nine languages—including German, English, French, and Spanish—and is relatively compact at four billion parameters. Mistral says it produces realistic, emotionally expressive speech and can adapt to new voices from as little as three seconds of reference audio. Latency sits at 70 milliseconds for a typical setup with a 10-second speech sample and 500 characters.
In human comparison tests, Voxtral TTS scored higher on naturalness than ElevenLabs Flash v2.5 at a similar response time. That said, ElevenLabs has since shipped a newer model with v3. Voxtral TTS is available through an API at $0.016 per 1,000 characters, can be tested in Mistral Studio, and is also available as an open-weights version on Hugging Face.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
Subscribe now
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み