The Decoder·2026年3月27日 04:16·約1分

Mistralの初のオープンウェイトTTSモデル「Voxtral」、3秒の音声から9言語で声をクローン

#TTS #音声合成 #音声クローニング #マルチモーダルAI #オープンウェイト #Mistral

TL;DR

フランスのAIスタートアップMistralは、わずか3秒の音声から9言語で声をクローンできる初のオープンウェイトTTSモデル「Voxtral」をリリースした。

AI深層分析2026年3月27日 05:42

重要/ 5段階

深度40%

キーポイント

革新的な音声クローニング技術

わずか3秒の音声サンプルから、ターゲットの声を高精度にクローンできる技術を実現した。

多言語対応のTTSモデル

9つの言語に対応したテキスト読み上げ機能を備え、国際的な実用性が高い。

オープンウェイトモデルの公開

Mistral初のオープンウェイトTTSモデルとして公開され、研究開発コミュニティへの貢献が期待される。

実用性の高い音声合成

短い音声サンプルでのクローニングにより、コンテンツ制作やアクセシビリティなど幅広い応用が可能。

影響分析・編集コメントを表示

影響分析

このリリースは、音声合成技術の民主化と実用性を大きく前進させる。短い音声サンプルでの高精度クローニングは、コンテンツ制作、教育、アクセシビリティなど多様な分野での応用可能性を広げ、AI音声技術の普及を加速させる可能性がある。

編集コメント

わずか3秒の音声サンプルで多言語対応の声クローンを実現する技術は、音声合成の実用性を大きく高める画期的な進展と言える。オープンウェイトモデルとして公開された点も、技術の民主化と応用拡大に寄与するだろう。

image

フランスのAIスタートアップMistralは、9言語をサポートし、わずか3秒の音声から声をクローンできる初のテキスト読み上げ（TTS）モデル「Voxtral TTS」をリリースしました。

この記事「Mistral初のオープンウェイトTTSモデル「Voxtral」、9言語でわずか3秒の音声から声をクローン」は、The Decoderで最初に公開されました。

原文を表示

French AI startup Mistral has released Voxtral TTS, its first text-to-speech model. The model supports nine languages—including German, English, French, and Spanish—and is relatively compact at four billion parameters. Mistral says it produces realistic, emotionally expressive speech and can adapt to new voices from as little as three seconds of reference audio. Latency sits at 70 milliseconds for a typical setup with a 10-second speech sample and 500 characters.

In human comparison tests, Voxtral TTS scored higher on naturalness than ElevenLabs Flash v2.5 at a similar response time. That said, ElevenLabs has since shipped a newer model with v3. Voxtral TTS is available through an API at $0.016 per 1,000 characters, can be tested in Mistral Studio, and is also available as an open-weights version on Hugging Face.

AI News Without the Hype – Curated by Humans

Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.

Subscribe now

この記事をシェア

The Decoder重要度42026年4月25日 21:44

「ChatGPT登場以降、米プログラマーの雇用成長がほぼ半減」連邦準備理事会の研究で判明

The Decoder重要度42026年4月25日 21:16

Qwen3.6-27B、大半のコーディングベンチマークで大型後継モデルを凌駕

The Decoder重要度42026年4月25日 19:18

アンストロピック「強力なAIモデルはより良い取引を実現し、劣るモデルを使う利用者は気づかない」

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む