Mistralが音声生成の新たなオープンソースモデルをリリース
フランスのAI企業Mistralが、エッジデバイス搭載やリアルタイム処理に対応した小規模なオープンソース音声合成モデル「Voxtral TTS」を公開し、エンタープライズ向けVoice AI市場での競争を激化させた。
キーポイント
エッジ環境対応の小規模オープンソースTTSモデル公開
スマートウォッチやスマートフォンなどのエッジデバイスに搭載可能な「Voxtral TTS」をリリースし、低コストかつ最先端の性能を実現した。
高速リアルタイム処理と多言語切り替えの最適化
TTFA 90ms、RTF 6xを達成し、5秒未満の音声サンプルでカスタムボイスを適応可能。多言語切り替え時も音声特性を保持する設計となっている。
エンタープライズ向けマルチモーダルエージェント基盤への展開
既存のトランスクリプションモデルと合わせ、音声・テキスト・画像の入出力を統合するエンドツーエンドのVoice AIプラットフォーム構築を目指す。
影響分析・編集コメントを表示
影響分析
MistralのVoxtral TTS公開は、オープンソースコミュニティにおける音声合成分野のパワーバランスを大きく揺るがす。エッジ環境での低遅延・高品質な音声生成が可能になることで、プライバシー要件の厳しい企業顧客やコスト敏感なスタートアップがVoice AIを採り入れやすくなる。今後はElevenLabsやOpenAIとの機能・価格競争が激化し、マルチモーダルエージェントの実装基準が再定義される可能性がある。
編集コメント
小規模モデルでありながらTTFAやRTFの数値が実用域に達している点は評価できる。オープンソース化により企業側のカスタマイズ自由度が飛躍的に向上し、音声AIの民主化を加速させる一石となるだろう。
タイトル: Mistral、音声生成の新たなオープンソースモデルをリリース
フランスのAI企業Mistralは木曜日、音声AIアシスタントやカスタマーサポートなどの企業向けユースケースで使用できる新たなオープンソースのテキスト読み上げモデルをリリースしました。このモデルは企業が販売や顧客エンゲージメントのための音声エージェントを構築できるようにするもので、MistralをElevenLabs、Deepgram、OpenAIなどの企業と直接競合させることになります。
Voxtral TTSと呼ばれるこの新モデルは、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語を含む9言語をサポートしています。
「当社の顧客から音声モデルの要望がありました。そこで私たちは、スマートウォッチ、スマートフォン、ノートパソコン、その他のエッジデバイスに搭載可能な小型の音声モデルを構築しました。そのコストは市場の他製品と比べてほんの一部ですが、最先端の性能を提供します」と、Mistral AIのサイエンスオペレーション担当副社長ピエール・ストックはTechCrunchとの電話インタビューで語りました。
Mistralは、この新モデルが5秒未満のサンプルでカスタム音声に適応でき、微妙なアクセント、抑揚、イントネーション、発話の流れにおける不規則性などの特徴も捉えられると説明しています。Ministral 3Bをベースとしたこのモデルは、音声の特徴を失うことなく言語間を容易に切り替えることができ、吹き替えやリアルタイム翻訳などのユースケースで有用です。ストック氏は、同社がこのモデルをロボット的ではなく人間のように聞こえるものにしたかったと述べました。
同社によると、このモデルはリアルタイム性能を考慮して構築されています。500文字の10秒サンプルに対して、入力を受けてからモデルが「話し始める」までの時間を測る指標である初音発声時間(TTFA)が90ミリ秒です。また、このモデルのリアルタイムファクター(RTF)は6倍であり、10秒の音声クリップを約1.6秒で生成できることを意味します。
今年初め、Mistralは2つの文字起こしモデルを発表しました。1つは大規模なバッチ処理用、もう1つは低遅延のリアルタイムユースケース用です。この新たな音声モデルにより、同社は企業向けに音声製品のフルスイートを提供することを目指しているようです。
「私たちは、音声、テキスト、画像を含むマルチモーダルな入力ストリームと出力を処理できるエンドツーエンドのプラットフォームを構築する計画です。その主な利点は、入出力として音声をサポートするエンドツーエンドのエージェントシステムによって、はるかに多くの情報を得られることです」とストック氏は述べました。
Techcrunchイベント Disrupt 2026: テックエコシステム、すべてが一つの会場に
あなたの次の資金調達。あなたの次の採用。あなたの次のブレイクスルーの機会。TechCrunch Disrupt 2026で見つけてください。10,000人以上の起業家、投資家、テックリーダーが集まり、250以上の実践的セッション、強力な紹介、市場を定義するイノベーションが3日間行われます。今すぐ登録して最大400ドル節約しましょう。
TechCrunch Founder Summitで最大300ドルまたは30%節約
1,000人以上の起業家と投資家がTechCrunch Founder Summit 2026に集結し、成長、実行、現実世界でのスケーリングに焦点を当てた丸一日を過ごします。業界を形作ってきた起業家や投資家から学びます。同じ成長段階を進む仲間とつながります。すぐに適用できる戦術を持ち帰りましょう。オファーは3月13日まで。
Mistralの戦略は、自社の音声モデルがオープンソースでカスタマイズ可能である点が、競合他社に対する強みになるとしています。企業は自社のニーズに合わせてモデルを調整できるからです。


原文を表示
French AI company Mistral released a new open-source text-to-speech model on Thursday that can be used by voice AI assistants or in enterprise use cases like customer support. The model, which lets enterprises build voice agents for sales and customer engagement, puts Mistral in direct competition with the likes of ElevenLabs, Deepgram, and OpenAI.
The new model, called Voxtral TTS, supports nine languages, including English, French, German, Spanish, Dutch, Portuguese, Italian, Hindi, and Arabic.
“Our customers have been asking for a speech model. So we built a small-sized speech model that can fit on a smartwatch, a smartphone, a laptop, or other edge devices. The cost of it is a fraction of anything else on the market, but it offers state-of-the-art performance,” Pierre Stock, vp of science operations at Mistral AI, told TechCrunch during a phone interview.
Mistral said the new model can adapt a custom voice with a sample of less than five seconds, and also capture characteristics like subtle accents, inflections, intonations, and irregularities in the flow of speech. The model, based on Ministral 3B, can switch between languages easily without losing the characteristics of the voice, which is useful for use cases like dubbing or real-time translation. Stock said the company wanted the model to sound human and not robotic.
The model has been built for real-time performance, according to the company. It has a time-to-first-audio (TTFA) — a measure of when the model starts ‘speaking’ after receiving input — of 90ms for a 10-second sample of 500 characters. The model also has a real-time factor (RTF) of 6x, which means it can render a 10-second clip in roughly 1.6 seconds.
Earlier this year, Mistral launched a pair of transcription models, one for large batch processing and the other for real-time use cases with low latency. With the new speech model, the company is likely aiming to provide a full suite of voice products to enterprises.
“We plan to have an end-to-end platform that can handle multimodal streams of input, including audio, text, and image and output as well. The main benefit of that is you get way more information with an end-to-end agentic system that supports audio as an input or output,” Stock said.
Techcrunch event Disrupt 2026: The tech ecosystem, all in one room
Your next round. Your next hire. Your next breakout opportunity. Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register now to save up to $400.
Save up to $300 or 30% to TechCrunch Founder Summit
1,000+ founders and investors come together at TechCrunch Founder Summit 2026 for a full day focused on growth, execution, and real-world scaling. Learn from founders and investors who have shaped the industry. Connect with peers navigating similar growth stages. Walk away with tactics you can apply immediately Offer ends March 13.
Mistral’s positioning is that its open source and customization bit will help enterprises adopt its voice models over competitors, as they can tune it the way they want.


関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み