#tts のAIニュース

7件の記事

卒業式で AI アナウンサーが名前を誤読・飛ばす

The Verge は、近年人気を集める卒業式の AI 音声アナウンスシステムが、学生の名前を誤って発音したり読み飛ばしたりする事例が多発していることを報じた。

The Verge AI·5月20日

Google、70以上の言語をサポートする最も表現力豊かなGemini 3.1テキスト読み上げモデルをリリース

Googleが、70以上の言語で自然な音声を生成できるGemini 3.1 Flash TTSを発表した。新しいオーディオタグにより、スタイル、ペース、トーンを精密に制御可能。

The Decoder·4月16日·★★★★

Gemini 3.1 Flash TTS の公開

Google はプロンプトで制御可能な新しいテキスト読み上げモデル「Gemini 3.1 Flash TTS」を公開した。Gemini API経由で提供され、音声ファイルの出力のみに対応している。

Simon Willison Blog·4月16日

Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール

Google は、単一話者および複数話者の会話モードに対応し、発声指示タグの適用も可能な「Gemini 3.1 Flash TTS」モデルを公開した。このツールにより、テキストから自然な音声を生成してダウンロードできるようになった。

Simon Willison Blog·4月16日

Mistral AIがテキスト読み上げモデルを発表

Mistral AIが9言語対応のテキスト読み上げモデルを発表した。同モデルは重要な音声エージェントのワークフローを支援することを目的としている。

AI Business·3月28日

Mistralの初のオープンウェイトTTSモデル「Voxtral」、3秒の音声から9言語で声をクローン

フランスのAIスタートアップMistralが、9言語をサポートし3秒の音声から声をクローンできる初のテキスト読み上げモデル「Voxtral」をリリースした。

The Decoder·3月27日·★★★★

一言で自由に生成！音声二重モデルがリリース

通義実験室が、自然言語指令で自由な表現を生成できる音声モデル「Fun-CosyVoice」を発表した。従来の固定ラベル制限を突破し、ユーザーが詳細な表現を直接指示できる新方式を導入した。

通义大模型·3月2日·★★★★