Google、70以上の言語をサポートする最も表現力豊かなGemini 3.1テキスト読み上げモデルをリリース
Googleは、70以上の言語をサポートし、スタイルやペース、トーンを精密に制御できる新しいオーディオタグを備えた、これまでで最も表現力豊かなGemini 3.1 Flash TTSモデルをリリースした。
キーポイント
多言語対応の拡大
Gemini 3.1 Flash TTSは70以上の言語でテキストを自然な音声に変換し、グローバルなアクセシビリティと応用範囲を大幅に拡大した。
表現力と制御性の向上
新しいオーディオタグにより、話し方のスタイル、ペース、トーンを精密に制御できるようになり、これまでで最も表現力豊かなモデルとされている。
製品リリースの事実
このモデルは「Google ships」と表現されており、研究段階ではなく実際に製品として出荷・提供が開始されたことを示している。
影響分析・編集コメントを表示
影響分析
このリリースは、音声合成技術の実用性と品質を新たな段階に引き上げ、教育、エンターテインメント、カスタマーサービスなど多様な分野での応用可能性を広げる。特に多言語対応の拡大は、グローバル市場におけるAI音声サービスの競争力を高める重要な一歩となる。
編集コメント
70言語超の対応と表現制御の両立は、TTS市場におけるGoogleのリーダーシップを強固にする重要なアップデート。実用性が極めて高く、競合他社へのプレッシャーとなる発表だ。
GoogleはGemini 3.1 Flashを基盤とした新しいテキスト読み上げモデルの提供を開始しました。同社によると、これはこれまでリリースされた中で最も自然で表現豊かな音声出力です。大きな新機能はオーディオタグであり、これは開発者が生成された音声のスタイル、テンポ、トーン、アクセントを制御できるシンプルなテキストコマンドです。このモデルは70以上の言語をサポートし、複数話者の対話も処理できます。
Artificial Analysisのランキングでは、このモデルはEloレート1,211を記録し、品質対価格比で際立っています。全体的な品質ではElevenlabs v3を上回り、Inworld 1.5 Maxに次ぐ位置にあります。
Gemini 3.1 Flash TTSは、品質と価値の両面でトップクラスのテキスト読み上げモデルの一つです。| 画像: Google
Gemini 3.1 Flash TTSには無料プランがありますが、Googleはデータを製品改善に利用しています。有料プランでは、テキスト入力に対して100万トークンあたり1.00ドル、音声出力に対して100万トークンあたり20.00ドルです。バッチモードでは、それぞれ半額の0.50ドルと10.00ドルになります。有料プランでは、Googleは製品改善のためにデータを使用しません。
Gemini 3.1 Flash TTSは、Gemini APIを通じてプレビュー版として利用可能で、エンタープライズユーザー向けにはVertex AI、Workspaceユーザー向けにはGoogle Vidsでも提供されています。誰でもGoogleのAI Studioで無料で試すことができます。生成されたすべての音声には、AI生成コンテンツを示すためにGoogleのSynthID透かしが付けられています。
AIニュースは hype を除いて – 人間によってキュレーションされています
THE DECODERに登録して、広告なしの読書、週刊AIニュースレター、年6回の独占「AI Radar」フロンティアレポート、アーカイブへの完全アクセス、そしてコメントセクションへのアクセスをお楽しみください。
今すぐ登録
原文を表示
Google is rolling out its new text-to-speech model based on Gemini 3.1 Flash. The company says it's the most natural and expressive voice output it has shipped to date. The big new feature is audio tags—simple text commands that let developers control the style, tempo, tone, and accent of the generated speech. The model supports over 70 languages and can handle multi-speaker dialogs.
On the Artificial Analysis ranking list, the model hits an Elo rating of 1,211 and stands out for its quality-to-price ratio. It beats Elevenlabs v3 in overall quality and sits just behind Inworld 1.5 Max.
Gemini 3.1 Flash TTS ranks among the top text-to-speech models for both quality and value. | Image: Google
Gemini 3.1 Flash TTS has a free tier, but Google uses the data to improve its products. The paid tier runs $1.00 per million tokens for text input and $20.00 per million tokens for audio output. Batch mode cuts those prices in half to $0.50 and $10.00, respectively. On the paid tier, Google doesn't use the data for product improvement.
Gemini 3.1 Flash TTS is available as a preview through the Gemini API, Vertex AI for enterprise users, and Google Vids for Workspace users. Anyone can try it for free in Google's AI Studio. All generated audio is tagged with Google's SynthID watermark to flag AI-generated content.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
Subscribe now
関連記事
Chrome拡張機能でTransformers.jsを使用する方法
開発者はChrome拡張機能にTransformers.jsを組み込み、ブラウザ上で機械学習モデルを実行する。これによりサーバー依存を排除し、プライバシー保護と低レイテンシを実現する実装手順を示す。
Google、Room 3.0を発表:Kotlinファーストの非同期マルチプラットフォーム永続化ライブラリ
GoogleはRoom 3.0を発表した。本バージョンは破壊的変更を導入し、Kotlin Multiplatform対応を強化するとともにJSとWasmへのサポートを追加した。
Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール
Google は、単一話者および複数話者の会話モードに対応し、発声指示タグの適用も可能な「Gemini 3.1 Flash TTS」モデルを公開した。このツールにより、テキストから自然な音声を生成してダウンロードできるようになった。