メインコンテンツへスキップ

#音声合成 のAIニュース

18件の記事

Netflix が『ウィリー・ウォンカ』リアリティショーで AI 生成のジェーン・ワイルダー声優を使用

Netflix は9月23日に配信予定のリアリティ番組『Wonka's The Golden Ticket』において、実写セットを制作する一方で、ナレーションにAI技術によって生成されたジェーン・ワイルダーの声を使用していることを確認した。

The Verge AI·7月1日·★★★★

Android スマートフォンが偽装通話やなりすまし詐欺を検知可能に

Google は Android 17 の展開前に、深層学習を用いた偽装通話やなりすまし詐欺からユーザーを保護する新機能を追加した。この機能は特定のデバイスや Google アプリの利用が必要だが、金融詐欺の増加に対応する自動防御を提供する。

Ars Technica AI·6月3日·★★★★

Google の電話アプリが、連絡先のなりすまし詐欺を検知して警告する機能を追加

Google は、AI を利用したなりすまし詐欺からユーザーを守るため、電話アプリに新機能を導入します。この機能は、詐欺師が連絡先と同じ電話番号から着信した場合に、通話内容を疑わしいものとしてフラグ付けし、ユーザーに警告を発します。

The Verge AI·6月3日·★★★★

Grok音声テキスト変換およびテキスト音声変換API

Grok社が、高速で正確な音声テキスト変換と自然で表現力豊かな音声合成を提供するAPIを発表した。シンプルな価格設定と多言語対応を特徴とする。

xAI News·4月17日

Google、70以上の言語をサポートする最も表現力豊かなGemini 3.1テキスト読み上げモデルをリリース

Googleが、70以上の言語で自然な音声を生成できるGemini 3.1 Flash TTSを発表した。新しいオーディオタグにより、スタイル、ペース、トーンを精密に制御可能。

The Decoder·4月16日·★★★★

Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール

Google は、単一話者および複数話者の会話モードに対応し、発声指示タグの適用も可能な「Gemini 3.1 Flash TTS」モデルを公開した。このツールにより、テキストから自然な音声を生成してダウンロードできるようになった。

Simon Willison Blog·4月16日

LLMベースのテキスト読み上げシステムの品質と堅牢性の向上

研究者らが、低ランク適応、データ拡張、連鎖的思考推論などの技術を用いて、アクセントのない多言語出力、表現力の向上、信頼性の高い合成を実現するLLMベースのテキスト読み上げシステムの品質と堅牢性を向上させた。

Amazon Science·4月2日·★★★★

Mistral AIがテキスト読み上げモデルを発表

Mistral AIが9言語対応のテキスト読み上げモデルを発表した。同モデルは重要な音声エージェントのワークフローを支援することを目的としている。

AI Business·3月28日

Suno 5.5、ユーザーが自身の声でAI生成曲を歌えるパーソナライズド音声機能を追加

Sunoがv5.5アップデートを発表し、ユーザーが自身の声でAI生成曲を歌えるパーソナライズド音声機能を追加した。ユーザーは自身の歌唱スタイルでモデルをトレーニングでき、結果は自動的に好みに合わせて調整される。

The Decoder·3月28日·★★★★

Mistralの初のオープンウェイトTTSモデル「Voxtral」、3秒の音声から9言語で声をクローン

フランスのAIスタートアップMistralが、9言語をサポートし3秒の音声から声をクローンできる初のテキスト読み上げモデル「Voxtral」をリリースした。

The Decoder·3月27日·★★★★

Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル

GoogleがGemini 3.1 Flash Liveを発表し、より高速で自然な音声会話を実現した。開発者は品質と速度を調整でき、価格はGemini 2.5と同等に維持される。

The Decoder·3月27日

Amazon Polly双方向ストリーミングの紹介:会話型AIのためのリアルタイム音声合成

AmazonはAmazon Pollyの新API「双方向ストリーミング」を発表した。このAPIはテキスト送信と音声受信を同時に行えるリアルタイム音声合成を実現し、会話型AIアプリケーションの応答生成を効率化する。

AWS Machine Learning Blog·3月27日·★★★★

Gemini 3.1 Flash Live:音声AIをより自然で信頼性の高いものに

Googleが最新音声モデル「Gemini 3.1 Flash Live」を発表し、精度向上と低遅延化により音声インタラクションをより流暢で自然なものにした。

Google DeepMind·3月27日

Descriptが大規模な多言語ビデオ吹き替えを可能にする方法

Descript社はOpenAIのモデルを活用し、意味とタイミングの両方を最適化した翻訳で、大規模な多言語ビデオ吹き替えを実現している。

OpenAI News·3月6日·★★★★

一言で自由に生成!音声二重モデルがリリース

通義実験室が、自然言語指令で自由な表現を生成できる音声モデル「Fun-CosyVoice」を発表した。従来の固定ラベル制限を突破し、ユーザーが詳細な表現を直接指示できる新方式を導入した。

通义大模型·3月2日·★★★★

2025年に最も閲覧された10の出版物

アマゾンの科学者らによる2025年で最も閲覧された出版物は、基盤モデルの安全枠組み、クラウド規模での形式的検証、高度なロボティクス、マルチモーダルAI推論などを含む。

Amazon Science·12月30日·★★★★

Qwen-TTS、方言対応へ

アリババのQwenチームは、API経由で公開された最新バージョン「Qwen-TTS」について発表した。数百万時間分のデータで学習したこのモデルは、人間のレベルの自然な発話を実現し、入力テキストに応じて抑揚や感情を自動調整する。さらに北京語、上海語、四川語の3つの中国方言に対応している。

Qwen Blog·6月27日·★★★★

Qwen2.5 Omni:視覚、聴覚、会話、記述、実行をすべてこなす!

Qwenチームは、テキスト・画像・音声・動画を入力し、リアルタイムのテキスト生成と自然な音声合成で応答する多モーダルモデル「Qwen2.5-Omni」を公開した。このエンドツーエンドのフラッグシップモデルは、Qwen Chatで7B版を試せる。

Qwen Blog·3月27日·★★★★