Qwen-TTS、方言対応へ
Qwen-TTS が中国語の方言(北京語、上海語、四川語)および多言語対応ボイスを強化し、人間レベルの自然な発話を実現する最新アップデートを発表した。
キーポイント
中国語方言サポートの導入
Qwen-TTS が北京語(Pekingese)、上海語(Shanghainese)、四川語(Sichuanese)の 3 つの主要な中国語方言を自動生成できるようになった。
多言語・多感情対応ボイス
Cherry、Ethan、Chelsie、Serena、Dylan、Jada、Sunny の 7 つのバイリンガル(中国語・英語)ボイスが利用可能で、入力テキストに応じて抑揚や感情を自動調整する。
大規模データによる学習成果
数百万時間の音声データを基に訓練されており、人間のレベルに近い自然さと表現力を達成していることが強調されている。
影響分析・編集コメントを表示
影響分析
このアップデートは、音声合成技術における「言語の多様性」と「感情表現」の両面での飛躍を示しており、特に中国語圏のローカルコンテンツ制作や地域密着型サービスへの応用可能性を大きく広げる。業界全体として、単なる文字読み上げから、文化的・感情的な文脈を理解した人間のような対話へ進化させる重要な転換点となる。
編集コメント
方言対応は音声合成の難易度が高い分野であり、これを高精度で実装した点は技術的に非常に注目すべき成果です。地域ごとのニュアンスを捉えたサービス展開が加速しそうです。
API DISCORD
導入 ここでは、Qwen API を通じた Qwen-TTS(qwen-tts-latest または qwen-tts-2025-05-22)の最新アップデートをご紹介します。数百万時間を超える音声データを含む大規模なデータセットでトレーニングされた Qwen-TTS は、人間レベルの自然さと表現力を実現しています。特筆すべき点は、Qwen-TTS が入力テキストに応じて韻律(prosody)、ペースト、および感情的なイントネーションを自動的に調整する機能です。さらに、Qwen-TTS は北京語、上海語、四川語を含む 3 つの中国方言の生成をサポートしています。
現在、Qwen-TTS は Cherry、Ethan、Chelsie、Serena、Dylan(北京語)、Jada(上海語)、Sunny(四川語)の 7 つの中国語・英語バイリンガル音声に対応しています。
原文を表示
API DISCORD
Introduction Here we introduce the latest update of Qwen-TTS (qwen-tts-latest or qwen-tts-2025-05-22) through Qwen API . Trained on a large-scale dataset encompassing over millions of hours of speech, Qwen-TTS achieves human-level naturalness and expressiveness. Notably, Qwen-TTS automatically adjusts prosody, pacing, and emotional inflections in response to the input text. Notably, Qwen-TTS supports the generation of 3 Chinese dialects, including Pekingese, Shanghainese, and Sichuanese.
As of now, Qwen-TTS supports 7 Chinese-English bilingual voices, including Cherry, Ethan, Chelsie, Serena, Dylan (Pekingese), Jada (Shanghainese) and Sunny (Sichuanese).
関連記事
Android スマートフォンが偽装通話やなりすまし詐欺を検知可能に
Google は Android 17 の展開前に、深層学習を用いた偽装通話やなりすまし詐欺からユーザーを保護する新機能を追加した。この機能は特定のデバイスや Google アプリの利用が必要だが、金融詐欺の増加に対応する自動防御を提供する。
Google の電話アプリが、連絡先のなりすまし詐欺を検知して警告する機能を追加
Google は、AI を利用したなりすまし詐欺からユーザーを守るため、電話アプリに新機能を導入します。この機能は、詐欺師が連絡先と同じ電話番号から着信した場合に、通話内容を疑わしいものとしてフラグ付けし、ユーザーに警告を発します。
故郷の方言でこのAIをテストしてみませんか?
通義实验室は音声認識大模型「Fun-ASR1.5」をリリースした。同モデルは30言語と7大方言を単一アーキテクチャで処理し、典型方言の誤り率を56%削減して工業級の実用化を実現した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み