Google、Gemini 3.5 Live Translate を発表し即時音声翻訳を実現
Google は I/O で発表された Gemini 3.5 の一部として、70 以上の言語に対応し、発話の間の間隔やピッチを模倣する低遅延音声対音声翻訳機能「Live Translate」の提供を開始した。
キーポイント
Gemini 3.5 Live Translate の公開
Google は I/O で発表された Gemini 3.5 フレームワークの一部として、音声対音声翻訳機能「Live Translate」の提供範囲を拡大した。
高度な音声品質と低遅延
このモデルは通常の会話に追いつく速度で動作し、数秒の遅れの中で話者のイントネーション、ペース、ピッチを模倣して自然な音声を生成する。
70 以上の言語対応と自動検出
Gemini 3.5 Live Translate は 70 以上の言語をサポートし、入力された言語を自動的に検出して翻訳を行う機能を備えている。
影響分析・編集コメントを表示
影響分析
この発表は、AI による言語障壁の解消において、単なる意味の伝達から自然な対話体験への転換点を示しています。特に低遅延かつ感情を伴う音声合成の実現は、国際会議や海外旅行などでのリアルタイムコミュニケーションの質を劇的に向上させる可能性があります。
編集コメント
従来の翻訳アプリが「文字の置き換え」に留まっていたのに対し、今回の技術は「会話のリズム」まで再現する点で画期的です。ただし、デモが制御された環境下での録音である点は留意が必要ですが、実用化への道筋は明確に見えます。
Google は長年、リアルタイム翻訳の実現に取り組んできており、これは同社にとって「先駆的な機械学習実験」の一つであると述べています。過去には Google のイベントでステージ上で多数のデモが披露されましたが、それを利用するには Google 製スマートフォンやイヤホン、あるいは特定のセットアップが必要でした。昨年、Google は翻訳アプリにおいてリアルタイム翻訳をより多くのユーザーに提供し、現在はさらに利用範囲を広げています。Gemini 3.5 Live Translate のリリースにより、これまで以上に多くの場所で、かつ従来よりも低い遅延で即時翻訳を利用できるようになります。
この新しい AI モデルは、I/O で発表されたバージョン 3.5 ファミリーの一部です。今日に至るまで Google が展開してきたのは Flash バージョンのみでしたが、今後数週間で Pro モデルの登場も予想されています。Gemini 3.5 Live Translate は、70 以上の言語を自動的に検知して翻訳するよう調整された音声対音声モデルです。
Google によると、Gemini 3.5 Live Translate は通常の会話に追いつけるほど高速で、話者の数秒後に追従しつつも、イントネーション、ペース、ピッチも正確に再現します。つまり、声は一般的なロボットではなく、まるであなた自身のようにより自然に聞こえます。デモはいずれも制御された条件下で録画されたものですが、その音質は確かに印象的です。ただし、このモデルの能力を実際に検証するために長く待つ必要はありません。
記事全文を読む
コメント
原文を表示
Google has been chasing real-time translation for years, which it says has been one of its "pioneering machine learning experiments." We've seen numerous demos on stage at Google events in the past, but you needed Google phones, earbuds, or some other specific setup. Last year, Google brought real-time translation to more users in the Translate app, and now it's expanding availability more. With the release of Gemini 3.5 Live Translate, you'll have access to instant translation in more places and with lower latency than ever before.
The new AI model is part of the version 3.5 family that launched at I/O. Before today, Google had only rolled out the Flash version, but we're expecting a Pro model to drop in the coming weeks. Gemini 3.5 Live Translate is a speech-to-speech model tuned to automatically detect and translate in more than 70 languages.
Google says Gemini 3.5 Live Translate is fast enough to keep up with a normal conversation, following just a few seconds behind the speaker while also matching intonation, pacing, and pitch. In short, the voice sounds more like you than a generic robot. The demos, which are all being recorded under controlled conditions, do sound impressive. You won't have to wait long to verify the model's abilities for yourself, though.
Read full article
Comments
関連記事
Google Search の AI 進化に広告が増加
Google は検索結果に Gemini AI チャットボットを導入し、商品検索時に購入すべき理由を説明する「カスタム解説」を表示する機能を追加した。これにより、AI を活用した広告表示が強化される。
サンダル・ピチャイ氏に聞く AI、検索の未来、そしてウェブの行方
Google と Alphabet のCEOであるサンダル・ピチャイ氏が、Google I/O 開発者会議直後に開催されたインタビューで、AI の現状や検索の将来性、ウェブの今後について語った。
Google が AI 戦争に勝つための計画(4 分読了)
Google は、Gemini 3.5 Flash や YouTube の「Ask YouTube」などの機能を活用し、規模と資金力を駆使して製品へ AI を積極的に統合することで、既存の収益を損なわず市場リーダーシップを維持する方針を示している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み