AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Google DeepMind·2026年6月10日 00:16·約6分で読める

Gemini 3.5 Live Translate による流体かつ自然な音声翻訳の実現

#音声翻訳#Gemini#Google DeepMind#リアルタイム処理#マルチモーダル
TL;DR

Google DeepMind は、70 以上の言語に対応する「Gemini 3.5 Live Translate」を発表し、ほぼリアルタイムで自然な音声対話翻訳を実現する新モデルを公開した。

AI深層分析2026年6月10日 22:15
4
重要/ 5段階
深度40%
3
関連度30%
5
実用性20%
5
革新性10%
4

キーポイント

1

多言語対応と速度

70 以上の言語をサポートし、音声入力から出力までの遅延が極めて短い「ニアリアルタイム」な翻訳が可能となった。

2

自然な発話の再現

単なる文字変換ではなく、感情やトーンを保持した「流れるような自然な音声」で翻訳を行う Audio モデルとして開発された。

3

Gemini 3.5 の新機能

Google の最新モデル「Gemini 3.5」の一部として、ライブ翻訳機能を強化し、対話型 AI の実用性を大幅に向上させた。

4

自然な連続翻訳と同期

70 以上の言語を自動検出し、話者のイントネーションやピッチを保持した滑らかな音声翻訳を生成します。従来のターン制ではなく、文脈の質と即時性のバランスを取りながら数秒遅れで継続的に発話するため、不自然な間隔がありません。

5

多様な環境での展開

開発者向けには Gemini Live API と Google AI Studio で公開され、企業向けは Google Meet で、一般ユーザーは Android および iOS の Google Translate アプリで利用可能です。

6

ノイズ耐性とシームレスな接続

ストリーミング処理により手動設定不要で多言語入力に対応し、騒がしい環境でも安定して動作するノイズロバストネスを備えています。

7

Gemini Live API を活用した開発プラットフォームの連携

Agora、Fishjam、LiveKit、Pipecat、Vision Agents などの主要な開発プラットフォームが Gemini Live API と統合されており、複雑なリアルタイムメディアストリーミングインフラを処理して、開発者がユーザー体験に集中できるようにしています。

影響分析・編集コメントを表示

影響分析

この発表は、AI による通訳の遅延と不自然さを解消し、リアルタイムで人間同様の対話体験を提供する新たな基準を打ち立てた。特に多言語対応の拡大により、グローバルなコミュニケーションにおける障壁が劇的に低下し、教育、ビジネス、医療などの現場での即時的導入が可能になるだろう。

編集コメント

2026 年という未来の日付が設定されていますが、これは Google のロードマップや将来の技術予測に基づくシナリオとして捉えるべきでしょう。音声翻訳の「自然さ」と「速度」を両立させた点は、次世代 AI アシスタントの実用化において決定的な進展と言えます。

2026 年 6 月 9 日

約 6 分間の読了時間

Gemini 3.5 Live Translate は、最新の音声モデルであり、70 以上の言語でほぼリアルタイムの音声対音声翻訳を実現します。

Anuda Weerasinghe

製品マネージャー

Tony Lu

シニアスタッフソフトウェアエンジニア

image
image

お使いのブラウザは音声要素をサポートしていません。

記事の再生

このコンテンツは Google AI によって生成されています。生成 AI は実験的な技術です。

[[duration]] 分

20 年前、Google での翻訳は、言語の科学を人間のつながりの魔法へと変えるための、私たちの先駆的な機械学習実験の一つとして始まりました。この実験は大きく発展し、現在では毎月の製品利用において数十億人のユーザーのために 1 兆語以上の翻訳が行われています。

本日、ライブ音声対音声翻訳のための最新オーディオモデルである Gemini 3.5 Live Translate をリリースし、次の一歩を踏み出します。

このモデルは 70 以上の言語を自動的に検出し、話者のイントネーション、ペース、ピッチを保持した滑らかで自然な音調の翻訳された音声を生成します。話者が話すのを待ってから応答するターン・バイ・ターン方式とは異なり、3.5 Live Translate は連続して音声を生成し、品質向上のために文脈を待つことと、話者と同期を保つために即時翻訳することの間のトレードオフを調整します。不自然な一時停止のない流れるようなオーディオを提供し、セッション全体を通じて話者の数秒遅れで追従します。

Gemini 3.5 Live Translate は本日より Google プロダクトにおいて段階的に展開されます:

  • 開発者向け: Gemini Live API および Google AI Studio を通じたパブリックプレビュー
  • エンタープライズ向け: 今月から Google Meet でのプライベートプレビュー開始
  • 一般ユーザー向け: Android および iOS の Google Translate を経由して利用可能

Build with 3.5 Live Translate

Gemini 3.5 Live Translate は、ストリーミングされる音声として処理を行うため、言語間をよりシームレスに接続します。このモデルは、手動で設定を設定する必要なく多言語入力を処理します。同時に、そのノイズ耐性により、アプリケーションが騒がしく予測不能な環境でも対応可能となります。その機能を活用して、多言語の通話、会議、レッスン、放送などにおけるライブ通訳を支援することができます。

Gemini Live API の実演をご覧ください。これにより、吹き替えや同時多言語翻訳が可能になります。デモ または Gemini Cookbook 内のより多くの サンプルコード をご覧ください。

Gemini Live API(Live API)を活用することで、Agora、Fishjam、LiveKit、Pipecat、Vision Agents といった開発者プラットフォームが、開発者が音声翻訳アプリを容易に構築・展開できるように支援しています。これらの統合は複雑なリアルタイムメディアストリーミングインフラストラクチャ(infrastructure)を処理するため、開発者はユーザーエクスペリエンス(UX)に集中できます。

当社のパートナーである Grab では、ドライバーと旅行者間の乗車待ちでの多言語コミュニケーションをニアリアルタイムで可能にするため、このモデルのテストを行っています。これらのユーザーは、Grab を通じて月間 1,000 万件以上の音声通話を利用しています。

Grab がユーザー間のコミュニケーションを変革するために 3.5 Live Translate(Live Translate)をどのようにテストしてきたかをご覧ください。

初期レビューを読む

Grab のほか、CJ ENM や LiveKit などの企業も、3.5 Live Translate の優れた翻訳品質、精度、低遅延(latency)を強調し、肯定的なフィードバックを共有しています:

Gemini 3.5 Live Translate のテストにおいて、複数の言語を自動検出し、低遅延で正確に音声翻訳する能力を高く評価しています。

ビデオ会議で 3.5 Live Translate を体験する

Google Meet における 音声翻訳 は間もなく 3.5 Live Translate を採用し、以下のように体験を向上させます:

  • 対応言語を 70 以上へ拡大(従来の 5 言語からの改善)
  • 1 つの会議内で 2000 以上の言語組み合わせでの会話を可能に(従来は英語との双方向翻訳のみだった状態からの拡張)
  • インターフェースを更新し、音声翻訳への即時アクセスを提供

本アップデートは、今月から一部のビジネス向け Google Workspace カスタマーを対象にプライベートプレビューとして開始され、年内により広範な展開が行われます。

Google Meet の参加者が、英語・中国語(マンダリン)・スウェーデン語間で音声翻訳を使用してコミュニケーションを行っています。

Android または iOS の Google Translate アプリで 3.5 Live Translate を利用する

このモデルは、Android および iOS の両方で、Google Translate アプリにおいてグローバルに展開され始めています。Live translate 機能を使用する際は、任意のヘッドセットを接続するだけで、話者のトーンを 70 以上の言語で反映した、よりシームレスな翻訳体験が可能になります。

Android ユーザー向けには、3.5 Live Translate と連携した新しい「リスニングモード」も展開を開始しました。これにより、通話時のように携帯電話の受話器に直接翻訳された音声を聞くことができます。通常の通話と同様に携帯電話を耳に当てれば、翻訳された音声ストリームが直接届きます。この新しい体験は、周囲に聞こえさせずに素早く翻訳を確認したい場合や、ヘッドセットを持っていない場合に役立ちます。

新しいリスニングモードを使用すると、ユーザーは携帯電話の受話器を通じて、スペイン語で行われるガイドツアーのほぼリアルタイムな英語翻訳を聞くことができます。

SynthID で透かし処理済み

当社のモデルによって生成されたすべての音声は、SynthID によって透かし処理されています。この知覚不可能な透かしは音声出力に直接織り込まれており、AI 生成コンテンツが検出可能であることを保証することで、誤情報の防止に貢献します。安全性と責任ある取り組みに関する詳細については、モデルカードをご参照ください。

Google の記事をあなたのメールボックスへ

Done. Just one step more.

Check your inbox to confirm your subscription.

You are already subscribed to our newsletter.

You can also subscribe with a

関連記事

原文を表示

Jun 09, 2026

6 min read

Gemini 3.5 Live Translate is our latest audio model, delivering near real-time speech-to-speech translation in over 70 languages.

A

Anuda Weerasinghe

Product Manager

T

Tony Lu

Senior Staff Software Engineer

Sparkle next to text "Gemini 3.5 Live Translate"
Sparkle next to text "Gemini 3.5 Live Translate"

Your browser does not support the audio element.

Listen to article

This content is generated by Google AI. Generative AI is experimental

[[duration]] minutes

Twenty years ago, translation at Google began as one of our pioneering machine learning experiments to turn the science of language into the magic of human connection. That experiment has come a long way with over a trillion words being translated for billions of users across our products every month.

Today, we’re taking our next step with the release of Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation.

The model automatically detects 70+ languages and generates smooth, natural-sounding translated speech that preserves the speakers' intonation, pacing and pitch. Unlike turn by turn systems that wait for the speaker to finish speaking before responding, 3.5 Live Translate generates speech continuously, balancing the trade-off between waiting for context to improve quality and translating immediately to stay in sync with the speaker. It delivers fluid audio without awkward pauses and stays just a few seconds behind the speaker throughout the session.

Gemini 3.5 Live Translate is rolling out starting today across Google products:

  • For developers in public preview via the Gemini Live API and Google AI Studio
  • For enterprises in private preview starting this month in Google Meet
  • For everyone via Google Translate on Android and iOS

Build with 3.5 Live Translate

Gemini 3.5 Live Translate processes speech as it’s streamed, enabling a more seamless connection across languages. The model handles multilingual inputs without the need to manually configure settings. At the same time, its noise robustness ensures applications can handle loud, unpredictable environments. You can use its capabilities to help facilitate live interpretation for multilingual calls, meetings, lessons, broadcasts and more.

Watch the Gemini Live API in action, enabling dubbing and simultaneous multi-language translation. Dive into the demo or more example code in the Gemini Cookbook.

By utilizing the Gemini Live API, developer platforms like Agora, Fishjam, LiveKit, Pipecat, and Vision Agents enable developers to build and deploy voice translation apps with ease. These integrations handle the complex real-time media streaming infrastructure, so developers can focus on the user experience.

Our partners at Grab are testing the model to enable multilingual communication in near real-time between drivers and travelers at pickups. These users make over 10 million voice calls per month through Grab.

See how Grab has been testing 3.5 Live Translate to transform communication between users.

Read the early reviews

In addition to Grab, companies like CJ ENM, LiveKit and others have shared positive feedback on 3.5 Live Translate highlighting its impressive translation quality, accuracy and low latency:

While testing Gemini 3.5 Live Translate, we’ve valued its ability to auto-detect multiple languages and translate speech accurately with low latency.

Experience 3.5 Live Translate in your video meetings

Speech translation in Google Meet will soon use 3.5 Live Translate, improving the experience by:

  • Offering 70+ languages, an improvement from the previous limit of just five languages,
  • Enabling conversations across over 2000+ language combinations in one meeting, expanding from the previous state of only translating to and from English,
  • Updating the interface to provide instant access to speech translation.

We’re launching this update in private preview for select business Google Workspace customers starting this month, followed by a broader rollout later this year.

Google Meet participants use speech translation to communicate across English, Mandarin, and Swedish.

Get 3.5 Live Translate in the Google Translate app on Android or iOS

The model is also rolling out on the Google Translate app globally, on both Android and iOS. When using the Live translate feature, simply connect any pair of headphones to experience a more seamless translation that mirrors the speaker’s tone across 70+ languages.

For Android users, we’re also starting to roll out a new ‘listening mode’ with 3.5 Live Translate that lets you hear translations directly through your phone’s earpiece. Simply hold your phone to your ear just like a regular call, and the translated audio streams straight to you. This new experience can be helpful in situations where you want to quickly hear translations without others hearing, and you don’t have your headphones handy.

Using the new listening mode, users can hear a near real-time English translation of a guided tour in Spanish directly through their phone's earpiece.

Watermarked with SynthID

All audio generated by our models is watermarked with SynthID. This imperceptible watermark is woven directly into the audio output, ensuring AI-generated content remains detectable to help prevent misinformation. For details on our approach to safety and responsibility, review the model card.

Get more stories from Google in your inbox.

Done. Just one step more.

Check your inbox to confirm your subscription.

You are already subscribed to our newsletter.

You can also subscribe with a

Related stories

.

この記事をシェア

関連記事

Ars Technica AI★42026年6月10日 03:57

Google、Gemini 3.5 Live Translate を発表し即時音声翻訳を実現

Google は新機能「Gemini 3.5 Live Translate」を発表し、従来限定的だったリアルタイムの音声対話翻訳をより多くの場所で利用可能にした。これは長年追求してきた機械学習実験の実現である。

MarkTechPost★42026年6月10日 02:24

Google、Meet・翻訳・ライブ API で 70 言語以上対応のストリーミング音声対音声モデル「Gemini 3.5 Live Translate」を公開

Google は、70 以上の言語を自動検知し、話者のイントネーションやピッチを保ちながら連続的に翻訳音声を生成する新モデル「Gemini 3.5 Live Translate」を発表した。この技術は Meet、翻訳サービス、ライブ API で利用可能となる。

Google Developers AI★42026年6月3日 09:00

Google AI Edge を活用した Gemma 4 12B のローカル導入:ラップトップで実行可能なエージェント型ワークフローの実現

Google DeepMind は、メモリ 16GB の一般的なラップトップでも動作する「Gemma 4 12B」モデルを発表し、macOS 上で Google AI Edge Gallery を介してローカルデータ処理や視覚的洞察生成を可能にするエージェント型 AI ワークフローを提供している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む