AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月10日 09:00·約6分で読める

Gemini 3.5 Live Translate で流体かつ自然な音声翻訳を実現(4 分読了)

#音声翻訳#Gemini#リアルタイム処理#Google#マルチモーダル
TL;DR

Google は Gemini 3.5 Live Translate を発表し、70 以上の言語でほぼリアルタイムの音声対音声翻訳を実現する最新オーディオモデルを公開した。

AI深層分析2026年6月11日 01:04
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

Gemini 3.5 Live Translate の発表

Google が最新のオーディオモデル「Gemini 3.5 Live Translate」を発表し、70 以上の言語に対応するほぼリアルタイムの音声対音声翻訳機能を提供することを明かした。

2

自然な流体型翻訳の実現

従来の機械的な翻訳ではなく、会話の流れを損なわない「Fluid, natural」な体験を目指し、遅延を最小限に抑えた音声入出力を実現している。

3

多言語対応の拡大

70 以上の言語をサポートすることで、グローバルなコミュニケーションにおける言語の壁を取り除く実用性を高めている。

4

自然なリアルタイム音声翻訳

70 以上の言語を自動検出し、話者のイントネーションやピッチを保持した滑らかな音声翻訳を提供します。

5

連続生成による低遅延

ターンバイターンの方式ではなく、文脈の質と同期性をバランスさせながら継続的に音声を生成し、数秒の遅延で流れる対話を可能にします。

6

多様な環境での展開

開発者向け API、企業向け Google Meet、一般ユーザー向け Google Translate アプリなど、プラットフォームに応じて段階的にロールアウトされています。

7

Gemini Live API を活用した開発プラットフォームの連携

Agora、Fishjam、LiveKit などの主要な開発プラットフォームが Gemini Live API と統合されており、複雑なリアルタイムメディアストリーミングインフラを処理することで、開発者はユーザー体験の構築に集中できます。

影響分析・編集コメントを表示

影響分析

この発表は、AI による言語翻訳技術が単なるテキスト変換から、人間同士の会話に近いリアルタイム音声対音声へと進化していることを示す重要な転換点です。特に「Fluid, natural」という表現は、ビジネス会議や旅行など、即時性が求められる現場での実用化を加速させる可能性があり、グローバルコミュニケーションのあり方を変えるインパクトを持ちます。

編集コメント

2026 年という未来の日付が記載されていますが、これは Google のロードマップや将来のビジョンを示すプレスリリースとして捉えるべきでしょう。音声翻訳における遅延と自然さの両立は長年の課題であり、この技術が実装されれば業界標準を大きく更新する可能性があります。

2026 年 6 月 9 日

6 分間の読み物

Gemini 3.5 Live Translate は、最新の音声モデルであり、70 以上の言語でニアリアルタイムの音声対音声翻訳を実現します。

Anuda Weerasinghe

製品マネージャー

Tony Lu

シニアスタッフソフトウェアエンジニア

image
image

お使いのブラウザは音声要素をサポートしていません。

記事の再生

このコンテンツは Google AI によって生成されています。生成 AI は実験的な技術です。

[[duration]] 分

20 年前、Google での翻訳は、言語の科学を人間のつながりの魔法に変えるための、私たちの先駆的な機械学習実験の一つとして始まりました。この実験は大きく発展し、現在では毎月の製品利用において数十億人のユーザーのために 1 兆語以上の翻訳が行われています。

今日、私たちはライブ音声対音声翻訳のための最新オーディオモデルである Gemini 3.5 Live Translate のリリースにより、次の一歩を踏み出します。

このモデルは 70 以上の言語を自動的に検出し、話者のイントネーション、ペース、ピッチを保持した滑らかで自然な音調の翻訳された音声を生成します。話者が話すのを待ってから応答するターン・バイ・ターン方式とは異なり、3.5 Live Translate は連続して音声を生成し、品質向上のために文脈を待つことと、話者と同期を保つために即時翻訳することの間のトレードオフをバランスよく調整しています。不自然な一時停止のない流れるようなオーディオを提供し、セッション全体を通じて話者の数秒遅れで追従します。

Gemini 3.5 Live Translate は本日より Google プロダクト全体で展開を開始します:

  • 開発者向け: Gemini Live API および Google AI Studio を通じたパブリックプレビュー
  • エンタープライズ向け: 今月から Google Meet でのプライベートプレビュー開始
  • 一般ユーザー向け: Android および iOS の Google Translate を経由して利用可能

Build with 3.5 Live Translate

Gemini 3.5 Live Translate は、ストリーミングされる音声として処理を行うため、言語間をよりシームレスに接続します。このモデルは、手動で設定を設定する必要なく多言語入力を処理します。同時に、そのノイズ耐性により、アプリケーションが騒がしく予測不能な環境でも対応可能となります。その機能を活用して、多言語の通話、会議、レッスン、放送などにおけるライブ通訳を支援することができます。

Gemini Live API の実演をご覧ください。これにより、吹き替えや同時多言語翻訳が可能になります。デモや、Gemini Cookbook 内のより多くの サンプルコード をご覧ください。

Gemini Live API(ライブ API)を活用することで、Agora、Fishjam、LiveKit、Pipecat、そして Vision Agents といった開発者プラットフォームが、開発者が音声翻訳アプリを容易に構築・展開できるように支援しています。これらの統合は複雑なリアルタイムメディアストリーミングインフラストラクチャ(基盤)を処理するため、開発者はユーザーエクスペリエンス(UX)に集中できます。

パートナーである Grab 社では、ドライバーと旅行者間のピックアップ時のほぼリアルタイムでの多言語コミュニケーションを実現するために、このモデルのテストを行っています。これらのユーザーは、Grab を通じて月間 1,000 万件以上の音声通話を利用しています。

Grab がどのように 3.5 Live Translate(ライブ翻訳)をテストし、ユーザー間のコミュニケーションを変革してきたかをご覧ください。

初期レビューを読む

Grab のほか、CJ ENM や LiveKit などの企業も、3.5 Live Translate について、その印象的な翻訳品質、精度、低遅延(レイテンシ)を強調し、肯定的なフィードバックを共有しています:

Gemini 3.5 Live Translate のテストを通じて、複数の言語を自動検出し、低遅延で正確に音声翻訳する能力の価値を実感しています。

ビデオ会議で 3.5 Live Translate を体験する

Google Meet における 音声翻訳 は、まもなく 3.5 Live Translate を採用し、以下のように体験を向上させます:

  • 対応言語を 70 以上へ拡大(従来の 5 言語からの改善)
  • 1 つの会議内で 2000 以上の言語組み合わせ間での会話を可能に(従来は英語との双方向翻訳のみだった状態からの拡張)
  • インターフェースを更新し、音声翻訳への即時アクセスを提供。

このアップデートは、今月から一部のビジネス向け Google Workspace カスタマーを対象にプライベートプレビューとして開始され、今年後半にはより広範な展開が行われます。

Google Meet の参加者が、英語・中国語(マンダリン)・スウェーデン語間でのコミュニケーションに音声翻訳を活用しています。

Android または iOS の Google Translate アプリで 3.5 Live Translate を利用する

このモデルは、Android および iOS の両方で、Google Translate アプリにおいてグローバルに展開されています。Live translate 機能を使用する際は、任意のヘッドセットを接続するだけで、話者のトーンを 70 以上の言語で反映した、よりシームレスな翻訳体験が可能になります。

Android ユーザー向けには、3.5 Live Translate の新機能「リスニングモード」の展開も開始しました。これにより、通話中の受話器を通じて直接翻訳を聞くことができます。通常の電話のようにスマートフォンを耳に当てれば、翻訳された音声ストリームがそのまま届きます。この新しい体験は、周囲に聞こえさせずに素早く翻訳を確認したい場合や、ヘッドフォンを持っていない場合に役立ちます。

新しいリスニングモードを使用すると、ユーザーは電話の受話器を通じて、スペイン語で行われるガイドツアーのほぼリアルタイムな英語訳を聴くことができます。

SynthID で透かし処理済み

当社のモデルによって生成されたすべての音声は、SynthID によって透かし処理されています。この知覚不可能な透かしは音声出力に直接織り込まれており、AI 生成コンテンツが検出可能であることを保証し、誤情報の防止に役立ちます。安全性と責任ある取り組みに関する詳細については、モデルカードをご参照ください。

## Google の記事をあなたのメールボックスでさらに読む。

完了しました。あと一歩です。

購読を確認するために、メールボックスをご確認ください。

あなたはすでに当社のニュースレターに登録されています。

また、以下から購読することもできます

## 関連記事

.

原文を表示

Jun 09, 2026

6 min read

Gemini 3.5 Live Translate is our latest audio model, delivering near real-time speech-to-speech translation in over 70 languages.

A

Anuda Weerasinghe

Product Manager

T

Tony Lu

Senior Staff Software Engineer

Sparkle next to text "Gemini 3.5 Live Translate"
Sparkle next to text "Gemini 3.5 Live Translate"

Your browser does not support the audio element.

Listen to article

This content is generated by Google AI. Generative AI is experimental

[[duration]] minutes

Twenty years ago, translation at Google began as one of our pioneering machine learning experiments to turn the science of language into the magic of human connection. That experiment has come a long way with over a trillion words being translated for billions of users across our products every month.

Today, we’re taking our next step with the release of Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation.

The model automatically detects 70+ languages and generates smooth, natural-sounding translated speech that preserves the speakers' intonation, pacing and pitch. Unlike turn by turn systems that wait for the speaker to finish speaking before responding, 3.5 Live Translate generates speech continuously, balancing the trade-off between waiting for context to improve quality and translating immediately to stay in sync with the speaker. It delivers fluid audio without awkward pauses and stays just a few seconds behind the speaker throughout the session.

Gemini 3.5 Live Translate is rolling out starting today across Google products:

  • For developers in public preview via the Gemini Live API and Google AI Studio
  • For enterprises in private preview starting this month in Google Meet
  • For everyone via Google Translate on Android and iOS

Build with 3.5 Live Translate

Gemini 3.5 Live Translate processes speech as it’s streamed, enabling a more seamless connection across languages. The model handles multilingual inputs without the need to manually configure settings. At the same time, its noise robustness ensures applications can handle loud, unpredictable environments. You can use its capabilities to help facilitate live interpretation for multilingual calls, meetings, lessons, broadcasts and more.

Watch the Gemini Live API in action, enabling dubbing and simultaneous multi-language translation. Dive into the demo or more example code in the Gemini Cookbook.

By utilizing the Gemini Live API, developer platforms like Agora, Fishjam, LiveKit, Pipecat, and Vision Agents enable developers to build and deploy voice translation apps with ease. These integrations handle the complex real-time media streaming infrastructure, so developers can focus on the user experience.

Our partners at Grab are testing the model to enable multilingual communication in near real-time between drivers and travelers at pickups. These users make over 10 million voice calls per month through Grab.

See how Grab has been testing 3.5 Live Translate to transform communication between users.

Read the early reviews

In addition to Grab, companies like CJ ENM, LiveKit and others have shared positive feedback on 3.5 Live Translate highlighting its impressive translation quality, accuracy and low latency:

While testing Gemini 3.5 Live Translate, we’ve valued its ability to auto-detect multiple languages and translate speech accurately with low latency.

Experience 3.5 Live Translate in your video meetings

Speech translation in Google Meet will soon use 3.5 Live Translate, improving the experience by:

  • Offering 70+ languages, an improvement from the previous limit of just five languages,
  • Enabling conversations across over 2000+ language combinations in one meeting, expanding from the previous state of only translating to and from English,
  • Updating the interface to provide instant access to speech translation.

We’re launching this update in private preview for select business Google Workspace customers starting this month, followed by a broader rollout later this year.

Google Meet participants use speech translation to communicate across English, Mandarin, and Swedish.

Get 3.5 Live Translate in the Google Translate app on Android or iOS

The model is also rolling out on the Google Translate app globally, on both Android and iOS. When using the Live translate feature, simply connect any pair of headphones to experience a more seamless translation that mirrors the speaker’s tone across 70+ languages.

For Android users, we’re also starting to roll out a new ‘listening mode’ with 3.5 Live Translate that lets you hear translations directly through your phone’s earpiece. Simply hold your phone to your ear just like a regular call, and the translated audio streams straight to you. This new experience can be helpful in situations where you want to quickly hear translations without others hearing, and you don’t have your headphones handy.

Using the new listening mode, users can hear a near real-time English translation of a guided tour in Spanish directly through their phone's earpiece.

Watermarked with SynthID

All audio generated by our models is watermarked with SynthID. This imperceptible watermark is woven directly into the audio output, ensuring AI-generated content remains detectable to help prevent misinformation. For details on our approach to safety and responsibility, review the model card.

Get more stories from Google in your inbox.

Done. Just one step more.

Check your inbox to confirm your subscription.

You are already subscribed to our newsletter.

You can also subscribe with a

Related stories

.

この記事をシェア

関連記事

Google DeepMind★42026年6月10日 00:16

Gemini 3.5 Live Translate による流体かつ自然な音声翻訳の実現

Google DeepMind は、Gemini 3.5 Live Translate を発表し、会話のような自然さでリアルタイムに音声翻訳を行う技術を開発した。

Ars Technica AI★42026年6月10日 03:57

Google、Gemini 3.5 Live Translate を発表し即時音声翻訳を実現

Google は新機能「Gemini 3.5 Live Translate」を発表し、従来限定的だったリアルタイムの音声対話翻訳をより多くの場所で利用可能にした。これは長年追求してきた機械学習実験の実現である。

MarkTechPost★42026年6月10日 02:24

Google、Meet・翻訳・ライブ API で 70 言語以上対応のストリーミング音声対音声モデル「Gemini 3.5 Live Translate」を公開

Google は、70 以上の言語を自動検知し、話者のイントネーションやピッチを保ちながら連続的に翻訳音声を生成する新モデル「Gemini 3.5 Live Translate」を発表した。この技術は Meet、翻訳サービス、ライブ API で利用可能となる。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む