AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月10日 02:24·約6分で読める

Google、Meet・翻訳・ライブ API で 70 言語以上対応のストリーミング音声対音声モデル「Gemini 3.5 Live Translate」を公開

#音声翻訳#ストリーミング処理#Google Gemini#リアルタイム AI#マルチモーダル
TL;DR

Google は、70 以上の言語に対応し、話者のイントネーションを保持する次世代ストリーミング音声翻訳モデル「Gemini 3.5 Live Translate」を発表し、Meet や API を通じてリアルタイムな双方向翻訳を実現した。

AI深層分析2026年6月9日 21:03
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

連続ストリーミングによる低遅延翻訳

従来のターンベース(話者が話すのを待つ)方式ではなく、発話を聞きながら継続的に処理を行うことで、数秒の遅延でリアルタイムな対話を実現する。

2

音声特性の保持と自動言語検出

70 以上の言語を自動検出し、翻訳後の音声でも話者のイントネーションやピッチ、ペースを維持して自然な聴感を提供する。

3

多様なプラットフォームでの展開

開発者向けには Gemini Live API、企業向けには Google Meet、一般ユーザーには Google Translate アプリ(Android/iOS)で順次ロールアウトされる。

4

リアルタイム連続ストリーミング処理

従来のターンベースではなく、話者から数秒遅れて音声のみを継続的にストリーム処理し、70 以上の言語間で低遅延な同時通訳を実現します。

5

Google Meet と Translate の機能拡張

Google Meet では対応言語が 5 から 70+ に拡大し、2000 以上の組み合わせが可能になるほか、Translate アプリではイヤホン接続や Android の聴き取りモードを通じてリアルタイム通訳を利用できます。

6

開発者向け Live API とエコシステム

Agora や LiveKit などのプラットフォームが Live API を活用して統合を進めており、開発者は複雑なメディアストリーミング基盤を気にせずユーザー体験に集中できます。

影響分析・編集コメントを表示

影響分析

この発表は、リアルタイム通訳や国際会議システムにおける「待ち時間」の壁を打破し、人間同士の対話に近い自然な多言語コミュニケーションを可能にする技術的転換点となる。特に、発話の文脈を保持しつつ低遅延を実現するアーキテクチャは、今後開発されるあらゆるリアルタイム AI アプリケーションの標準的な設計パターンとして広く採用される可能性がある。

編集コメント

単なる翻訳精度の向上ではなく、処理アーキテクチャを「ターンベース」から「連続ストリーミング」へ転換した点が画期的です。これにより、AI を介した対話体験が劇的に自然化されるでしょう。

Google はついに Gemini 3.5 Live Translate を発表しました。これは、ライブでの音声から音声への翻訳を可能にする最新のオーディオモデルです。音声から音声へとは、話された音声が入力され、翻訳された話された音声として出力されることを意味します。このモデルは自動的に 70 以上の言語を検出し、翻訳された音声を生成します。また、出力において話者のイントネーション、ペース、ピッチを保持します。ターンバイターンのシステムでは、話者が話すのを完了するまで応答を待ちますが、Gemini 3.5 Live Translate は連続して音声を生成します。これは、文脈を待つことと即時翻訳を行うことの間のトレードオフのバランスを取っています。より多くの文脈は品質を向上させます。一方、高速な出力により、翻訳が話者と同期したまま保たれます。その結果、セッション全体を通じて、翻訳は話者から数秒遅れて表示されます。

Gemini 3.5 Live Translate

Gemini 3.5 Live Translate はチャットアシスタントではなく、単一のオーディオモデル(gemini-3.5-live-translate-preview)です。これは完全な文が完了した後ではなく、音声ストリームが入力される過程で音声を処理します。手動で設定を構成することなく、多言語入力を扱います。そのノイズ耐性により、アプリケーションは騒がしく予測不能な環境でも実行可能です。

このモデルは 3 つの主要プラットフォームに展開されています。開発者は Gemini Live API と Google AI Studio を通じてパブリックプレビューで利用できます。企業向けには、今月から Google Meet でプライベートプレビューが提供されます。その他のユーザーは、Android および iOS の Google Translate アプリを通じて利用可能です。

連続ストリーミングの仕組み

リアルタイム機能の構築において、この設計上の違いは重要です。会話型ライブエージェントはターンベースのインタラクションを使用します。これは一時停止、意図検出、割り込み処理に依存しています。一方、ライブ翻訳は連続ストリーム処理を使用します。話者が話すまま翻訳を行い、ターンの終了を待たないのです。

厳格なリアルタイムレイテンシしきい値を維持するため、翻訳パスでは音声入力のみを受け付けます。テキスト入力は翻訳モードではサポートされません。このモードでは、モデルはツール使用やシステム指示も除外します。これにより、汎用エージェントではなく、焦点を絞った翻訳パイプラインとして機能します。

ライブ API を活用した構築

開発者は、Live API セッション設定内で翻訳を設定します。generationConfig 内に translationConfig ブロックを設定します。targetLanguageCode フィールドには BCP-47 コード(例:"pl" や "es")を指定します。BCP-47 は en や pt-BR などの言語タグの標準フォーマットです。デフォルト値は "en" です。echoTargetLanguage ブール値は、すでにターゲット言語で入力された内容を制御します。true の場合、モデルはその発話を反復します。false の場合、沈黙を保ちます。また、テキストトランスクリプトのために inputAudioTranscription と outputAudioTranscription を有効化することもできます。

音声フォーマットは固定されています。入力は 16kHz、モノラル、リトルエンディアン形式の生 16 ビット PCM です。出力は 24kHz、モノラル、リittleエンディアン形式の生 16 ビット PCM です。PCM は非圧縮生の音声データです。100ms ごとのチャンクで音声を送信します。クライアントサイドアプリでは、v1alpha エンドポイントでの一時的トークンを使用することで、API キーが露出するのを防ぎます。

DimensionLive AgentLive Translation

Model roleAssistant that listens, reasons, and actsInterpreter / real-time translator pipeline

InteractionTurn-based, with interruption handlingContinuous stream processing, no turns

ToolsFunction calling, Google Search, instructionsTranslation only, no tools or instructions

InputsText, audio, video, and imageAudio only, for strict latency

ConfigurationGeneration, speech, tools, instructionstargetLanguageCode and echoTargetLanguage

Use Case

The model targets live interpretation across several settings. Google lists multilingual calls, meetings, lessons, and broadcasts. Developer platforms reduce the integration work for real-time media. Agora, Fishjam, LiveKit, Pipecat, and Vision Agents already use the Live API. These platforms handle the complex real-time media streaming infrastructure. That lets developers focus on the user experience instead.

Google’s example app demonstrates dubbing and simultaneous multi-language translation. Grab is testing the model for driver-and-traveler communication at pickups. Grab users make over 10 million voice calls per month. CJ ENM, LiveKit, and others reported positive feedback on quality, accuracy, and low latency.

How It Changes Google Meet and Translate

According to Google’s official release, Google Meet will soon use 3.5 Live Translate for speech translation. The table shows the stated before-and-after for Meet.

CapabilityPrevious MeetWith 3.5 Live Translate

Languages570+

会議ごとの組み合わせ

英語へのみ、および英語からのみ

2000 以上の組み合わせ

アクセス

既存のインターフェース

即時アクセス用の更新されたインターフェース

Meet のアップデートは、今月一部のビジネス Workspace ユーザー向けにプライベートプレビューとして提供されています。より広範な展開は今年後半に行われます。

Translate アプリでは、ライブ翻訳機能は接続されたヘッドフォンと連携して動作します。これは 70 以上の言語で話者のトーンを再現します。Android ではリスニングモードも追加されました。通常の通話のように電話を耳に当てると、翻訳された音声はイヤホンを通じてストリーミングされ、周囲の人は聞き取れません。

主要なポイント

Gemini 3.5 Live Translate は、70 以上の言語に対応したライブ音声対音声翻訳のための Google の最新オーディオモデルです。

これはターンバイターンではなく連続的にストリーミングされ、話者から数秒遅れて動作します。

開発者は、Live API を使用して targetLanguageCode と echoTargetLanguage で設定できます。オーディオのみで、入力 16kHz、出力 24kHz です。

Gemini Live API、Google Meet(5→70+ 言語)、および Translate アプリに展開されます。

生成されたすべての音声には、検出可能な SynthID ウォーターマークが埋め込まれています。

Model Card や技術詳細もご覧ください。また、Twitter でフォローしていただくことや、150k 以上の ML サブレッドに参加し、ニュースレターを購読することもご自由にどうぞ。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加できます。

GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご希望ですか?ぜひご連絡ください。

Google が Meet、Translate、および Live API にわたって 70 以上の言語に対応するストリーミング音声対音声オーディオモデル「Gemini 3.5 Live Translate」をリリースしたという記事は、MarkTechPost で最初に公開されました。

原文を表示

Google just announced Gemini 3.5 Live Translate. It is their latest audio model for live speech-to-speech translation. Speech-to-speech means spoken audio goes in, and translated spoken audio comes out. The model detects over 70 languages automatically and generates translated speech. It preserves the speaker’s intonation, pacing, and pitch in the output. Turn-by-turn systems wait for a speaker to finish before responding. Gemini 3.5 Live Translate generates speech continuously instead. It balances a trade-off between waiting for context and translating immediately. More context improves quality. Faster output keeps the translation in sync with the speaker. The result stays a few seconds behind the speaker throughout a session.

Gemini 3.5 Live Translate

Gemini 3.5 Live Translate is a single audio model (gemini-3.5-live-translate-preview), not a chat assistant. It processes speech as the audio streams in, rather than after a full sentence. It handles multilingual inputs without manually configuring settings. Its noise robustness lets applications run in loud, unpredictable environments.

The model is rolling out across three surfaces. Developers get it in public preview through the Gemini Live API and Google AI Studio. Enterprises get a private preview in Google Meet starting this month. Everyone else gets it through the Google Translate app on Android and iOS.

How the Continuous Streaming Works

The design difference matters for building real-time features. A conversational Live agent uses turn-based interactions. It relies on pauses, intent detection, and interruption handling. Live Translation uses continuous stream processing instead. It translates as the speaker talks, without waiting for turns to end.

To hold strict real-time latency thresholds, the translation path accepts audio input only. Text input is not supported in translation mode. The model also drops tool use and system instructions in this mode. That keeps it a focused translator pipeline rather than a general agent.

Building With the Live API

Developers configure translation inside the Live API session setup. You set a translationConfig block within the generationConfig. The targetLanguageCode field takes a BCP-47 code, such as "pl" or "es". BCP-47 is the standard format for language tags like en or pt-BR. It defaults to "en". The echoTargetLanguage boolean controls input that is already in the target language. When true, the model echoes that speech. When false, it stays silent. You can also enable inputAudioTranscription and outputAudioTranscription for text transcripts.

Audio formats are fixed. Input is raw 16-bit PCM at 16kHz, mono, little-endian. Output is raw 16-bit PCM at 24kHz, mono, little-endian. PCM is uncompressed raw audio. You send audio in chunks of 100ms. For client-side apps, ephemeral tokens on the v1alpha endpoint avoid exposing your API key.

DimensionLive AgentLive Translation

Model roleAssistant that listens, reasons, and actsInterpreter / real-time translator pipeline

InteractionTurn-based, with interruption handlingContinuous stream processing, no turns

ToolsFunction calling, Google Search, instructionsTranslation only, no tools or instructions

InputsText, audio, video, and imageAudio only, for strict latency

ConfigurationGeneration, speech, tools, instructionstargetLanguageCode and echoTargetLanguage

Use Case

The model targets live interpretation across several settings. Google lists multilingual calls, meetings, lessons, and broadcasts. Developer platforms reduce the integration work for real-time media. Agora, Fishjam, LiveKit, Pipecat, and Vision Agents already use the Live API. These platforms handle the complex real-time media streaming infrastructure. That lets developers focus on the user experience instead.

Google’s example app demonstrates dubbing and simultaneous multi-language translation. Grab is testing the model for driver-and-traveler communication at pickups. Grab users make over 10 million voice calls per month. CJ ENM, LiveKit, and others reported positive feedback on quality, accuracy, and low latency.

How It Changes Google Meet and Translate

According to Google’s official release, Google Meet will soon use 3.5 Live Translate for speech translation. The table shows the stated before-and-after for Meet.

CapabilityPrevious MeetWith 3.5 Live Translate

Languages570+

Combinations per meetingOnly to and from English2000+ combinations

AccessExisting interfaceUpdated interface for instant access

The Meet update is in private preview for select business Workspace customers this month. A broader rollout follows later this year. In the Translate app, the Live translate feature works with any connected headphones. It mirrors the speaker’s tone across 70+ languages. Android also gains a listening mode. You hold the phone to your ear like a regular call. The translated audio then streams through the earpiece, without others hearing.

Key Takeaways

Gemini 3.5 Live Translate is Google’s latest audio model for live speech-to-speech translation across 70+ languages.

It streams continuously instead of turn-by-turn, staying a few seconds behind the speaker.

Developers can configure it via the Live API using targetLanguageCode and echoTargetLanguage; audio-only, 16kHz in, 24kHz out.

It rolls out to the Gemini Live API, Google Meet (5→70+ languages), and the Translate app.

All generated audio carries an imperceptible SynthID watermark for detectability.

Check out the Model Card and Technical details. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.

Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us

The post Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API appeared first on MarkTechPost.

この記事をシェア

関連記事

The Verge AI★42026年6月9日 23:18

Apple の AI 約束がいよいよ、ほぼ、あるいは少しだけ実現した

Apple は開発者会議で AI に関する大胆な約束を表明したが、CEO ティム・クックが述べた新技術の導入よりも、むしろ「Siri AI」を中心とした発表は他社に追いつくためのものだった。

The Verge AI★42026年5月20日 02:45

ロボットにお金を使わせるか?Google はその可能性に賭ける

Google は競合が後退する中、AI 駆動のショッピングに注力している。同社は Google I/O で、Gemini や YouTube、Gmail など複数のプラットフォームで動作する「ユニバーサルカート」と呼ばれる最新 AI コマースツールを発表した。

TLDR AI★42026年5月4日 09:00

Google、動画生成向け新「Omni」モデルをテスト中

Google は動画と画像生成ツールを統合する新モデル「Omni」を Gemini の UI でテストしており、2026 年の Google I/O での公開も検討されている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む