Google、エージェント型ジェミニ製品への移行を詳細説明
Google は I/O 2026 で、生成 AI から自律的にタスクを実行する「Agentic Gemini」への転換を宣言し、次世代の AI エコシステムとインフラストラクチャの革新を発表した。
キーポイント
Agentic Era の本格始動
Google は単なる対話型 AI から、ユーザーの代わりに計画立案から実行までを自律的に行う「エージェント(Agent)」としての Gemini への移行を宣言した。
インフラとモデルの刷新
大規模なタスク処理を支えるための新インフラと、複雑な推論能力を強化した次世代 Gemini モデルの発表が行われた。
対話型 AI の進化
従来のチャットボットから脱却し、多段階のワークフローを管理・実行できる高度な対話型 AI への進化が示された。
AI エージェント時代への移行
Google は今や AI の価値を実用的な製品に統合する段階に入り、I/O 2026 で「エージェント型 Gemini」の時代へ突入したと宣言しました。
フルスタックアプローチによる加速
カスタムシリコンから研究、モデル、そして製品プラットフォームに至るまでの独自のアプローチにより、開発サイクルが劇的に短縮され、全社的なイノベーションが促進されています。
トークン処理量の爆発的増加
AI モデルが処理するトークン数は月間 3.2 兆(quadrillion)に達し、前年比で約 7 倍の成長を記録しており、ユーザーによる AI の利用規模と課題解決能力が劇的に拡大しています。
開発者エコシステムの急成長
毎月850万人以上の開発者がGeminiモデルを用いて新アプリや体験の構築を行っており、API処理量は1分あたり約190億トークンに達しています。
影響分析・編集コメントを表示
影響分析
この記事は、AI の役割が「情報生成ツール」から「自律的な実行パートナー」へとパラダイムシフトする決定的な瞬間を捉えており、業界全体がエージェント技術の競争に本格的に参入したことを示しています。Google がインフラとモデルの両面でこのビジョンを支える基盤を整備したことは、企業向け AI 製品の未来像を再定義し、開発者やエンドユーザーのワークフローに革命をもたらす可能性が高いです。
編集コメント
2026 年という未来の日付を背景に、Google が「生成 AI」の次の段階として「自律型エージェント」を掲げた点は極めて重要です。これは単なる機能追加ではなく、AI ソフトウェアの定義そのものを変える重大な転換点と言えます。
2026 年 5 月 19 日
19 分間の読み物
Gemini を活用して、より多くの成果を上げるための取り組みについてご紹介します。

このストーリーでは以下のトピックを取り上げます:
- AI と製品の勢い
- 対話型 AI
- インフラとイノベーション
- Gemini モデル
- エージェント
- エージェンティック・ジェミニ時代のさらなる情報
あなたのブラウザは音声再生要素をサポートしていません。
記事の聴取
このコンテンツは Google AI によって生成されています。生成 AI は実験的な技術です。
[[duration]] 分
編集者の注記:以下は、Google CEO のサンダル・ピチャイ氏が Google I/O 2026 で行った発言の編集版転写稿です。ステージ上で発表された内容をより多く盛り込むように改訂されています。すべての発表については、コレクションをご覧ください。
*Editor's note: Below is an edited transcript of Google CEO Sundar Pichai's remarks at Google I/O 2026, adapted to include more of what was announced on stage. See all the announcements in our collection.*
前回の I/O から以来、信じられないほど素晴らしい一年となりました。この期間は、絶え間ない製品出荷、技術の進歩、そして劇的な進展の連続でした。私たちは今、AI サイクルの中で、人々が毎日使用する製品に価値を見出したいと望む段階にあります。私たちはまさにその点に注力しており、本日 I/O で発表する製品や機能において、それが確認できるでしょう。
会社を AI ファーストへと転換してから 10 年が経ちましたが、依然として AI は、私たちのミッションを推進し、大規模な人々の生活を改善するための最も画期的な手段であると捉えています。そのため、AI イノベーションに対して差別化されたフルスタックアプローチを採用しています。これは、カスタムシリコンと安全な基盤から、世界クラスの研究およびモデル、そして数十億人の生活に直接関わる製品やプラットフォームに至るまでを包括するものです。このアプローチにより、会社のあらゆる部分で輝くような形で、より迅速に反復し、革新することが可能になります。
人々が AI をどのように活用しているかという点は驚異的です。例えば、Gemini アプリを使って最終試験の準備をする学生たち、クリエイティブなワークフローの一部として Lyria や Veo といった生成 AI モデルを活用するミュージシャンやアーティスト、そしてコーディングを行い自らのアイデアを現実のものとする開発者たちの姿がそうです。
フルスタック全体における AI の勢い
人々が AI を活用しているこれらの物語こそが、進歩を測る最良の指標です。人々がどの規模で AI を採用しているかを理解するためには、もう一つの優れた代理指標があります。それは「トークン」です。トークンはモデルが処理するデータの基本的な単位であり、多くの場合、解決すべき課題を表しています。
2 年前、私たちは各サービス上で月間 9.7 兆トークンを処理していました。これは膨大な数です。昨年の I/O で発表された時点では、その数は約 480 兆トークンに成長しました。そして今日に至るまで、この数字は 7 倍に跳ね上がり、月間 3.2 京(10^16)を超えています。
これは、私たちの製品や他社がどのように構築しているかについて、特に開発者や企業にとって重要な物語を語っています:
- 現在、850 万人以上の開発者が、当社のモデルを用いて月間新規アプリや体験の構築を行っています。
- 当社のモデル API は、現在毎分約 190 億トークンを処理しています。
- 過去 12 ヶ月間にわたり、375 社を超える Google Cloud の顧客がそれぞれ 1 兆トークン以上を処理しており、これは業界全体から AI に対する信じられないほどの需要があることを示しています。
製品における勢い
現在、当社は各サービスで 10 億人以上のユーザーを持つ 13 の製品を有しています。そのうち 5 つは 30 億人を超えるユーザー数を誇ります。
Gemini モデルが、より多くの人々が私たちの製品を利用し、かつより頻繁に利用するようになった大きな理由の一つです。
すべては Search から始まります。これは、生成 AI の恩恵を世界中のどの製品よりも多くの人に届けるものです。AI Overviews(AI 要約)は現在、月間アクティブユーザーが 25 億人を超えています。また、AI Mode は驚くべき成果をもたらしており、検索機能における過去最大のアップグレードです。人々はこれを愛しており、わずか 1 年足らずで既に月間アクティブユーザー数 10 億人を突破しています。
人々が検索で AI 搭載機能を利用すると、検索の利用頻度が高まります。検索は個々のクエリに焦点を当てるものから、継続的な会話のような体験へと変化し、より深い洞察を提供し、ウェブの広大さとつながるものとなっています。
私たちが急速にイノベーションを進めているもう一つの場所は Gemini アプリ です。昨年の I/O において、Gemini アプリの月間アクティブユーザー数は 4 億人でした。今日では 9 億人を突破し、1 年間で倍以上に増加しています。同じ期間中、日次リクエスト数も 7 倍以上に成長しました。
私たちは パーソナルインテリジェンス など、回答をよりカスタマイズされ、役立つものにする独自機能を多数追加してきました。これまでに、Nano Banana 画像生成モデルを使用して 500 億枚以上の画像が生成されています。これは昨年の大ヒット作であり、世界に潜む潜在的な創造性がどれほど多いかを示すものでした。
Natural, conversational AI in products
製品において、まだ解き放たれていない生産性のポテンシャルは非常に大きいです。過去 1 年間、私たちは Gemini とのより自然な対話機能を直接製品内に組み込む取り組みを進めてきました。最近では、Maps が 10 年ぶりに最大のアップグレードを受け、Gemini を活用して地図上のあらゆる場所について何でも質問できる新機能「Ask Maps」Ask Maps が追加されました。ユーザーは Ask Maps で、より複雑で非常に長い質問を行うケースが増えています。
今後は、より自然な対話型 AI をさらに多くの製品に導入していきます。
Ask YouTube
人々は毎日、YouTube 上で数々の質問を投げかけています。素晴らしい動画が多数ありますが、どこから手をつけていいか分からない場合もあります。
Ask YouTube はこの体験を完全に再設計し、情報をより消化しやすく、ナビゲーションもしやすくしました。あなたの興味に最も合致する動画が表示され、何よりも重要なのは、動画のあなたにとって最も関連性の高い部分へ即座にジャンプすることです。
私たちは現在、Ask YouTube のテストを開始しており、今年夏には米国で広く展開される予定です。
Voice-powered Docs Live
声のスピードで物事を片付けたいという場面は多くあります。音声モデルにおける技術的な飛躍のおかげで、今日ではそれがより現実的になっています。
「Docs Live」という新機能は、これをさらに次のレベルへと引き上げます。以前は Gemini でドキュメントを作成するには、正確なプロンプトを入力する必要がありましたが、「Docs Live」を使えば、頭に浮かんだことを口頭で「ブレインダンプ(脳内を吐き出す)」するだけで、残りの作業は Gemini が行います。以下にリアルタイムのデモを示します:
将来的には、音声だけで新しいドキュメントを作成し、直接編集することも可能になります。「Docs Live」は今年夏からサブスクリプションユーザー向けに展開され、その後 Gmail や Keep でも強力な音声機能が提供される予定です。
スケーラブルなイノベーションを支えるインフラ
製品全体で進む革新のスピードには驚かされます。世界中のユーザーや企業、開発者に対してこの規模を維持し、サービスを提供するためには、インフラへの巨額の投資が必要です。私たちは現在と未来のために継続的に投資を行ってきました。2022 年には年間 310 億ドルを設備投資(capex)に費やしていましたが、今年はその約 6 倍にあたる 1,800 億〜1,900 億ドルを見込んでいます。この投資の重要な一部は、独自開発の半導体(custom silicon)です。
10 年前、私たちは I/O ステージにおいて、最初の商用テンプロセシングユニット(TPU)を発表しました。以来、業界が AI を構築する方法を変革してきました。最近、Cloud Next で 8 世代目の TPU を発表しました。初めて、トレーニングと推論にそれぞれ特化したアーキテクチャを持つデュアルチップアプローチを採用し、TPU 8t と 8i を導入しました。
- TPU 8t は大規模事前学習向けに最適化されており、前世代と比較して純粋な計算能力が約3倍になっています。トレーニングインフラストラクチャについては根本的に異なるアプローチを採用しました。JAX と Pathways を用いることで、トレーニングはもはや単一の巨大データセンターの制約に縛られることはありません。代わりに、複数のサイト間でトレーニングをシームレスに分散させ、世界中で 100 万基を超える TPU でトレーニングをスケールさせることが可能になりました。これにより、世界最大規模のトレーニングクラスターを構築する能力が得られます。モデルビルダーにとっては、数ヶ月かかっていたものを数週間でより大規模で高性能なモデルをトレーニングできるようになります。
- TPU 8i は推論向けに設計されています。あらゆるステップにおいて速度を劇的に向上させました。27 年にわたり検索に取り組んで得た教訓として、レイテンシが重要であることは間違いありません。
速度だけでなく、持続可能なスケールについても考慮しています。両方のチップはエネルギー効率が向上しており、ワットあたりのパフォーマンスが最大で2倍改善されています。
Gemini Omni
この TPU における進展こそが、モデル、コーディング、エージェント全体にわたる計算能力の向上を実現する鍵です。世界モデルにおいて、AI はテキストを予測することから現実をシミュレートすることに移行しています。私たちはこれらのモデルが何ができるかという境界線を押し広げるために取り組んできました。
Gemini Omni は、あらゆる入力からあらゆる出力モダリティのサンプルを生成できる新しいモデルです。まずは動画出力から始め、時間とともに画像やテキストも可能にしていきます。この新モデルは、Gemini の知能と当社の生成メディアモデルを組み合わせたもので、世界理解における大きな飛躍となります。Omni ファミリーの最初のモデルとして、Gemini Omni Flash を発表します。
Gemini Omni Flash は本日より利用可能です。Gemini アプリ、Google Flow、YouTube Shorts で試すことができます。また、今後数週間で開発者や企業顧客向けに API を通じて展開していきます。
SynthID の新アップデートとパートナーシップの拡大
生成 AI が向上するにつれ、透明性の必要性も高まっています。研究によると、人々が高品質なディープフェイク動画を正しく識別できるのは約四分の一のケースのみです。3 年前に私たちは、肉眼では見えないウォーターマークである SynthID を発表しました。発売以来、SynthID はすでに 1,000 億枚以上の画像・動画と、6 万年分のオーディオ資産にウォーターマークを付与しています。
数百万人が、Gemini アプリ内の SynthID デテクターを使用して、AI 生成コンテンツの検証を行っています。そして今、私たちはさらに一歩を進め、製品全体で Content Credentials 検証 を追加します。これにより、コンテンツの起源が AI かカメラによるものか、また生成 AI ツールを用いて編集されたものかどうかを確認できます。これらのツールをより多くの人々が簡単に利用できるようにするため、Search と Chrome においても Content Credentials および SynthID の検証機能を拡大していきます。
もちろん、これが大規模に機能するためには、より多くのパートナーが自社の AI 生成コンテンツに透かし(ウォーターマーク)を追加する決断が必要です。Nvidia は昨年 SynthID に参加しました。そして本日、OpenAI、Kakao、Eleven Labs も SynthID の採用を発表できることを大変嬉しく思います。業界を超えた協力が進んでいるのは素晴らしいことです。私たちはさらに多くのパートナーとの連携拡大を期待しており、AI エラにおける透明性の基準を設定していく所存です。
Gemini 3.5 Flash
Gemini 3 は数ヶ月前に発表され、フルモデルファミリーが用意されました。これはこれまでで最も採用が進んだシリーズです。開発者が Flash を日常の主要ツールとして使い、Pro の深い推論能力とマルチモーダル機能を用いて素晴らしい体験を構築している姿を見るのは大変嬉しく思っています。私たちはこれらのモデルの改善に全力を注いでおり、特にアジェンティックコーディング(自律型プログラミング)、長期ホライズンのタスク、そして実世界のワークフローに焦点を当てています。
本日、私たちは Gemini 3.5 Flash を発表します。これは、最先端の知能とアクションを組み合わせるモデルシリーズの最初のものです。特に強調したい点は2つあります。
- 3.1 Pro と比較すると、3.5 Flash はほぼすべてのベンチマークで優れています。コーディングにおける大幅な進歩があり、GDPVal(経済的価値のある実世界タスクの多くを捉える指標)における驚異的な向上をご覧ください。
- Gemini 3.5 Flash は非常に能力が高く、最先端であり最良のモデルと同等ですが、依然として非常に高速です。そのため、知能と出力速度を比較した際、右上のクアドラントにおいて他とは一線を画す存在となっています。1秒あたりの出力トークン数で見ると、他の最先端モデルよりも4倍速いです。
新しいモデルは、Google 社内にとってゲームチェンジャーとなりました。私たちは、エージェントファーストの開発プラットフォーム「Antigravity」の再設計版と組み合わせて 3.5 Flash を使用しており、開発プロセスが劇的に加速しました。3 月には、AI 開発ツール内で1日あたり半兆トークンを処理していましたが、数週間ごとにその量が倍増しています。現在では、1日あたり3兆トークン以上を処理しています。この規模により、3.5 の改善に役立つ強力なフィードバックループが生まれました。
Flash の素晴らしい点は、同等の最先端モデルと比較して半額以下の価格で最先端レベルの能力を提供していることです。すでに多くの企業が年間トークン予算を 5 月という早い段階で使い果たし始めていると聞いています。もし企業が Flash と他の最先端モデルを組み合わせて使用すれば、莫大な費用を節約できます。これを具体化するために言えば、主要企業は1日あたり約1兆トークンを処理しています。もしこれらの企業のワークロードの80% を他の最先端モデルから 3.5 Flash にシフトさせた場合、年間10億ドル以上の節約になります。これは自社に再投資できる本当の節約額です。
Gemini 3.5 Flash は今日、当社の製品および API で誰でも利用可能になりました。また、Gemini 3.5 Pro にも期待しています。社内でも使用しており、大きな改善が見られ、来月には提供開始されます。
Antigravity 2.0
私たちはまた、Antigravity の開発者向けに 3.5 Flash も提供します。
Antigravity はコーディング環境を超えて拡張し、自律型 AI エージェントの群れを開発・管理するためのプラットフォームへと進化します。これには、エージェントの相互作用のための中央集権的な拠点として機能する新しいスタンドアロンデスクトップアプリケーションである Antigravity 2.0 も含まれており、誰でもあらゆるタスクのためにエージェントをオーケストレーションできます。さらに、私たちは Flash のより最適化されたバージョンを開発しました。他の最先端モデルと比較して4倍ではなく、なんと12倍高速です。
ユーザーは、今日から Antigravity でこの体験を味わうことができます。Antigravity 2.0 について詳しくはこちら をお読みください。
Gemini Spark はあなたの 24 時間 365 日のエージェントです
Gemini 3.5 と Antigravity が、エージェントおよびアジェンティック機能の新たな世界を開きます。私たちはこれまで、開発者や企業向けにエージェントを提供してきました。今こそ、誰もが安全かつ確実に活用できるよう、消費者に対してエージェントの力を集中して提供することに注力しています。今日から、多くの製品でアジェンティックな体験をご覧いただけるようになります。
特に私が楽しみにしているのは、Gemini Spark です。これは Gemini アプリ内のあなたの個人用 AI エージェントであり、デジタルライフのナビゲーションをサポートし、あなたの指示のもとで代わりに行動を起こします。
- Google Cloud の専用仮想マシン上で動作し、24 時間年中無休で稼働するため、ラップトップを開きっぱなしにする必要はありません。
- Gemini 3.5 と Google Antigravity ハーネスによって駆動されており、これによりバックグラウンドで長期間にわたるタスクを容易に実行できます。
- Spark は、まず自社製ツールとシームレスに統合され、今後数週間で MCP を通じてサードパーティ製ツールとも連携します。
- また、Gemini アプリ内や、間もなくメール・チャットを通じてなど、最も便利な方法で Spark と作業を進めることができます。
- Android では、今年後半に登場する「Android Halo」と呼ばれる新しい UI スペースを通じて、Spark などのエージェントのライブ更新状況とタスク進行状況を閲覧できるようになります。今夏には、Spark が Chrome の内部で直接動作し、ウェブ全体を横断するエージェント型ブラウザとして機能します。
- Gemini Spark は今週から信頼できるテスター向けに展開を開始しており、ベータ版は来週より米国の Google AI Ultra 契約者に提供されます。
エージェント時代の検索
Gemini Spark は、3.5 モデルと Antigravity がもたらす初の体験です。この組み合わせにより、当社のミッションを加速し、製品を根本的により役立つものへと変革するための新たな道が開かれました。
このエージェント時代を迎えるにあたり、検索はこれまで以上に有益かつ強力なものとなります。本日、私たちは検索に「情報エージェント」を導入します。これは、必要な情報をちょうどよいタイミングで見つけ出し、行動を支援するために、24 時間 365 日バックグラウンドで動作するように設定できるパーソナライズされた AI エージェントです。情報エージェントは今年夏から展開を開始し、まずは Google AI Pro および Ultra のサブスクライバー向けに提供されます。
真のエージェント型検索を構築するもう一つの手段として、検索に「エージェント型コーディング機能」を組み込むことです。Gemini 3.5 Flash と Google Antigravity の力を活用することで、検索は動的なレイアウトやインタラクティブなビジュアルなど、個々の質問に特化したカスタム体験を構築します。これらの生成 UI 機能は、今年夏から誰でも無料で検索で利用できるようになります。
また、継続的にアクセスが必要な長時間タスクについては、検索はさらに一歩進み、戻りながら進捗を確認できる永続的なカスタムダッシュボードやトラッカーを構築します。これらは、特定のタスク専用のミニアプリと考えることができます。今後数ヶ月のうちに、米国ではまず Google AI Pro および Ultra のサブスクライバー向けに、検索内で Antigravity を活用してカスタム体験を構築できるようになります。
エージェント型 Gemini 時代からのさらなる情報
I/O で発表したその他の内容をご紹介します:
- Daily Brief は、Gemini アプリに登場するもう一つのアウト・オブ・ザ・ボックス型エージェントです。これは、受信トレイ、カレンダー、タスクから情報を統合し、最も重要な事項を特定してパーソナライズされた要約を提供します。単なるデータの要約にとどまらず、優先順位付けや整理を行い、次のアクションを提案するため、ユーザーはすぐに行動を起こすことができます。すべてが、素早く読み飛ばせるように設計された、非常に簡潔な朝の要約にまとめられています。
- Google Flow は本日、すべてのユーザー向けに新しいエージェントの展開を開始します。このエージェントは、Gemini モデル(Google の大規模言語モデル)を基盤としており、複雑なタスクにおいて入力に基づいて計画を立てたり推論を行ったりすることができ、常にユーザーのコントロール下に置かれます。プロジェクトへの深い理解と専門知識を持ち込み、初期のブレインストーミングや作成、編集をサポートします。また、Flow 内で直接、動画エフェクト用のツールや手書きアニメーション用ツール、テキストのレイヤー処理用ツールなど、あらゆるクリエイティブなツールを「バイブコーディング(直感的にコードを書くこと)」することも可能です。
Google Flow および Google Flow Music のアップデート
関連記事:Google Flow と Google Flow Music 向けに、新しいエージェント、モバイルアプリ、Gemini Omni を発表
Elias Roman 著
2026 年 5 月 19 日 | 17:45 公開
Google Labs で発表した最新のアップデートでは、Google Flow および Google Flow Music の機能が大幅に強化されました。新しいエージェントが追加され、モバイルアプリでの利用が可能となり、Gemini Omni(※注:原文の固有名詞として保持)による統合が進んでいます。
これらの新機能により、ユーザーはより直感的に AI エージェントを操作できるようになり、創造的なワークフローがさらにスムーズになります。特に Google Flow Music では、音楽制作における AI の活用範囲が拡大し、作曲や編曲のプロセスをサポートする新たなツールが登場しました。
詳細については、以下のリンクからご確認ください:https://blog.google/innovation-and-ai/models-and-research/google-labs/flow-updates/
※本記事は Google Labs の公式ブログより翻訳されたものです。固有名詞および技術用語は原文の意図を損なわないよう注意して訳出しています。
(注:入力テキスト末尾の JSON データ部分は、実際のコンテンツとして解釈されず、関連記事のメタデータを示す構文の一部とみなし、本文の論理的流れに含めずに翻訳対象から除外しました。また、原文に含まれる HTML タグやコードブロックはすべて除去し、自然な日本語の文章構成のみを出力しています。)
原文を表示
May 19, 2026
19 min read
Here’s how we’re helping you get more done with Gemini.

In this story
- AI and product momentum
- Conversational AI
- Infrastructure and innovation
- Gemini models
- Agents
- More from our agentic Gemini era
Your browser does not support the audio element.
Listen to article
This content is generated by Google AI. Generative AI is experimental
[[duration]] minutes
*Editor’s note: Below is an edited transcript of Google CEO Sundar Pichai’s remarks at Google I/O 2026, adapted to include more of what was announced on stage. See all the announcements in our* collection*.*
It’s been an extraordinary year since our last I/O, a period of relentless shipping, technology advances and hyper progress. We’re now in the part of the AI cycle where people want to see the value in the products they use every day. We’ve been really focused on that, and you’ll see that in the products and features we’re announcing today at I/O.
Ten years since we pivoted the company to be AI-first, we still see AI as the most profound way to advance our mission and improve people’s lives at scale. That’s why we’ve been taking a differentiated, full-stack approach to AI innovation, from our custom silicon and secure foundation, to our world-class research and models, to our products and platforms that touch billions of people. This approach enables us to iterate and innovate faster in ways that are lighting up every part of the company.
What’s incredible is how people are using AI, whether it’s students prepping for final exams with the Gemini app, musicians and artists using generative AI models like Lyria and Veo as part of their creative flow, or developers coding and bringing their ideas to life.
AI momentum across the full stack
These stories of how people are using AI are the best measure of progress. To understand the scale at which people are adopting AI, there is another great proxy — tokens, the fundamental units of data our models process, many representing a problem being solved.
Two years ago, we were processing 9.7 trillion tokens a month across our surfaces — a huge number. Last year at I/O, that grew to roughly 480 trillion tokens. Fast forward to today, that number jumped 7x to over 3.2 quadrillion per month.
It tells an important story about our products and how others are building as well — especially developers and enterprises:
- Over 8.5 million developers are now building new apps and experiences with our models monthly.
- Our model APIs are now processing roughly 19 billion tokens per minute.
- Over the past 12 months, over 375 Google Cloud customers each processed more than one trillion tokens, representing incredible demand for AI from across industries.
Momentum with our products
Today we have 13 products with over a billion users each. Five of those have more than 3 billion users.
Our Gemini models are a big reason more people are using our products, and why they're using our products more.
It all starts with Search, which is bringing the benefits of generative AI to more people than any other product in the world. AI Overviews now has over 2.5 billion monthly active users. And AI Mode has been a revelation, our biggest upgrade to Search ever. People love it, and in just a year, it’s already surpassed 1 billion monthly active users.
When people use our AI-powered features in Search, they use Search more. Search has become less about individual queries and feels more like an ongoing conversation, giving you deeper insights and connecting you with the vastness of the web.
Another place where we’ve been rapidly innovating is in the Gemini app. Last year at I/O, the Gemini app had 400 million monthly active users. Today, we’ve surpassed 900 million, more than doubling in a year. In that same time, daily requests have grown over seven times.
We’ve been adding a lot of unique features like Personal Intelligence, which make responses more customized and helpful. And to date more than 50 billion images have been generated with our Nano Banana image generation models. It was a breakout star this past year, showing how much latent creativity there is in the world.
Natural, conversational AI in products
There’s also a lot of latent productivity to be unlocked. Over the last year, we’ve been bringing the ability to have more natural conversations with Gemini directly inside our products. Recently, Maps got its biggest upgrade in a decade, including a new feature called Ask Maps. People are using Ask Maps for more complex, and much longer questions.
Now we’re bringing more natural conversational AI to more products.
Ask YouTube
People come to YouTube everyday to ask a lot of questions. There’s a lot of great videos, but sometimes it’s hard to know where to start.
Ask YouTube entirely reimagines the experience, making information much more digestible and easy to navigate. You’ll see videos that best match your interest, and most importantly, it jumps right to the part of the video most relevant to you.
We’re starting to test Ask YouTube now, and it will roll out broadly in the U.S. this summer.
Voice-powered Docs Live
There are a lot of times I want to get things done at the speed of my voice. That is much more possible today thanks to technical leaps in our audio models.
A new feature called Docs Live takes this to another level. To create a doc with Gemini before, you had to type out a precise prompt. With Docs Live, you can just verbally “brain dump” whatever is on your mind, and let Gemini do the rest. Here’s a demo in real-time:
In the future, you’ll be able to create new docs *and* edit them directly, all with your voice. Docs Live is rolling out for subscribers this summer, and powerful voice capabilities will come to Gmail and Keep then too.
Infrastructure supporting innovation at scale
It’s incredible to see the pace of innovation rolling out across our products. Supporting all of this scale for our users, while also serving enterprises and developers around the world, requires massive investments in infrastructure. We’ve been investing for now and for the future. In 2022, we were spending $31 billion annually in capex. This year, we expect that number to be about six times that, approximately $180 to $190 billion. A key part of this investment is our custom silicon.
A decade ago, we announced our very first commercial tensor processing unit, or TPU, on the I/O stage. Since then, we have transformed how the industry builds for AI. We recently announced our 8th generation of TPUs at Cloud Next. For the first time, we’ve taken a dual chip approach with specialized architectures for training and inference: TPU 8t and 8i.
- TPU 8t is optimized for large-scale pretraining, and it’s nearly three times the raw computing power of our previous generation. We’ve taken a fundamentally different approach with our training infrastructure. With JAX and Pathways, our training is no longer constrained by the limits of a single, massive data center. Instead, we can now seamlessly distribute training across multiple sites, scaling training across more than 1 million TPUs globally. This gives us the ability to create the largest training cluster in the world. For model builders, this means training larger, more capable models in weeks rather than months.
- TPU 8i is designed for inference. We have dramatically improved speed at every step. Because if we learned anything in 27 years of working on Search, it's that latency matters.
In addition to speed, we’re also thinking about scaling sustainably. Both chips are more energy efficient, delivering up to two times better performance-per-watt.
Gemini Omni
This progress with TPUs is how we can make compute advances across models, coding and agents. With world models, AI is moving from predicting text to simulating reality. We have been working to push the boundaries of what these models can do.
Gemini Omni is our new model that is capable of generating samples in any output modality from any input. We’re starting with video outputs, and over time we’ll enable image and text. This new model combines Gemini’s intelligence with our generative media models — a huge leap forward in world understanding. We’re launching the first model in the Omni family: Gemini Omni Flash.
Gemini Omni Flash is available starting today. You will be able to try it on the Gemini app, Google Flow and on YouTube Shorts. We'll also be rolling it out to developers and enterprise customers via APIs in the coming weeks.
New SynthID updates and partners
As generative AI gets better, so does the need for greater transparency. Research shows people can correctly identify high-quality deepfake videos only about a quarter of the time. Three years ago, we launched SynthID, our watermark that is invisible to the naked eye. Since launch, SynthID has now watermarked over one hundred billion images and videos, along with sixty thousand years of audio assets.
Millions of people are using our SynthID detector in the Gemini app to verify AI-generated content. And now we’re going a step further and adding Content Credentials verification across products. This will show you if the origin of the content was AI or a camera, and if it’s been edited with generative AI tools. We want more people to have easy access to these tools, so we’re expanding both Content Credentials and SynthID verification to Search and Chrome.
Of course, this only works at scale if more partners decide to watermark their own AI-generated content. Nvidia signed on to SynthID last year. And today, we are thrilled to announce that OpenAI, Kakao and Eleven Labs are adopting SynthID, too. It’s great to see the cross-industry collaboration. We’re looking forward to expanding to more partners and setting the standard of transparency for the AI era.
Gemini 3.5 Flash
Gemini 3 launched a few months ago, with a full family of models. It’s our most adopted series yet. We've loved seeing developers use Flash as their daily driver, and build incredible experiences with Pro's deep reasoning and multimodal capabilities. We’ve been hard at work on improving these models, especially focused on agentic coding, long-horizon tasks and real-world workflows.
Today, we’re introducing Gemini 3.5 Flash, our first in a series of models combining frontier intelligence with action. Two things I’d highlight:
- When compared to 3.1 Pro, 3.5 Flash is better across almost all benchmarks. It’s made huge progress in coding — and look at the extraordinary jump in GDPVal. This captures many real-world economically valuable tasks.
- Gemini 3.5 Flash is a very capable model, at the frontier and comparable to the best models, but it’s still very fast. Which is why when you look at the intelligence versus output speed, it’s in a league of its own in the top right quadrant. When looking at output tokens per second, it is four times faster than other frontier models.
The new model has been a game changer for us internally at Google. We’ve been using 3.5 Flash with a reimagined version of our agent-first development platform Antigravity, and it’s dramatically accelerated how we build. In March we were processing half a trillion tokens a day internally across our AI developer tools, and we’ve been doubling every few weeks. Now, we’re processing more than three trillion tokens a day. This scale created a powerful feedback loop helping us improve 3.5.
What’s amazing about Flash is how it delivers frontier-level capabilities at less than half the price of comparable frontier models. We’ve heard that many companies are already blowing through their annual token budgets, and it’s only May. If companies used a mix of Flash and other frontier models they could save a lot of money. To put this in perspective, top companies are processing about 1 trillion tokens a day. If they shifted 80% of their workloads from other frontier models to 3.5 Flash, they’d save over $1 billion dollars annually. That is real savings they can pour back into their company.
Gemini 3.5 Flash is available for everyone today across our products and APIs. We’re also excited for Gemini 3.5 Pro. We are using it internally, it’s showing great improvements, and it will be coming next month.
Antigravity 2.0
We’re also bringing 3.5 Flash to developers in Antigravity.
Antigravity is expanding beyond the coding environment, turning it into a platform to develop and manage cohorts of autonomous AI agents. This includes Antigravity 2.0, a new standalone desktop application that acts as a central home for agent interaction, where anyone can orchestrate agents for all sorts of tasks. And we developed an even more optimized version of Flash: not just 4x but 12x faster than other frontier models.
Users in Antigravity can get a taste of this experience starting today. Read more about Antigravity 2.0 here.
Gemini Spark is your 24/7 agent
Gemini 3.5 and Antigravity are unlocking a new world of agents and agentic capabilities. We’ve been bringing agents to developers and enterprises for a while. Now we are super focused on bringing the power of agents, safely and securely, to consumers so that it works for everyone. You’ll see agentic experiences across many of our products today.
I’m particularly excited for Gemini Spark, your personal AI agent in Gemini app that helps you navigate your digital life, taking action on your behalf and under your direction.
- It runs on dedicated virtual machines on Google Cloud. And it’s 24/7 so you don’t need to keep your laptop open.
- It’s powered by Gemini 3.5 and the Google Antigravity harness, which allows it to perform long-horizon tasks easily in the background.
- Spark will integrate seamlessly with tools, starting with our own, and in the coming weeks with third-party tools through MCP.
- And you can work with Spark however is most convenient: in the Gemini app or soon, through email and chat.
- On Android, you will be able to view live updates and task progress of agents like Spark through a new UI space called Android Halo, coming later this year. Later this summer, Spark will operate directly within Chrome, acting as your agentic browser across the web.
We’re starting to roll out Gemini Spark to trusted testers this week and the Beta is coming to Google AI Ultra subscribers in the U.S. next week.
Search in the agentic era
Gemini Spark is the first experience made possible by 3.5 models and Antigravity. This combination gives us new ways to accelerate our mission and transform our products to be radically more helpful.
As we enter this agentic era, Search will be more helpful and powerful than ever. Today, we’re introducing information agents in Search. These are personalized AI agents you can set up to work in the background, 24/7, to find what you need at exactly the right moment, and help you take action. Information agents are rolling out this summer starting with Google AI Pro and Ultra subscribers.
Another way we’re building a truly agentic Search is by infusing it with agentic coding capabilities. With the power of Gemini 3.5 Flash and Google Antigravity, Search will build custom experiences just for your individual questions, like dynamic layouts and interactive visuals. These generative UI capabilities will be available for everyone in Search this summer, free of charge.
And for longer running tasks that you need to keep coming back to, Search can go a step further — building persistent, custom dashboards or trackers that you can return to and make progress on. You can think of these like mini apps for your own specific tasks. You’ll be able to build custom experiences with Antigravity, right in Search in the coming months, starting first for Google AI Pro and Ultra subscribers in the U.S.
More from our agentic Gemini era
Here’s a look what else we shared at I/O:
- Daily Brief is another out-of-the-box agent coming to the Gemini app. It gives you a personalized digest and synthesizes information from your inbox, calendar and tasks to find the most important things to be aware of. And it’s not just summarizing data: it’s prioritizing, organizing and suggesting the next steps, so it’s easy for you to take action. All in this super concise morning digest that’s built for skimming.
- Google Flow is rolling out a new agent today to everyone that can plan and reason through complex tasks with your inputs, under your control. Built with Gemini models, it brings expertise and a deep understanding of your project to help with early brainstorming, creating and editing. You can also vibe code any creative tool, right in Flow — like tools for designing video effects, hand-drawn animations or layering text.
<uni-related-content-tout title="Updates for Google Flow and Google Flow music" cta="See more" summary="Check out new agents, apps and Gemini Omni." hideimage="False" eyebrow="Related Article" image-alt-text="" role="none" fullurl="https://blog.google/innovation-and-ai/models-and-research/google-labs/flow-updates/" pagetype="articlepage" isarticlepage="" data-ga4-related-article="{
"event": "article_lead_click",
"link_text": "New agents, mobile apps and Gemini Omni for Google Flow and Google Flow Music",
"link_type": "internal",
"full_url": "https://blog.google/innovation-and-ai/models-and-research/google-labs/flow-updates/",
"title": "New agents, mobile apps and Gemini Omni for Google Flow and Google Flow Music",
"author" : "Elias Roman",
"slug": "flow-updates",
"position": "1 of 1",
"click_location": "undefined",
"primary_tag": "Products - Google Labs",
"secondary_tags": "undefined",
"published_date": "2026-05-19|17:45",
"hero_media_type": "video",
"days_since_published": "0",
"content_category": "Announcement",
"word_coun
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み