I/O 2026:エージェント型ジェミニの時代へようこそ
Google は I/O 2026 で、生成 AI を超えた自律的な「エージェント」時代へ移行する Gemini の新機能を発表し、ユーザーの代わりになる実務実行能力を強化した。
キーポイント
Agentic Gemini の本格導入
単なる対話型 AI から、複雑なタスクを自律的に計画・実行する「エージェント」へと Gemini が進化し、ユーザーの生産性を飛躍的に高めることを宣言した。
製品統合と実用性の向上
Gemini エージェントが Google 製品群やサードパーティ製アプリと深く連携し、検索から実行までを一貫して支援するエコシステムを構築した。
インフラストラクチャの革新
大規模なエージェント処理を支えるための基盤技術とモデル性能の向上を発表し、複雑な推論タスクへの対応力を強化した。
AI モデル処理量の急増
月間処理トークン数が前年の約480兆から7倍増加し、3.2京(quadrillion)を超えた。
フルスタック型アプローチの継続
カスタムシリコンから研究、モデル、製品まで一貫した戦略により、開発スピードと革新性が加速している。
開発者エコシステムの拡大
月間850万人以上の開発者がGeminiモデルを用いて新アプリや体験の構築を行っており、APIは毎分約190億トークンを処理しています。
企業顧客によるAI需要の高まり
過去12ヶ月間で375社以上のGoogle Cloud顧客がそれぞれ1兆トークン以上を処理し、業界全体でAIへの圧倒的な需要を示しています。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の利用価値が「情報の生成」から「タスクの完遂」へとシフトする転換点を示しており、企業や個人のワークフローにおける AI の役割を根本的に再定義するものです。Google が自社の製品エコシステム全体でエージェント機能を統合することで、競合他社との差別化を図りつつ、AI 市場の標準を「自律型アシスタント」へと引き上げる意図が読み取れます。
編集コメント
2026 年という未来の時点での発表と設定されていますが、現在の AI 業界が「エージェント化」へ向かっている潮流を先取りした重要なマイルストーンです。単なる機能追加ではなく、AI の定義そのものを変える宣言として捉えるべきでしょう。
2026 年 5 月 19 日
約 19 分間の読了時間
Gemini を活用して、より多くの成果を上げるための取り組みをご紹介します。

このストーリーでは
- AI と製品の勢い
- 対話型 AI
- インフラとイノベーション
- Gemini モデル
- エージェント(自律型 AI)
- エージェント型 Gemini の時代に関するその他の情報
編集者の注記:以下は、Google CEO サンドゥール・ピチャイ氏の Google I/O 2026 における基調講演の抜粋を編集したものです。ステージ上で発表された内容をより多く盛り込むように改訂されています。すべての発表事項については、コレクションをご覧ください。
*Editor's note: Below is an edited transcript of Google CEO Sundar Pichai's remarks at Google I/O 2026, adapted to include more of what was announced on stage. See all the announcements in our collection.*
前回の I/O から今年もまた特別な一年となりました。この期間、私たちは絶え間ない製品出荷、技術の進歩、そして劇的な成長を遂げてきました。現在、私たちは AI サイクルの中で、人々が毎日使用する製品に価値を見出したいと願う段階にあります。私たちはまさにその点に注力しており、本日 I/O で発表する製品や機能において、その取り組みが現れるでしょう。
会社を AI ファーストへと転換してから 10 年が経ちましたが、依然として AI は、私たちのミッションを推進し、大規模な人々の生活を改善するための最も本質的な手段であると捉えています。そのため、私たちは独自に開発した半導体や安全な基盤から、世界クラスの研究・モデル、そして数十億人の生活に触れる製品やプラットフォームに至るまで、AI 革新に対して差別化されたフルスタックのアプローチを採用してきました。このアプローチにより、会社全体のあらゆる分野が活性化する形で、より迅速な反復とイノベーションが可能になっています。
人々が AI をどのように活用しているかには驚くべきものがあります。例えば、Gemini アプリで最終試験の準備をする学生たちや、Lyria や Veo といった生成 AI モデルをクリエイティブなワークフローの一部として活用するミュージシャンやアーティスト、そしてアイデアを実現するためにコーディングを行う開発者たちの姿です。
フルスタック全体における AI の勢い
人々が AI をどのように活用しているかというこれらの物語こそが、進歩を測る最良の指標です。人々がどの規模で AI を採用しているかを理解するためには、もう一つの優れた代理指標があります。それは「トークン」です。トークンはモデルが処理するデータの基本的な単位であり、多くの場合、解決すべき課題を表しています。
2 年前、私たちは各プラットフォーム全体で月間 9.7 兆トクンの処理を行っていました。これは膨大な数です。昨年の I/O では、その数は約 480 兆トークンに成長しました。そして今日に至るまで、この数字は 7 倍に跳ね上がり、月間で 3.2 京(10^16)を超えています。
これは、私たちの製品や他者がどのように構築しているかについて、特に開発者や企業にとって重要な物語を語っています:
- 現在、850 万人以上の開発者が、当社のモデルを用いて月間に新しいアプリや体験を開発しています。
- 当社のモデル API は、現在、1 分あたり約 190 億トクンを処理しています。
- 過去 12 ヶ月間で、375 社を超える Google Cloud の顧客がそれぞれ 1 兆トークン以上を処理しており、これは業界全体からの AI に対する信じられないほどの需要を示しています。
製品における勢い
現在、私たちは各製品に 10 億人以上のユーザーを持つ 13 個の製品を持っています。そのうち 5 つは 30 億人を超えるユーザーを擁しています。
Gemini モデルが、より多くの人々が私たちの製品を利用し、より頻繁に利用するようになった大きな理由の一つです。
すべては Search から始まります。これは、生成 AI の恩恵を世界中のどの製品よりも多くの人に届けています。AI オーバービュー(注:AI による要約表示)には現在、月間アクティブユーザーが 25 億人以上います。また、AI モードは驚くべき成果をもたらしており、検索機能における過去最大のアップグレードです。人々はこれを愛しており、わずか 1 年足らずで、すでに月間アクティブユーザー数 10 億人を突破しています。
人々が検索で AI 搭載機能を利用すると、検索の利用頻度が高まります。検索は個々のクエリよりも、継続的な会話のようなものとなり、より深い洞察を提供し、ウェブの広大さとあなたをつなぐものとなっています。
私たちが急速にイノベーションを推進しているもう一つの場所は Gemini アプリ です。昨年の I/O で Gemini アプリは月間アクティブユーザー 4 億人を記録しました。今日では 9 億人を超え、1 年間で倍以上に増加しています。同じ期間に、日次リクエスト数は 7 倍以上に成長しました。
私たちは パーソナルインテリジェンス など、多くの独自機能を追加し、回答をよりカスタマイズされ、役立つものにしてきました。これまでに、Nano Banana 画像生成モデルで生成された画像は 500 億枚を超えています。これは昨年の大ヒット作であり、世界に潜む潜在的な創造性がどれほど多いかを示すものでした。
Natural, conversational AI in products
製品の中で、自然な対話型 AI を活用することで、潜在的な生産性をさらに引き出す余地が多数あります。過去 1 年間、私たちは Gemini とより自然に会話できる機能を直接製品内に実装してきました。最近では、Maps が 10 年ぶりに最大のアップグレードを受け、Gemini を活用して地図上のあらゆる場所について何でも質問できる新機能「Ask Maps」Ask Maps が追加されました。ユーザーは Ask Maps を使って、より複雑で非常に長い質問を行うケースが増えています。
今般、私たちはさらに自然な対話型 AI を他の製品にも展開していきます。
Ask YouTube
人々は毎日、YouTube で多くの質問を投げかけています。素晴らしい動画が多数ありますが、どこから手をつけていいか分からない場合もあります。
Ask YouTube はこの体験を完全に再設計し、情報をより理解しやすく、ナビゲーションもしやすくしました。あなたの興味に最も合致する動画が表示され、何よりも重要なのは、動画の中であなたにとって最も関連性の高い部分へ即座にジャンプすることです。
Ask YouTube のテストを現在開始しており、今夏には米国で広く展開される予定です。
Voice-powered Docs Live
音声のスピードでタスクを完了させたいという場面は数多くあります。音声モデルにおける技術的な飛躍のおかげで、今日ではそれがより現実的になっています。
「Docs Live」という新機能は、これをさらに次のレベルへと引き上げます。以前は Gemini でドキュメントを作成するには、正確なプロンプトを入力する必要がありました。しかし Docs Live を使えば、頭に浮かんだことを口頭で「ブレインダンプ」するだけで、残りの作業を Gemini が代行してくれます。以下にリアルタイムのデモを示します:
将来は、音声だけで新しいドキュメントを作成したり、直接編集したりできるようになります。Docs Live は今夏からサブスクライバー向けに展開され、その際には Gmail や Keep でも強力な音声機能が利用可能になります。
スケールするイノベーションを支えるインフラ
製品全体で進む革新のスピードには驚くべきものがあります。世界中のユーザーや企業、開発者に対してこのスケールに対応し、サービスを提供するためには、インフラへの巨額の投資が必要です。私たちは現在と未来のために継続的に投資を行ってきました。2022 年には年間 310 億ドルを設備投資(capex)に費やしていましたが、今年はその約 6 倍にあたる 1,800 億〜1900 億ドルを見込んでいます。この投資の重要な一部が、自社開発の半導体(custom silicon)です。
10 年前、私たちは I/O のステージ上で、最初の商用テンソル処理ユニット(TPU)を発表しました。以来、業界が AI を構築する方法を変革してきました。最近、Cloud Next で TPUs の第 8 世代を発表しました。初めて、トレーニングと推論にそれぞれ特化したアーキテクチャを持つデュアルチップアプローチを採用し、TPU 8t と TPU 8i を導入しました。
- TPU 8t は大規模事前学習向けに最適化されており、前世代と比較して純粋な計算能力が約3倍になっています。トレーニングインフラストラクチャについては根本的に異なるアプローチを採用しました。JAX と Pathways を用いることで、トレーニングはもはや単一の巨大データセンターの制約に縛られることはありません。代わりに、複数のサイト間でトレーニングをシームレスに分散させ、世界中で 100 万基を超える TPU でトレーニングをスケールさせることが可能になりました。これにより、世界最大規模のトレーニングクラスターを構築する能力が得られます。モデルビルダーにとっては、数ヶ月かかっていたものを数週間でより大規模で高性能なモデルをトレーニングできるようになります。
- TPU 8i は推論向けに設計されています。あらゆるステップにおいて速度を劇的に向上させました。なぜなら、検索に取り組んで 27 年間にわたって学んだことは、レイテンシが重要だということだからです。
速度に加え、持続可能なスケールについても考慮しています。両方のチップはエネルギー効率が向上しており、ワットあたりのパフォーマンスが最大で 2 倍改善されています。
Gemini Omni
この TPU の進展こそが、モデル、コーディング、エージェント全体にわたる計算能力の向上を実現する道です。世界モデルにおいて、AI はテキストを予測することから現実をシミュレートすることに移行しています。私たちはこれらのモデルが何ができるかの限界を広げるために取り組んできました。
Gemini Omni は、あらゆる入力からあらゆる出力モダリティのサンプルを生成できる新しいモデルです。まずは動画出力から始め、時間とともに画像やテキストも可能にしていきます。この新モデルは Gemini の知能と当社の生成メディアモデルを組み合わせたもので、世界理解における大きな飛躍となります。Omni ファミリーの最初のモデルとして、Gemini Omni Flash を発表します。
Gemini Omni Flash は本日より利用可能です。Gemini アプリ、Google Flow、YouTube Shorts で試すことができます。また、今後数週間で API を通じて開発者や企業顧客にも展開していきます。
SynthID の新アップデートとパートナーシップの拡大
生成 AI が向上するにつれ、透明性の必要性も高まっています。研究によると、人々が高品質なディープフェイク動画を正しく識別できるのは約四分の一のケースのみです。3 年前に私たちは、肉眼では見えないウォーターマークである SynthID を発表しました。発売以来、SynthID はすでに 1,000 億枚以上の画像・動画と、6 万年分のオーディオ資産にウォーターマークを付与しています。
数百万人が、Gemini アプリ内の SynthID デテクターを使用して、AI 生成コンテンツの検証を行っています。そして今、私たちはさらに一歩を進め、製品全体で Content Credentials 検証 を追加します。これにより、コンテンツの起源が AI かカメラか、また生成 AI ツールを用いて編集されたかどうかを確認できます。これらのツールをより多くの人々が簡単に利用できるようにするため、Content Credentials と SynthID 検証を Search および Chrome にも拡大していきます。
もちろん、これが大規模に機能するには、より多くのパートナー企業が自社の AI 生成コンテンツに透かし(ウォーターマーク)を入れる必要があります。Nvidia は昨年 SynthID に参加しました。そして本日、OpenAI、Kakao、Eleven Labs も SynthID の採用を発表できることを大変嬉しく思います。業界を超えた協力が進んでいるのは素晴らしいことです。私たちはさらに多くのパートナー企業との連携を拡大し、AI エラにおける透明性の基準を設定していくことを楽しみにしています。
Gemini 3.5 Flash
Gemini 3 は数ヶ月前に、フルモデルファミリーと共に登場しました。これはこれまでで最も採用が進んだシリーズです。開発者が Flash を日常の駆動用として使い、Pro の深い推論能力とマルチモーダル機能を用いて素晴らしい体験を構築している姿を見るのは大変嬉しく思っています。私たちはこれらのモデルの改善に全力で取り組んでおり、特にエージェント型コーディング、長期ホライズンのタスク、そして現実世界のワークフローに焦点を当てています。
本日、私たちは Gemini 3.5 Flash を発表します。これは、最先端の知能とアクションを組み合わせるモデルシリーズの第一弾です。特に強調したい点は二つあります。
- 3.1 Pro と比較すると、3.5 Flash はほぼすべてのベンチマークで優れています。コーディングにおける飛躍的な進歩が見られ、GDPVal(経済的価値のある実世界タスクを多く捉える指標)の驚異的な向上も注目すべき点です。
- Gemini 3.5 Flash は非常に能力が高く、最先端であり最良のモデルと同等ですが、それでも極めて高速です。そのため、知能と出力速度を比較した際、右上の象限において他とは一線を画ぶ存在となっています。1 秒あたりの出力トークン数で見ると、他の最先端モデルよりも 4 倍も速いです。
新しいモデルは、Google 社内においてゲームチェンジャーとなりました。私たちは、エージェントファーストの開発プラットフォーム「Antigravity」の再設計版と組み合わせて 3.5 Flash を活用しており、開発プロセスが劇的に加速しました。3 月には、AI 開発ツール内で一日に半兆トークンを処理していましたが、数週間ごとにその量が倍増しています。現在では、一日に 3 兆トークン以上を処理しています。この規模により、3.5 の改善を助ける強力なフィードバックループが生まれました。
Flash の素晴らしい点は、同等の最先端モデルと比較して半額以下の価格で、最先端レベルの能力を提供することです。すでに多くの企業が年間トークン予算を 5 月という早い段階で使い果たしているとの声を聞いています。もし企業が Flash と他の最先端モデルを組み合わせて使用すれば、莫大な費用を節約できます。この状況を把握するために、主要企業は現在、1 日あたり約 1 兆個のトークンを処理しています。もしこれらの企業のワークロードの 80% を他の最先端モデルから 3.5 Flash に移行した場合、年間 10 億ドル以上の節約が可能になります。これは企業が自社の成長に再投資できる本当の節約額です。
Gemini 3.5 Flash は本日、当社の製品および API のすべてで誰でも利用可能になりました。また、Gemini 3.5 Pro にも大きな期待を抱いています。社内でも使用しており、素晴らしい改善が見られ、来月には提供開始されます。
Antigravity 2.0
私たちは、Antigravity を通じて開発者にも 3.5 Flash を提供します。
Antigravity はコーディング環境を超えて拡張し、自律型 AI エージェントの群れを開発・管理するためのプラットフォームへと進化しました。これには、エージェントの相互作用のための中央集権的な拠点として機能する新しいスタンドアロンデスクトップアプリケーションである Antigravity 2.0 も含まれており、誰でもあらゆるタスクのためにエージェントをオーケストレーションできます。さらに、私たちは Flash のより最適化されたバージョンを開発しました。他の最先端モデルと比較して 4 倍ではなく、なんと 12 倍も高速です。
ユーザーは、今日から Antigravity でこの体験を味わうことができます。Antigravity 2.0 に関する詳細はこちら をご覧ください。
Gemini Spark はあなたの 24 時間 365 日のエージェントです
Gemini 3.5 と Antigravity が、エージェントおよびエージェント機能の新たな世界を開きます。私たちはこれまで、開発者や企業向けにエージェントを提供してきました。今こそ、誰もが安全かつ確実に活用できるよう、消費者に対してエージェントの力を集中して提供することに注力しています。今日から、多くの製品でエージェントによる体験をご覧いただけます。
特に私が楽しみにしているのは、Gemini Spark です。これは Gemini アプリ内のあなたの個人用 AI エージェントであり、デジタルライフのナビゲーションをサポートし、あなたの指示のもとであなたに代わって行動します。
- Google Cloud の専用仮想マシン上で動作し、24 時間年中無休で稼働するため、ラップトップを開きっぱなしにする必要はありません。
- Gemini 3.5 と Google Antigravity ハーネスによって駆動されており、これによりバックグラウンドで長期にわたるタスクを容易に実行できます。
- Spark は、まず自社製ツールとシームレスに統合され、今後数週間で MCP を通じてサードパーティ製ツールとも連携します。
- また、Gemini アプリ内や、間もなくメール・チャットを通じてなど、最も便利な方法で Spark と作業を進めることができます。
- Android では、今年後半に登場する「Android Halo」と呼ばれる新しい UI スペースを通じて、Spark などのエージェントのライブ更新状況とタスク進行状況を閲覧できるようになります。今夏には、Spark が Chrome の内部で直接動作し、ウェブ全体を横断するエージェント型ブラウザとして機能します。
- Gemini Spark は今週から信頼できるテスター向けに展開を開始しており、ベータ版は来週より米国の Google AI Ultra 契約者に提供されます。
エージェント時代の検索
Gemini Spark は、3.5 モデルと Antigravity がもたらす初の体験です。この組み合わせにより、ミッション達成を加速し、製品を根本的により役立つものへと変革するための新たな道が開かれました。
このエージェント時代を迎えるにあたり、検索はこれまで以上に有益かつ強力なものとなります。本日、私たちは検索に「情報エージェント」を導入します。これは、必要な情報をちょうどよいタイミングで見つけ出し、行動を支援するために、24 時間 365 日バックグラウンドで動作するように設定できるパーソナライズされた AI エージェントです。情報エージェントは今年夏から展開を開始し、まずは Google AI Pro および Ultra のサブスクライバー向けに提供されます。
真のエージェント型検索を構築するもう一つの手段として、検索に「エージェント型コーディング機能」を組み込むことです。Gemini 3.5 Flash と Google Antigravity の力を活用することで、検索は動的なレイアウトやインタラクティブなビジュアルなど、個々の質問に特化したカスタム体験を構築します。これらの生成 UI 機能は、今年夏から誰でも無料で検索で利用可能になります。
また、継続的にアクセスが必要な長時間タスクについては、検索はさらに一歩進み、戻りながら進捗を確認できる永続的なカスタムダッシュボードやトラッカーを構築します。これらは、特定のタスク専用のミニアプリと考えることができます。今後数ヶ月のうちに、米国ではまず Google AI Pro および Ultra のサブスクライバー向けに、検索内で Antigravity を活用してカスタム体験を構築できるようになります。
エージェント型 Gemini 時代からのさらなる情報
I/O で発表したその他の内容をご紹介します:
- Daily Brief は、Gemini アプリに登場するもう一つの画期的なエージェントです。受信トレイ、カレンダー、タスクから情報を統合・要約し、あなたが最も意識すべき重要な事項をパーソナライズされたダイジェストとして提供します。単なるデータの要約にとどまらず、優先順位付けや整理、次のアクションの提案も行い、すぐに行動に移せるようにサポートします。すべてがスクリーニング用に最適化された、非常に簡潔な朝のダイジェストにまとめられています。
- Google Flow は本日、すべてのユーザー向けに新しいエージェントをロールアウトしました。このエージェントは Gemini モデル(Gemini models)を搭載し、複雑なタスクをあなたの入力に基づいて計画・推論することができ、常にあなたのコントロール下に置かれます。プロジェクトへの深い理解と専門知識を持ち寄り、初期のブレインストーミング、作成、編集をサポートします。また、Flow 内で直接、動画エフェクト用のツールや手書きアニメーション、テキストのレイヤー処理など、あらゆるクリエイティブなツールを「バイブコーディング(vibe coding)」することも可能です。
Google Pics は、最新の Nano Banana モデル(Nano Banana model)を基盤とした新しい AI 画像作成・編集ツールです。あなたが望むクリエイティブなコントロールを駆使して、ほぼあらゆるものを創造できます。空白のキャンバスからデザインを作成する場合も、既存の写真を変更する場合も、Google Pics は各要素を単なる平面的で静的な画像ではなく、個別のオブジェクトとして扱います。これにより、特定のディテールを新規作成、差し替え、または完璧に仕上げることも可能になり、あなたの正確なビジョンを現実のものに変えることができます。Google Pics は現在、信頼されたテスター向けに利用可能です。
原文を表示
May 19, 2026
19 min read
Here’s how we’re helping you get more done with Gemini.

In this story
- AI and product momentum
- Conversational AI
- Infrastructure and innovation
- Gemini models
- Agents
- More from our agentic Gemini era
*Editor’s note: Below is an edited transcript of Google CEO Sundar Pichai’s remarks at Google I/O 2026, adapted to include more of what was announced on stage. See all the announcements in our* collection*.*
It’s been an extraordinary year since our last I/O, a period of relentless shipping, technology advances and hyper progress. We’re now in the part of the AI cycle where people want to see the value in the products they use every day. We’ve been really focused on that, and you’ll see that in the products and features we’re announcing today at I/O.
Ten years since we pivoted the company to be AI-first, we still see AI as the most profound way to advance our mission and improve people’s lives at scale.That’s why we’ve been taking a differentiated, full-stack approach to AI innovation, from our custom silicon and secure foundation, to our world-class research and models, to our products and platforms that touch billions of people. This approach enables us to iterate and innovate faster in ways that are lighting up every part of the company.
What’s incredible is how people are using AI, whether it’s students prepping for final exams with the Gemini app, musicians and artists using generative AI models like Lyria and Veo as part of their creative flow, or developers coding and bringing their ideas to life.
AI momentum across the full stack
These stories of how people are using AI are the best measure of progress. To understand the scale at which people are adopting AI, there is another great proxy — tokens, the fundamental units of data our models process, many representing a problem being solved.
Two years ago, we were processing 9.7 trillion tokens a month across our surfaces — a huge number. Last year at I/O, that grew to roughly 480 trillion tokens. Fast forward to today, that number jumped 7x to over 3.2 quadrillion per month.
It tells an important story about our products and how others are building as well — especially developers and enterprises:
- Over 8.5 million developers are now building new apps and experiences with our models monthly.
- Our model APIs are now processing roughly 19 billion tokens per minute.
- Over the past 12 months, over 375 Google Cloud customers each processed more than one trillion tokens, representing incredible demand for AI from across industries.
Momentum with our products
Today we have 13 products with over a billion users each. Five of those have more than 3 billion users.
Our Gemini models are a big reason more people are using our products, and why they're using our products more.
It all starts with Search, which is bringing the benefits of generative AI to more people than any other product in the world. AI Overviews now has over 2.5 billion monthly active users. And AI Mode has been a revelation, our biggest upgrade to Search ever. People love it, and in just a year, it’s already surpassed 1 billion monthly active users.
When people use our AI-powered features in Search, they use Search more. Search has become less about individual queries and feels more like an ongoing conversation, giving you deeper insights and connecting you with the vastness of the web.
Another place where we’ve been rapidly innovating is in the Gemini app. Last year at I/O, the Gemini app had 400 million monthly active users. Today, we’ve surpassed 900 million, more than doubling in a year. In that same time, daily requests have grown over seven times.
We’ve been adding a lot of unique features like Personal Intelligence, which make responses more customized and helpful. And to date more than 50 billion images have been generated with our Nano Banana image generation models. It was a breakout star this past year, showing how much latent creativity there is in the world.
Natural, conversational AI in products
There’s also a lot of latent productivity to be unlocked. Over the last year, we’ve been bringing the ability to have more natural conversations with Gemini directly inside our products. Recently, Maps got its biggest upgrade in a decade, including a new feature called Ask Maps. People are using Ask Maps for more complex, and much longer questions.
Now we’re bringing more natural conversational AI to more products.
Ask YouTube
People come to YouTube everyday to ask a lot of questions. There’s a lot of great videos, but sometimes it’s hard to know where to start.
Ask YouTube entirely reimagines the experience, making information much more digestible and easy to navigate. You’ll see videos that best match your interest, and most importantly, it jumps right to the part of the video most relevant to you.
We’re starting to test Ask YouTube now, and it will roll out broadly in the U.S. this summer.
Voice-powered Docs Live
There are a lot of times I want to get things done at the speed of my voice. That is much more possible today thanks to technical leaps in our audio models.
A new feature called Docs Live takes this to another level. To create a doc with Gemini before, you had to type out a precise prompt. With Docs Live, you can just verbally “brain dump” whatever is on your mind, and let Gemini do the rest. Here’s a demo in real-time:
In the future, you’ll be able to create new docs *and* edit them directly, all with your voice. Docs Live is rolling out for subscribers this summer, and powerful voice capabilities will come to Gmail and Keep then too.
Infrastructure supporting innovation at scale
It’s incredible to see the pace of innovation rolling out across our products. Supporting all of this scale for our users, while also serving enterprises and developers around the world, requires massive investments in infrastructure. We’ve been investing for now and for the future. In 2022, we were spending $31 billion annually in capex. This year, we expect that number to be about six times that, approximately $180 to $190 billion. A key part of this investment is our custom silicon.
A decade ago, we announced our very first commercial tensor processing unit, or TPU, on the I/O stage. Since then, we have transformed how the industry builds for AI. We recently announced our 8th generation of TPUs at Cloud Next. For the first time, we’ve taken a dual chip approach with specialized architectures for training and inference: TPU 8t and 8i.
- TPU 8t is optimized for large-scale pretraining, and it’s nearly three times the raw computing power of our previous generation. We’ve taken a fundamentally different approach with our training infrastructure. With JAX and Pathways, our training is no longer constrained by the limits of a single, massive data center. Instead, we can now seamlessly distribute training across multiple sites, scaling training across more than 1 million TPUs globally. This gives us the ability to create the largest training cluster in the world. For model builders, this means training larger, more capable models in weeks rather than months.
- TPU 8i is designed for inference. We have dramatically improved speed at every step. Because if we learned anything in 27 years of working on Search, it's that latency matters.
In addition to speed, we’re also thinking about scaling sustainably. Both chips are more energy efficient, delivering up to two times better performance-per-watt.
Gemini Omni
This progress with TPUs is how we can make compute advances across models, coding and agents. With world models, AI is moving from predicting text to simulating reality. We have been working to push the boundaries of what these models can do.
Gemini Omni is our new model that is capable of generating samples in any output modality from any input. We’re starting with video outputs, and over time we’ll enable image and text. This new model combines Gemini’s intelligence with our generative media models — a huge leap forward in world understanding. We’re launching the first model in the Omni family: Gemini Omni Flash.
Gemini Omni Flash is available starting today. You will be able to try it on the Gemini app, Google Flow and on YouTube Shorts. We'll also be rolling it out to developers and enterprise customers via APIs in the coming weeks.
New SynthID updates and partners
As generative AI gets better, so does the need for greater transparency. Research shows people can correctly identify high-quality deepfake videos only about a quarter of the time. Three years ago, we launched SynthID, our watermark that is invisible to the naked eye. Since launch, SynthID has now watermarked over one hundred billion images and videos, along with sixty thousand years of audio assets.
Millions of people are using our SynthID detector in the Gemini app to verify AI-generated content. And now we’re going a step further and adding Content Credentials verification across products. This will show you if the origin of the content was AI or a camera, and if it’s been edited with generative AI tools. We want more people to have easy access to these tools, so we’re expanding both Content Credentials and SynthID verification to Search and Chrome.
Of course, this only works at scale if more partners decide to watermark their own AI-generated content. Nvidia signed on to SynthID last year. And today, we are thrilled to announce that OpenAI, Kakao and Eleven Labs are adopting SynthID, too. It’s great to see the cross-industry collaboration. We’re looking forward to expanding to more partners and setting the standard of transparency for the AI era.
Gemini 3.5 Flash
Gemini 3 launched a few months ago, with a full family of models. It’s our most adopted series yet. We've loved seeing developers use Flash as their daily driver, and build incredible experiences with Pro's deep reasoning and multimodal capabilities. We’ve been hard at work on improving these models, especially focused on agentic coding, long-horizon tasks and real-world workflows.
Today, we’re introducing Gemini 3.5 Flash, our first in a series of models combining frontier intelligence with action. Two things I’d highlight:
- When compared to 3.1 Pro, 3.5 Flash is better across almost all benchmarks. It’s made huge progress in coding — and look at the extraordinary jump in GDPVal. This captures many real-world economically valuable tasks.
- Gemini 3.5 Flash is a very capable model, at the frontier and comparable to the best models, but it’s still very fast. Which is why when you look at the intelligence versus output speed, it’s in a league of its own in the top right quadrant. When looking at output tokens per second, it is four times faster than other frontier models.
The new model has been a game changer for us internally at Google. We’ve been using 3.5 Flash with a reimagined version of our agent-first development platform Antigravity, and it’s dramatically accelerated how we build. In March we were processing half a trillion tokens a day internally across our AI developer tools, and we’ve been doubling every few weeks. Now, we’re processing more than three trillion tokens a day. This scale created a powerful feedback loop helping us improve 3.5.
What’s amazing about Flash is how it delivers frontier-level capabilities at less than half the price of comparable frontier models. We’ve heard that many companies are already blowing through their annual token budgets, and it’s only May. If companies used a mix of Flash and other frontier models they could save a lot of money. To put this in perspective, top companies are processing about 1 trillion tokens a day. If they shifted 80% of their workloads from other frontier models to 3.5 Flash, they’d save over $1 billion dollars annually. That is real savings they can pour back into their company.
Gemini 3.5 Flash is available for everyone today across our products and APIs. We’re also excited for Gemini 3.5 Pro. We are using it internally, it’s showing great improvements, and it will be coming next month.
Antigravity 2.0
We’re also bringing 3.5 Flash to developers in Antigravity.
Antigravity is expanding beyond the coding environment, turning it into a platform to develop and manage cohorts of autonomous AI agents. This includes Antigravity 2.0, a new standalone desktop application that acts as a central home for agent interaction, where anyone can orchestrate agents for all sorts of tasks. And we developed an even more optimized version of Flash: not just 4x but 12x faster than other frontier models.
Users in Antigravity can get a taste of this experience starting today. Read more about Antigravity 2.0 here.
Gemini Spark is your 24/7 agent
Gemini 3.5 and Antigravity are unlocking a new world of agents and agentic capabilities. We’ve been bringing agents to developers and enterprises for a while. Now we are super focused on bringing the power of agents, safely and securely, to consumers so that it works for everyone. You’ll see agentic experiences across many of our products today.
I’m particularly excited for Gemini Spark, your personal AI agent in Gemini app that helps you navigate your digital life, taking action on your behalf and under your direction.
- It runs on dedicated virtual machines on Google Cloud. And it’s 24/7 so you don’t need to keep your laptop open.
- It’s powered by Gemini 3.5 and the Google Antigravity harness, which allows it to perform long-horizon tasks easily in the background.
- Spark will integrate seamlessly with tools, starting with our own, and in the coming weeks with third-party tools through MCP.
- And you can work with Spark however is most convenient: in the Gemini app or soon, through email and chat.
- On Android, you will be able to view live updates and task progress of agents like Spark through a new UI space called Android Halo, coming later this year. Later this summer, Spark will operate directly within Chrome, acting as your agentic browser across the web.
We’re starting to roll out Gemini Spark to trusted testers this week and the Beta is coming to Google AI Ultra subscribers in the U.S. next week.
Search in the agentic era
Gemini Spark is the first experience made possible by 3.5 models and Antigravity. This combination gives us new ways to accelerate our mission and transform our products to be radically more helpful.
As we enter this agentic era, Search will be more helpful and powerful than ever. Today, we’re introducing information agents in Search. These are personalized AI agents you can set up to work in the background, 24/7, to find what you need at exactly the right moment, and help you take action. Information agents are rolling out this summer starting with Google AI Pro and Ultra subscribers.
Another way we’re building a truly agentic Search is by infusing it with agentic coding capabilities. With the power of Gemini 3.5 Flash and Google Antigravity, Search will build custom experiences just for your individual questions, like dynamic layouts and interactive visuals. These generative UI capabilities will be available for everyone in Search this summer, free of charge.
And for longer running tasks that you need to keep coming back to, Search can go a step further — building persistent, custom dashboards or trackers that you can return to and make progress on. You can think of these like mini apps for your own specific tasks. You’ll be able to build custom experiences with Antigravity, right in Search in the coming months, starting first for Google AI Pro and Ultra subscribers in the U.S.
More from our agentic Gemini era
Here’s a look what else we shared at I/O:
- Daily Brief is another out-of-the-box agent coming to the Gemini app. It gives you a personalized digest and synthesizes information from your inbox, calendar and tasks to find the most important things to be aware of. And it’s not just summarizing data: it’s prioritizing, organizing and suggesting the next steps, so it’s easy for you to take action. All in this super concise morning digest that’s built for skimming.
- Google Flow is rolling out a new agent today to everyone that can plan and reason through complex tasks with your inputs, under your control. Built with Gemini models, it brings expertise and a deep understanding of your project to help with early brainstorming, creating and editing. You can also vibe code any creative tool, right in Flow — like tools for designing video effects, hand-drawn animations or layering text.
Google Pics is our new AI image creation and editing tool, built on our latest Nano Banana model, that helps you create just about anything with the creative controls you want. Whether you’re building a design from a blank canvas or editing an existing photo, Pics treats every element as an individual object rather than a flat, static image. This allows you to create, swap or perfect specific details, so you can bring your exact vision to life. Google Pics is available now to trusted testers an
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み