Google の生成 AI「Genie」がストリートビューを用いた現実の街並みシミュレーションを実現
Google DeepMind は開発者会議 Google I/O で、ストリートビューの画像データをベースに気象や時間帯を変化させることが可能な「Project Genie」という世界モデルを統合し、ロボットの学習シミュレーションと人間の没入型体験を可能にする新機能を発表した。
キーポイント
Street View と Project Genie の統合
Google DeepMind が既存のストリートビューデータに世界モデル「Project Genie」を接続し、現実の街並みをインタラクティブにシミュレートする機能を Google I/O で発表した。
ロボットの学習環境としての活用
日照が稀な地域で活動するロボットに対し、太陽光が反射する稀な状況を生成して学習させるなど、実世界の多様な条件をシミュレーションし、ロボットの安全性と適応性を高める用途がある。
ユーザー体験の拡張(気象・季節変化)
ユーザーは「雪が降っているニューヨーク」や「明日の天気」といった現実にはないシナリオを視覚的に確認でき、旅行計画や環境理解のための没入型ツールとして機能する。
Waymo への応用と視点の転換
Genie は Waymo のシミュレーターに導入され、竜巻や象との遭遇など稀な事象の訓練を可能にし、ストリートビューデータの追加により、車載カメラ視点だけでなく人間やロボットなどの多様なエージェント視点での世界シミュレーションが可能になった。
現状の技術的限界
生成された映像は写真のようなリアリティではなくビデオゲーム品質であり、物理法則(因果関係)を理解していないため、雪原を走る女性がサボテンや低木をすり抜けるなどの不自然な挙動が見られる。
展開計画と研究段階
ストリートビュー機能はまず米国の Ultra ユーザー向けに提供され、数週間以内にグローバルユーザーへ拡大される予定だが、ディエゴ・リバス氏はまだ実験段階であり精度向上の余地があることを警告している。
物理法則の直感的学習
これらのモデルには物理法則がハードコードされておらず、生物のように受動的な観察を通じて時間とともに直感的に学習します。
影響分析・編集コメントを表示
影響分析
この発表は、AI が単に画像を生成するだけでなく、既存の膨大な地理データを基盤として現実世界の物理法則や環境変化をシミュレートできる「世界モデル」としての実用性を確立した点で重要です。特にロボティクス分野では、実世界でのリスクの高いテストを回避しつつ多様な条件下での学習を可能にするため、自律走行車やドローンなどの開発スピードに大きな影響を与える可能性があります。
編集コメント
ストリートビューという巨大な実世界データセットを、AI の学習環境として再活用するアプローチは非常に革新的です。これにより、ロボットの安全な訓練や、人間の想像力を補完するシミュレーションツールとしての可能性が大幅に広がります。
私たちは皆、Google マップのストリートビューを使って友人に幼少期の家の様子を見せたり、パリの街並みに小さな人形アイコンを置いて、素敵な近隣エリアにホテルを予約したかどうかを確認したりしたことがあるでしょう。想像してみてください、それがより没入感がありインタラクティブな方法でできたらと。そうすれば、実際にその通りとその周辺をシミュレートしたり、天候を変更したり、「明日の明日」のようなシナリオがどうなるかを見たりすることも可能になります。
これが Google の最新の統合における目標の一つです。本日より、Google DeepMind はストリートビューを Project Genie に接続しました。これは同社が提供する汎用世界モデルで、多様でインタラクティブな環境を生成することができます。この新機能は Google I/O 開発者カンファレンス中に発表されました。
「これはエージェント [およびロボティクス] のユースケースにとっても人間が遊ぶためにも非常に強力であり、それが常に Genie の基本理念でした」と、DeepMind のオープンエンドネスチームの研究科学者である Jack Parker-Holder は TechCrunch に語りました。
彼はロンドンで配備された新しいロボットを例に挙げました。そこでは太陽を見る機会はほとんどありません。Parker-Holder 氏によると、Genie はビクトリア朝様式の住宅に太陽光が反射する稀な機会をシミュレートでき、その瞬間にロボットの視覚が驚かないようにするためです。
0 seconds of 0 secondsVolume 90%
Press shift question mark to access a list of keyboard shortcuts
00:00
00:00
00:00
「同時に、あなたは『ニューヨーク市に行くつもりだが、この時期ではない』と言うかもしれません」と彼は続けた。「雪が降っているだろう。あのブロックが雪の中でどう見えるか見てみたいのだ。」
Google は 20 年間、カメラを搭載した車両や、「トラッカーバックパック」を装着した個人を通じて Street View のデータを収集し続けてきました。このテクノロジー大手は、110 カ国と 7 つの大陸にまたがる 2800 億枚以上の画像を収集しています。
「Street View によって、私たちは世界の広範囲からの映像を持っています」と Jack は語った。「この豊富な実世界の情報とデータを、世界をシミュレーションする能力と組み合わせるいかに潜在的に強力であるか、想像できるでしょう。」
Google は昨年 8 月に最新のワールドモデル Genie 3 for research preview をリリースし、今年 1 月には米国における Google AI Ultra の加入者に対してこのツールのアクセスを開放しました。これにより、顧客はテキストプロンプトや画像からインタラクティブなゲーム世界を作成できるようになりました。Genie の目的は、教育体験、ゲーミング、ロボティクス訓練に活用することです。
Genie 3 はすでに Waymo のシミュレータの一つ を駆動し、竜巻や偶然の象との遭遇といった「極めて稀な事象」において自動運転車の訓練を行っています。そこに Street View のデータを追加することで、Waymo が世界中のより多くの都市での展開を準備するのを支援できる可能性があります。
Waymo は、11 の米国都市への拡大と AI ドライバーのさらなるテストに依存した独自のシミュレーターを持っています。パーカー=ホルダー氏によると、Genie との違いは、それらがすべて車の視点からのものだという点です。Street View を利用することで、実際の場所に固定された世界をシミュレートするだけでなく、人間やロボットなど他の種類のエージェントへの視点も切り替えることが可能になります。
Google は本日、米国における一部の Ultra ユーザー向けに Genie での Street View の提供を開始し、段階的に大規模な展開が行われます。同社によると、グローバルな Ultra ユーザーは今後数週間でアクセスできるようになるとのことです。
DeepMind のプロダクトマネージャーである Diego Rivas 氏によれば、研究者たちの目標はこの新機能を可能な限り多くの人々に提供することです。彼は特に Street View と、より広く Genie 全体がまだ実験段階にあるため、精度の面で改善すべき点が多いと注意を促しています。
私が示された Google チームのサンプル(かつて住んでいた近所の水中シミュレーションを含む)では、結果は印象的で認識可能ですが、まだフォトリアリスティックというよりはビデオゲーム品質です。また、モデルはまだ物理法則を意識しておらず、因果関係を理解していません。例えば、雪に覆われた Joshua Tree を走る女性のシミュレーションでは、彼女はサボテンや低木をすり抜けて走っていました。
例えば、インフォグラフィック内で完璧なテキストを生成できるようになった Google の画像生成器 Nano Banana や、紙の舟が水流に漂い、煙が空気中に拡散し、布が形に沿って垂れ下がることを理解する動画生成器 Veo と比較してみてください。
これらのモデルには物理法則がハードコードされておらず、生きている生物のように、受動的な観察を通じて時間とともに直感的に学習します。
「この種のモデルについては、精度と品質の面で動画よりもおそらく 6 か月から 12 ヶ月ほど遅れていると思います。だからこれは解決できる課題だと考えています」とパーカー=ホルダー氏は述べています。
12 年前にインターンとして Street View チームで働き始めた Google Maps のディレクターであるジョナサン・ハーバート氏は、Genie がまだ通りの忠実な再構築を生成することはできないと指摘しています。彼が考える真の画期的な点は、AI の空間的連続性です。360 度回転しても、AI は背後にある環境を正しく記憶し、シミュレーションします。そこから先、このモデルはその上に新たな環境を構築することができます。
「私たちは長年、Street View データの上に世界で最も良く、最も豊かなモデルをどのように構築するかについて考えてきました」とハーバート氏は語りました。「Maps Data を新しい方法や、新しい種類の AI 研究のために利用するというアイデアは、かなり長い間私たちの持っていたものです。」
*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは当社の編集の独立性には影響しません。*
原文を表示
We’ve all pulled up Street View on Google Maps to show a friend what our childhood home looked like, or dropped that little person icon onto the streets of Paris to see if we booked a hotel in a cool neighborhood. Imagine being able to do that, but in a more immersive, interactive way that allows you to really simulate the street and its environs, and even do things like adjust the weather or see what it would look like in a “Day After Tomorrow” scenario.
That’s one of the goals of Google’s latest integration. Starting today, Google DeepMind is connecting Street View to Project Genie, the company’s general-purpose world model that can generate diverse, interactive environments. The new feature launched during the Google I/O developer conference.
“It’s really powerful for both the agent [and robotics] use case and for humans to play with, and that’s always been the thesis of Genie,” Jack Parker-Holder, a research scientist on DeepMind’s open-endedness team, told TechCrunch.
He gave the example of a new robot being deployed in London, which rarely sees the sun. Genie could, Parker-Holder says, simulate those scarce occasions when the sun glints off the Victorian housing, so the rays don’t shock the robot when it happens.
0 seconds of 0 secondsVolume 90%
Press shift question mark to access a list of keyboard shortcuts
00:00
00:00
00:00
“Simultaneously, you might say, ‘I’m going to New York City, but not this time of year,’” he continued. “‘It’s going to be snowy. I want to see what that block looks like in the snow.’”
Google has been collecting Street View data for 20 years via cars with cameras and individuals strapped with “tracker backpacks.” The tech giant has collected north of 280 billion images across 110 countries and seven continents.
“With Street View, we have imagery from a large quantity of the world,” Jack said. “You can imagine how potentially powerful it is to combine this rich source of real-world information and data with an ability to simulate worlds.”
Google released its latest world model Genie 3 for research preview last August and opened up access to the tool to Google AI Ultra subscribers in the U.S. in January, allowing customers to create interactive game worlds from text prompts or images. The goal is to use Genie for educational experiences, gaming, and robotics training.
Genie 3 is already helping to power one of Waymo’s simulators to train its self-driving cars on “exceedingly rare events” like tornadoes or casual elephant encounters. Adding Street View data to that could help Waymo prepare to launch in more cities around the globe.
Waymo has its own simulator that it relied on to scale to 11 U.S. cities and test its AI driver in several more. The difference with Genie, says Parker-Holder, is that those are all from the car’s point of view. Street View allows for not only simulating a world anchored to a real place, but also shifting the point of view to other types of agents, like a human or a robot.
Google is launching Street View in Genie to some Ultra users in the United States starting today, with access rolling out at scale over time. Global Ultra users will gain access over the next few weeks, per the company.
The researchers’ goal is to put this new capability into as many hands as possible, per Diego Rivas, a product manager at DeepMind. He cautioned that Street View in particular and Genie in general is still an experiment, so there’s much to improve upon in terms of accuracy.
In the samples the Google team showed me — including an underwater simulation of a neighborhood I used to live in — the results are impressive and recognizable, but still video game quality rather than photorealistic. The models are also not yet physics-aware, meaning they don’t yet understand cause and effect. For example, in a simulation of a woman running through a snowy Joshua Tree, she ran right through cacti and bushes.
Compare that to, say, Google’s image generator Nano Banana — which can now generate perfect text in infographics — or its video generator Veo — which understands that paper boats drift on water currents, smoke disperses into the air, and fabric drapes over forms.
Physics isn’t hard-coded into these models; they learn it intuitively over time through passive observation, as a living being would.
“I think for this kind of model, it’s maybe six to 12 months behind video in terms of the accuracy and quality, so I think it’s something we will solve,” Parker-Holder said.
Jonathan Herbert, director of Google Maps who started on the Street View team as an intern 12 years ago, said that Genie can’t yet create a faithful reconstruction of a street. He thinks the real breakthrough is the AI’s spatial continuity. If you turn 360 degrees, the AI correctly remembers and simulates the environment behind you. From that point on, the model can build a new environment on top of that.
“We have long thought about how we can build out the best and richest model of the world on top of Street View data,” Herbert said. “It’s definitely been an idea of ours to use Maps Data in new ways and for new kinds of AI research for a pretty long time.”
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み