TechCrunch AI·2026年5月20日 02:45·約10分

Google の Gemini Omni が画像・音声・テキストから動画を生成、その先も続く

#マルチモーダル #世界モデル #動画生成 AI #Gemini #Google DeepMind

TL;DR

Google は Google I/O で、画像・音声・テキストを統合して物理法則や文化を理解した高品質な動画を生成する新モデル「Gemini Omni」を発表し、マルチモーダル AI の新たな段階を示した。

AI深層分析2026年7月5日 01:07

重要/ 5段階

深度40%

キーポイント

Gemini Omni の発表と機能

Google は Google I/O で、あらゆる入力からコンテンツを生成できる新モデル「Gemini Omni」を発表し、画像・音声・テキスト・動画を統合して論理的に推論する高品質な動画生成を実現した。

単なる結合を超えた推論能力

従来の入力素材を単純に繋ぎ合わせるのではなく、物理法則や文化、歴史、科学の理解に基づいて一貫性のある出力を作成する「世界モデル」への進化を示した。

テキストによる画像編集機能

複雑な編集ソフトウェアを使わずに、自然言語コマンドだけで写真を編集できる機能を搭載し、Google の Nano Banana モデルのような利便性を動画生成にも拡張している。

Veo との位置づけと将来展望

既存の専用動画モデル「Veo」の進化版ではなく、Gemini の知能とメディアモデルの描画能力を融合させた次世代ステップであり、音声から画像生成など双方向変換も視野に入れている。

ディープフェイク対策と合成ID

デジタルアバター作成には本人確認プロセスが必要であり、生成された動画にはGoogleのSynthIDデジタル透かしが自動的に埋め込まれる。

Gemini Omni Flash の初期機能

まずリリースされる「Flash」モデルは10秒間の動画生成に対応し、YouTube ShortsやFlowなど消費者向けプラットフォームで展開される。

プロンプトの精度が重要

編集の容易さを追求する一方で、指示が不十分だと不要な要素まで変更されてしまうため、ユーザーは非常に具体的なプロンプトを入力する必要がある。

影響分析・編集コメントを表示

影響分析

この発表は、AI が単なる情報処理ツールから、物理法則や文脈を理解して現実世界をシミュレートする「世界モデル」としての役割を果たす転換点を示しています。クリエイターや開発者にとっては、複雑な編集工程が自然言語による指示に置き換わることで、コンテンツ制作のハードルが劇的に低下し、生成 AI の実用範囲が大幅に拡大されるでしょう。

編集コメント

Google は長年の目標であった「単一のニューラルネットワークによる全形式対応」を、Gemini Omni を通じて具体的な製品として具現化しました。これは生成 AI の競争において、技術的成熟度が一段階上がったことを示す重要なマイルストーンです。

Google が 3 年前に Gemini を発表した際、その目的はテキスト、画像、音声、動画のいずれにも対応し、これらの形式でコンテンツを生成できる単一のニューラルネットワークである多モーダル大規模言語モデル（multimodal large language model）を構築することでした。

本日、Google I/O 開発者カンファレンスにおいて、同社は Google CEO のサンダール・ピチャイ氏が「あらゆる入力から何でも作成できる」と述べる新しい多モーダルモデル群である Gemini Omni を発表し、その目標に向けた具体的な一歩を踏み出しました。

Omni はまず動画機能から始まります。ユーザーは現在、画像、音声、動画、テキストを組み合わせて利用できますが、単に入力をつなぎ合わせるのではなく、Omni はこれらすべての要素にわたって推論を行い、一貫性のある出力を生み出します。その結果得られるのは、物理法則、文化、歴史、科学への理解を反映した高品質な動画です。

また、Omni を利用すれば、複雑な編集ソフトウェアではなく、平易なテキストコマンドだけで写真を編集することも可能になります。これは Google の Nano Banana と同様の機能です。

Google はすでに、テキストや画像から動画を生成し、アバターを直接指示してカスタマイズできる専用動画モデル「Veo」を持っています。しかし、Google DeepMind の製品管理ディレクターであるニコル・ブリチョヴァ氏は、今回のリリースは単なる Veo のアップデート以上のものだと述べています。「これは、Gemini の知能と、当社のメディアモデルのレンダリング能力を組み合わせる進化における次のステップです」。

DeepMind の首席技術者であるコレイ・カヴクチュオグル氏が月曜日のメディアブリーフィングで記者らに示した具体例があります。Omni に「タンパク質折りたたみを説明するクレイアニメーション」といった単純なプロンプトを与えたところ、瞬時にストップモーション形式の説明動画がレンダリングされ、音声ナレーションでは「タンパク質はアミノ酸の鎖として始まり、アルファヘリックスやベータシートと呼ばれる平面部などの特徴的なパターンに折りたたまれ、完璧な三次元形状を形成します」という内容が流れました。

Omni の長期的なビジョンはより広範で、音声から画像を生成したり、動画から音声を抽出したりといった用途にもモデルを活用する構想を含んでいます。

「Gemini を最初に発表した際、それはネイティブにマルチモーダルな最初の AI モデルでした」とピカイ氏はブリーフィング中に述べた。「テキスト、コード、音声、画像、そして動画の組み合わせでトレーニングすることで、世界に対するより深い理解が得られると考えていました。ワールドモデルにおいて、AI はテキストを予測する段階から現実をシミュレートする段階へと移行しています。Gemini Omni はその方向性における次のステップです。」

今回のリリースの一環として、ユーザーは自身のデジタルアバターを用いて動画を作成できるようになります。これは OpenAI が現在廃止された Sora アプリで「Cameos」という機能を通じて普及させたものです。ディープフェイクを防ぐため、ユーザーはブリチトヴァ氏によると、自身を録画し一連の数字を読み上げるという専用の製品オンボーディングプロセスを経る必要があります。アバターはその後、将来的な利用のために保存されます。

さらに、Omni を使用して作成されたすべての動画には、Google の SynthID デジタル透かしが埋め込まれます。これにより、ユーザーがその動画が Gemini 製品を通じて生成されたものかどうかを検証することが可能になります。

このファミリーの最初のモデルは「Gemini Omni Flash」で、本日より Gemini アプリ、YouTube Shorts、AI クリエイティブスタジオ Flow に順次展開されます。Flash は 10 秒間の動画をレンダリングする能力を持ちますが、ブリチトヴァ氏によればこれはモデル自体の制限ではなく、より多くの人々に利用してもらいたいという意図と、現時点では多くのユーザーがそれよりも長い動画を作成したくないと考えているとの見通しに基づいた判断です。ただし、より長い動画時間の対応も近々パイプラインに組み込まれる予定です。

Google は Omni Flash を、より消費者向けのツールとして提案しているようです。DeepMind の研究エンジニアである Gabe Barth-Maron と Brichtova が TechCrunch との電話会議で示したデジタルアバターの使用例はすべて個人的なものでした：賞を受賞する自分や月に行く自分の動画を作成したり、休暇中に撮影した動画の背景から通りすがりの人を削除したりすることです。

Barth-Maron はそれをよりシンプルにこう表現しました。「それらはパーソナライズされたミームのようなものです」。

「確かに、消費者が使いやすいようにすることに重点を置きました」と Brichtova は述べています。「多くの動画モデルは消費者との間のこの断絶を突破していません。これがそのための私たちの取り組みです」。

使いやすさには注意が必要です。Brichtova と Barth-Maron は、編集プロンプトは非常に具体的である必要があると指摘しました。そうでなければ、Omni は過剰に編集したり、ユーザーが維持したい要素を意図せず変更したりするリスクがあります。これは Nano Banana のユーザーが直面した問題と同じです。

image画像クレジット: Google

短期的には消費者向けに焦点を当てていますが、Omni の企業およびクリエイティブへの影響は明白であり、Google は今後数週間で Omni を API 経由で提供します。アバター生成ツール（ショート動画で現在利用可能な機能）は、コンテンツクリエイターが採用することを Google が期待しているものです。しかしより広く見れば、エンドツーエンドのマルチモーダルワークフローは広告主や映画製作者にとって変革をもたらす可能性があります。

スタートアップの Luma AI も同様のものを構築しており、短いブリーフと製品画像に基づいて広告キャンペーン全体を生成できるエージェント型ツールを開発中です。これは同社独自の「ユニファイド」モデル（統合モデル）を基盤としています。

「私たちは実際、このモデルのテキストレンダリング能力にかなり誇りを持っています。これは広告のような用途において非常に有用です」と Brichtova 氏は述べています。「製品をどこかに配置したい場合や、スローガンだけを必要とする場合でも、正確である必要があります……映画製作者や他の種類のクリエイターもこのモデルを利用すると確信しています」。

より専門的なユースケースには、Omni Pro モデルがより適している可能性があります。これは Omni のすべてのタスクにおいてより高いパフォーマンスを発揮するはずです。Google は Pro のリリース時期についてはまだ明言していませんが、Brichtova 氏は「Flash を上回る段階的変化（ステップチェンジ）を達成できたと実感した時点でリリースされる」と述べています。

*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは私たちの編集の独立性には影響しません。

Google の Gemini Omni は、画像・音声・テキストを動画に変換します — そしてそれは始まりに過ぎません。

Google は本日、Gemini Omni を発表しました。これは、テキスト、画像、音声、そして動画を含むすべてのメディアタイプを処理できる、新しいマルチモーダル AI モデルです。このモデルは、単なるテキスト生成や画像認識を超え、異なる形式のデータを統合して、一貫性のある動画コンテンツを生成することを可能にします。

Gemini Omni の最大の特徴は、その「ユニバーサル・エンコーダー」アーキテクチャにあります。これは、あらゆる種類の入力データ（テキスト、画像、音声、動画）を共通のベクトル空間に変換し、モデルがそれらを同じように理解・処理できるようにする技術です。これにより、ユーザーはテキストプロンプトから直接動画を生成したり、既存の画像や音声を組み合わせて新しいストーリーを作成したりすることが可能になります。

例えば、ユーザーが「夕暮れ時の海辺で、犬が走っている様子を描いた短い動画を作って」と入力すると、Gemini Omni はそのリクエストを解釈し、適切な映像素材、音声効果、ナレーションを組み合わせて、数秒間の動画を生成します。また、既存の画像や音声クリップを入力として与えることで、それらを拡張したり、新しいシーンを追加したりすることもできます。

この技術は、クリエイティブな分野だけでなく、教育、マーケティング、エンターテインメントなど、幅広い業界での応用が期待されています。特に、動画コンテンツの制作コストを大幅に削減し、個人や小規模チームでも高品質な動画を簡単に作成できる環境を提供します。

Google は、Gemini Omni を Gemini 1.5 Pro や他の既存モデルと統合し、Google Cloud や Android などのプラットフォームを通じて提供していく予定です。また、開発者向けには API を公開し、独自のアプリケーションやサービスにこの機能を組み込むことを可能にする計画です。

ただし、AI が生成する動画の品質や倫理的な課題についても言及されています。Google は、生成されたコンテンツの透明性を確保し、誤情報や悪用を防ぐための対策を講じていく方針を示しています。

Gemini Omni の登場は、AI によるメディア生成の新たな段階を示すものです。テキスト、画像、音声を動画に変える能力は、単なる技術的な進歩ではなく、クリエイティブな表現の可能性を大きく広げるものと言えるでしょう。Google は、「これは始まりに過ぎない」と述べており、今後はさらに高度な機能や応用が期待されています。

*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは私たちの編集の独立性には影響しません。*

原文を表示

When Google launched Gemini three years ago, the goal was to build a multimodal large language model — a single neural network that was trained on text, image, audio, and video and could generate content in any of those formats.

Today, at its Google I/O developer conference, the company took a concrete step toward that goal with Gemini Omni, a new family of multimodal models that Google CEO Sundar Pichai says will be able to “create anything from any input.”

Omni will start with video. Users can now combine images, audio, video, and text, and rather than simply stitching those inputs together, Omni reasons across all of them to produce a consistent output. The result is high-quality videos that reflect an understanding of physics, culture, history, and science.

Omni also lets users edit photos with plain text commands rather than complex editing software, similar to Google’s Nano Banana.

Google already has a dedicated video model, Veo, that lets users turn text and images into videos, and even direct and customize avatars. But Google DeepMind director of product management Nicole Brichtova says that today’s release is more than a Veo update: “It’s the next step towards the progression of combining the intelligence of Gemini with the rendering capabilities of our media models.”

One example that Koray Kavukcuoglu, DeepMind’s chief technologist, gave reporters during a media briefing on Monday: When Omni was given a simple prompt like “a claymation explainer of protein folding,” it quickly rendered a video of a stop-motion explainer with a voice-over that said, “Proteins start as chains of amino acids. They fold into patterns like the alpha helix and flat sections called beta sheets, forming a perfect three-dimensional shape.”

The long-term vision for Omni is broader, involving the model being used to do things like generate images from audio, or audio from video.

“When we first announced Gemini, it was our first AI model to be natively multimodal,” Pichai said during the briefing. “We knew that training it on a combination of text, code, audio, images, and video would give it a deeper understanding of the world. With world models, AI is moving from predicting text to simulating reality. Gemini Omni is the next step in that direction.”

As part of the release, users will also be able to create videos with their own digital avatars — something OpenAI popularized on its now-defunct Sora app with Cameos. To prevent deepfakes, users will have to go through a dedicated product onboarding, which involves recording themselves and speaking out a series of numbers, per Brichtova. The avatar then gets stored for future use.

Additionally, all videos created with Omni will include Google’s SynthID digital watermark, which allows users to verify if videos were generated via the Gemini products.

The first model in the family is Gemini Omni Flash, which will roll out today to the Gemini app, YouTube Shorts, and AI creative studio Flow. Flash will be capable of rendering 10 seconds of video, which Brichtova says isn’t a model limitation, but rather a decision based both on a desire to get it into more hands and an anticipation that most users won’t want to make much longer videos yet. Longer video durations are in the pipeline for the near future, though.

Google seems to be pitching Omni Flash as more of a consumer tool. The examples Brichtova and Gabe Barth-Maron, a research engineer at DeepMind, gave on a call with TechCrunch of uses for digital avatars were all personal: Making a video of yourself winning an award or going to the moon, or removing a passerby from the background of a video you took on vacation.

Barth-Maron put it more simply: “They’re like personalized memes.”

“We definitely did focus on making this easy to use for consumers,” Brichtova said. “Not many video models have breached that chasm with consumers, so this is our play to do that.”

The ease of use comes with a caveat: Brichtova and Barth-Maron noted that editing prompts will need to be highly specific, otherwise Omni risks over-editing or unintentionally altering elements the user wanted to keep — a problem Nano Banana users would have run into.

Despite the near-term consumer focus, Omni’s enterprise and creative implications are obvious, and Google will make Omni available via API in the coming weeks. The avatar-generating tool — a capability that is available today on Shorts — is something Google expects content creators to pick up. But more broadly, an end-to-end multimodal workflow could be transformative for advertisers and filmmakers.

Startup Luma AI is building something similar, an agentic tool that can generate an entire ad campaign based on a short brief and a product image, powered by its own “unified” model.

“We’re actually pretty proud of the model’s text-rendering capabilities, which is really useful for things like advertising,” Brichtova said. “If you want a product somewhere, or even just a slogan, it needs to be accurate … We definitely anticipate filmmakers and other kinds of creators are going to be using this model as well.”

The more professional use cases might be better served by the Omni Pro model, which should perform better across all Omni tasks. Google hasn’t said when it will release Pro yet, but Brichtova said that will happen when “we feel like we’re at a point where we have a step change above Flash.”

*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*

この記事をシェア

Google DeepMind2026年7月3日 23:25

Google DeepMind と映画制作会社 A24 が初の研究パートナーシップを発表

MarkTechPost重要度42026年7月3日 12:24

Interfaze が拡散型 ASR モデル「diffusion-gemma-asr-small」を公開、6 か国語の並列ノイズ除去デコーダーで音声認識を実現

GitHub Changelog重要度42026年7月3日 08:07

GitHub Copilot における Gemini 2.5 Pro および Gemini 3 Flash の利用終了発表

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む