AI 動画 · AI ENGINEER

大規模な生成画像・動画モデルの構築 - Sander Dieleman氏（VeoとNano Banana）

Name: 大規模な生成画像・動画モデルの構築 - Sander Dieleman氏（VeoとNano Banana）
Uploaded: 2026-04-21T19:33:38.000Z
Duration: 40 min 46 s
Description: Google DeepMindのSander Dieleman氏が、VeoやNano Bananaの開発背景を基に、大規模生成モデルにおけるデータ選定、潜在空間での拡散プロセス、Transformerアーキテクチャの適用、そして制御信号の実装に関する技術的洞察を解説する。

AI Engineer2026/4/2240:46

3 行要旨

本講演では、Google DeepMindのSander Dieleman氏が、VeoやNano Bananaといった大規模生成モデルの構築プロセスを詳細に解説しています。特に、ピクセル直接処理から潜在空間（Latent Space）への変換、拡散モデルが本質的に「スペクトル自己回帰」であることを示す理論的根拠、そしてTransformerを用いたアーキテクチャ設計の重要性が強調されています。また、カメラ制御などの条件付け信号をモデルに組み込むための技術的アプローチや、決定論的サンプリングの可能性についても言及されています。

編集者ノート

VeoやNano Bananaの開発責任者による内部視点であり、単なるモデル紹介ではなく「なぜその設計選んだか」という深い技術的根拠が語られている。AIエンジニアリングやモデルアーキテクチャに携わる開発者必見のコンテンツである。

重要度

最重要/ 5段階

深度40%

関連度30%

実用性20%

革新性10%

言及企業(2)

主要ポイント

01
データ選定の重要性
モデルの微調整よりデータキュレーションへの投資が品質向上に不可欠であり、その重要性は過小評価されがちである。
02
潜在空間と圧縮
高解像度ビデオのメモリ負荷を軽減するため、オートエンコーダで学習した潜在表現を用い、拡散モデルはこれ上で訓練される。
03
拡散のスペクトル特性
拡散プロセスはノイズ付与により高周波を隠蔽し、低周波から順に生成する「スペクトル自己回帰」と解釈できる。
04
Transformerアーキテクチャ
U-NetからTransformerへ移行し、LLMのスケーリング法則を流用することで、双方向注意機構による表現力の向上を実現する。
05
制御信号と条件付け
カメラ動作などの抽象的な制御信号を、トークン追加や全トークンへのブロードキャスト等方式でモデルに組み込む手法が議論される。

業界への影響

この講演は、画像・動画生成モデルの「黒魔術」的な側面を、スペクトル分析やアーキテクチャ設計という理論的枠組みで解明しており、開発者のモデル理解を深める上で極めて重要である。特に、LLMの知見をビジュアル領域へ転用するアプローチは、マルチモーダルAI開発の標準的なベストプラクティスを示唆しており、業界全体の技術スタックに大きな影響を与える可能性がある。

文字起こし(en)

92 行は翻訳保留中です。原文(英語)を表示しています — 次回のパイプラインで補完されます。

重要な引用

注目ポイント

データ選定の重要性

潜在空間と圧縮

拡散のスペクトル特性

Transformerアーキテクチャ

制御信号と条件付け