動画エージェントモデルが次世代へ — xAI のイーサン・ヘ氏に聞く Grok Imagine の開発秘話（98 分読み） | AIニュース最前線

*今週、[AIEWF](https://ai.engineer/wf) のスピーカーを発表します！[AI Engineering Survey](https://notion.qualtrics.com/jfe/form/SV_bP07tSVMXH7ePCS) にご協力ください！* 今日のゲストであるイーサン氏は、当初 [NVIDIA Cosmos World Model](https://www.youtube.com/watch?v=og59L4JECz4&pp=ygUWbGF0ZW50c3BhY2V0diBldGhhbiBoZQ%3D%3D) のリーダーとして LS Paper Club に参加しましたが、その後 xAI へ移籍し、わずか 3 ヶ月で Grok Imagine を構築しました： [Ethan He@EthanHe_42 新しい Grok Imagine のリリースを共有できることを嬉しく思います 🚀 これはこれまでで最も高品質で、最速、かつコストパフォーマンスに優れた動画生成モデルです。720P 対応、動画編集機能、そしてより良い音声を搭載しています。皆様のフィードバックに耳を傾け、迅速に対応しました。 わずか 6 ヶ月前は、私たちはほぼxAI @xai理解するには想像が必要です。Grok Imagine は、あなたの頭の中のイメージを現実のものに変えることができます。今や、世界で最も速く、最も強力な動画 API を通じて利用可能です：https://t.co/tqQwQVgCEI ぜひお試しください。あなたの想像力を存分に発揮してください。2026 年 1 月 29 日午後 2:43 · 11.6 万ビュー 127 件の返信 · 107 件のリポスト · 1,350 のいいね](https://x.com/EthanHe_42/status/2016749123198673099) イーサン氏は、Latent Space に再び登場し、いくつかの刺激的な見解を述べています。それは**動画モデルの知能は主に LLM（大規模言語モデル）から得られるものであり、動画データからの学習によるものではない**という点と、真にインタラクティブでリアルタイムかつ長期の視野を持つ**世界モデル**（world models）の次のフロンティアは、LLM（おそらく [Interaction Models](https://www.latent.space/p/ainews-thinking-machines-native-interaction) も含む）を対象として取り組むべきであるという点です。 そう言ってみましょう：近未来において、次の Sora はより優れた動画モデルではなく、**動画エージェント**となるでしょう。 **[生成メディア](https://www.youtube.com/watch?v=t4359sKBu4w&list=PLcfpQ4tk2k0VjKRy3q6ZxeOtkbZlmFDLg)** は、**AI コーディングの進化**により密接に沿う可能性があります。これは、単発出力のパフォーマンスとコストに焦点を当てる段階から、計画・編集・テスト・デバッグ・PR（プルリクエスト）提出が可能なエージェントやシステム向けの多ターン推論およびプランニングモデルへと移行した過程です。 ある時点でコーディングモデルはあまりにも優秀になり、パフォーマンスを向上させるための唯一の重要な次のステップは、**これらのモデルのオーケストレーション（調整・統率）を扱うこと**となりました。 現在、動画モデルのパフォーマンスがリアリティ、一貫性、プロンプト遵守において大幅に向上し、コスト効率も高まっている中で、動画生成の次の進化もまた、創造的なタスク全体を通じて計画・生成・編集・批評・反復を行うシステムになる可能性があります。 [X Freeze@XFreezeGrok Imagine Agent Mode (Beta) just went live on Grok web It's a full creative agent working on one infinite open canvas Grok Agent plans → generates → edits → iterates everything automatically in the same workspace] 何を望むか伝えて、計画し、生成し、編集する様子を見守ってください。2026 年 4 月 30 日午後 2時42分 · 92 万ビュー 681 件の返信 · 1,150 件のリポスト · 3,970 件のいいね](https://x.com/XFreeze/status/2049725955208622475) このエピソードでは、イーサンが swyx と Vibhu とともに、**最先端の画像および動画システム**を構築するために実際に必要なものについて掘り下げます。具体的には、データ、VAE（変分オートエンコーダー）、拡散トランスフォーマー、オーディオとビデオのアライメント、推論速度の向上、そして膨大な動画データを保存・移動させる際の隠れたコストなどです。**NVIDIA の Cosmos ワールドモデル**[https://www.nvidia.com/en-us/ai/cosmos/]を構築し、ゼロから一つへと成長する過程で**xAI**に参加して**Grok Imagine**[https://grok.com/imagine]が作られていた際、**イーサン・ヘ**氏は動画生成、マルチモーダルモデル、リアルタイムのワールドモデルにおける最も重要な仕事の中心にいました。 私たちは**Grok Imagine**について深く掘り下げます。なぜ小規模な xAI チームがわずか 3 ヶ月で最初の**マルチモーダル動画モデル**をリリースできたのか、モデル開発においてほぼ何よりも重要なのは**イテレーションの速度**である理由、そして多くの大きな進歩がデータやトレーニングパイプライン内の些細なバグを修正することから生まれる理由についてです。 ビデオエージェントは来年のトレンドになることはほぼ確実視されています。最後に、ビデオエージェントを超えた未来について少し触れます。 **[Flipbook](https://www.flipbook.page/n/43e8c7b08ab14571810fee265c331cb3)** は今年リリースされた際、ちょっとした話題を呼びましたが、多くの人々はそれを単なる楽しいデモとして扱っています。しかしイーサンはこれを非常に真剣に捉えており、推論の速度とコストが毎年低下していることを考慮すると、カスタム動画 JIT UI（Just-In-Time User Interface）の未来は想像以上に近い場所にあるのです。私たちは、なぜビデオ生成モデルが AI のフロントエンドとなり得るのか、**生成型 UI が従来の HTML/CSS を置き換える可能性がある理由**、なぜ世界モデルがリアルタイム性、対話性、そして長期にわたる視野を持つ必要があるのか、さらに動画生成の未来は拡散モデル単独よりも言語モデルやエージェントに依存する可能性が高いという点について議論しました。 **私たちが議論すること:** - なぜ迅速な反復が会議よりも重要だったのか - なぜ小さなトレーニングのバグがモデル品質の劇的な向上につながるのか - なぜコーディングモデルは再び計算リソースのボトルネックとなる可能性があるのか - 合成キャプションを用いた画像・動画モデルの訓練方法 - フロントier動画モデルにおける VAE（変分オートエンコーダー）と潜在空間の役割 - なぜ画像モデルが動画モデルの基盤となるのか - 時間圧縮とリアルタイム対話性の間のトレードオフ - Flipbook、Neural OS、そして生成 UI の未来 - なぜ将来のインターフェースはユーザーの意図から直接ピクセルへ至るようになるのか - 動画モデル訓練の隠れたコスト：ストレージ、エグレス（転送）、GPU 使用時間 - ステップ蒸留とコンシステンシーモデル（OpenAI の sCM など）がどのようにして動画推論を桁違いに高速化するか - Grok Imagine 0.9 と大規模な音声・動画生成 - なぜ音声・動画の整合性はテキスト・動画の整合性よりも難しいのか - エサンの世界モデルの定義 - リファレンスから動画へ、動画拡張、そして長文脈動画生成 - なぜ xAI の研究コミュニケーションは Grok Imagine の価値を過小評価しているのか - xAI の文化が開発スピードにどう影響したか - AI 透かし、SynthID、および生成メディアの検出 - なぜプロンプト書き換えが動画モデルにおいて重要なのか - Grok Imagine Agent とビデオエージェントの台頭 - なぜ言語モデルがより優れた動画生成を可能にするのか - ロボティクス、物理的 AI、そして具現化された世界モデル - なぜエサンは xAI を離れ、LLM への焦点をシフトしたのか - 自己管理型コンテキスト、メモリ、そして言語モデルの次のフロンティア **Ethan He** - LinkedIn: https://www.linkedin.com/in/ethanhe42 - X: https://x.com/EthanHe_42 **00:00:00** イントロダクション **00:01:25** NVIDIA Cosmos から xAI へ **00:03:24** ゼロからイチまで Grok Imagine を構築する **00:10:07** 画像および動画モデルのトレーニング方法 **00:18:53** 動画圧縮、VAE（変分オートエンコーダー）、そしてリアルタイムでのトレードオフ **00:22:10** 生成型 UI、フリップブック、ニューラル OS **00:32:10** 大規模動画モデルのトレーニングコスト **00:37:04** 蒸留（ディストillation）、GANs（敵対的生成ネットワーク）、そして高速な動画推論 **00:41:21** オーディオ・ビデオ生成と Grok Imagine 0.9 **00:48:34** ワールドモデルとは何か？ **00:55:51** リファレンス動画、ロングコンテキスト、そして動画メモリ **01:00:11** xAI の文化、研究、そして第一原理に基づく構築 **01:09:45** AI セーフティ、ウォーターマーキング、プロンプト書き換え **01:13:10** ビデオエージェントと AI 支援による創作 **01:27:32** なぜ言語モデルがより優れた動画を実現するのか **01:31:15** ロボティクス、物理的 AI、そして具現化されたワールドモデル **01:32:38** エイサンが xAI を去った理由 **01:34:16** 自己管理型コンテキストと LLM の未来 **01:38:43** エイサンのキャリアパスと結びの言葉 **Swyx [00:00:00]:** 私たちはスタジオで、最近 xAI に在籍していたエイサン・ヘ氏にお会いしています。ようこそ。 **Ethan [00:00:10]:** ありがとうございます。ここに来られて嬉しいです。 **Swyx [00:00:11]:** また、ヴィブも一緒にいます。あなたは NVIDIA でコスモス（Kosmos）に取り組んでおり、論文も発表されましたね。私たちはそれを大変気に入りましたし、プレゼンテーションもしていただきましたので、ありがとうございます。 **イーサン [00:00:23]:** 実は、私もモジュール型エキスパート（MoEs）についてラテン・スペースで二度発表しました。 **スワイ [00:00:29]:** 実際、どうやって私たちのことを知ったのですか？こちらから連絡したのでしょうか？そうだったんですか？ **イーサン [00:00:33]:** いいえ、実は私自身ではなく、コミュニティです。ああ、AI について話し合い、毎週『ペーパークリップ』を通じて論文を読み合いながら学び合うオンライン・コミュニティがあることに気づきました。とても素晴らしいものです。 **イーサン [00:00:49]:** 私は多くのことを学びました。 **スワイ [00:00:49]:** 3 年間も続いていると思います。クリスマスや新年でも止まったことはありません。何度も止めたいと思う週もありますが、それでも続いてしまいます。 **ヴィブ [00:00:58]:** いいえ、それは良かったですね。あなたが論文に取り組んでいると投稿されたのを見て、「おお、素晴らしい。私たちにもペーパークリップがあるよ」と思いました。その時に発表しましたから。 **ヴィブ [00:01:04]:** でも、その後こちらから連絡したかもしれませんね。 **スワイ [00:01:05]:** あなたは——アマチュア・クラブなんですから、そうでしょう？ **スワイ [00:01:08]:** 非常に珍しいことですが、時には論文の著者の方々が来て、実際にその論文を説明してくださることもあります。今日もまさにそれを行いました。プールサイドの論文（poolside paper）についてで、どうやら非常に素晴らしいもののようです。 **ヴィブ [00:01:18]:** 昨日発表されました。 **ヴィブ [00:01:19]:** とても興味深いですよね。完全にオープンです。システムを含め、あらゆることについて話しています。良い論文ですよ。ぜひ読むようお勧めします。 **スワイ [00:01:25]:** xAI への移行について、私たちに最新情報を教えてください。実際、いつ加入されたのかさえ知りませんので。そのような移行の物語を、ただお話しいただければと思います。 **イーサン [00:01:34]:** xAI に入る前は、NVIDIA でコスモス（Kosmos）の世界モデルに取り組んでいました。コスモスは巨大な動画基盤モデルであり、世界をシミュレートすることを目的としており、すべてのロボット工学者がその上に構築するための基盤として機能します。そこでコスモス1を構築した後、このモデルも言語モデルと同様のスケール則（scaling law）を持っていることに気づき、動画モデルをさらに拡張する必要があると悟りました。そのため、より多くの計算リソースを持つ場所へ移る必要があると感じたのです。それが私が **スワイ [00:02:13]:** NVIDIA からではなくて？ **ヴィブ [00:02:14]:** GPU に富んだ環境が自らやってきました。 **ヴィブ [00:02:19]:** そしてタイムラインで言うと、コスモスはいつ頃だったのですか？かなり前ですよね。オープンな世界モデルで、論文も公開され、すべてがオープンでした。 **イーサン [00:02:25]:** 2024 年の終わりです。 **ヴィブ [00:02:28]:** 2024 年の終わりですね。 **イーサン [00:02:30]:** その後、2025 年半ばに xAI へ移りました。その時—xAI が動画モデルやマルチモーダルモデルの構築を間近に控えていた時期でした。当時はインフラもデータもモデルもなく、数人のエンジニアとしてわずか 3 ヶ月でそれを構築し、最初のモデルである「Grok Imagine 0.9」をリリースしました。 **Ethan [00:02:55]:** それ以来、私は動画モデルの構築に引き続き取り組んでおり、トレーニングからポストトレーニングへと重心を移してきました。例えば、動画への参照機能や、カメオ（Cameo）のような特徴、そして動画拡張機能などです。私が去る前には、世界モデル（world model）の開発にも携わり、小規模チームを率いてリアルタイムでの長時間スケール動画生成に注力しました。 **Swyx [00:03:24]:** 新しいチームに移られた際の、おおよそのロードマップをお聞かせいただけますか？以前は Grok はテキストのみで、画像生成については BFL と提携していました。では、構築に必要な要素とは何でしょうか？計算資源（compute）や調達可能なデータなどです。新しいチームを立ち上げる際に、人々が考慮すべき一連のステップについてお尋ねしています。 **Vibhu [00:03:43]:** 実はそれよりもさらに深い話で、単にデータを調達できるというだけでなく、実際にそのデータを入手するプロセス自体も必要でしたよね。非常に迅速にリリースされましたが、はい。 **Swyx [00:03:51]:** 3 ヶ月というのは、 **Vibhu [00:03:52]:** すべてにおいて **Swyx [00:03:52]:** 非常に驚くほど迅速ですね。 **イーサン [00:03:55]:** NVIDIA で得た経験から一つ言えるのは、Kosmos を一緒に構築していた最初の頃、私たちは約 1 年かけてそれを完成させました。つまり今回は 2 回目ということになります。おおよその方向性は把握しています。私が最も重要だと考えるのは人材です。皆非常に優秀で賢く、共通の目標に向かって互いに密接に連携していました。これによりスピードが大幅に向上しました。人々間のコミュニケーション・バンド幅を減らし、全員が同じ目標に向かって作業できるからです。毎日カレンダーに会議があまり入っていないようなもので、例えば 1 日に 1 回の同期ミーティングがある程度で、その後はすべて構築に集中します。当時はとても楽しかったです。 **イーサン [00:04:47]:** もう一つの点は、xAI がデータ推論やモデル推論において非常に強力な基盤を持っており、それを支えるインフラがモデル開発を大きく加速できることです。モデルのトレーニングを見ると、実は最も重要なことは 1 日に何回のイテレーション（反復）を行えるかです。より多くのイテレーションが可能であれば、モデルをはるかに高速に訓練できます。つまり、非常に強力なインフラと十分な計算リソースがあれば、これらのモデルを極めて短期間で訓練できるのです。これによりエラーに対する大きなバッファが得られ、さらに多くのバグを発見する機会も生まれます。 **スワイ [00:05:46]:** イテレーションとは具体的に何を指すのでしょうか？数百年のステップのことですか、それとも別の意味ですか？ **イーサン [00:05:50]:** 新しいデータを取得し、おそらく新しいアルゴリズムを設計して新たなモデルを訓練するといった、モデルのトレーニング自体について考えてみましょう。もしかしたら小規模なスケールでかもしれません。 **スワイ [00:06:01]:** つまり、探索しているあらゆるハイパーパラメータにおけるサイクル時間のことです。 **イーサン [00:06:04]:** サイクル時間であり、このモデルを評価して調整すること。つまり、このモデルは前回の反復よりも優れているのでしょうか？ **イーサン [00:06:11]:** つまり **スワイ [00:06:11]:** 要するに、あなたが非常に迅速に反復できるよう、誰かが事前にこれを設定してくれていたようなものです。 **イーサン [00:06:15]:** そこには基礎となるものが極めて良好で、モデルの開発と研究に適していると思います。 **イーサン [00:06:23]:** そしてよく気づくのは、これは少し退屈な話かもしれませんが、多くの改善は新しいアルゴリズムから来るのではなく、データパイプラインやモデルトレーニングパイプラインのあちこちに潜む小さなバグを見つけることから生じるのです。それらがモデル品質に対して最も大きな向上をもたらします。 **ヴィブ [00:06:46]:** 面白いですね。つまり、あなたは小規模チームでコミュニケーションの帯域幅が狭くても、多くの品質は小さなバグを見つけることにあると言います。直感に反するように思えますよね？大勢の人がいればそれらの問題をより多く解決できるはずですが、その反対側を見るのは興味深いです。 **スワイ [00:07:00]:** 私も疑問に思うのですが、LLM（大規模言語モデル）を使ってバグを探す試みはされていますか？わかりません。 **イーサン [00:07:05]:** その時は 2025 年半ばでしたから、コーディングモデルはまだ完全に成熟していなかったのを覚えています。2025 年 12 月頃には非常に優秀になっていましたね。その頃は実際に使っていました。確かに役立ちますが、一度にものすごく速く構築したとしても、メンテナンスが難しいコードを生成してしまうことがあります。スパゲッティコードと呼ばれるような数千行のコードで、私が管理できない状態になり、LLM（大規模言語モデル）自身も何が問題で、どう改善すべきかを理解できませんでした。しかし今ははるかに良くなっています。もう一点付け加えるなら、現在のコーディングモデルははるかに効率的で、私たちの実装をずっと速くしてくれるようになりました。計算リソースが再びボトルネックになる可能性があります。以前は新しいモデルを訓練したい場合、例えば新しい合成データを生成したり、新しいアルゴリズムを書いたりするには数週間かかることがありました。その期間中は実験を実行できないこともありました。しかし今は数時間で構築でき、すぐにモデルの訓練を開始できます。 **イーサン [00:08:24]:** 今ではすべてのアイデアを試すのに十分な計算リソースが必要です。つまり、計算リソースがイテレーション速度のボトルネックになる可能性があります。 **スワイ [00:08:36]:** はい、正直に言って、これはストレスの多い仕事だと思います。「何でも試すべきで、そうでなければ仕事をうまくこなせていない」という感覚に駆られるからです。 **Vibhu [00:08:48]:** また、1 時間に数千個の GPU を消費するというストレスもあります。これは非常に高価であり、計算資源は他の研究者にも回すべきです。 **Swyx [00:08:56]:** お父さんである Elon がいますからね。 **Vibhu [00:08:57]:** お父さんである Elon がいますよ。 **Ethan [00:08:59]:** それは **Vibhu [00:09:00]:** しかし、計算資源には限りがあります。使いたいし、うまく使いたいし、もっと欲しいのです。 **Ethan [00:09:06]:** 確かにかなりストレスフルでしたよ。そうですね、コーディングモデルについては、多くの仕事が自動化できるようになり、それははるかに良いことです。第二に、これはマラソンなので、健康を維持し、規則正しいスケジュールを保つ必要があります。 **Vibhu [00:09:28]:** 2 ヶ月でゼロから何もない状態へ移行する際に、それを聞くのは難しいものです。 **Swyx [00:09:32]:** そして、明らかに xAI の文化は非常に有名で、人々は非常に頑張っています。私が深入りしたかったことのひとつに、あなたが事前に送ってくれたノートにあるビデオ生成トレーニングのコストに関する具体的なコメントがあります。おそらくこれは Colossus-1 上の話ですよね？200 メガワットのクラスターのことです。それについて何か共有していただけますか。 **Vibhu [00:09:54]:** 私たちが話していることは 3 つあると思います、对吧？つまり、ビデオ生成（Video Gen）と、あなたが公開した画像生成モデル（Image Gen model）の 2 つです。ゼロから一つへ、数ヶ月かけて行う過程について、画像生成モデルを創る段階とは何か、詳しく教えていただけますか？ **Swyx [00:10:06]:** ああ、もしかしたら気が散っていたのかもしれません。 **Vibhu [00:10:07]:** すみません。そしてそこからビデオ生成（Video Gen）があり、音声生成（Audio Gen）があります。これらについて詳しく知りたいのですが、最初の数ヶ月はどのようなものなのでしょうか？小さなチームでバグが多く、反復作業が続く中で、実際にはどういった状況になるのでしょうか？市販のものをそのまま使うのか、それともデータと計算リソースを確保するだけなのか。最初の数ヶ月とは具体的にどんな感じなのでしょう？最先端の画像生成（Image Gen）モデルにどのように到達するのか、またどこから始めればよいのでしょうか。 **Ethan [00:10:28]:** xAI が具体的にどう行ったかについてはコメントできませんが、これは非常に標準的なプロセスです。Cosmos の例をいくつか挙げることができます。主にビデオモデルを構築するには、まず画像モデルを構築する必要があります。これらの 2 つのモデルを構築する際に必要となるデータは、言語と画像のペア、あるいは言語からビデオへの対応関係が 100% 合成されたものです。なぜなら、インターネット上では実際には動画がテキストと自然に関連付けられていないからです。つまり、「YouTube にはタイトルや説明、コメントがある」と言えるかもしれませんが、それらは通常、動画そのものとは関連性がありません。例えば、動画が山などの自然風景であるのに、タイトルは「今日はとても幸せです」のような内容だったりするのです。 **イーサン [00:11:26]:** つまり、それらには全く相関がありません。最初のステップは、動画と対応する言語ペアを合成データとして生成することです。インターネットから動画を収集し、VLM（Vision-Language Model）を用いて動画にキャプションを付けます。ここで一つ質問があります。そもそも VLM をどうやって集めるのか？もし VLM が存在しない場合、最初からテキストをどのように生成するのか？それは不可能です。 **スワイ [00:11:55]:** つまり、モデルを融合させるわけですね。 **イーサン [00:11:57]:** もし VLM といったものが存在しないなら、最初にテキストをどう生成するか。それは不可能です。 **スワイ [00:12:04]:** なるほど。 **イーサン [00:12:05]:** 最初は、人間に動画の詳細な説明を依頼します。具体的には、動画内のすべての物体、すべてのキャラクター、そしてすべての相互作用や対話を記述してもらうのです。これが Cosmos ラベリングのプロトコルです。ラベラーに対して求める目標は、「盲の人がテキストの塊を聴くだけで、頭の中で動画がどのようなものかを再構築できるほど詳細に動画を説明すること」です。 **スワイ [00:12:43]:** 動画ですか？それとも画像ですか？画像について話していますね。 **イーサン [00:12:44]:** 動画でも画像でも、どちらでも構いません。 **ヴィブ [00:12:47]:** CLIP や DALL-E から移行する際、これは非常に一般的な手法でしたよね。 **ヴィブ [00:12:51]:** すべてが画像の詳細なキャプション付けに基づいて訓練されたものです。動画にも同じアプローチが適用されますが、代わりに **イーサン [00:12:57]:** 同じことが適用 **Vibhu [00:12:57]:** マルチモーダルモデルを用いて動画画像を入力し、詳細な記述を生成するだけでなく **Swyx [00:13:04]:** 従来の視点としては、教師あり学習や、非常に高度に人間が手作業でキュレーションしたアプローチがあります。しかし、教師なし学習にはまだ解き放たれていない可能性があると私は感じています。つまり、十分な基盤さえあれば、一般的なコーパスをそのまま投入するだけで、あるいは何らかの方法で、教師なしの視覚と言語のペアリングが可能になるはずです。画像とテキストが混在したデータから、モデルが自ら学習するようなアプローチです。私にとって、これは CLIP や言語モデル（LM）時代とは異なる、VLM（Vision-Language Model：視覚言語モデル）における画期的な突破点です。 **Ethan [00:13:36]:** 実際には、両方のデータが必要になるという点は興味深いですね。 **Ethan [00:13:41]:** 例えば、 **Swyx [00:13:41]:** 基盤を構築するためにはそれが必要です。はい **イーサン [00:13:43]:** 生成モデルのトレーニングにおいては、通常、ラベル付きデータのごく一部に未ラベルデータも含まれます。つまり、モデルはテキスト指示なしで動画を生成するように指示されます。これにより、モデルの一般化能力を高める効果もあります。このように生成された合成ペアの段階を経て、次に重要な共通ステップとして、画像や動画のための圧縮器（コンプレッサー）またはトークナイザーをトレーニングします。なぜなら、理論的には純粋なピクセルデータだけで画像や動画モデルをトレーニングできる可能性はありますが、実際にはトークン数が膨大になりすぎるという問題があるからです。例えば、1000×1000 の画像であれば、約 100 万のトークン（つまり 100 万ピクセル）が必要となり、そのような規模でトランスフォーマーをトレーニングすることは不可能です。そのため、画像から潜在空間へ、そして潜在空間から再び画像へと変換できるようなトークナイザーをトレーニングする必要があります。 **スワイ [00:14:45]:** それが私たちがこのポッドキャストに名付けた理由なのです。 **スワイ [00:14:48]:** つまり、本質的には語彙科学についてお話しされているのです。 **イーサン [00:14:50]:** はい、語彙ですね。 **スワイ [00:14:51]:** では、なぜ 100 万という数は不可能なのでしょうか？ **イーサン [00:14:54]:** 生成モデルにおける語彙は連続的です。それは連続空間を形成しています。画像をベクトルにマッピングすると考えればよいでしょう。これは固定長のベクトルであり、長さは 16 や 48 など、そのような数値になります。そして、そのベクトルを再び画像空間へマッピングします。このマッピングはパッチベース（領域ベース）で行われます。つまり、 **イーサン [00:15:22]:** 16x16 のパッチを、この潜在空間にマッピングします。 **スワイ [00:15:29]:** これはすでに説明済みです。 **ヴィブ [00:15:30]:** これはビジョントランスフォーマーのようなものです。 **スワイ [00:15:32]:** VAEs（変分オートエンコーダー）。 **イーサン [00:15:33]:** VAEs です。 **ヴィブ [00:15:34]:** 要するに入力を圧縮し、生成を行い、その生成をより小さな次元空間で推論してから、再び投影して出力します。 **スワイ [00:15:43]:** VAE は一種の圧縮形式ですが、私にとってパッチ化という考え方は VIT（ビジョントランスフォーマー）から来ているのでしょうか？ **イーサン [00:15:48]:** それらを作ることができます。 **スワイ [00:15:49]:** 文字通り、はい。論文のタイトルは「16x16 で十分」といったようなものでした。また、この種のパッチ化と畳み込み（convolutions）との比較もよく行われていますね。 **スワイ [00:16:02]:** つまり、新しい手法で古いパラダイムを再構築しているようなものです。 **イーサン [00:16:05]:** 実は VAEs には、畳み込みネットワークとトランスフォーマーの両方が含まれています。実際、両方とも使用可能です。 **イーサン [00:16:14]:** この VAE の後、得られるのは潜在空間トークンと言語トークンです。つまり、拡散トランスフォーマーのトレーニングでは、通常生成モデルは拡散トランスフォーマーを使用します。これは非常に標準的な手法で、言語トランスフォーマーモデルを訓練する方法と非常に似ています。大きな違いはありません。単に、入力と出力が視覚トークンであるという点だけです。唯一の違いは、ノイズ除去プロセスがあることです。つまり、モデルにノイズの一部をアンマスク（除去）させるように訓練します。視覚トークンにランダムなノイズを加え、そのノイズを取り除いてクリーンなトークンを生成するようにモデルを訓練するのです。推論時には、モデルは 100% のノイズから反復的にノイズを除去することができます。 **スワイ [00:17:12]:** また、拡散の技術ツリーにおいて速度を上げるために、CFG（Classifier-Free Guidance）がありますし、潜在拡散という手法もあります。その中には誰かが関わっているはずです。おそらくどこかの時点で、Stability 社やその他の多くの企業が、これらのアーキテクチャの多くを開拓したのだと思います。この点について詳しくお話しするか、それとも動画側の話題に進むかはお任せします。 **イーサン [00:17:37]:** このようなモデル、つまり画像モデルを訓練した後、それが動画モデルの基盤となる理由は、画像モデルの方が訓練コストが安く、言語と画像の間にははるかに密接な関連性があるからです。すみません、言語とテキストではなく、言語と画像です。例えば、10 億枚の画像で訓練し、テキストから画像へのマッピングが存在するとします。同じように、10 億のテキストを 10 億の動画にマッピングして訓練する場合、そのコストははるかに高くなります。なぜなら、動画は本質的に画像よりも多くのトークンを含むからです。拡散モデル（diffusion models）における言語理解は、純粋にこのマッピングから得られるものです。したがって、十分なマッピングがない場合、例えば 1000 万本の動画などでしか訓練しない場合、訓練データ内で十分な数の言語トークンを確認できず、モデルが人間の意図を十分に理解できない可能性があります。そのため、まず画像拡散モデルを訓練し、そこから動画モデルをブートストラップ（bootstrap）するのです。 **スワイ [00:18:53]:** 一つお聞きしたいことがあります。実は、私がこれまで話した中で、あなたはおそらく初めて動画モデルの専門家の方だと考えています。ルマ社（Luma）や他の関係者たちとはすでに話をしていますが、動画圧縮にはさまざまなトリックがあります。基本的にフレームごとに大きな違いがないため、すべてのフレームを再生成したり保存したりする必要はないのですよね？MP4 圧縮やそれと同様の技術のことです。 **Swyx [00:19:16]:** それを使うのは魅力的ですか？あるいは私の知る限り、誰もがそれを「いいえ、各フレームを生成するだけです」として扱っているようですが、それが現在の最先端の状況と大まかに一致していますか？ **Ethan [00:19:27]:** いくつか異なるアプローチがあります。まず、MP4 の圧縮（compression）をそのまま使用し、それをトランスフォーマー（transformer）が学習するためのトークンとして利用したいというケースを考えてみましょう。実際、人々はこれを試したことがありますが、主な課題は MP4 トークンの潜在空間（latent space）がモデルにとって理解しにくいものであり、非常に扱いにくいものだった点です。そのため、その上で訓練するのは極めて困難です。 **Ethan [00:20:01]:** そのため、VAE（Variational Autoencoder：変分オートエンコーダー）が作成されました。これはより連続的な潜在空間を生成するため、モデルはその潜在空間を理解し、そこから学習することがはるかに容易になります。VAE の内部においても、潜在空間には異なる難しさがあります。例えば、最も単純で素朴な VAE は、画像を用意してすべての画像をベクトルにシャッフルするだけのものだと想像できます。つまり、VAE を訓練する必要さえありませんが、その潜在空間はモデルにとって学習の基盤として極めて困難です。そのため、トークンをどのように圧縮するかについて議論が行われています。あなたはフレームごとに圧縮できるとおっしゃいましたが、時間軸（temporal dimension）を圧縮することも可能です。 **Ethan [00:20:52]:** 違いは、時間次元を圧縮すれば、はるかに高い圧縮率が得られる点にあります。なぜなら、フレーム間には時間的な冗長性があるからです。つまり、現在のフレームと直前のフレームはほとんど同じである可能性が高く、わずかな差分しか存在しないのです。例えば、12.1 VAE では、8×8×4 の圧縮率を持っています。つまり、4 つの時間トークンが 1 つのトークンに圧縮されることになります。これにより、コンテキスト長を大幅に削減できます。もしフレームごとに処理を行うなら、おそらく 8×8×1 となるでしょう。その場合、コンテキスト長は 4 倍になります。とはいえ、フレームごとの圧縮の利点については後ほど改めて触れるかもしれませんが、それはリアルタイム性と対話性です。なぜなら、モデルの出力をフレームごとに生成すれば、ユーザーからのあらゆるリクエストに即座に対応できるからです。したがって、時間方向に 4 倍の圧縮（4 つのトークンを 1 つに）を行うと、 **Swyx [00:22:06]:** レイラグが生じる可能性があります。 **Ethan [00:22:07]:** 本質的にそこに遅延が発生します。 **Swyx [00:22:10]:** つまり、あなたはこれに非常に熱心なのですね。それでは、視覚資料も用意されているので早速取り上げましょう。リアルタイム動画生成の最先端応用例としていくつかあります。最近バズった「Flipbook」もその一例です。さて、「Flipbook」とは何でしょうか？ **Ethan [00:22:23]:** Flipbook は、いわばウェブブラウザのようなものです。上部にはウェブブラウザの UI が表示されているのがわかります。違いは、すべての UI が生成画像モデルによってリアルタイムで生成されており、ここにあるものはすべて架空のものだということです。しかし、この想像上の世界の中を探索することはできます。例えば、ここでは「ピラミッドの建設」について取り上げています。モデルはこの仕組みを理解するために私たちにこのようなものを生成しますし、さらに詳しくナビゲーションして理解したい場合は、ここにあるいくつかの説明をクリックするだけで、モデルが知りたい詳細を説明する新しいページやサブページを生成してくれます。 **Swyx [00:23:14]:** つまり要するに、私たちは動画を見ているようなものですが、次のインタラクションのために一時停止され、そのインタラクションに基づいて次に再生されるという仕組みですね。 **Swyx [00:23:23]:** それはかなりクールなことです。 **Vibhu [00:23:25]:** そして、物語の展開を自分で決めることができます。では、「ピラミッドはどうやって作るのか？」という点ですが、レバリング技術（levering technique）が興味深いですね。これは「さて、これが何なのか知りたい」という場合にどうするかを示しています。 **Swyx [00:23:35]:** デモのツイートでは、フレーム間のアニメーションがもっと多かったはずです。 **Vibhu [00:23:38]:** 単にスキップしているだけだと思いますが、 **Swyx [00:23:39]:** ああ、大量のフレームをスキップしているんですね。 **Ethan [00:23:40]:** 動画モードもありますよ **Vibhu [00:23:42]:** 多くの人が使っています。多くの人々が **Ethan [00:23:42]:** しかし、多くの人が利用しています。 **Ethan [00:23:45]:** そのため、現在は利用できません。 **Vibhu [00:23:46]:** 生放送の動画ストリームがあります。試してみましょう。 **Swyx [00:23:50]:** つまり、これはあなたが極限まで見据える未来の一例です。もちろん、私たちは今日その世界にはいませんが。 **Swyx [00:23:56]:** しかし、推論（inference）が完全に無料になる世界では、コードやテキストを生成することよりも優れているのでしょうか？ **イーサン [00:24:02]:** これが、Viva のワードモデルにおける最終的な状態の姿だと私は考えています。インターネットが存在しない世界を想像してみてください。そして google.com と入力します。その時、モデルはあなたに何を見せるべきでしょうか？モデルは何らかのものを想像し、これがそのモデルが想像したものです。これらのウェブページは完全に存在しません。推論コストが低下するにつれて、あらゆるものに対してジェネレーティブ UI（生成型ユーザーインターフェース）が実現されるようになると思います。コーディングモデルがどのように動作するかを考えてみてください。彼らはウェブページのコードを書き、そのコードをレンダリングします。このコードはバイナリに変換され、そのバイナリが画面上のピクセルをレンダリングするのです。機械学習において、私たちは常に新たなブレークスルーを起こしますが、明らかにそれはより直感的なものです。なぜなら、ユーザーからの指示を直接ピクセルに送るような仕組みがないのでしょうか？つまり、ジェネレーティブ UI とは、ユーザーの意図を直接ピクセルへと変換するものなのです。例えば、メールを見たい場合でも、誰もが同じインターフェースを使っているとしても、私はそれを少しだけ違う形にしたいと望みます。メールを TikTok のように表示させたいのです。そうすれば、メールを左右にスワイプして閲覧できます。あるいは、あなたが別のものを望むこともあるかもしれません。全く異なるものも可能です。例えば、Instagram ストーリーを見ていて、「いいね」ボタンが気に入らない場合でも、私はいつもそれをクリックしてしまいます。しかし、ジェネレーティブ UI がその問題を解決します。これはインターフェースに対する革命的な置き換えとなるでしょう。将来、私たちははるかに強力な **イーサン [00:25:50]:** 背後では LLM（大規模言語モデル）やコーディングモデルが動作し、フロントエンド側では拡散モデルが実際にあなたに情報を表示する役割を果たします。それが私のイメージです。 **スワイクス [00:26:02]:** フロントエンドは拡散モデル、バックエンドは決定論的（デターミニスティック）。 **スワイクス [00:26:04]:** そういうことです。非常に高価だと感じますが、 **ヴィブー [00:26:08]:** LLM がバックエンドでコードを記述することを「決定論的」と呼んだ点について興味深いと感じますね。でも、いいですよ。 **スワイクス [00:26:14]:** 一度だけ記述すれば **ヴィブー [00:26:15]:** それと比較して **スワイクス [00:26:16]:** そして実行するだけです。 **イーサン [00:26:17]:** コストについて考えてみましょう。例えば、H100 のコストが 1 時間あたり 1 ドルだと仮定します。これを 1 日 8 時間、30 日間使用すると、毎月 240 ドルを支払うことになります。実際には、そんな費用を払いたくはないでしょう。それは Cloud Code Max よりもさらに高価です。しかし、計算コストは毎年約半分（2 倍の効率化）に低下していくと考えると、未来は数年内に訪れる可能性が高いと思います。 **ヴィブー [00:26:49]:** つまりすべてが揃うわけですね。計算コストが下がり、計算速度が上がり、モデルが賢くなり **イーサン [00:26:54]:** より効率的に **ヴィブー [00:26:54]:** モデルが小さくなる。 **スワイクス [00:26:55]:** なぜ「半分（2 倍）」とおっしゃるのか分かりませんが、私は約 100 倍だと考えています。言語モデルにおいては、同じ LMSys ELO レベルを維持する上で、12 か月から 18 ヶ月ごとに概ね 100 倍から 1,000 倍の進歩があります。 **Vibhu [00:27:08]:** それはすべての要素を網羅したネット効果ですね。つまり、計算リソースの削減だけでなく、モデル性能も向上するということです。非常に興味深い未来像です。 **Swyx [00:27:19]:** つまり、ウェブデザイナーはアクセシビリティが課題であることを叫ばなければなりませんね。スクリーンリーダーやその他の対応をどう扱うかという点です。しかしはい、これはコードで生成できるどんなものよりも高い帯域幅を持つストーリーテリングと言えますよね。それが大まかなアイデアだと思います。 **Ethan [00:27:34]:** さらに付け加えたいのですが、人間は物事を見たり動画を見たりする際に最大の入力帯域幅を持ち、話している際には最大の出力帯域幅を持っています。つまり将来は、私たちが AI モデルに話しかけると、AI モデルが生成 UI（Generative User Interface）で応答するような形になるかもしれません。これはニューラルリンクが登場する前に、AI モデルと対話するための最大の入力・出力帯域幅を実現する手段となるでしょう。 **Vibhu [00:28:06]:** また、それは非常にカスタマイズ可能ですね。視覚的な情報を好む人もいれば、そうでない人もいる。テキストを好む人もいます。しかし生成 UI の素晴らしい点は、それがテキスト形式でも実現できることです。 **Swyx [00:28:17]:** 紹介したい別のプロジェクトとして、Neural OS（ニューラル OS）があります。似たようなアイデアですが、ここではあなたがリテ

動画エージェントモデルが次世代へ — xAI のイーサン・ヘ氏に聞く Grok Imagine の開発秘話（98 分読み）

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト