動画エージェントモデルが次なる潮流へ — xAI のイーサン・ヒー氏、Grok Imagine を語る
xAI の Ethan He は、次世代の動画生成モデルは単なる拡散モデルではなく、LLM を中核とした計画・編集・反復機能を持つ「ビデオエージェント」へと進化すると予測し、業界のパラダイムシフトを示唆している。
キーポイント
ビデオエージェントへの転換
今後の動画生成の次なる進化は、より高品質な拡散モデルではなく、LLM を活用して計画・編集・批判・反復を行う「ビデオエージェント」である。
知能の源泉としての LLM
動画モデルの真の知能は、大量の動画データでの学習そのものよりも、背後にある大規模言語モデル(LLM)からの推論能力に由来すると主張する。
開発プロセスの教訓
xAI はわずか 3 ヶ月で「Grok Imagine」を構築したが、その成功要因は小規模チームによる高速なイテレーションと、データ・トレーニングパイプラインの微細なバグ修正にある。
生成 UI と JIT の未来
推論コストと速度の低下により、動画生成モデルが AI のフロントエンドとなり、HTML/CSS に代わる動的なカスタム UI(JIT UI)を構築する「Flipbook」のような未来が現実味を帯びている。
ビデオモデルの基盤と効率化
画像モデルが動画生成の基礎となり、VAE や潜在空間を活用することで計算コストを削減し、ステップ蒸留や一貫性モデルにより推論速度を劇的に向上させている。
ビデオエージェントと世界モデル
言語モデルが動画生成の質を高める鍵となり、将来的にはユーザーの意図から直接ピクセルへ変換する「ビデオエージェント」や、ロボット工学における物理的世界モデルが次なるフロンティアとなる。
xAI の開発文化と技術的課題
第一原理に基づく xAI の文化が開発スピードを加速させた一方、大規模動画モデルのトレーニングにはストレージ、転送コスト、GPU 時間の隠れたコストが伴い、音声・動画アライメントはテキスト・動画よりも困難である。
影響分析・編集コメントを表示
影響分析
この記事は、動画生成 AI の開発方向性が「単なる映像の生成」から「知的な意思決定と操作を行うエージェントシステム」へとシフトすることを示唆しており、業界全体のパラダイム転換を告げる重要な指標です。特に LLM の推論能力が動画モデルの知能の中核となるという見解は、今後のアーキテクチャ設計や研究リソースの配分において大きな影響を与える可能性があります。
編集コメント
動画生成 AI の次のステップが「拡散モデルの性能競争」ではなく「LLM を活用したエージェント機能の実装」にあるという洞察は、開発戦略を根本から見直す必要がある重要な示唆です。特にデータ品質の微調整や高速イテレーションの重要性を強調している点は、実務家にとって極めて価値のある知見です。
今週、AIEWF のスピーカーを発表します!AI エンジニアリング調査に参加してください。
今日のゲストであるイーサンは、まず NVIDIA Cosmos ワールドモデルのリーダーとして LS Paper Club に参加しましたが、その後 xAI へ移り、3 ヶ月で Grok Imagine を構築しました。
彼は Latent Space で再び登場し、いくつかの過激な見解を述べています。それは、「ビデオモデルの知能は主に動画データでのトレーニングではなく、LLM から得られている」という点と、「真にインタラクティブでリアルタイムかつ長期ホライズンのワールドモデルにおける次のフロンティアは、LLM(おそらく Interaction モデルも含まれる)に取り組むことにある」という点です。
こう言い換えてみましょう:近未来において、次世代の Sora はより優れたビデオモデルではなく、「ビデオエージェント」になるでしょう。
生成メディアは、AI コーディングの進化にさらに密接に従う可能性があります。それは、単発出力のパフォーマンスとコストに焦点を当てる段階から、計画・編集・テスト・デバッグ・PR 提出が可能なエージェントやシステムのための多ターン推論およびプランニングモデルへと移行した過程です。
ある時点で、コーディングモデルはあまりにも優秀になり、パフォーマンスを向上させるための次の重要なステップは、これらのモデルのオーケストレーション(調整)を扱うことだけとなりました。
現在、ビデオモデルのパフォーマンスがリアリズム、一貫性、プロンプト遵守において大幅に向上し、コスト効率も高まっている中で、動画生成の次の進化段階もまた、計画・生成・編集・批評・反復を通じて創造的なタスク全体を処理できるシステムになる可能性があります。
今回のエピソードでは、イーサンがスワイとヴィブと共に、最先端の画像・ビデオシステムを構築するために実際に必要なもの——データ、VAE(変分オートエンコーダー)、拡散トランスフォーマー、オーディオ・ビデオのアライメント、推論速度の向上、そして膨大なビデオデータを保存・移動させる際の隠れたコスト——について掘り下げます。NVIDIA の Cosmos ワールドモデルの構築から、ゼロからイチへと成長する Grok Imagine の開発に参加した xAI への移籍まで、イーサン・ヘは動画生成、マルチモーダルモデル、リアルタイム型ワールドモデルにおける最も重要な仕事の中心にいました。
Grok Imagine について深く掘り下げ、小規模な xAI チームが最初のマルチモーダルビデオモデルをわずか 3 ヶ月でリリースした理由、モデル開発においてイテレーション速度がほぼ何よりも重要である理由、そして多くの大きな成果がデータやトレーニングパイプライン内の些細なバグを修正することから生まれる理由について議論します。
Flipbook: Videomaxxing の未来
ビデオエージェントは来年のトレンドになることがほぼ確実視されています。最後に、ビデオエージェントを超えた先にあるものについて少し触れます。
Flipbook は今年リリースされた際、ちょっとした話題を呼んだものの、多くの人にとっては単なる楽しいデモに過ぎないと捉えられています。しかしイーサンはこれを非常に真剣に受け止めています。推論の速度とコストが毎年低下するにつれ、カスタム動画 JIT UI の未来はあなたが思っているよりも近いのです。私たちは、なぜビデオ生成モデルが AI のフロントエンドとなり得るのか、なぜ生成型 UI が従来の HTML/CSS を置き換える可能性があるのか、なぜ世界モデルはリアルタイムでインタラクティブかつ長期の視野を持つ必要があるのか、そしてなぜ動画生成の未来は拡散モデル単独よりも言語モデルやエージェントに依存する可能性が高いのかについて議論しました。
私たちが取り上げたトピック:
なぜ迅速な反復が会議よりも重要だったか
なぜ小さなトレーニング上のバグが巨大なモデル品質の向上につながるのか
なぜコーディングモデルは再び計算リソースをボトルネックにする可能性があるのか
合成キャプションを用いた画像および動画モデルの訓練方法
最先端の動画モデルにおける VAE と潜在空間の役割
なぜ画像モデルが動画モデルの基盤となるのか
時間圧縮とリアルタイムインタラクションの間のトレードオフ
Flipbook、Neural OS、そして生成型 UI の未来
なぜ将来のインターフェースはユーザーの意図からピクセルへと変化する可能性があるのか
動画モデル訓練における隠れたコスト:ストレージ、エグレス、GPU 使用時間
ステップ蒸留とコンシステンシーモデル(OpenAI の sCM など)がどのようにして動画推論を桁違いに高速化するか
Grok Imagine 0.9 と大規模なオーディオ・ビデオ生成
なぜオーディオ・ビデオの同期はテキスト・ビデオの同期よりも難しいのか
イーサンによる世界モデルの定義
参照動画、動画拡張、長文脈動画生成
なぜ xAI の研究発表は Grok Imagine を過小評価しているのか
xAI の文化が開発スピードに与えた影響
AI 透かし、SynthID、生成メディアの検出
なぜプロンプト書き換えが動画モデルにとって重要なのか
Grok Imagine エージェントとビデオエージェントの台頭
なぜ言語モデルがより優れた動画生成を可能にするのか
ロボティクス、物理 AI、そして具現化された世界モデル
なぜイーサン・ヒーが xAI を離れ、LLM への焦点をシフトしたのか
自己管理コンテキスト、メモリ、そして言語モデルの次のフロンティア
イーサン・ヒー
LinkedIn: https://www.linkedin.com/in/ethanhe42
X: https://x.com/EthanHe_42
タイムスタンプ
00:00:00 イントロダクション
00:01:25 NVIDIA Cosmos から xAI へ
00:03:24 ゼロからイチまで Grok Imagine を構築する
00:10:07 画像および動画モデルのトレーニング方法
00:18:53 動画圧縮、VAE(変分オートエンコーダー)、そしてリアルタイムでのトレードオフ
00:22:10 生成 UI、Flipbook、ニューラル OS
00:32:10 大規模動画モデルのトレーニングコスト
00:37:04 蒸留、GAN(敵対的生成ネットワーク)、そして高速な動画推論
00:41:21 オーディオ・ビデオ生成と Grok Imagine 0.9
00:48:34 世界モデルとは何か?
00:55:51 参照動画、長文脈、そして動画メモリ
01:00:11 xAI の文化、研究、そして第一原理に基づく構築
01:09:45 AI セーフティ、透かし、プロンプト書き換え
01:13:10 ビデオエージェントと AI 支援クリエイション
01:27:32 なぜ言語モデルがより優れた動画生成を可能にするのか
01:31:15 ロボティクス、物理 AI、具現化された世界モデル
01:32:38 イーサン・ヒーが xAI を離れた理由
01:34:16 自己管理型コンテキストと LLM の未来
01:38:43 イーサン・リーのキャリアパスと結びの言葉
通訳
イントロダクション:イーサン・リー、Latent Space、そして xAI への道
Swyx [00:00:00]: 私たちはスタジオで、最近では xAI に所属していたイーサン・リーを迎えています。ようこそ。
Ethan [00:00:10]: ありがとうございます。ここに来られて嬉しいです。
Swyx [00:00:11]: また、ヴィブも一緒にいますね。あなたは NVIDIA で Kosmos の開発に取り組んでおり、論文も執筆されました。私たちはそれを大変気に入りましたし、発表もしていただきましたので、ありがとうございました。
Ethan [00:00:23]: 実は私も、Latent Space で MoEs(混合専門家モデル)について二度発表しました。
Swyx [00:00:29]: 実際にはどうやって私たちを知ったのですか?こちらから連絡したのでしょうか?そうして繋がったのでしょうか?
Ethan [00:00:33]: いいえ、実はコミュニティからです。ああ、AI について語り合い、毎週 Paperclip を通じて論文を読み合いながら学び合えるオンラインコミュニティがあるのだと気づきました。とても素晴らしいものです。
Ethan [00:00:49]: 私は多くのことを学びました。
Swyx [00:00:49]: 3 年続いていますね。クリスマスや新年でも中断したことはありません。何度も止めたいと思う週もありますが、それでも続いていきます。
Vibhu [00:00:58]: いいえ、それは素晴らしいことでした。あなたが論文に取り組んでいると投稿されたのを見て、「ああ、とても面白い。Paperclip で発表しよう」と思ったのです。
Vibhu [00:01:04]: その後、こちらから連絡したかもしれませんね。
Swyx [00:01:05]: あなたは——アマチュアクラブだからですね?
Swyx [00:01:08]: とても珍しいことですが、論文の著者の方々が実際に説明に来ることもあります。今日もまさにそれを行いました。プールサイドの論文で、どうやら非常に素晴らしいもののようです。
Vibhu [00:01:18]: 昨日発表されましたね。
Vibhu [00:01:19]: とても興味深いですよね?完全にオープンです。システムについてすべてを議論しています。とても良い論文なので、皆さんに読むようお勧めします。
Swyx [00:01:25]: xAI への移行について、最新の状況を教えてください。実はいつ参加されたのかさえ把握していないので、そのあたりの経緯やストーリーを詳しくお聞かせください。
NVIDIA Cosmos から xAI へ:ビデオと世界モデルのスケールアップ
Ethan [00:01:34]: xAI に入る前は、NVIDIA で Kosmos(コスモス)という世界モデルに取り組んでいました。Kosmos は巨大なビデオ基盤モデルで、世界をシミュレートすることを目的としており、すべてのロボティクス研究者がその上に構築するための基盤となります。そこで Kosmos One を構築した後、このモデルも言語モデルと同様のスケール則(scaling law)を持っていることに気づき、さらにビデオモデルの規模を拡大する必要があると悟りました。そのため、より多くの計算リソースを持つ場所へ移る必要があると感じたのです。それが私が
Swyx [00:02:13]: NVIDIA を離れて xAI に来た理由ですか?
Vibhu [00:02:14]: GPU に富んだ環境が自ら私を呼んだのです。
Vibhu [00:02:19]: タイムラインで言うと、Kosmos はいつ頃でしたか?かなり早期でしたね。オープンな世界モデルで、論文もすべて公開されていました。
Ethan [00:02:25]: 2024 年の終わりです。
Vibhu [00:02:28]: 2024 年の終わりですね。
イーサン [00:02:30]: その後、25 歳半ばに xAI に移りました。その時—私は xAI が動画モデルやマルチモーダルモデルの構築を間近に控えていた時期に参加しました。当時はインフラもデータもモデルもなく、数人のエンジニアとして 3 ヶ月でそれを構築し、最初のモデル「Grok Imagine zero point nine」をリリースしました。
イーサン [00:02:55]: それ以来、私は動画モデルの取り組みを続け、トレーニングから動画モデルのポストトレーニングへと重心を移してきました。例えば、ビデオへの参照機能や、カメオのような機能、そしてビデオ拡張機能などです。私が去る前には、世界モデルに取り組んでおり、小規模チームを率いてリアルタイムでの長期ホライズン動画生成に注力していました。
ゼロから 3 ヶ月で Grok Imagine を構築する
スワイ [00:03:24]: 新しいチームに加わった際の大まかなロードマップを教えていただけますか?以前、Grok はテキストのみ、あるいは画像生成については BFL と提携していましたが。では、必要な構成要素とは何でしょうか?計算資源や調達可能なデータなどがありますよね。新しいチームを立ち上げる際に、人々が考えるべき事柄の順序はどのようなものですか?
ヴィブ [00:03:43]: 実はそれよりもさらに深く、単に調達できるデータというだけでなく、皆さんもそのデータを入手するプロセスを経たはずです。非常に速くリリースしましたが、そうですね。
スワイ [00:03:51]: 3 ヶ月というのは、
ヴィブ [00:03:52]: すべてのことを含めて
スワイ [00:03:52]: 実際には非常に驚くほど速いです。
イーサン [00:03:55]: NVIDIA で得た経験から言えることの一つは、コスモスを一緒に構築していた最初の頃、約 1 年かけて作り上げたことです。つまり、これは私が二度目にこの作業を行うことになります。おおよそ何をすべきかの見当がついています。最も重要なのは人材です。全員が非常に優秀で賢く、共通の目標に向かって互いに密接に連携していました。これによりスピードが大幅に向上しました。人々間のコミュニケーション・バンド幅を減らし、誰もが同じ目標に向かって作業できるからです。毎日カレンダーに会議があまり入っていないようなもので、例えば 1 日に一度同期する程度です。その後はすべて構築に集中します。当時はとても楽しかったです。
イーサン [00:04:47]: もう一つの点は、xAI がデータ推論やモデル推論において非常に強力な基盤を持っており、それを支える環境がモデルの開発を大きく助けることです。モデルのトレーニングを見ると、実は最も重要なことは 1 日に何回のイテレーション(反復)を行えるかです。より多くのイテレーションが可能であれば、モデルをはるかに高速にトレーニングできます。したがって、非常に強力なインフラと十分な計算リソースがあれば、これらのモデルを極めて短期間でトレーニング可能です。これによりエラーに対する大きなバッファが得られ、より多くのバグを発見する機会も生まれます。
イテレーション速度、計算資源、およびデバッグ用モデルパイプライン
スワイ [00:05:46]: イテレーションとは具体的に何を指すのでしょうか?数百ステップ程度のことを言っているのですか?それとも
Ethan [00:05:50]: 例えば、モデルのトレーニング自体を指すなら、新しいデータを取得して、おそらく新しいアルゴリズムを設計し、新しいモデルをトレーニングすることです。規模は小さくても構いません。
Swyx [00:06:01]: つまり、探索するハイパーパラメータごとのサイクル時間のことですね。
Ethan [00:06:04]: サイクル時間と、このモデルを評価して調整することです。このモデルは前回の反復よりも優れているでしょうか?
Ethan [00:06:11]: つまり
Swyx [00:06:11]: ですから、あなたが非常に迅速に反復できるよう、誰かが事前にこれを設定してくれていたようなものです。
Ethan [00:06:15]: そこにはモデルの開発と研究にとって極めて優れた基盤があると思います。
Ethan [00:06:23]: そしてよく気づくのは、これは少し退屈な話ですが、多くの改善は新しいアルゴリズムから来るのではなく、データパイプラインやモデルトレーニングパイプラインのあちこちに潜む小さなバグを見つけることから生まれるのです。それらがモデル品質に対して最も大きな向上をもたらします。
Vibhu [00:06:46]: 面白いですね。つまり、あなたは少人数でコミュニケーションの帯域幅が狭いチームでも、多くの品質向上は小さなバグを見つけることによるものだとおっしゃいます。それは直感に反するように思えますよね?大勢の人がいれば、そうしたバグをより多く取り除けるはずですが、反対側の視点を見るのは興味深いですね。
Swyx [00:07:00]: 私も疑問に思うのですが、LLM(大規模言語モデル)を使ってバグを探す試みはされていますか?わかりません。
イーサン [00:07:05]: その時は 2025 年半ばでしたから、コーディングモデルはまだ完全に成熟していなかったのを覚えています。2025 年 12 月頃には非常に優秀になっていましたね。その頃は実際に使っていました。確かに役立ちますが、一度にものすごく速く構築したとしても、メンテナンスが難しいコードを生成してしまうことがあります。スパゲッティコードと呼ばれるような数千行のコードで、自分では維持できず、LLM(大規模言語モデル)自身も何が問題でどう改善すべきかを見極められなかったのです。しかし現在は遥かに良くなっています。もう一点付け加えるなら、現在のコーディングモデルははるかに効率的になり、より迅速に実装を支援できるようになっています。計算リソースが再びボトルネックになる可能性があります。以前は新しいモデルを訓練したい場合、例えば新たな合成データを生成したり新しいアルゴリズムを書いたりするには数週間かかることもありました。その期間中は実験を実行できないこともあったのです。しかし今は数時間で構築でき、すぐにモデルの訓練を開始できます。
イーサン [00:08:24]: 今ではすべてのアイデアを試すのに十分な計算リソースが必要です。そのため、計算リソースがイテレーション速度のボトルネックになる可能性があります。
スワイ [00:08:36]: はい、正直に言って、これはストレスの多い仕事だと思います。「何でも試すべきだ。もし試していないなら、私は仕事をうまくこなせていない」という感覚に駆られるからです。
Vibhu [00:08:48]: また、1 時間に数千もの GPU を消費するというストレスもあります。これは非常に高価であり、計算リソースは他の研究者にも回すべきです。
Swyx [00:08:56]: お父さんである Elon がいますからね。
Vibhu [00:08:57]: お父さんである Elon がいますよ。
Ethan [00:08:59]: それは
Vibhu [00:09:00]: しかし、計算リソースには限りがあります。使いたいし、うまく使いこなしたいし、もっと欲しいのです。
Ethan [00:09:06]: 確かにかなりストレスフルでしたよ。そうですね、コーディングモデルについては、多くの仕事が自動化できるようになり、それは非常に良いことです。第二に、これはマラソンのようなものですから、健康を維持し、規則正しいスケジュールを保つ必要があります。
Vibhu [00:09:28]: 2 ヶ月でゼロから何もない状態へ移行する際に、それを聞くのは難しいですね。
Swyx [00:09:32]: そして、明らかに xAI の文化は非常に有名で、人々は非常に努力しています。私がぜひ掘り下げたいと思ったのが、事前に送っていただいたノートの中の一点です。動画生成(Video Gen)のトレーニングコストについて具体的なコメントがありましたね。おそらく Colossus-1、つまり 200 メガワットのクラスター上での話ですよね?それについて何か共有していただけますか。
Vibhu [00:09:54]: 私たちが話していることは三つあると思いますよね?動画生成(Video Gen)と、あなたが公開した画像生成モデル(Image Gen model)です。続きとして、ゼロから一つへという段階を完成させましょう。数ヶ月かけてですが、画像生成モデルを作成する段階とは具体的にどのようなものですか。
Swyx [00:10:06]: ああ、ええ、もしかしたら気が散っていたのかもしれません。
画像および動画モデルのトレーニング方法:合成キャプション、トークナイザー、VAE
Vibhu [00:10:07]: すみません。そしてそこから、Video Gen(動画生成)を経て Audio Gen(音声生成)へと進みます。これらについて詳しく知りたいのですが、最初の数ヶ月はどのようなものなのでしょうか?チームは小さく、バグも多く、反復作業が続きますが、実際にはどういった状況になるのでしょうか?市販のものをそのまま使うのか、それともデータと計算リソースを確保するだけなのか。最初の数ヶ月とは具体的にどんな様子なのでしょうか?どのようにして最先端の画像生成モデルに到達するのか、そもそもどこから始めればよいのでしょうか。
Ethan [00:10:28]: xAI が具体的にどう行ったかについてはコメントできませんが、これは非常に標準的なプロセスです。Cosmos の例をいくつか挙げることができます。主に動画モデルを構築するには、まず画像モデルを構築する必要があります。この 2 つのモデルを構築する際に必要となるデータは、言語と画像のペア、あるいは言語から動画への対応付けにおいて 100% 合成されたものです。なぜなら、インターネット上では、動画が自然にテキストと関連付けられていないからです。つまり、「YouTube にはタイトルや説明、コメントがある」と言えるかもしれませんが、それらは通常、動画そのものとは関連性がありません。例えば、動画が山などの自然風景である場合でも、タイトルは「今日はとても幸せです」のような内容だったりします。
Swyx [00:11:11]: タイトル
Ethan [00:11:11]: 動画のタイトルですが、通常は動画そのものとは関連していません。
イーサン [00:11:26]: つまり、それらには全く相関がありません。最初のステップは、動画と対応する言語ペアを合成データとして生成することです。インターネットから動画を収集し、VLM(Vision-Language Model)を用いて動画にキャプションを付けます。ここで一つ質問があります。そもそもどうやって VLM を集めるのか?もし VLM が存在しない場合、最初からテキストをどのように生成するのか?それは不可能です。
スワイ [00:11:55]: つまり、モデルを融合させるわけですね。
イーサン [00:11:57]: もし VLM が存在しないなら、最初からテキストをどう生成するか。それは不可能です。
スワイ [00:12:04]: なるほど。
イーサン [00:12:05]: 最初は人間に動画の詳細な説明を依頼します。具体的には、動画内のすべての物体、すべてのキャラクター、そしてすべての相互作用や対話をできるだけ詳しく記述してもらうのです。これが Cosmos ラベリングのプロトコルです。ラベラーに対して求める目標は、「盲の人がテキストの塊を聴くだけで、頭の中で動画の内容を再構築できるほど詳細に動画を説明すること」です。
スワイ [00:12:43]: 動画ですか?それとも画像ですか?画像について話していますね。
イーサン [00:12:44]: 動画でも画像でも、どちらでも構いません。
ヴィブ [00:12:47]: これは CLIP や DALL-E から移行する際によく行われていたことですよね。
ヴィブ [00:12:51]: すべてが非常に詳細な画像キャプション付けのトレーニングに基づいています。同じアプローチを動画にも適用しますが、代わりに
イーサン [00:12:57]: 同じことが適用されます
Vibhu [00:12:57]: 多モーダルモデルを用いて動画画像を入力し、詳細な記述を生成するだけでなく
Swyx [00:13:04]: 私は、従来の教師あり学習や、非常に高度に人間が手作業でキュレーションしたアプローチという視点があると思います。しかし、教師なし学習には何らかの突破口があると感じています。つまり、十分なデータがあれば、一般的なコーパスをそのまま投入するだけで、あるいは何らかの方法で、教師なしの視覚と言語のペアリングが可能になるのです。画像とテキストが混在している状態から、モデルが自ら学習していくようなケースです。私にとって、これは CLIP や言語モデル(LM)時代とは異なる、VLM における画期的な突破点です。
Ethan [00:13:36]: 実際には、両方のデータが必要になるという点は興味深いですね。
Ethan [00:13:41]: 例えば、
Swyx [00:13:41]: それを初期化(ブートストラップ)するためにも必要です。はい
Ethan [00:13:43]: 生成モデルのトレーニングにおいては、通常、ラベル付けされていないデータのごく一部も含まれます。つまり、モデルはテキスト指示なしで動画を生成するように指示されます。これにより、モデルの一般化能力を高めることができます。したがって、この生成合成ペア作成の段階の後、重要な共通ステップとして、画像や動画のための圧縮器(compressor)またはトークナイザー(tokenizer)をトレーニングする必要があります。なぜなら、理論的には純粋なピクセル上で画像や動画モデルをトレーニングできるかもしれませんが、問題はトークンの数が膨大になることです。例えば、1000×1000 の画像は約 100 万のトークン、つまり 100 万のピクセルに相当します。そのようなデータ量でトランスフォーマー(transformer)をトレーニングすることは不可能です。そのため、画像から潜在空間(latent space)へ、そして潜在空間から画像へと変換できるトークナイザーをトレーニングする必要があります。
Swyx [00:14:45]: それが私たちがこのポッドキャストに名付けた理由です。
Swyx [00:14:48]: つまり、本質的には語彙科学(vocabulary science)についてお話しされているのです。
Ethan [00:14:50]: 語彙ですね。
Swyx [00:14:51]: では、なぜ 100 万という数は不可能なのでしょうか?
Ethan [00:14:54]: 生成モデルにおいて、語彙は連続的です。それは連続空間(continuous space)です。画像をベクトルにマッピングすると考えられます。これは固定長のベクトルであり、長さは 16 や 48 などとなります。そして、そのベクトルを再び画像へとマッピングします。
原文を表示
We’re announcing AIEWF speakers this week! Take the AI Engineering Survey!
Today’s guest Ethan first joined us for the LS Paper Club as the lead on NVIDIA Cosmos World Model, but then joined xAI and built Grok Imagine in 3 months:
He comes back on Latent Space with some nuclear hot takes: that Video Models primarily get their intelligence from LLMs, not from training on video data, and that the next frontier for truly interactive, realtime, long-horizon world models is to work on LLMs (perhaps Interaction Models as well…)
Put it this way: In the near term, the next Sora won’t be a better video model, but a video agent.
Generative Media may more closely follow the evolution of AI coding which went from focusing on one-shot output performance and cost, to multiturn reasoning and planning models for agents and systems that can plan, edit, test, debug, and submit PRs.
At a certain point, coding models got so good that the only significant next step to improve performance was handling the orchestration of these models.
Now as the performance of video models increases significantly across realism, consistency, & prompt adherence while becoming more cost efficient, the next evolution of video generation may also be systems that can plan, generate, edit, critique, and iterate across an entire creative task.
In this episode, Ethan joins swyx and Vibhu to unpack what it actually takes to build frontier image and video systems: data, VAEs, diffusion transformers, audio-video alignment, inference speedups, and the hidden cost of storing and moving massive video datasets. From building NVIDIA’s Cosmos world model to joining xAI as Grok Imagine was being built from zero to one, Ethan He has been at the center of some of the most important work in video generation, multimodal models, and real-time world models.
We go deep on Grok Imagine, how a small xAI team shipped its first multimodal video model in three months, why iteration speed matters more than almost anything in model development, and why many of the biggest gains come from fixing tiny bugs in data and training pipelines.
Flipbook: The future of Videomaxxing
Video agents are almost a sure bet to be the trend in the coming year. We end with a glance at what’s beyond video agents:
Flipbook caused a minor sensation this year when it was released, but most treat it as a fun demo. Ethan takes it very seriously — with the speed and cost of inference coming down every year, the future of custom video JIT UI is closer than you think. We talked about why videogen models may become the front end of AI, how generative UI could replace traditional HTML/CSS, why world models need to be real-time, interactive, and long-horizon, and why the future of video generation may depend more on language models and agents than on diffusion alone.
We discuss:
Why fast iteration mattered more than meetings
Why small training bugs can drive huge model quality gains
Why coding models may make compute the bottleneck again
How image and video models are trained with synthetic captions
The role of VAEs and latent space in frontier video models
Why image models are the foundation for video models
The tradeoff between temporal compression and real-time interactivity
Flipbook, Neural OS, and the future of generative UI
Why future interfaces may go from user intent to pixels
The hidden cost of training video models: storage, egress, and GPU hours
How step distillation and consistency models (like OpenAI sCM) makes video inference orders of magnitude faster
Grok Imagine 0.9 and large-scale audio-video generation
Why audio-video alignment is harder than text-video alignment
Ethan’s definition of world models
Reference-to-video, video extension, and long-context video generation
Why xAI’s research communication undersells Grok Imagine
How xAI culture shaped the speed of development
AI watermarking, SynthID, and detecting generated media
Why prompt rewriting matters for video models
Grok Imagine Agent and the rise of video agents
Why language models may unlock better video generation
Robotics, physical AI, and embodied world models
Why Ethan left xAI and shifted focus toward LLMs
Self-managed context, memory, and the next frontier for language models
Ethan He
LinkedIn: https://www.linkedin.com/in/ethanhe42
X: https://x.com/EthanHe_42
Timestamps
00:00:00 Introduction
00:01:25 From NVIDIA Cosmos to xAI
00:03:24 Building Grok Imagine from Zero to One
00:10:07 How Image and Video Models Are Trained
00:18:53 Video Compression, VAEs, and Real-Time Tradeoffs
00:22:10 Generative UI, Flipbook, and Neural OS
00:32:10 The Cost of Training Large Video Models
00:37:04 Distillation, GANs, and Fast Video Inference
00:41:21 Audio-Video Generation and Grok Imagine 0.9
00:48:34 What Makes a World Model?
00:55:51 Reference Videos, Long Context, and Video Memory
01:00:11 xAI Culture, Research, and First-Principles Building
01:09:45 AI Safety, Watermarking, and Prompt Rewriting
01:13:10 Video Agents and AI-Assisted Creation
01:27:32 Why Language Models Unlock Better Video
01:31:15 Robotics, Physical AI, and Embodied World Models
01:32:38 Why Ethan Left xAI
01:34:16 Self-Managed Context and the Future of LLMs
01:38:43 Ethan’s Career Path and Closing Thoughts
Transcript
Introduction: Ethan He, Latent Space, and the Path to xAI
Swyx [00:00:00]: We’re here in the studio with Ethan He, most recently of xAI. Welcome.
Ethan [00:00:10]: Thank you. Glad being here.
Swyx [00:00:11]: We’re also here with Vibhu. you were first coming to us or joining the latent space world because you were working on Kosmos at NVIDIA, and you did a paper. We loved it. you presented it as well, so thank you for doing that.
Ethan [00:00:23]: I’ve actually, I also presented the MoEs twice at latent space.
Swyx [00:00:29]: How did you actually hear about us? Did we reach out to you? Is that how it worked?
Ethan [00:00:33]: No, actually, I-- the community. Like I realized, oh, there is this online community that people talk about AI and also learn from each other through papers every week through the Paperclip. It’s very nice.
Ethan [00:00:49]: I learned a lot.
Swyx [00:00:49]: I think three years stop. We haven’t stopped even on Christmas and New Years. many weeks I want to stop but it keeps going.
Vibhu [00:00:58]: No, that was good. I think you had posted that you worked on a paper, and I was “Oh, very cool. We have Paperclip. Present then.”
Vibhu [00:01:04]: But I might have reached out to you after.
Swyx [00:01:05]: you-- because it’s an amateur club, right?
Swyx [00:01:08]: so it’s very unusual and but we have sometimes paper authors come by and actually explain the paper. Today we just did, the poolside paper, which was apparently very good.
Vibhu [00:01:18]: Came out yesterday.
Vibhu [00:01:19]: pretty interesting, right? Fully open. They talk about everything, systems. So it’s a good one. We’ll, we’ll recommend people to read it.
Swyx [00:01:25]: Bring us up to speed on your transition to xAI, ‘cause I actually don’t even know when you joined. just like tell the, tell the story about the sort of transition.
From NVIDIA Cosmos to xAI: Scaling Video and World Models
Ethan [00:01:34]: Before xAI, I was working on Kosmos world model as in-- at NVIDIA. So Kosmos is, it’s a giant video foundation models that can-- that aims to simulate the world and for-- it serves as a foundation of-- for all of the roboticists to build on top of. There, once I built the Kosmos one, I realized as this thing also has a scaling law similar to language model, we need to scale up the video models further. that’s, that’s why I realized I need to move to somewhere with much more compute resources. That’s how I
Swyx [00:02:13]: Than NVIDIA?
Vibhu [00:02:14]: The GPU rich came themselves.
Vibhu [00:02:19]: And timeline-wise, when was Kosmo? It was pretty early, right? It was open world model, open paper, everything.
Ethan [00:02:25]: It was end of twenty-four.
Vibhu [00:02:28]: End of twenty-four.
Ethan [00:02:30]: Then at mid twenty-five, I moved to xAI. At that time-- I joined about the time when xAI was about to build video models and in multi-model models. There were no infra, no data, and no model, and it just-- as a few engineers, we built it in three months and released the first model, Grok Imagine zero point nine.
Ethan [00:02:55]: And since then, I keep working on video models and move more from training and to post-training of the video models. For example, like a reference to videos, kind of like the cameo feature and, video extensions. And, before I left, I worked on a world model, leading a small team to focus on the real-time long horizon video generation.
Building Grok Imagine From Scratch in Three Months
Swyx [00:03:24]: Can you give like a rough roadmap of okay, you’re on a brand-new team. Grok previously was only text, or they partnered with BFL for their image gen stuff. What do you-- what are the building blocks, right? You have compute, data you can procure somewhere. Like just what are like the sequence of things that people should think about when you’re setting up a new team?
Vibhu [00:03:43]: actually even deeper, not just data you can procure. You guys had to go through getting the data too, right? So you shipped it pretty fast, but yeah
Swyx [00:03:51]: three months is like
Vibhu [00:03:52]: From everything
Swyx [00:03:52]: actually like very surprisingly fast.
Ethan [00:03:55]: One thing I say like thanks to my experience at NVIDIA, ‘cause first time when we were building Kosmos together, we built it, for about a year. So this is like the second time I do it. Roughly have an idea, what to do. I say the most important thing is the talent. Everyone were very strong and clever, very close with each other towards a common goal. So that speed up things a lot. So you reduce the communication bandwidth among people, and everyone can work towards the same goal. It’s, it’s like every day there’s not that much meetings on the calendar, like maybe like a, like a sync a day, and after that it’s, it’s just all building. It was pretty fun at that time.
Ethan [00:04:47]: And another thing is that xAI has very strong foundations of like data inference, model inference, and the supporting there can help the model develop a lot. When I look at, training models, I don’t so actually the top important thing is like how many, how many iterations can you do, per day? and the more iteration can you do, you can, you can train the model much faster. So if you have very strong infra and you have a lot of compute, you can, you can train these models in very short period of time. That can give you a much larger buffer to, for errors, and it also gives you the opportunity to spot more bugs.
Iteration Speed, Compute, and Debugging Model Pipelines
Swyx [00:05:46]: What is an iteration? Is it like a few hundred steps or what are you
Ethan [00:05:50]: Let’s say just the train-training the model, like from acquire new data and maybe design new algorithms and train a new model, maybe at smaller scale or
Swyx [00:06:01]: So cycle time for like any hyperparam that you’re searching.
Ethan [00:06:04]: Cycle time and tune to like eval this model. Is this model better than my previous iteration?
Ethan [00:06:11]: So
Swyx [00:06:11]: So it’s like before you, someone had already set this up that you can iterate very quickly.
Ethan [00:06:15]: I think the foundation there is extremely good forDeveloping and research models.
Ethan [00:06:23]: And often I find is it-- this is kind of boring, but like a lot of the improvements does not come from new algorithms. It comes from finding small bugs here and there in the data pipeline, in the, in the model training pipeline. Those give, those give the biggest boost to the model quality.
Vibhu [00:06:46]: It’s interesting, right? So you say it’s like small team, less communication bandwidth, but also a lot of quality is like find little bugs. It seems counterintuitive, right? You have a lot of people, you can iron out more of those, but it’s interesting to see the other side, right?
Swyx [00:07:00]: I also wonder, have you-- do you try using LLMs to look for bugs? I don’t know.
Ethan [00:07:05]: I remember at that time it was mid two thousand and twenty-five, so it’s the coding model wasn’t quite there yet. I remem- I remember like December two thousand and twenty-five, it was extremely good. Yeah, I’ve been, I’ve been using it at that time. It’s, it’s helpful. sometimes it produce codes that are kind of difficult to maintain, even though like the first time it built something extremely fast. But it gave the, like a spaghetti code, thousands of lines that I couldn’t maintain, and the LLM itself couldn’t figure out what’s, what’s wrong and how to improve on top of it. But now I find it much better. Yeah, I want to bring up another point here is now coding models are much more efficient and can help us implement stuff much faster. Compute might become a bottleneck again because previously, like if you want to train a new model, say you want to generate new synthetic data and then or write a new algorithm, it might take a few weeks. And during that period of time, you don’t-- you might not have experiments to run. But now you can build that thing within a few hours, then you can immediately train a model.
Ethan [00:08:24]: Now you have to have enough compute to try all of the ideas. So compute might be the bottleneck of iterating speed again.
Swyx [00:08:36]: yeah, I actually, honestly, I think it’s like kind of a stressful job because you’re “Well, I should be trying everything, and if I’m not, then I’m not doing my job well.”
Vibhu [00:08:48]: there’s also the stress of you’re eating thousands of GPUs per hour, which is very expensive and, compute can go to other researchers.
Swyx [00:08:56]: You got the daddy Elon to
Vibhu [00:08:57]: You got daddy Elon.
Ethan [00:08:59]: It was
Vibhu [00:09:00]: But there’s still finite amount of compute, like you want to use it, you want to use it well, you want more of it.
Ethan [00:09:06]: That was quite stressful indeed. Yeah, I think one thing is the-- with coding models now, like a lot of these jobs can be automated, which is much better. A second, it’s a, it’s a marathon, so you got to maintain good health and, a regular schedule.
Vibhu [00:09:28]: It’s, it’s hard to hear that when you shift from zero to nothing in two months.
Swyx [00:09:32]: and, I think obviously the culture at xAI is very famously, people work very hard. one thing I did want to dive into, in our-- in the notes that you, that you sent ahead of time, you had specific comments about the cost of Video Gen training. presumably this is on the Colossus-1, right? the two hundred megawatt cluster. Any whatever you want to just share on that.
Vibhu [00:09:54]: I think there’s, there’s three things we’re talking about, right? So there’s Video Gen, there’s also the Image Gen model that you put out. Do you want to like complete the, okay, so zero to one, you have a few months. Just what are the stages of create Image Gen model?
Swyx [00:10:06]: Oh, yeah, maybe I got distracted.
How Image and Video Models Are Trained: Synthetic Captions, Tokenizers, and VAEs
Vibhu [00:10:07]: Sorry. and then, from there’s Video Gen, there’s Audio Gen. Would love to get into those next. But what is that first few months like? So small team, a lot of bugs, iterations, but what does it look like? Do we take something off the shelf? Do we just get data compute? What’s, what’s the few months like? How do you go to state-art Image Gen model? How do you just start?
Ethan [00:10:28]: I cannot comment specifically how xAI did, but it’s, it’s a quite standard process. I can draw some, examples from Cosmos. So mainly it’s building a video model, you actually need to build a image model first. And building these two models, the data you need is a hundred percent synthetic pair of language and image or language to video. Because on the, on the internet, actually, the videos don’t naturally associate with text. So you can say, oh, like on YouTube, you have the title and you have the description and the comments
Swyx [00:11:11]: Title
Ethan [00:11:11]: of a video, but usually they’re not relevant to the video itself. And say maybe like the video is a natural scene of mountains or something, and the title is, I’m so happy today.
Ethan [00:11:26]: So they have they have no correlation at all. So the first step is to, you have to generate synthetic pair of language with the videos. So you gather videos from the internet, and you use a VLM to caption the videos. So that part, here’s a question, like how do you, how do you gather VLM to begin with? So if there’s no
Swyx [00:11:55]: You, so you fuse the model, right? Like
Ethan [00:11:57]: Say if there’s no like VLM exists, like how do you generate the text to the beginning, right? It’s, it’s impossible.
Swyx [00:12:04]: I see.
Ethan [00:12:05]: In the beginning, it’s like you ask human to describe the video as detailed as possible.For example, you ask them to describe everything, like all objects, all characters, and all interaction and dialogues in the, in the videos. So that’s in the protocol of Cosmos labeling. We require the objective we give to the labelers was that you have to describe the video as detailed as possible, such that a blind person hears a blob of text can reconstruct what the video is like from their head.
Swyx [00:12:43]: Video or image? You’re talking about images.
Ethan [00:12:44]: Video or image, either one of them.
Vibhu [00:12:47]: This was pretty common when we went from clip and DALL-E, right?
Vibhu [00:12:51]: It’s all training on really detailed captioning of images. So same is applied to video, but instead
Ethan [00:12:57]: same applied
Vibhu [00:12:57]: of using multimodal model to pass in video images and write rich descriptions, you can also
Swyx [00:13:04]: I think there’s this traditional perspective of supervised, or, very highly human curated thing. I feel like there’s a unlock with unsupervised, right? Where like you have enough to bootstrap that you can just throw common corpus on it or, whatever. like unsupervised vision and language pairing, right? Like where you just have, interspersed image and text and it just learns. To me, that is the VLM breakthrough that is different from the clip, different from the LM era.
Ethan [00:13:36]: It’s interesting to see that you kind of need both data.
Ethan [00:13:41]: For example, for the
Swyx [00:13:41]: You need it to bootstrap it up. Yeah
Ethan [00:13:43]: for the generative model training, there’s also usually like a small percentage of unlabeled data. So the model is instructed to generate a video without any text instruction. That can also help the model generalize. So after this stage of generative synthetic pair, so, one important common step is to train a compressor or a tokenizer of the image or videos. So because, if you train-- If you can technically, theoretically train image or video models on pure pixels, but the problem is that the, it’s, it’s a lot of tokens. So like one image, it’s, a thousand by a thousand, it’s like one million tokens, one million pixels. It’s impossible to train transformer on that. So it’s, you need to train a tokenizer, which can go from image to latent space and latent space back to image.
Swyx [00:14:45]: That’s why we named the podcast.
Swyx [00:14:48]: But, basically, you’re talking about vocabulary science.
Ethan [00:14:50]: so vocab.
Swyx [00:14:51]: And so, what is, what is imp-- like a million is impossible?
Ethan [00:14:54]: In generative models, the vocab is continuous. It’s a continuous space. We can think about like you map an image to a vector. It’s a, it’s a fixed length vector. It’s sixteen or forty-eight, something like that. And then you map that vector back to the im
関連記事
SpaceX が AI コーディングプラットフォーム Cursor を 600 億ドルで買収
SpaceX は、AI 統合を強化した IDE ツール「Cursor」を株式取引により 600 億ドルで購入すると発表した。この買収は、SpaceX の IPO と xAI との合併直後に発表された。
ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表
中国のAI企業ミニマックスは、長文コンテキストにおける計算コストを削減する新手法「MiniMax Sparse Attention(MSA)」を開発し、109BパラメータのMoEモデルで実証した。同社はさらに推論用カーネルをオープンソース化し、生産環境向けモデル「MiniMax-M3」もリリースした。
[AINews] GLM-5.2:世界最高峰のフロントエンドコーディングモデル、推測型デコーディングのための IndexShare を発表
Z.ai は週末に「GLM-5.2」をリリースし、この新モデルが世界最高のフロントエンドコーディング性能を持つと主張した。また、推測型デコーディング技術の向上を目指す「IndexShare」という仕組みも紹介された。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み