AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月2日 09:00·約39分で読める

動画エージェントモデルが次世代へ — xAI のイーサン・ヘ氏に聞く Grok Imagine の開発秘話(98 分読み)

#Video Generation#xAI#Grok Imagine#Multimodal AI#NVIDIA Cosmos
TL;DR

xAI は NVIDIA Cosmos の元リードエンジニアであるイーサン・ヘ氏を起用し、わずか 3 ヶ月で高品質かつ高速な動画生成モデル「Grok Imagine」を発表した。

AI深層分析2026年6月3日 18:14
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

開発期間の短縮と迅速なリリース

NVIDIA Cosmos World Model のリードエンジニアだったイーサン・ヘ氏が xAI に合流後、わずか 3 ヶ月で「Grok Imagine」を完成させ、6 ヶ月前の状況から劇的な進歩を遂げた。

2

技術的優位性と機能強化

同モデルは最高品質、最速、最もコスト効果が高いと主張され、720P 解像度、動画編集機能、改善されたオーディオ機能を搭載している。

3

ユーザーフィードバックへの対応

開発チームがユーザーからのフィードバックを慎重に聞き取り、それに基づいて迅速な改善と機能追加を行ったことが強調されている。

4

Video Intelligence Source

動画モデルの知能は主に動画データからの学習ではなく、LLM(大規模言語モデル)から得られるという見解が示されています。

5

Next Frontier: Video Agents

今後の進化は単なる高品質な動画生成モデルではなく、計画・編集・批判・反復を行うことのできる「ビデオエージェント」へと移行します。

6

AI Coding Evolution Parallel

生成メディアの進化はコーディング分野と同様に、単発出力からマルチターン推論や自律的な計画・デバッグ機能を持つエージェントシステムへ向かっています。

7

無限のキャンバス上の完全なクリエイティブエージェント

Grok Agent は単一の無限に広がるオープンキャンバス上で動作し、計画から生成、編集、反復までを自動で行う。

影響分析・編集コメントを表示

影響分析

xAI のこの発表は、動画生成 AI の市場競争をさらに激化させる要因となり、特に開発スピードとコスト効率性の面で業界標準を再定義する可能性があります。NVIDIA の元エンジニアが率いるチームによる短期間での実装成功は、大規模モデルの開発プロセスにおけるアジリティの重要性を示す事例として注目されます。

編集コメント

NVIDIA の世界モデル開発リーダーが xAI に移籍し、驚異的なスピードで製品化された点は、人材流動性が AI 技術革新に与える影響を如実に示しています。

*今週、AIEWF のスピーカーを発表します!AI Engineering Survey にご協力ください!*

今日のゲストであるイーサン氏は、当初 NVIDIA Cosmos World Model のリーダーとして LS Paper Club に参加しましたが、その後 xAI へ移籍し、わずか 3 ヶ月で Grok Imagine を構築しました:

[Ethan He@EthanHe_42 新しい Grok Imagine のリリースを共有できることを嬉しく思います 🚀 これはこれまでで最も高品質で、最速、かつコストパフォーマンスに優れた動画生成モデルです。720P 対応、動画編集機能、そしてより良い音声を搭載しています。皆様のフィードバックに耳を傾け、迅速に対応しました。

わずか 6 ヶ月前は、私たちはほぼxAI @xai理解するには想像が必要です。Grok Imagine は、あなたの頭の中のイメージを現実のものに変えることができます。今や、世界で最も速く、最も強力な動画 API を通じて利用可能です:https://t.co/tqQwQVgCEI

ぜひお試しください。あなたの想像力を存分に発揮してください。2026 年 1 月 29 日午後 2:43 · 11.6 万ビュー 127 件の返信 · 107 件のリポスト · 1,350 のいいね](https://x.com/EthanHe_42/status/2016749123198673099)

イーサン氏は、Latent Space に再び登場し、いくつかの刺激的な見解を述べています。それは動画モデルの知能は主に LLM(大規模言語モデル)から得られるものであり、動画データからの学習によるものではないという点と、真にインタラクティブでリアルタイムかつ長期の視野を持つ世界モデル(world models)の次のフロンティアは、LLM(おそらく Interaction Models も含む)を対象として取り組むべきであるという点です。

そう言ってみましょう:近未来において、次の Sora はより優れた動画モデルではなく、動画エージェントとなるでしょう。

生成メディア は、AI コーディングの進化により密接に沿う可能性があります。これは、単発出力のパフォーマンスとコストに焦点を当てる段階から、計画・編集・テスト・デバッグ・PR(プルリクエスト)提出が可能なエージェントやシステム向けの多ターン推論およびプランニングモデルへと移行した過程です。

ある時点でコーディングモデルはあまりにも優秀になり、パフォーマンスを向上させるための唯一の重要な次のステップは、これらのモデルのオーケストレーション(調整・統率)を扱うこととなりました。

現在、動画モデルのパフォーマンスがリアリティ、一貫性、プロンプト遵守において大幅に向上し、コスト効率も高まっている中で、動画生成の次の進化もまた、創造的なタスク全体を通じて計画・生成・編集・批評・反復を行うシステムになる可能性があります。

[X Freeze@XFreezeGrok Imagine Agent Mode (Beta) just went live on Grok web

It's a full creative agent working on one infinite open canvas

Grok Agent plans → generates → edits → iterates everything automatically in the same workspace]

何を望むか伝えて、計画し、生成し、編集する様子を見守ってください。2026 年 4 月 30 日午後 2時42分 · 92 万ビュー 681 件の返信 · 1,150 件のリポスト · 3,970 件のいいね](https://x.com/XFreeze/status/2049725955208622475) このエピソードでは、イーサンが swyx と Vibhu とともに、最先端の画像および動画システムを構築するために実際に必要なものについて掘り下げます。具体的には、データ、VAE(変分オートエンコーダー)、拡散トランスフォーマー、オーディオとビデオのアライメント、推論速度の向上、そして膨大な動画データを保存・移動させる際の隠れたコストなどです。NVIDIA の Cosmos ワールドモデル[https://www.nvidia.com/en-us/ai/cosmos/]を構築し、ゼロから一つへと成長する過程でxAIに参加してGrok Imagine[https://grok.com/imagine]が作られていた際、イーサン・ヘ氏は動画生成、マルチモーダルモデル、リアルタイムのワールドモデルにおける最も重要な仕事の中心にいました。

私たちはGrok Imagineについて深く掘り下げます。なぜ小規模な xAI チームがわずか 3 ヶ月で最初のマルチモーダル動画モデルをリリースできたのか、モデル開発においてほぼ何よりも重要なのはイテレーションの速度である理由、そして多くの大きな進歩がデータやトレーニングパイプライン内の些細なバグを修正することから生まれる理由についてです。

ビデオエージェントは来年のトレンドになることはほぼ確実視されています。最後に、ビデオエージェントを超えた未来について少し触れます。

Flipbook は今年リリースされた際、ちょっとした話題を呼びましたが、多くの人々はそれを単なる楽しいデモとして扱っています。しかしイーサンはこれを非常に真剣に捉えており、推論の速度とコストが毎年低下していることを考慮すると、カスタム動画 JIT UI(Just-In-Time User Interface)の未来は想像以上に近い場所にあるのです。私たちは、なぜビデオ生成モデルが AI のフロントエンドとなり得るのか、生成型 UI が従来の HTML/CSS を置き換える可能性がある理由、なぜ世界モデルがリアルタイム性、対話性、そして長期にわたる視野を持つ必要があるのか、さらに動画生成の未来は拡散モデル単独よりも言語モデルやエージェントに依存する可能性が高いという点について議論しました。

私たちが議論すること:

  • なぜ迅速な反復が会議よりも重要だったのか
  • なぜ小さなトレーニングのバグがモデル品質の劇的な向上につながるのか
  • なぜコーディングモデルは再び計算リソースのボトルネックとなる可能性があるのか
  • 合成キャプションを用いた画像・動画モデルの訓練方法
  • フロントier動画モデルにおける VAE(変分オートエンコーダー)と潜在空間の役割
  • なぜ画像モデルが動画モデルの基盤となるのか
  • 時間圧縮とリアルタイム対話性の間のトレードオフ
  • Flipbook、Neural OS、そして生成 UI の未来
  • なぜ将来のインターフェースはユーザーの意図から直接ピクセルへ至るようになるのか
  • 動画モデル訓練の隠れたコスト:ストレージ、エグレス(転送)、GPU 使用時間
  • ステップ蒸留とコンシステンシーモデル(OpenAI の sCM など)がどのようにして動画推論を桁違いに高速化するか
  • Grok Imagine 0.9 と大規模な音声・動画生成
  • なぜ音声・動画の整合性はテキスト・動画の整合性よりも難しいのか
  • エサンの世界モデルの定義
  • リファレンスから動画へ、動画拡張、そして長文脈動画生成
  • なぜ xAI の研究コミュニケーションは Grok Imagine の価値を過小評価しているのか
  • xAI の文化が開発スピードにどう影響したか
  • AI 透かし、SynthID、および生成メディアの検出
  • なぜプロンプト書き換えが動画モデルにおいて重要なのか
  • Grok Imagine Agent とビデオエージェントの台頭
  • なぜ言語モデルがより優れた動画生成を可能にするのか
  • ロボティクス、物理的 AI、そして具現化された世界モデル
  • なぜエサンは xAI を離れ、LLM への焦点をシフトしたのか
  • 自己管理型コンテキスト、メモリ、そして言語モデルの次のフロンティア

Ethan He

  • LinkedIn: https://www.linkedin.com/in/ethanhe42
  • X: https://x.com/EthanHe_42

00:00:00 イントロダクション

00:01:25 NVIDIA Cosmos から xAI へ

00:03:24 ゼロからイチまで Grok Imagine を構築する

00:10:07 画像および動画モデルのトレーニング方法

00:18:53 動画圧縮、VAE(変分オートエンコーダー)、そしてリアルタイムでのトレードオフ

00:22:10 生成型 UI、フリップブック、ニューラル OS

00:32:10 大規模動画モデルのトレーニングコスト

00:37:04 蒸留(ディストillation)、GANs(敵対的生成ネットワーク)、そして高速な動画推論

00:41:21 オーディオ・ビデオ生成と Grok Imagine 0.9

00:48:34 ワールドモデルとは何か?

00:55:51 リファレンス動画、ロングコンテキスト、そして動画メモリ

01:00:11 xAI の文化、研究、そして第一原理に基づく構築

01:09:45 AI セーフティ、ウォーターマーキング、プロンプト書き換え

01:13:10 ビデオエージェントと AI 支援による創作

01:27:32 なぜ言語モデルがより優れた動画を実現するのか

01:31:15 ロボティクス、物理的 AI、そして具現化されたワールドモデル

01:32:38 エイサンが xAI を去った理由

01:34:16 自己管理型コンテキストと LLM の未来

01:38:43 エイサンのキャリアパスと結びの言葉

Swyx [00:00:00]: 私たちはスタジオで、最近 xAI に在籍していたエイサン・ヘ氏にお会いしています。ようこそ。

Ethan [00:00:10]: ありがとうございます。ここに来られて嬉しいです。

Swyx [00:00:11]: また、ヴィブも一緒にいます。あなたは NVIDIA でコスモス(Kosmos)に取り組んでおり、論文も発表されましたね。私たちはそれを大変気に入りましたし、プレゼンテーションもしていただきましたので、ありがとうございます。

イーサン [00:00:23]: 実は、私もモジュール型エキスパート(MoEs)についてラテン・スペースで二度発表しました。

スワイ [00:00:29]: 実際、どうやって私たちのことを知ったのですか?こちらから連絡したのでしょうか?そうだったんですか?

イーサン [00:00:33]: いいえ、実は私自身ではなく、コミュニティです。ああ、AI について話し合い、毎週『ペーパークリップ』を通じて論文を読み合いながら学び合うオンライン・コミュニティがあることに気づきました。とても素晴らしいものです。

イーサン [00:00:49]: 私は多くのことを学びました。

スワイ [00:00:49]: 3 年間も続いていると思います。クリスマスや新年でも止まったことはありません。何度も止めたいと思う週もありますが、それでも続いてしまいます。

ヴィブ [00:00:58]: いいえ、それは良かったですね。あなたが論文に取り組んでいると投稿されたのを見て、「おお、素晴らしい。私たちにもペーパークリップがあるよ」と思いました。その時に発表しましたから。

ヴィブ [00:01:04]: でも、その後こちらから連絡したかもしれませんね。

スワイ [00:01:05]: あなたは——アマチュア・クラブなんですから、そうでしょう?

スワイ [00:01:08]: 非常に珍しいことですが、時には論文の著者の方々が来て、実際にその論文を説明してくださることもあります。今日もまさにそれを行いました。プールサイドの論文(poolside paper)についてで、どうやら非常に素晴らしいもののようです。

ヴィブ [00:01:18]: 昨日発表されました。

ヴィブ [00:01:19]: とても興味深いですよね。完全にオープンです。システムを含め、あらゆることについて話しています。良い論文ですよ。ぜひ読むようお勧めします。

スワイ [00:01:25]: xAI への移行について、私たちに最新情報を教えてください。実際、いつ加入されたのかさえ知りませんので。そのような移行の物語を、ただお話しいただければと思います。

イーサン [00:01:34]: xAI に入る前は、NVIDIA でコスモス(Kosmos)の世界モデルに取り組んでいました。コスモスは巨大な動画基盤モデルであり、世界をシミュレートすることを目的としており、すべてのロボット工学者がその上に構築するための基盤として機能します。そこでコスモス1を構築した後、このモデルも言語モデルと同様のスケール則(scaling law)を持っていることに気づき、動画モデルをさらに拡張する必要があると悟りました。そのため、より多くの計算リソースを持つ場所へ移る必要があると感じたのです。それが私が

スワイ [00:02:13]: NVIDIA からではなくて?

ヴィブ [00:02:14]: GPU に富んだ環境が自らやってきました。

ヴィブ [00:02:19]: そしてタイムラインで言うと、コスモスはいつ頃だったのですか?かなり前ですよね。オープンな世界モデルで、論文も公開され、すべてがオープンでした。

イーサン [00:02:25]: 2024 年の終わりです。

ヴィブ [00:02:28]: 2024 年の終わりですね。

イーサン [00:02:30]: その後、2025 年半ばに xAI へ移りました。その時—xAI が動画モデルやマルチモーダルモデルの構築を間近に控えていた時期でした。当時はインフラもデータもモデルもなく、数人のエンジニアとしてわずか 3 ヶ月でそれを構築し、最初のモデルである「Grok Imagine 0.9」をリリースしました。

Ethan [00:02:55]: それ以来、私は動画モデルの構築に引き続き取り組んでおり、トレーニングからポストトレーニングへと重心を移してきました。例えば、動画への参照機能や、カメオ(Cameo)のような特徴、そして動画拡張機能などです。私が去る前には、世界モデル(world model)の開発にも携わり、小規模チームを率いてリアルタイムでの長時間スケール動画生成に注力しました。

Swyx [00:03:24]: 新しいチームに移られた際の、おおよそのロードマップをお聞かせいただけますか?以前は Grok はテキストのみで、画像生成については BFL と提携していました。では、構築に必要な要素とは何でしょうか?計算資源(compute)や調達可能なデータなどです。新しいチームを立ち上げる際に、人々が考慮すべき一連のステップについてお尋ねしています。

Vibhu [00:03:43]: 実はそれよりもさらに深い話で、単にデータを調達できるというだけでなく、実際にそのデータを入手するプロセス自体も必要でしたよね。非常に迅速にリリースされましたが、はい。

Swyx [00:03:51]: 3 ヶ月というのは、

Vibhu [00:03:52]: すべてにおいて

Swyx [00:03:52]: 非常に驚くほど迅速ですね。

イーサン [00:03:55]: NVIDIA で得た経験から一つ言えるのは、Kosmos を一緒に構築していた最初の頃、私たちは約 1 年かけてそれを完成させました。つまり今回は 2 回目ということになります。おおよその方向性は把握しています。私が最も重要だと考えるのは人材です。皆非常に優秀で賢く、共通の目標に向かって互いに密接に連携していました。これによりスピードが大幅に向上しました。人々間のコミュニケーション・バンド幅を減らし、全員が同じ目標に向かって作業できるからです。毎日カレンダーに会議があまり入っていないようなもので、例えば 1 日に 1 回の同期ミーティングがある程度で、その後はすべて構築に集中します。当時はとても楽しかったです。

イーサン [00:04:47]: もう一つの点は、xAI がデータ推論やモデル推論において非常に強力な基盤を持っており、それを支えるインフラがモデル開発を大きく加速できることです。モデルのトレーニングを見ると、実は最も重要なことは 1 日に何回のイテレーション(反復)を行えるかです。より多くのイテレーションが可能であれば、モデルをはるかに高速に訓練できます。つまり、非常に強力なインフラと十分な計算リソースがあれば、これらのモデルを極めて短期間で訓練できるのです。これによりエラーに対する大きなバッファが得られ、さらに多くのバグを発見する機会も生まれます。

スワイ [00:05:46]: イテレーションとは具体的に何を指すのでしょうか?数百年のステップのことですか、それとも別の意味ですか?

イーサン [00:05:50]: 新しいデータを取得し、おそらく新しいアルゴリズムを設計して新たなモデルを訓練するといった、モデルのトレーニング自体について考えてみましょう。もしかしたら小規模なスケールでかもしれません。

スワイ [00:06:01]: つまり、探索しているあらゆるハイパーパラメータにおけるサイクル時間のことです。

イーサン [00:06:04]: サイクル時間であり、このモデルを評価して調整すること。つまり、このモデルは前回の反復よりも優れているのでしょうか?

イーサン [00:06:11]: つまり

スワイ [00:06:11]: 要するに、あなたが非常に迅速に反復できるよう、誰かが事前にこれを設定してくれていたようなものです。

イーサン [00:06:15]: そこには基礎となるものが極めて良好で、モデルの開発と研究に適していると思います。

イーサン [00:06:23]: そしてよく気づくのは、これは少し退屈な話かもしれませんが、多くの改善は新しいアルゴリズムから来るのではなく、データパイプラインやモデルトレーニングパイプラインのあちこちに潜む小さなバグを見つけることから生じるのです。それらがモデル品質に対して最も大きな向上をもたらします。

ヴィブ [00:06:46]: 面白いですね。つまり、あなたは小規模チームでコミュニケーションの帯域幅が狭くても、多くの品質は小さなバグを見つけることにあると言います。直感に反するように思えますよね?大勢の人がいればそれらの問題をより多く解決できるはずですが、その反対側を見るのは興味深いです。

スワイ [00:07:00]: 私も疑問に思うのですが、LLM(大規模言語モデル)を使ってバグを探す試みはされていますか?わかりません。

イーサン [00:07:05]: その時は 2025 年半ばでしたから、コーディングモデルはまだ完全に成熟していなかったのを覚えています。2025 年 12 月頃には非常に優秀になっていましたね。その頃は実際に使っていました。確かに役立ちますが、一度にものすごく速く構築したとしても、メンテナンスが難しいコードを生成してしまうことがあります。スパゲッティコードと呼ばれるような数千行のコードで、私が管理できない状態になり、LLM(大規模言語モデル)自身も何が問題で、どう改善すべきかを理解できませんでした。しかし今ははるかに良くなっています。もう一点付け加えるなら、現在のコーディングモデルははるかに効率的で、私たちの実装をずっと速くしてくれるようになりました。計算リソースが再びボトルネックになる可能性があります。以前は新しいモデルを訓練したい場合、例えば新しい合成データを生成したり、新しいアルゴリズムを書いたりするには数週間かかることがありました。その期間中は実験を実行できないこともありました。しかし今は数時間で構築でき、すぐにモデルの訓練を開始できます。

イーサン [00:08:24]: 今ではすべてのアイデアを試すのに十分な計算リソースが必要です。つまり、計算リソースがイテレーション速度のボトルネックになる可能性があります。

スワイ [00:08:36]: はい、正直に言って、これはストレスの多い仕事だと思います。「何でも試すべきで、そうでなければ仕事をうまくこなせていない」という感覚に駆られるからです。

Vibhu [00:08:48]: また、1 時間に数千個の GPU を消費するというストレスもあります。これは非常に高価であり、計算資源は他の研究者にも回すべきです。

Swyx [00:08:56]: お父さんである Elon がいますからね。

Vibhu [00:08:57]: お父さんである Elon がいますよ。

Ethan [00:08:59]: それは

Vibhu [00:09:00]: しかし、計算資源には限りがあります。使いたいし、うまく使いたいし、もっと欲しいのです。

Ethan [00:09:06]: 確かにかなりストレスフルでしたよ。そうですね、コーディングモデルについては、多くの仕事が自動化できるようになり、それははるかに良いことです。第二に、これはマラソンなので、健康を維持し、規則正しいスケジュールを保つ必要があります。

Vibhu [00:09:28]: 2 ヶ月でゼロから何もない状態へ移行する際に、それを聞くのは難しいものです。

Swyx [00:09:32]: そして、明らかに xAI の文化は非常に有名で、人々は非常に頑張っています。私が深入りしたかったことのひとつに、あなたが事前に送ってくれたノートにあるビデオ生成トレーニングのコストに関する具体的なコメントがあります。おそらくこれは Colossus-1 上の話ですよね?200 メガワットのクラスターのことです。それについて何か共有していただけますか。

Vibhu [00:09:54]: 私たちが話していることは 3 つあると思います、对吧?つまり、ビデオ生成(Video Gen)と、あなたが公開した画像生成モデル(Image Gen model)の 2 つです。ゼロから一つへ、数ヶ月かけて行う過程について、画像生成モデルを創る段階とは何か、詳しく教えていただけますか?

Swyx [00:10:06]: ああ、もしかしたら気が散っていたのかもしれません。

Vibhu [00:10:07]: すみません。そしてそこからビデオ生成(Video Gen)があり、音声生成(Audio Gen)があります。これらについて詳しく知りたいのですが、最初の数ヶ月はどのようなものなのでしょうか?小さなチームでバグが多く、反復作業が続く中で、実際にはどういった状況になるのでしょうか?市販のものをそのまま使うのか、それともデータと計算リソースを確保するだけなのか。最初の数ヶ月とは具体的にどんな感じなのでしょう?最先端の画像生成(Image Gen)モデルにどのように到達するのか、またどこから始めればよいのでしょうか。

Ethan [00:10:28]: xAI が具体的にどう行ったかについてはコメントできませんが、これは非常に標準的なプロセスです。Cosmos の例をいくつか挙げることができます。主にビデオモデルを構築するには、まず画像モデルを構築する必要があります。これらの 2 つのモデルを構築する際に必要となるデータは、言語と画像のペア、あるいは言語からビデオへの対応関係が 100% 合成されたものです。なぜなら、インターネット上では実際には動画がテキストと自然に関連付けられていないからです。つまり、「YouTube にはタイトルや説明、コメントがある」と言えるかもしれませんが、それらは通常、動画そのものとは関連性がありません。例えば、動画が山などの自然風景であるのに、タイトルは「今日はとても幸せです」のような内容だったりするのです。

イーサン [00:11:26]: つまり、それらには全く相関がありません。最初のステップは、動画と対応する言語ペアを合成データとして生成することです。インターネットから動画を収集し、VLM(Vision-Language Model)を用いて動画にキャプションを付けます。ここで一つ質問があります。そもそも VLM をどうやって集めるのか?もし VLM が存在しない場合、最初からテキストをどのように生成するのか?それは不可能です。

スワイ [00:11:55]: つまり、モデルを融合させるわけですね。

イーサン [00:11:57]: もし VLM といったものが存在しないなら、最初にテキストをどう生成するか。それは不可能です。

スワイ [00:12:04]: なるほど。

イーサン [00:12:05]: 最初は、人間に動画の詳細な説明を依頼します。具体的には、動画内のすべての物体、すべてのキャラクター、そしてすべての相互作用や対話を記述してもらうのです。これが Cosmos ラベリングのプロトコルです。ラベラーに対して求める目標は、「盲の人がテキストの塊を聴くだけで、頭の中で動画がどのようなものかを再構築できるほど詳細に動画を説明すること」です。

スワイ [00:12:43]: 動画ですか?それとも画像ですか?画像について話していますね。

イーサン [00:12:44]: 動画でも画像でも、どちらでも構いません。

ヴィブ [00:12:47]: CLIP や DALL-E から移行する際、これは非常に一般的な手法でしたよね。

ヴィブ [00:12:51]: すべてが画像の詳細なキャプション付けに基づいて訓練されたものです。動画にも同じアプローチが適用されますが、代わりに

イーサン [00:12:57]: 同じことが適用

Vibhu [00:12:57]: マルチモーダルモデルを用いて動画画像を入力し、詳細な記述を生成するだけでなく

Swyx [00:13:04]: 従来の視点としては、教師あり学習や、非常に高度に人間が手作業でキュレーションしたアプローチがあります。しかし、教師なし学習にはまだ解き放たれていない可能性があると私は感じています。つまり、十分な基盤さえあれば、一般的なコーパスをそのまま投入するだけで、あるいは何らかの方法で、教師なしの視覚と言語のペアリングが可能になるはずです。画像とテキストが混在したデータから、モデルが自ら学習するようなアプローチです。私にとって、これは CLIP や言語モデル(LM)時代とは異なる、VLM(Vision-Language Model:視覚言語モデル)における画期的な突破点です。

Ethan [00:13:36]: 実際には、両方のデータが必要になるという点は興味深いですね。

Ethan [00:13:41]: 例えば、

Swyx [00:13:41]: 基盤を構築するためにはそれが必要です。はい

イーサン [00:13:43]: 生成モデルのトレーニングにおいては、通常、ラベル付きデータのごく一部に未ラベルデータも含まれます。つまり、モデルはテキスト指示なしで動画を生成するように指示されます。これにより、モデルの一般化能力を高める効果もあります。このように生成された合成ペアの段階を経て、次に重要な共通ステップとして、画像や動画のための圧縮器(コンプレッサー)またはトークナイザーをトレーニングします。なぜなら、理論的には純粋なピクセルデータだけで画像や動画モデルをトレーニングできる可能性はありますが、実際にはトークン数が膨大になりすぎるという問題があるからです。例えば、1000×1000 の画像であれば、約 100 万のトークン(つまり 100 万ピクセル)が必要となり、そのような規模でトランスフォーマーをトレーニングすることは不可能です。そのため、画像から潜在空間へ、そして潜在空間から再び画像へと変換できるようなトークナイザーをトレーニングする必要があります。

スワイ [00:14:45]: それが私たちがこのポッドキャストに名付けた理由なのです。

スワイ [00:14:48]: つまり、本質的には語彙科学についてお話しされているのです。

イーサン [00:14:50]: はい、語彙ですね。

スワイ [00:14:51]: では、なぜ 100 万という数は不可能なのでしょうか?

イーサン [00:14:54]: 生成モデルにおける語彙は連続的です。それは連続空間を形成しています。画像をベクトルにマッピングすると考えればよいでしょう。これは固定長のベクトルであり、長さは 16 や 48 など、そのような数値になります。そして、そのベクトルを再び画像空間へマッピングします。このマッピングはパッチベース(領域ベース)で行われます。つまり、

イーサン [00:15:22]: 16x16 のパッチを、この潜在空間にマッピングします。

スワイ [00:15:29]: これはすでに説明済みです。

ヴィブ [00:15:30]: これはビジョントランスフォーマーのようなものです。

スワイ [00:15:32]: VAEs(変分オートエンコーダー)。

イーサン [00:15:33]: VAEs です。

ヴィブ [00:15:34]: 要するに入力を圧縮し、生成を行い、その生成をより小さな次元空間で推論してから、再び投影して出力します。

スワイ [00:15:43]: VAE は一種の圧縮形式ですが、私にとってパッチ化という考え方は VIT(ビジョントランスフォーマー)から来ているのでしょうか?

イーサン [00:15:48]: それらを作ることができます。

スワイ [00:15:49]: 文字通り、はい。論文のタイトルは「16x16 で十分」といったようなものでした。また、この種のパッチ化と畳み込み(convolutions)との比較もよく行われていますね。

スワイ [00:16:02]: つまり、新しい手法で古いパラダイムを再構築しているようなものです。

イーサン [00:16:05]: 実は VAEs には、畳み込みネットワークとトランスフォーマーの両方が含まれています。実際、両方とも使用可能です。

イーサン [00:16:14]: この VAE の後、得られるのは潜在空間トークンと言語トークンです。つまり、拡散トランスフォーマーのトレーニングでは、通常生成モデルは拡散トランスフォーマーを使用します。これは非常に標準的な手法で、言語トランスフォーマーモデルを訓練する方法と非常に似ています。大きな違いはありません。単に、入力と出力が視覚トークンであるという点だけです。唯一の違いは、ノイズ除去プロセスがあることです。つまり、モデルにノイズの一部をアンマスク(除去)させるように訓練します。視覚トークンにランダムなノイズを加え、そのノイズを取り除いてクリーンなトークンを生成するようにモデルを訓練するのです。推論時には、モデルは 100% のノイズから反復的にノイズを除去することができます。

スワイ [00:17:12]: また、拡散の技術ツリーにおいて速度を上げるために、CFG(Classifier-Free Guidance)がありますし、潜在拡散という手法もあります。その中には誰かが関わっているはずです。おそらくどこかの時点で、Stability 社やその他の多くの企業が、これらのアーキテクチャの多くを開拓したのだと思います。この点について詳しくお話しするか、それとも動画側の話題に進むかはお任せします。

イーサン [00:17:37]: このようなモデル、つまり画像モデルを訓練した後、それが動画モデルの基盤となる理由は、画像モデルの方が訓練コストが安く、言語と画像の間にははるかに密接な関連性があるからです。すみません、言語とテキストではなく、言語と画像です。例えば、10 億枚の画像で訓練し、テキストから画像へのマッピングが存在するとします。同じように、10 億のテキストを 10 億の動画にマッピングして訓練する場合、そのコストははるかに高くなります。なぜなら、動画は本質的に画像よりも多くのトークンを含むからです。拡散モデル(diffusion models)における言語理解は、純粋にこのマッピングから得られるものです。したがって、十分なマッピングがない場合、例えば 1000 万本の動画などでしか訓練しない場合、訓練データ内で十分な数の言語トークンを確認できず、モデルが人間の意図を十分に理解できない可能性があります。そのため、まず画像拡散モデルを訓練し、そこから動画モデルをブートストラップ(bootstrap)するのです。

スワイ [00:18:53]: 一つお聞きしたいことがあります。実は、私がこれまで話した中で、あなたはおそらく初めて動画モデルの専門家の方だと考えています。ルマ社(Luma)や他の関係者たちとはすでに話をしていますが、動画圧縮にはさまざまなトリックがあります。基本的にフレームごとに大きな違いがないため、すべてのフレームを再生成したり保存したりする必要はないのですよね?MP4 圧縮やそれと同様の技術のことです。

Swyx [00:19:16]: それを使うのは魅力的ですか?あるいは私の知る限り、誰もがそれを「いいえ、各フレームを生成するだけです」として扱っているようですが、それが現在の最先端の状況と大まかに一致していますか?

Ethan [00:19:27]: いくつか異なるアプローチがあります。まず、MP4 の圧縮(compression)をそのまま使用し、それをトランスフォーマー(transformer)が学習するためのトークンとして利用したいというケースを考えてみましょう。実際、人々はこれを試したことがありますが、主な課題は MP4 トークンの潜在空間(latent space)がモデルにとって理解しにくいものであり、非常に扱いにくいものだった点です。そのため、その上で訓練するのは極めて困難です。

Ethan [00:20:01]: そのため、VAE(Variational Autoencoder:変分オートエンコーダー)が作成されました。これはより連続的な潜在空間を生成するため、モデルはその潜在空間を理解し、そこから学習することがはるかに容易になります。VAE の内部においても、潜在空間には異なる難しさがあります。例えば、最も単純で素朴な VAE は、画像を用意してすべての画像をベクトルにシャッフルするだけのものだと想像できます。つまり、VAE を訓練する必要さえありませんが、その潜在空間はモデルにとって学習の基盤として極めて困難です。そのため、トークンをどのように圧縮するかについて議論が行われています。あなたはフレームごとに圧縮できるとおっしゃいましたが、時間軸(temporal dimension)を圧縮することも可能です。

Ethan [00:20:52]: 違いは、時間次元を圧縮すれば、はるかに高い圧縮率が得られる点にあります。なぜなら、フレーム間には時間的な冗長性があるからです。つまり、現在のフレームと直前のフレームはほとんど同じである可能性が高く、わずかな差分しか存在しないのです。例えば、12.1 VAE では、8×8×4 の圧縮率を持っています。つまり、4 つの時間トークンが 1 つのトークンに圧縮されることになります。これにより、コンテキスト長を大幅に削減できます。もしフレームごとに処理を行うなら、おそらく 8×8×1 となるでしょう。その場合、コンテキスト長は 4 倍になります。とはいえ、フレームごとの圧縮の利点については後ほど改めて触れるかもしれませんが、それはリアルタイム性と対話性です。なぜなら、モデルの出力をフレームごとに生成すれば、ユーザーからのあらゆるリクエストに即座に対応できるからです。したがって、時間方向に 4 倍の圧縮(4 つのトークンを 1 つに)を行うと、

Swyx [00:22:06]: レイラグが生じる可能性があります。

Ethan [00:22:07]: 本質的にそこに遅延が発生します。

Swyx [00:22:10]: つまり、あなたはこれに非常に熱心なのですね。それでは、視覚資料も用意されているので早速取り上げましょう。リアルタイム動画生成の最先端応用例としていくつかあります。最近バズった「Flipbook」もその一例です。さて、「Flipbook」とは何でしょうか?

Ethan [00:22:23]: Flipbook は、いわばウェブブラウザのようなものです。上部にはウェブブラウザの UI が表示されているのがわかります。違いは、すべての UI が生成画像モデルによってリアルタイムで生成されており、ここにあるものはすべて架空のものだということです。しかし、この想像上の世界の中を探索することはできます。例えば、ここでは「ピラミッドの建設」について取り上げています。モデルはこの仕組みを理解するために私たちにこのようなものを生成しますし、さらに詳しくナビゲーションして理解したい場合は、ここにあるいくつかの説明をクリックするだけで、モデルが知りたい詳細を説明する新しいページやサブページを生成してくれます。

Swyx [00:23:14]: つまり要するに、私たちは動画を見ているようなものですが、次のインタラクションのために一時停止され、そのインタラクションに基づいて次に再生されるという仕組みですね。

Swyx [00:23:23]: それはかなりクールなことです。

Vibhu [00:23:25]: そして、物語の展開を自分で決めることができます。では、「ピラミッドはどうやって作るのか?」という点ですが、レバリング技術(levering technique)が興味深いですね。これは「さて、これが何なのか知りたい」という場合にどうするかを示しています。

Swyx [00:23:35]: デモのツイートでは、フレーム間のアニメーションがもっと多かったはずです。

Vibhu [00:23:38]: 単にスキップしているだけだと思いますが、

Swyx [00:23:39]: ああ、大量のフレームをスキップしているんですね。

Ethan [00:23:40]: 動画モードもありますよ

Vibhu [00:23:42]: 多くの人が使っています。多くの人々が

Ethan [00:23:42]: しかし、多くの人が利用しています。

Ethan [00:23:45]: そのため、現在は利用できません。

Vibhu [00:23:46]: 生放送の動画ストリームがあります。試してみましょう。

Swyx [00:23:50]: つまり、これはあなたが極限まで見据える未来の一例です。もちろん、私たちは今日その世界にはいませんが。

Swyx [00:23:56]: しかし、推論(inference)が完全に無料になる世界では、コードやテキストを生成することよりも優れているのでしょうか?

イーサン [00:24:02]: これが、Viva のワードモデルにおける最終的な状態の姿だと私は考えています。インターネットが存在しない世界を想像してみてください。そして google.com と入力します。その時、モデルはあなたに何を見せるべきでしょうか?モデルは何らかのものを想像し、これがそのモデルが想像したものです。これらのウェブページは完全に存在しません。推論コストが低下するにつれて、あらゆるものに対してジェネレーティブ UI(生成型ユーザーインターフェース)が実現されるようになると思います。コーディングモデルがどのように動作するかを考えてみてください。彼らはウェブページのコードを書き、そのコードをレンダリングします。このコードはバイナリに変換され、そのバイナリが画面上のピクセルをレンダリングするのです。機械学習において、私たちは常に新たなブレークスルーを起こしますが、明らかにそれはより直感的なものです。なぜなら、ユーザーからの指示を直接ピクセルに送るような仕組みがないのでしょうか?つまり、ジェネレーティブ UI とは、ユーザーの意図を直接ピクセルへと変換するものなのです。例えば、メールを見たい場合でも、誰もが同じインターフェースを使っているとしても、私はそれを少しだけ違う形にしたいと望みます。メールを TikTok のように表示させたいのです。そうすれば、メールを左右にスワイプして閲覧できます。あるいは、あなたが別のものを望むこともあるかもしれません。全く異なるものも可能です。例えば、Instagram ストーリーを見ていて、「いいね」ボタンが気に入らない場合でも、私はいつもそれをクリックしてしまいます。しかし、ジェネレーティブ UI がその問題を解決します。これはインターフェースに対する革命的な置き換えとなるでしょう。将来、私たちははるかに強力な

イーサン [00:25:50]: 背後では LLM(大規模言語モデル)やコーディングモデルが動作し、フロントエンド側では拡散モデルが実際にあなたに情報を表示する役割を果たします。それが私のイメージです。

スワイクス [00:26:02]: フロントエンドは拡散モデル、バックエンドは決定論的(デターミニスティック)。

スワイクス [00:26:04]: そういうことです。非常に高価だと感じますが、

ヴィブー [00:26:08]: LLM がバックエンドでコードを記述することを「決定論的」と呼んだ点について興味深いと感じますね。でも、いいですよ。

スワイクス [00:26:14]: 一度だけ記述すれば

ヴィブー [00:26:15]: それと比較して

スワイクス [00:26:16]: そして実行するだけです。

イーサン [00:26:17]: コストについて考えてみましょう。例えば、H100 のコストが 1 時間あたり 1 ドルだと仮定します。これを 1 日 8 時間、30 日間使用すると、毎月 240 ドルを支払うことになります。実際には、そんな費用を払いたくはないでしょう。それは Cloud Code Max よりもさらに高価です。しかし、計算コストは毎年約半分(2 倍の効率化)に低下していくと考えると、未来は数年内に訪れる可能性が高いと思います。

ヴィブー [00:26:49]: つまりすべてが揃うわけですね。計算コストが下がり、計算速度が上がり、モデルが賢くなり

イーサン [00:26:54]: より効率的に

ヴィブー [00:26:54]: モデルが小さくなる。

スワイクス [00:26:55]: なぜ「半分(2 倍)」とおっしゃるのか分かりませんが、私は約 100 倍だと考えています。言語モデルにおいては、同じ LMSys ELO レベルを維持する上で、12 か月から 18 ヶ月ごとに概ね 100 倍から 1,000 倍の進歩があります。

Vibhu [00:27:08]: それはすべての要素を網羅したネット効果ですね。つまり、計算リソースの削減だけでなく、モデル性能も向上するということです。非常に興味深い未来像です。

Swyx [00:27:19]: つまり、ウェブデザイナーはアクセシビリティが課題であることを叫ばなければなりませんね。スクリーンリーダーやその他の対応をどう扱うかという点です。しかしはい、これはコードで生成できるどんなものよりも高い帯域幅を持つストーリーテリングと言えますよね。それが大まかなアイデアだと思います。

Ethan [00:27:34]: さらに付け加えたいのですが、人間は物事を見たり動画を見たりする際に最大の入力帯域幅を持ち、話している際には最大の出力帯域幅を持っています。つまり将来は、私たちが AI モデルに話しかけると、AI モデルが生成 UI(Generative User Interface)で応答するような形になるかもしれません。これはニューラルリンクが登場する前に、AI モデルと対話するための最大の入力・出力帯域幅を実現する手段となるでしょう。

Vibhu [00:28:06]: また、それは非常にカスタマイズ可能ですね。視覚的な情報を好む人もいれば、そうでない人もいる。テキストを好む人もいます。しかし生成 UI の素晴らしい点は、それがテキスト形式でも実現できることです。

Swyx [00:28:17]: 紹介したい別のプロジェクトとして、Neural OS(ニューラル OS)があります。似たようなアイデアですが、ここではあなたがリテ

原文を表示

*We’re announcing AIEWF speakers this week! Take the AI Engineering Survey!*

Today’s guest Ethan first joined us for the LS Paper Club as the lead on NVIDIA Cosmos World Model, but then joined xAI and built Grok Imagine in 3 months:

[Ethan He@EthanHe_42Thrilled to share our new Grok Imagine release 🚀 It is the highest quality, fastest, and most cost-effective video generation model yet. Comes with 720P, video editing and better audio! We listened closely to your feedback and moved fast.

Just six months ago, we had almostxAI @xaiUnderstanding requires imagining. Grok Imagine lets you bring what’s in your brain to life, and now it’s available via the world’s fastest, and most powerful video API: https://t.co/tqQwQVgCEI

Try it out and let your Imagination run wild.2:43 PM · Jan 29, 2026 · 116K Views127 Replies · 107 Reposts · 1.35K Likes](https://x.com/EthanHe_42/status/2016749123198673099)He comes back on Latent Space with some nuclear hot takes: that Video Models primarily get their intelligence from LLMs, not from training on video data, and that the next frontier for truly interactive, realtime, long-horizon world models is to work on LLMs (perhaps Interaction Modelsas well…)

Put it this way: In the near term, the next Sora won’t be a better video model, but a video agent.

Generative Media may more closely follow the evolution of AI coding which went from focusing on one-shot output performance and cost, to multiturn reasoning and planning models for agents and systems that can plan, edit, test, debug, and submit PRs.

At a certain point, coding models got so good that the only significant next step to improve performance was handling the orchestration of these models.

Now as the performance of video models increases significantly across realism, consistency, & prompt adherence while becoming more cost efficient, the next evolution of video generation may also be systems that can plan, generate, edit, critique, and iterate across an entire creative task.

[X Freeze@XFreezeGrok Imagine Agent Mode (Beta) just went live on Grok web

It’s a full creative agent working on one infinite open canvas

Grok Agent plans → generates → edits → iterates everything automatically in the same workspace

Tell it what you want and watch it plan, generate, edit, 2:42 PM · Apr 30, 2026 · 920K Views681 Replies · 1.15K Reposts · 3.97K Likes](https://x.com/XFreeze/status/2049725955208622475)In this episode, Ethan joins swyx and Vibhu to unpack what it actually takes to build frontier image and video systems: data, VAEs, diffusion transformers, audio-video alignment, inference speedups, and the hidden cost of storing and moving massive video datasets. From building NVIDIA’s Cosmos world model to joining xAI as Grok Imagine was being built from zero to one, Ethan He has been at the center of some of the most important work in video generation, multimodal models, and real-time world models.

We go deep on Grok Imagine, how a small xAI team shipped its first multimodal video model in three months, why iteration speed matters more than almost anything in model development, and why many of the biggest gains come from fixing tiny bugs in data and training pipelines.

Video agents are almost a sure bet to be the trend in the coming year. We end with a glance at what’s beyond video agents:

Flipbook caused a minor sensation this year when it was released, but most treat it as a fun demo. Ethan takes it very seriously — with the speed and cost of inference coming down every year, the future of custom video JIT UI is closer than you think. We talked about why videogen models may become the front end of AI, how generative UI could replace traditional HTML/CSS, why world models need to be real-time, interactive, and long-horizon, and why the future of video generation may depend more on language models and agents than on diffusion alone.

We discuss:

  • Why fast iteration mattered more than meetings
  • Why small training bugs can drive huge model quality gains
  • Why coding models may make compute the bottleneck again
  • How image and video models are trained with synthetic captions
  • The role of VAEs and latent space in frontier video models
  • Why image models are the foundation for video models
  • The tradeoff between temporal compression and real-time interactivity
  • Flipbook, Neural OS, and the future of generative UI
  • Why future interfaces may go from user intent to pixels
  • The hidden cost of training video models: storage, egress, and GPU hours
  • How step distillation and consistency models (like OpenAI sCM) makes video inference orders of magnitude faster
  • Grok Imagine 0.9 and large-scale audio-video generation
  • Why audio-video alignment is harder than text-video alignment
  • Ethan’s definition of world models
  • Reference-to-video, video extension, and long-context video generation
  • Why xAI’s research communication undersells Grok Imagine
  • How xAI culture shaped the speed of development
  • AI watermarking, SynthID, and detecting generated media
  • Why prompt rewriting matters for video models
  • Grok Imagine Agent and the rise of video agents
  • Why language models may unlock better video generation
  • Robotics, physical AI, and embodied world models
  • Why Ethan left xAI and shifted focus toward LLMs
  • Self-managed context, memory, and the next frontier for language models

Ethan He

  • LinkedIn: https://www.linkedin.com/in/ethanhe42
  • X: https://x.com/EthanHe_42

00:00:00 Introduction

00:01:25 From NVIDIA Cosmos to xAI

00:03:24 Building Grok Imagine from Zero to One

00:10:07 How Image and Video Models Are Trained

00:18:53 Video Compression, VAEs, and Real-Time Tradeoffs

00:22:10 Generative UI, Flipbook, and Neural OS

00:32:10 The Cost of Training Large Video Models

00:37:04 Distillation, GANs, and Fast Video Inference

00:41:21 Audio-Video Generation and Grok Imagine 0.9

00:48:34 What Makes a World Model?

00:55:51 Reference Videos, Long Context, and Video Memory

01:00:11 xAI Culture, Research, and First-Principles Building

01:09:45 AI Safety, Watermarking, and Prompt Rewriting

01:13:10 Video Agents and AI-Assisted Creation

01:27:32 Why Language Models Unlock Better Video

01:31:15 Robotics, Physical AI, and Embodied World Models

01:32:38 Why Ethan Left xAI

01:34:16 Self-Managed Context and the Future of LLMs

01:38:43 Ethan’s Career Path and Closing Thoughts

Swyx [00:00:00]: We’re here in the studio with Ethan He, most recently of xAI. Welcome.

Ethan [00:00:10]: Thank you. Glad being here.

Swyx [00:00:11]: We’re also here with Vibhu. you were first coming to us or joining the latent space world because you were working on Kosmos at NVIDIA, and you did a paper. We loved it. you presented it as well, so thank you for doing that.

Ethan [00:00:23]: I’ve actually, I also presented the MoEs twice at latent space.

Swyx [00:00:29]: How did you actually hear about us? Did we reach out to you? Is that how it worked?

Ethan [00:00:33]: No, actually, I-- the community. Like I realized, oh, there is this online community that people talk about AI and also learn from each other through papers every week through the Paperclip. It’s very nice.

Ethan [00:00:49]: I learned a lot.

Swyx [00:00:49]: I think three years stop. We haven’t stopped even on Christmas and New Years. many weeks I want to stop but it keeps going.

Vibhu [00:00:58]: No, that was good. I think you had posted that you worked on a paper, and I was “Oh, very cool. We have Paperclip. Present then.”

Vibhu [00:01:04]: But I might have reached out to you after.

Swyx [00:01:05]: you-- because it’s an amateur club, right?

Swyx [00:01:08]: so it’s very unusual and but we have sometimes paper authors come by and actually explain the paper. Today we just did, the poolside paper, which was apparently very good.

Vibhu [00:01:18]: Came out yesterday.

Vibhu [00:01:19]: pretty interesting, right? Fully open. They talk about everything, systems. So it’s a good one. We’ll, we’ll recommend people to read it.

Swyx [00:01:25]: Bring us up to speed on your transition to xAI, ‘cause I actually don’t even know when you joined. just like tell the, tell the story about the sort of transition.

Ethan [00:01:34]: Before xAI, I was working on Kosmos world model as in-- at NVIDIA. So Kosmos is, it’s a giant video foundation models that can-- that aims to simulate the world and for-- it serves as a foundation of-- for all of the roboticists to build on top of. There, once I built the Kosmos one, I realized as this thing also has a scaling law similar to language model, we need to scale up the video models further. that’s, that’s why I realized I need to move to somewhere with much more compute resources. That’s how I

Swyx [00:02:13]: Than NVIDIA?

Vibhu [00:02:14]: The GPU rich came themselves.

Vibhu [00:02:19]: And timeline-wise, when was Kosmo? It was pretty early, right? It was open world model, open paper, everything.

Ethan [00:02:25]: It was end of twenty-four.

Vibhu [00:02:28]: End of twenty-four.

Ethan [00:02:30]: Then at mid twenty-five, I moved to xAI. At that time-- I joined about the time when xAI was about to build video models and in multi-model models. There were no infra, no data, and no model, and it just-- as a few engineers, we built it in three months and released the first model, Grok Imagine zero point nine.

Ethan [00:02:55]: And since then, I keep working on video models and move more from training and to post-training of the video models. For example, like a reference to videos, kind of like the cameo feature and, video extensions. And, before I left, I worked on a world model, leading a small team to focus on the real-time long horizon video generation.

Swyx [00:03:24]: Can you give like a rough roadmap of okay, you’re on a brand-new team. Grok previously was only text, or they partnered with BFL for their image gen stuff. What do you-- what are the building blocks, right? You have compute, data you can procure somewhere. Like just what are like the sequence of things that people should think about when you’re setting up a new team?

Vibhu [00:03:43]: actually even deeper, not just data you can procure. You guys had to go through getting the data too, right? So you shipped it pretty fast, but yeah

Swyx [00:03:51]: three months is like

Vibhu [00:03:52]: From everything

Swyx [00:03:52]: actually like very surprisingly fast.

Ethan [00:03:55]: One thing I say like thanks to my experience at NVIDIA, ‘cause first time when we were building Kosmos together, we built it, for about a year. So this is like the second time I do it. Roughly have an idea, what to do. I say the most important thing is the talent. Everyone were very strong and clever, very close with each other towards a common goal. So that speed up things a lot. So you reduce the communication bandwidth among people, and everyone can work towards the same goal. It’s, it’s like every day there’s not that much meetings on the calendar, like maybe like a, like a sync a day, and after that it’s, it’s just all building. It was pretty fun at that time.

Ethan [00:04:47]: And another thing is that xAI has very strong foundations of like data inference, model inference, and the supporting there can help the model develop a lot. When I look at, training models, I don’t so actually the top important thing is like how many, how many iterations can you do, per day? and the more iteration can you do, you can, you can train the model much faster. So if you have very strong infra and you have a lot of compute, you can, you can train these models in very short period of time. That can give you a much larger buffer to, for errors, and it also gives you the opportunity to spot more bugs.

Swyx [00:05:46]: What is an iteration? Is it like a few hundred steps or what are you

Ethan [00:05:50]: Let’s say just the train-training the model, like from acquire new data and maybe design new algorithms and train a new model, maybe at smaller scale or

Swyx [00:06:01]: So cycle time for like any hyperparam that you’re searching.

Ethan [00:06:04]: Cycle time and tune to like eval this model. Is this model better than my previous iteration?

Ethan [00:06:11]: So

Swyx [00:06:11]: So it’s like before you, someone had already set this up that you can iterate very quickly.

Ethan [00:06:15]: I think the foundation there is extremely good forDeveloping and research models.

Ethan [00:06:23]: And often I find is it-- this is kind of boring, but like a lot of the improvements does not come from new algorithms. It comes from finding small bugs here and there in the data pipeline, in the, in the model training pipeline. Those give, those give the biggest boost to the model quality.

Vibhu [00:06:46]: It’s interesting, right? So you say it’s like small team, less communication bandwidth, but also a lot of quality is like find little bugs. It seems counterintuitive, right? You have a lot of people, you can iron out more of those, but it’s interesting to see the other side, right?

Swyx [00:07:00]: I also wonder, have you-- do you try using LLMs to look for bugs? I don’t know.

Ethan [00:07:05]: I remember at that time it was mid two thousand and twenty-five, so it’s the coding model wasn’t quite there yet. I remem- I remember like December two thousand and twenty-five, it was extremely good. Yeah, I’ve been, I’ve been using it at that time. It’s, it’s helpful. sometimes it produce codes that are kind of difficult to maintain, even though like the first time it built something extremely fast. But it gave the, like a spaghetti code, thousands of lines that I couldn’t maintain, and the LLM itself couldn’t figure out what’s, what’s wrong and how to improve on top of it. But now I find it much better. Yeah, I want to bring up another point here is now coding models are much more efficient and can help us implement stuff much faster. Compute might become a bottleneck again because previously, like if you want to train a new model, say you want to generate new synthetic data and then or write a new algorithm, it might take a few weeks. And during that period of time, you don’t-- you might not have experiments to run. But now you can build that thing within a few hours, then you can immediately train a model.

Ethan [00:08:24]: Now you have to have enough compute to try all of the ideas. So compute might be the bottleneck of iterating speed again.

Swyx [00:08:36]: yeah, I actually, honestly, I think it’s like kind of a stressful job because you’re “Well, I should be trying everything, and if I’m not, then I’m not doing my job well.”

Vibhu [00:08:48]: there’s also the stress of you’re eating thousands of GPUs per hour, which is very expensive and, compute can go to other researchers.

Swyx [00:08:56]: You got the daddy Elon to

Vibhu [00:08:57]: You got daddy Elon.

Ethan [00:08:59]: It was

Vibhu [00:09:00]: But there’s still finite amount of compute, like you want to use it, you want to use it well, you want more of it.

Ethan [00:09:06]: That was quite stressful indeed. Yeah, I think one thing is the-- with coding models now, like a lot of these jobs can be automated, which is much better. A second, it’s a, it’s a marathon, so you got to maintain good health and, a regular schedule.

Vibhu [00:09:28]: It’s, it’s hard to hear that when you shift from zero to nothing in two months.

Swyx [00:09:32]: and, I think obviously the culture at xAI is very famously, people work very hard. one thing I did want to dive into, in our-- in the notes that you, that you sent ahead of time, you had specific comments about the cost of Video Gen training. presumably this is on the Colossus-1, right? the two hundred megawatt cluster. Any whatever you want to just share on that.

Vibhu [00:09:54]: I think there’s, there’s three things we’re talking about, right? So there’s Video Gen, there’s also the Image Gen model that you put out. Do you want to like complete the, okay, so zero to one, you have a few months. Just what are the stages of create Image Gen model?

Swyx [00:10:06]: Oh, yeah, maybe I got distracted.

Vibhu [00:10:07]: Sorry. and then, from there’s Video Gen, there’s Audio Gen. Would love to get into those next. But what is that first few months like? So small team, a lot of bugs, iterations, but what does it look like? Do we take something off the shelf? Do we just get data compute? What’s, what’s the few months like? How do you go to state-art Image Gen model? How do you just start?

Ethan [00:10:28]: I cannot comment specifically how xAI did, but it’s, it’s a quite standard process. I can draw some, examples from Cosmos. So mainly it’s building a video model, you actually need to build a image model first. And building these two models, the data you need is a hundred percent synthetic pair of language and image or language to video. Because on the, on the internet, actually, the videos don’t naturally associate with text. So you can say, oh, like on YouTube, you have the title and you have the description and the comments

Swyx [00:11:11]: Title

Ethan [00:11:11]: of a video, but usually they’re not relevant to the video itself. And say maybe like the video is a natural scene of mountains or something, and the title is, I’m so happy today.

Ethan [00:11:26]: So they have they have no correlation at all. So the first step is to, you have to generate synthetic pair of language with the videos. So you gather videos from the internet, and you use a VLM to caption the videos. So that part, here’s a question, like how do you, how do you gather VLM to begin with? So if there’s no

Swyx [00:11:55]: You, so you fuse the model, right? Like

Ethan [00:11:57]: Say if there’s no like VLM exists, like how do you generate the text to the beginning, right? It’s, it’s impossible.

Swyx [00:12:04]: I see.

Ethan [00:12:05]: In the beginning, it’s like you ask human to describe the video as detailed as possible.For example, you ask them to describe everything, like all objects, all characters, and all interaction and dialogues in the, in the videos. So that’s in the protocol of Cosmos labeling. We require the objective we give to the labelers was that you have to describe the video as detailed as possible, such that a blind person hears a blob of text can reconstruct what the video is like from their head.

Swyx [00:12:43]: Video or image? You’re talking about images.

Ethan [00:12:44]: Video or image, either one of them.

Vibhu [00:12:47]: This was pretty common when we went from clip and DALL-E, right?

Vibhu [00:12:51]: It’s all training on really detailed captioning of images. So same is applied to video, but instead

Ethan [00:12:57]: same applied

Vibhu [00:12:57]: of using multimodal model to pass in video images and write rich descriptions, you can also

Swyx [00:13:04]: I think there’s this traditional perspective of supervised, or, very highly human curated thing. I feel like there’s a unlock with unsupervised, right? Where like you have enough to bootstrap that you can just throw common corpus on it or, whatever. like unsupervised vision and language pairing, right? Like where you just have, interspersed image and text and it just learns. To me, that is the VLM breakthrough that is different from the clip, different from the LM era.

Ethan [00:13:36]: It’s interesting to see that you kind of need both data.

Ethan [00:13:41]: For example, for the

Swyx [00:13:41]: You need it to bootstrap it up. Yeah

Ethan [00:13:43]: for the generative model training, there’s also usually like a small percentage of unlabeled data. So the model is instructed to generate a video without any text instruction. That can also help the model generalize. So after this stage of generative synthetic pair, so, one important common step is to train a compressor or a tokenizer of the image or videos. So because, if you train-- If you can technically, theoretically train image or video models on pure pixels, but the problem is that the, it’s, it’s a lot of tokens. So like one image, it’s, a thousand by a thousand, it’s like one million tokens, one million pixels. It’s impossible to train transformer on that. So it’s, you need to train a tokenizer, which can go from image to latent space and latent space back to image.

Swyx [00:14:45]: That’s why we named the podcast.

Swyx [00:14:48]: But, basically, you’re talking about vocabulary science.

Ethan [00:14:50]: so vocab.

Swyx [00:14:51]: And so, what is, what is imp-- like a million is impossible?

Ethan [00:14:54]: In generative models, the vocab is continuous. It’s a continuous space. We can think about like you map an image to a vector. It’s a, it’s a fixed length vector. It’s sixteen or forty-eight, something like that. And then you map that vector back to the image space. And the mapping is, has-- The mapping is patch-based. So you say you have

Ethan [00:15:22]: a sixteen by sixteen patch and you match, you map that patch of pixels into this latent space.

Swyx [00:15:29]: We’ve covered this

Vibhu [00:15:30]: This is like the vision transformers

Swyx [00:15:32]: VAEs,

Ethan [00:15:33]: VAEs.

Vibhu [00:15:34]: You basically compress your input, you do your generation, you’re reasoning all that generation in smaller dimension, and then you project back out.

Swyx [00:15:43]: VAE is a form compression, but I think the for me, the patching thing is from VIT, right?

Ethan [00:15:48]: You can make those.

Swyx [00:15:49]: Literally the, yeah, the paper is titled like sixteen by sixteen is all you need. something like that. and then I think also, people make a lot of comparisons with this kind of patching with convolutions.

Swyx [00:16:02]: Which is you’re, you’re kind of re- reconstructing the old paradigm with the new.

Ethan [00:16:05]: Actually, in VAEs, there are, there are both convolution networks and transformers. You can actually do both.

Ethan [00:16:14]: After this VAE, so what you’ve got is you’ve got latent space tokens and you’ve got the language tokens. So now the training of the diffusion transformer, usually generative models use diffusion transformers. It is actually quite standard. It’s, it’s very similar to how you train a language transformer models. It’s not that much difference. It’s just the tokens, the visual tokens in, visual tokens out. The only difference is there’s a denoising process. So you train the model to unmask some of the noise. So you add, you add random noise to the visual tokens, and then you train the model to remove those noise to generate the clean tokens. Any inference, the model can iteratively remove noise from a hundred percent noise.

Swyx [00:17:12]: And then there’s also, to speed things along on the tech tree of diffusion, there’s CFG, and then there’s, there’s also, latent diffusion that, there’s, there’s someone in there. I think, somewhere along the line, obviously, like stability and all these other guys, pioneered a lot of this, architecture. I don’t know if you want to get into that or just, or do the video side up to you.

Ethan [00:17:37]: After you train such model, such image model, the reason it’s a, it’s a foundation for video models is that image models are cheaper to train, and they have much denser connection between language and text. So, sorry, language and images. For example, you train a billion, you train on a billion images, and there’s a mapping from the text to the image. And the cost to train the same, like the, a billion, a billion text to a billion videos, that’s much more expensive because videosNaturally have more tokens than images. Because the diffusion models, their understanding of, language purely come from this mapping. So if you don’t have enough mapping, so if you only train on like a ten million videos or something, there-- you might not see enough language tokens in your training, so your model does not understand human intention enough. So that’s why you really-- you train-- you first train this image diffusion models, and then you bootstrap the video model from there.

Swyx [00:18:53]: One thing I did want to ask, because I-- actually, I think you’re, you’re the first per-- video model person I’ve ever talked to, I think. we’ve, we’ve like talked to Luma and all those folks. There’s all these tricks in video compression where basically frame by frame there’s not that much difference, so actually you don’t have to regenerate or save the whole frame, right? but I think MP4 compression or something else like that.

Swyx [00:19:16]: is it tempting to use that? Or as far as I can tell, everyone just treats it as, “No, we would just generate every frame.” Is that roughly the state-art?

Ethan [00:19:27]: There are a few different approaches. Let’s say first, like you want to just directly use MP4 compression and use that as the tokens for the transformers to train, right? So people actually have tried that, but the main challenge is the latent space for the MP4 tokens were not, were not very comprehensible for the models. It’s, it’s extremely hard to train on that. And there’s a

Ethan [00:20:01]: So that’s why they created VAEs, which creates more continuous, latent space, so the models can understand that latent space and learn from it much easier. Even within the VAEs, there are different difficulties of the latent space. So you can imagine something the simplest, the most naive VAE is like you have an image, and you just shuffle all of the images into a, into a vector. So you don’t need to train any VAEs, right? But that latent space is extremely hard for models to train on top of. That’s why there are some debate on like how do you compress the tokens. So you mentioned like you can compress frame by frame. Also, you can compress, the temporal dimension.

Ethan [00:20:52]: The difference is if you compress the temporal dimension, you get a much higher compression rate. Because there’s temporal redundancy between frames, because, this frame and the last frame, likely they are mostly similar, so there’s only some small difference. for example, I think in 12.1 VAE, they have like a eight by eight by four compression rate. So the four temporal tokens are compressed into one tokens. That can save a lot of, save a lot of the context length. If you do it frame by frame, you have to do maybe like eight by eight by one. Your context length will be four times larger. That being said, the benefit of the frame-- per frame compression, we might come back to this later, is, real-timeness and interactivity. ‘Cause if you, if you strain the output of the model, frame by frame, you can-- the model can respond to any user request immediately. So if you have like a temporal four compression, four times compression, then

Swyx [00:22:06]: It might be laggy

Ethan [00:22:07]: there’s a lag there in nature.

Swyx [00:22:10]: So you’re very pilled on this. let’s just go ahead and bring it up ‘cause we have the visual prepared anyway. There’s some frontier applications of real-time video gen. So Flipbook is one of the examples that went viral recently, right? What is Flipbook?

Ethan [00:22:23]: Flipbook is kind of like a web brow- web browser. You can see like it has the web bro- browser UI on top. The difference is all of the UIs are generated by generative image model in real time, and anything here are fake. But you can, you can explore inside this wor- this imaginary world. Say like we-- here we have engineering the Great Pyramid. Like the model generates this for us to understand how it works, and if we want to navigate around and understand further, we can click on some of the, some of the description here, and the model will generate a new page, new subpage describing the details we want to know about.

Swyx [00:23:14]: So it’s basically kind of we’re playing a video, but it’s pausing for our next interaction, and then it just plays the next thing based on our interaction.

Swyx [00:23:23]: Which is kind of cool.

Vibhu [00:23:25]: and you kind of decide your story. So this was, how do you make a pyramid? levering technique seemed interesting, right? It shows how do you take Okay, I want to know what is this

Swyx [00:23:35]: The demo, the demo tweet had more animation between frames.

Vibhu [00:23:38]: I think it’s just skipping,

Swyx [00:23:39]: Oh, it’s just skipping a lot of frames.

Ethan [00:23:40]: they also have a video mode

Vibhu [00:23:42]: It takes a lot. There’s a lot of people

Ethan [00:23:42]: but, a lot of people are using it.

Ethan [00:23:45]: So it’s not available.

Vibhu [00:23:46]: There’s a live video stream. We can try,

Swyx [00:23:50]: So this is an example of the kind of future that you see at the extreme. We don’t-- we’re obviously not in it today.

Swyx [00:23:56]: But in a world where inference is completely free this is better than generating code and text?

Ethan [00:24:02]: So this is, this is a final state of where Viva will be at for word model, I think. Imagine internet doesn’t exist, and then you type in google.com. Like what should, what should, what should a model show you?the model can imagine something, and this is what the model imagine. And these web pages, they completely do not exist. So I think as the inference costs come down, we are going to have generative UI for everything. If you think about how the coding model works, so they write code for a web page, and they render the code might be con- converted into binary, and the binary render the pixels on the screen. So we in machine learning, every time we have some breakthrough, obviously it’s, it’s more intuit. So why don’t we have like user instruction to the pixel directly? So the generative UI will be user intention to the pixels directly. And say like even if I want email, let’s say everyone have the same interface, but I want, I want it slightly different. I want the email to show to me like a TikTok, so I can swipe left and right for the emails. And or maybe you want something else. We can have completely different things. Or like I have I’m looking at, Instagram stories, and I don’t like the Like button. I always may click it. And, generative UI resolved it. So it’s going to be a revolutionary replacement of the interface. So in the future, we might have much more powerful

Ethan [00:25:50]: LLMs and coding models running behind the scene. And in the, in the front-end, the diffusion model will actually be the front-end to show stuff to you. That’s how I imagine it.

Swyx [00:26:02]: Diffusion front-end, deterministic back-end.

Swyx [00:26:04]: Something like that. I find that very expensive, but,

Vibhu [00:26:08]: I find it interesting you called LLMs writing code on the back end deterministic, but okay.

Swyx [00:26:14]: you write it once

Vibhu [00:26:15]: Compare it to

Swyx [00:26:16]: And then you execute.

Ethan [00:26:17]: If you think about the cost, say, let’s say H100 costs $1 per hour, and if you use this eight hours a day and thirty days, so, every month you’re paying this two forty, you’ll actually not wanna pay for that. That’s even more expensive than Cloud Code Max. But if you think about the compute costs come down like two times every year, and I think the future will likely arrive like within few years.

Vibhu [00:26:49]: It’s everything, right? compute cost comes down, compute gets faster, model gets smarter

Ethan [00:26:54]: More efficient

Vibhu [00:26:54]: model gets smaller.

Swyx [00:26:55]: I don’t know why you say two times, ‘cause I think it’s like 100 times. In language models, it is roughly one hundred to a thousand times every twelve to eighteen months, for the same given level of LMSys, ELO.

Vibhu [00:27:08]: That’s a net of everything, right? That’s model performance alongside compute. So different than just compute costs come down. But, a very interesting future.

Swyx [00:27:19]: So the web designers will have to shout out that accessibility is an issue, right? how do you deal with screen readers or whatever. But yes, this is higher bandwidth storytelling than anything you can possibly generate with code, right? So I think that’s the rough idea.

Ethan [00:27:34]: And I’d like to add a little bit that so human naturally have the maximum bandwidth when we are looking at things, look at videos, and we also have maximum output bandwidth when we are talking. So in the future, it might be something like we talk to AI models, and the AI model responds back with a generative UI. So that would be the maximum input and output bandwidth to interact with AI models before neural link happens.

Vibhu [00:28:06]: And it’s also very custom, right? Some people are very visual, some people are not as visual, right? They prefer the text. But the best thing about generative UI, right, it can also be text.

Swyx [00:28:17]: There’s another project that we wanted to highlight, which is the Neural OS. Kinda similar idea, but here you’re liter

この記事をシェア

関連記事

Replicate★42026年5月21日 09:00

Grok Imagine Video 1.5 のプロンプト作成方法

Replicate が、X(旧 Twitter)の AI「Grok」が生成する動画モデル「Imagine Video 1.5」を効果的に操作するためのプロンプト作成ガイドを発表した。

Latent Space★42026年6月2日 00:41

動画エージェントモデルが次なる潮流へ — xAI のイーサン・ヒー氏、Grok Imagine を語る

xAI のエンジニアであるイーサン・ヒー氏は、動画モデルの知能は主に大規模言語モデル(LLM)に由来すると主張し、真の対話型・リアルタイムな世界モデル実現には LLM への注力が次なるフロンティアであると述べています。

Ars Technica AI★42026年6月17日 07:22

トランプ政権、xAIのガスタービンに関する大気浄化法訴訟を阻止しようとする

トランプ政権は、NAACPが提起したxAI社のガスタービン運転に関する大気浄化法違反訴訟に対し、軍需に不可欠なGrokシステムを支えるデータセンターへの脅威として反発し、同社を支援して訴訟を阻止しようとしている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む