実世界のための AI:ヤン・ルコン氏との対談(12 分読了)
Yann LeCun は、現在の LLM が言語予測に依存する限り人間レベルの知能には達せず、物理法則や因果関係を学習する「世界モデル」が次世代 AI の核心であると指摘している。
キーポイント
LLM の限界と言語の役割
現在の生成 AI は商業的価値はあるものの、テキスト予測のみでは人間のような理解や推論を実現できず、言語は世界理解のごく一部に過ぎないと指摘。
次世代 AI の方向性:世界モデル
将来の AI システムは、物理法則、因果関係、結果を抽象的に学習する「世界モデル」に基づき構築されるべきだと主張。
実社会への応用と適応力
世界モデルにより、ロボット工学、医療、工場、産業システムなど、現実環境における計画立案、推論、適応が可能になると予測。
影響分析・編集コメントを表示
影響分析
この見解は、現在の生成 AI ブームの延長線上にある技術的限界を鋭く指摘し、業界が「世界モデル」や因果推論への転換を迫られる重要な転換点を示唆しています。特にロボティクスや産業オートメーション分野において、単なる言語処理を超えた実世界での自律行動を実現するための研究開発ロードマップに大きな影響を与えるでしょう。
編集コメント
AI の父の一人であるレクン氏の提言は、現在の LLM 中心の議論に冷静な水を注ぐものであり、真の汎用 AI(AGI)への道筋を考える上で極めて重要です。
Article
AI for the Real World: A conversation with Yann LeCun
今日の言語モデルは機械知能への道筋なのか、それとも単に商業的に実現可能な局所最適解に過ぎないのか?
後者の立場を最も明確かつ一貫して主張する声の一人がいます。彼の視点では、LLM(大規模言語モデル)は有用であるかもしれないものの、知能を持っているわけではありません。離散トークンのシーケンスを予測するように訓練されたシステムには、知能というものの根本的な構成要素である世界に対する理解がありません。
私は数週間前にヤン・ルコン氏と座談会を行い、この考えや彼の未来へのビジョンを探求しました。
「今日私たちが持っているモデルが有用かどうか?それらに対する市場はあるのか?」という問いについては、「はい」と答えます。しかし、より大きな問いである「これらのモデルが人間レベルの知能、あるいはそれに類似するものへと私たちを導くのか?」については、「絶対にない」と断言します。
ヤン氏は最近、世界モデルを構築するために、ポートフォリオ企業の一つである OpenAI の傘下にある組織を設立しました。これは、物理的世界を理解し、行動の結果を予測できるようなものを構築するためのものです。
「人間の知識や思考の多くは言語とは無関係です」とヤン氏は言います。それにもかかわらず、流暢に話すものにはすべて理解があると私たちは評価してしまいます。「私たちは、言語を通じて自己表現できるものに知能を見出そうとするバイアスを持っています。」
彼は以前行った計算を私に説明してくれた。4 歳の子どもはおよそ 16,000 時間起きている。視神経は、1 本の線維あたり毎秒約 1 バイトの情報を運び、片目の線維数は約 100 万本ある。これを掛け合わせると、人生の最初の 4 年間に脳に到達する視覚データの量は 10^14 バイト程度となり、これは現代の大規模言語モデル(LLM)の事前学習に使われるテキストコーパス全体と同程度の桁数である。
「これを読み通すのに、私たち誰にとっても約 40 万年かかるだろう」と彼は言った。つまり、小さな子どもは視覚だけで、最も大規模な言語モデルがトレーニングで見るのと同じ量の生情報(raw information)をすでに吸収しているのだ。「テキストのみを学習して人間レベルの AI に到達することは決してできない。それはあり得ないことだ。」
LLM が持っているのは、宣言的知識(declarative knowledge)を蓄積し検索する能力である。これは、現実に対する深いモデルを発展させることなく、時間とともにより賢く見えることを意味する。彼らは単に人々がどのような質問をするかに慣れ親しんでいくだけだ。
「システムが知的に行動するようにしたいなら、その行動の結果を予測できる必要がある」と彼は言った。「そして LLM はそれを完全にできない。」
ヤンは、言語モデルについて特定の 2 つのドメイン、つまりコーディングと数学にのみ信を寄せています。「これら 2 つのドメインで非常にうまく機能する理由は、記号の操作そのものが推論の基盤となっているからです。」しかし、これは限定的なケースに過ぎません。「日常の事象には少しの常識的な推論や、もちろん計画が必要ですが、それらの領域では言語モデルが到達することはないでしょう。」
ヤンが過去 15 年以上取り組んできたのは、別のアプローチです。それは世界がどのように変化するかを学習し、一連の行動の結果を予測できるシステムです。
「これは信頼性の高いエージェント型システムを構築する唯一の方法です」と彼は言います。「彼らが行動を起こす前にその結果を予測する能力を持たないエージェント型システムをどうして構築できると考えるのか、私には理解できません。」
難しいのは、このようなモデルを実世界のデータから学習させることです。次トークン予測が機能するのは、記号が離散的で圧縮可能であるからです。一方、物理世界はそうではありません。「私は 15 年以上この問題に取り組んできましたが、最初の 10 年間は本質的に失敗していました。なぜなら、ビデオのピクセルレベルで何が起きるかを予測するために生成アーキテクチャ(generative architectures)を使用していたからです。このようなデータは予測不可能なのです。」
彼は、手のひらの上にバランスさせたペンの例を挙げました。手を離せば、それが落下することは予測できます。しかし、どの方向に落ちるか、次のフレームのすべてのピクセルがどのような配置になるかを正確に予測することはできません。もしシステムに対してこれらの詳細すべてを予測させるように訓練すれば、それはノイズや偶発的事象を、知性の本質であるかのようにモデル化することを強いることになります。「状況の詳細すべてを予測するようにシステムを訓練しようとすると、そのシステムは不可能なことをさせようとするために、実質的に機能を損なわれてしまいます。」
彼が提案する代替案は、Joint Embedding Predictive Architecture (JEPA) です。すべてのピクセルを予測するのではなく、このシステムは世界の抽象的な表現を学習し、その表現に基づいて予測を行います。「入力に含まれる予測不可能な詳細、つまりノイズや複雑さのすべては、基本的に表現から排除されるため、予測が信頼性のあるものになります。」計画に重要な潜在状態(latent state)を学ぶことができるのです。たとえそこからフォトリアリスティックなフレームを再生成できなくても構いません。
抽象的な世界モデルを一度獲得すれば、推論はそのモデル内での探索になります。これが LLM ができない理由です。彼らには探索するモデルを持っていないからです。「推論が一種の探索であるという考え方は非常に根本的だ」と彼は言いました。「LLM はこれを行いません。答えを探す能力さえ持っていません。単に答え、つまりトークンを生成するだけです。」彼の視点では、Chain-of-thought(思考連鎖)は workaround(回避策)です。「自己回帰予測システムを強制的に推論に近づけさせる、非常に非効率な方法です」と彼は述べています。真の推論とは内部シミュレーションであり、これはメンタルモデルの操作、反事実的推論の実行、人間がパリへの旅行を計画するように階層的に計画すること(つまり筋肉命令のレベルではなく、上位から下位へサブゴールを精緻化する方法)を意味します。
これが彼が AGI という用語よりも「汎用知能」を好む理由です。「知能の真の性質は、訓練されたことのない新しい問題を解決できることです」という命題が、現在 Yann の会社である AMI Labs(Advanced Machine Intelligence、フランス語で「友人」を意味する単語と同じく「アミー」と発音)の基盤となっています。
AMI は現実世界のための AI を構築しています。「多くの産業は単に物事を動かしているだけではありませんか?物理的なものです。そしてここが現在の AI 技術が不足している点です」と彼は私に語りました。同社の明らかな焦点は、産業プロセス制御、自動化、ウェアラブルデバイス、ロボット工学、およびヘルスケアにあります。
経済の巨大な部分は、物理システムの稼働(工場、サプライチェーン、電力網、生物システム、交通ネットワーク)に依存しています。これらはテキストが作業の周りにあるインターフェースであることが多い環境ですが、それ自体が作業内容ではありません。「AMI は、何かを物理的に実行するために知的システムが必要なあらゆる状況に応用できる汎用的な基盤モデルを構築している」とヤン・ルコンは述べています。
AI の物理経済層は、現在多くの企業が使用しているスタックとは異なるものの上に構築されます。次のトークンを予測するのではなく、これは次の状態を予測することです。
世界モデルのバージョンを構築しようとする他の企業も多数あります。アプローチの違いは、モデルが何を予測しようとしているか(ピクセルと幾何学構造 versus 抽象的な状態)にあります。
彼らのウェブサイトによると、同社は「知覚し、生成し、推論し、3D 世界と対話できる世界モデル」を構築しています。最初の製品である [製品名] は、テキスト、画像、またはビデオをデザイナーがさまざまなクリエイティブツールで開ける 3D 環境に変換します。
同様の問題に対して異なるアプローチを採用している [企業名] の [製品名] は、ユーザーがフレームごとにナビゲートできるリアルタイムのインタラクティブな世界を生成します。
[企業名]
[企業名]
人間型ロボティクスに特化した動画事前学習済み世界モデルを構築しています。1X のモデルはまずインターネット上の動画から学習し、次に人間の視点から撮影された映像から学習し、さらに別のモデルを使用して「次は何が起こるべきか」という予測をロボット動作に変換します。Generalist は、世界モデルと VLAs(Vision-Language-Action models)のアイデアを組み合わせて、人間が日常的なタスクを行う際に装着するウェアラブルデバイスから収集した約 50 万時間の実際の物理的相互作用データでトレーニングを行います。
ある企業は、「開発者が自社の Physical AI(物理人工知能)設定用にカスタマイズされた世界モデルを構築できるよう支援するプラットフォーム」を構築中です。一方、別の企業は、自動運転と人間型ロボットの制御の両方を行える単一の AI モデルを開発しており、これらを同じ基盤となる知能を実行する異なる身体として扱っています。
AMI の特徴は、ピクセルレベルでの生成ではなく、JEPA スタイルの抽象表現を中心としたアーキテクチャへの賭けです。完璧なピクセル予測は計算コストが高く、ヤン・ルンが長年主張してきたように、予測不可能なものを予測しようとすることは、モデルが重要視すべき事柄に対する把握力を積極的に低下させます。抽象表現は因果的に重要な構造を保持しつつ、ノイズを除去します。これが機能すれば、物理のより良いモデルとなるだけでなく、展開コストも安価になります。
特にロボティクスにおいては、その影響は甚大です。現在主流のアプローチである、観測結果を直接モーターコマンドにマッピングするビジョン・言語・アクションモデル(Vision-Language-Action models)には、2 つのよく理解されている限界が存在します。
第一にデータです。遠隔操作によるロボットデータは最高品質のソースですが、並列化できません。これは所有するロボットの台数と熟練オペレーターが作業できる時間によって制限されます。研究者たちは回避策を開発しました:人間がロボットなしでデモを収集できるようにする手持ち型グリッパー(UMI など)、日常活動を記録するウェアラブル装置、異なるロボット種間でデータを統合するクロスエンボディメントデータセット、そしてシミュレーションパイプラインです。しかし、それぞれに埋め込みギャップがあり、これを埋める必要があります。一方、現時点で利用可能な最大のコーパスであるインターネット上の人間動画は、行動がラベル付けされていないため直接活用するのが困難です。逆ダイナミクスや潜在動作モデルに関する最近の研究がこの活用を可能にし始めており、これがワールドモデルの勢いが高まっている理由の一つとなっています。
第二にエンボディメントのロックインです。観測から行動へのマッピングは、学習された知識を特定のロボット本体に結合させる傾向があります。異なるエンボディメント間での転送は可能ですが、完璧ではありません。あるアームで訓練されたポリシーは、別のアームで動作させるには大幅な適応を必要とします。その結果、知識は「このロボットが特定の環境でどのように動くべきか」というレベルに閉じ込められ、「世界で何が起きるべきか」というレベルまで達しません。
世界モデルは両方の問題に同時に取り組む。世界の進化(物体が落下する方法、接触が伝播する方法、液体の振る舞いなど)に関する抽象的な表現を学習すれば、その中で行動する主体が何であれ真実である何かを学んだことになる。この知識はアクションラベルなしで動画から吸収可能だ。なぜなら目標は次のモーターコマンドを予測することではなく、次の状態を予測することだからだ。物理を理解したモデルは、利用可能なあらゆるエンボディメントに適応でき、再学習ではなく較正によって対応できる。
この機会はロボット工学を超えて広く広がる。「このようなタイプのアプリケーションは無数にある」とヤン・ルコン氏は私に語った。「現実世界のあらゆるものを制御したい:製造プラント、ターボジェットエンジン、化学プロセス。ヒトの細胞。患者に対する治療シーケンスを計画し、例えば血糖値を制御したいと思う。患者の状態の少なくとも一部の側面について良い予測モデルを持っていれば、これを個別化されたベースで実行できるかもしれない。」
このような瞬間には、市場の形状と問題の形状を取り違えやすい。LLM は並外れた価値を生み出しており、記号操作が実際の作業となるケースでは今後もそうし続けるだろう。
しかし、経済の大部分は言葉や記号によって動いているわけではありません。それは物理システム、つまりテキストがラッパーとして機能するものの、それ自体が作業ではない環境において成り立っています。そのような環境で動作できるシステムには、現在のモデルが持っていない何かが必要です:世界に対する基礎的な理解、行動の結果を予測する能力、そして訓練されていない問題に適応する能力です。
知能は言語よりもはるかに広範な概念です。将来の AI システムも依然として言語を使用しますが、言語はもはや唯一の基盤ではなくなります。
ヤン・ルコンが述べたように、「言語は思考するシステムへのインターフェースとして機能します」。
著者の注記:LLM は軽い校正(スペリング、文法、明瞭さ)のみで使用されました。コンテンツ、意味、トーン、構造は変更されていません。
原文を表示
Article
AI for the Real World: A conversation with Yann LeCun
Are today’s language models the path towards machine intelligence, or are they just a commercially viable local maximum?
is one of the clearest and most consistent voices arguing for the latter. In his view, LLMs are not intelligent, however useful they may be. Systems trained to predict sequences of discrete tokens don’t have an understanding of the world, which is a fundamental building block of intelligence.
I sat down with Yann a couple weeks ago to explore this idea and his vision for the future.
"There's one question of whether the models we have today are useful? Is there a market for them? Yes." But on the bigger question, "Will these models take us to human-level intelligence or something similar to it? Absolutely no."
Yann recently founded
, a
portfolio company, to build what he thinks the alternative will look like: world models that can understand the physical world and predict the consequences of actions.
"Much of human knowledge and thought has nothing to do with language," Yann said. And yet we credit anything that speaks fluently with understanding. "We're biased towards attributing intelligence to things that can express themselves through language."
He walked me through a calculation he's done before. A four-year-old has been awake for roughly 16,000 hours. The optic nerve carries about one byte per second per fiber, with roughly a million fibers per eye. If you multiply it out, you get something on the order of 10^14 bytes of visual data reaching the brain in the first four years of life, roughly the same order of magnitude as the entire text corpus used to pretrain a modern LLM.
"It would take any of us something like 400,000 years to read through that," he said. In other words, a small child has already absorbed, through vision alone, about as much raw information as the largest language models see in training. "We're never going to get to human-level AI by just training on text. It's just not going to happen."
What LLMs do have is an ability to accumulate and retrieve declarative knowledge. This means they look smarter over time without developing deeper models of reality. They simply become more familiar with the kinds of questions people ask.
"If you want a system to act intelligently," he said, "it has to be able to predict the consequences of its actions. And LLMs are completely incapable of doing this."
Yann believes in language models for two specific domains: coding and math. "The reason why it works so well in these two domains is because these are domains where the mere manipulation of symbols is actually kind of the substrate of reasoning." But these are narrow cases. "For everyday things that require a little bit of common sense reasoning and certainly planning, they're just never going to get there."
The alternative is what Yann has been working toward for over 15 years. It’s a system that learns how the world evolves, and can predict what the consequence of a sequence of actions is going to be.
"This is the only way to build an agentic system that is reliable," he said. "I do not understand how people can even think of building agentic systems that do not have this ability of predicting the consequences of their actions before they do them."
The hard part is learning such a model from real-world data. Next-token prediction works because symbols are discrete and compressible. The physical world is not. "I've been working on this for over 15 years, and essentially failing the first 10 years, because I was using generative architectures trying to predict what's going to happen in the video at the pixel level. This kind of data is just not predictable."
He gave the example of a pen balanced on your hand. If you let go, you can predict that it will fall. But you can’t predict the exact direction it will fall, or the precise configuration of every pixel in the next frame. If you train a system to predict all of those details, you’re forcing it to model noise and contingency as though they were the essence of intelligence. "When you try to train a system to predict every detail in a situation, you kind of kill it because you try to train it to do something that's impossible."
His proposed alternative is Joint Embedding Predictive Architecture (JEPA). Rather than predicting every pixel, the system learns an abstract representation of the world and makes its predictions there. "All the details about the input that are not predictable, all the noise, all the complexities of it are basically going to be eliminated from the representation so that the prediction can be reliable." You learn the latent state that matters for planning, even if you can't regenerate a photorealistic frame from it.
Once you have an abstract world model, reasoning becomes search through that model. That's what LLMs can't do, because they don't have a model to search through. "The idea that reasoning is a kind of search is really fundamental," he said. "LLMs don't do this. They don't have any ability to really search for an answer. They just produce an answer, a token." Chain-of-thought, in his view, is a workaround: "a very, very inefficient way of coercing autoregressive prediction systems to basically approach reasoning." Real reasoning, he argues, is internal simulation. This means manipulating mental models, running counterfactuals, planning hierarchically the way a human plans a trip to Paris (aka not at the level of muscle commands, but refining subgoals from the top down).
This is why he prefers the term
to AGI. "The true property of intelligence is to solve new problems you've not been trained to solve."
That thesis is now Yann’s company: AMI Labs, Advanced Machine Intelligence, (pronounced "ah-mee," just like the French word for friend).
AMI is building AI for the real world. "A lot of industry is just running things, right? Like physical things. And this is where current AI technology falls short," he told me. The company's stated focus is industrial process control, automation, wearable devices, robotics, and healthcare.
A huge portion of the economy depends on running physical systems (factories, supply chains, power grids, biological systems, transportation networks). These are environments where text is often the interface around the work, but not the work itself. "AMI is building generic foundation models that can be applied to any situation where you need an intelligent system to run something physical," Yann said.
The physical-economy layer of AI will be built on a different stack from what most companies are using today. Rather than predicting the next token, this is about predicting the next state.
There are a number of other companies also trying to build versions of world models. The approaches differ on what the model tries to predict: pixels and geometry versus abstract state.
's
is building, according to their website, "world models that can perceive, generate, reason, and interact with the 3D world." Their first product,
, turns text, images, or video into 3D environments that designers can open in different creative tools.
's
takes a different approach to a similar problem, generating interactive worlds in real time that users can navigate frame by frame.
and
are building video-pretrained world models specifically for humanoid robotics. 1X's model learns from internet video first, then from footage shot from a human's point of view, and uses a second model to turn its predictions of "what should happen next" into robot movements. Generalist combines ideas from world models and VLAs, training on roughly 500,000 hours of real-world physical interaction data collected from wearables worn by humans doing everyday tasks.
's
is building a platform to "help developers build customized world models for their Physical AI setups." Meanwhile,
is building a single AI model that can drive cars and control humanoid robots, treating both as different bodies running the same underlying intelligence.
What distinguishes AMI is the architectural bet around JEPA-style abstract representation rather than pixel-level generation. Pixel-perfect prediction is computationally expensive and, as Yann argued for years before the field caught up, trying to predict the unpredictable actively degrades the model's grip on what matters. Abstract representation preserves the causally relevant structure while removing the noise. If it works, it’s both a better model of physics and a cheaper one to deploy.
For robotics specifically, the implications are significant. The dominant approach today, vision-language-action models that map observations directly to motor commands, runs into two well-understood ceilings.
The first is data. Teleoperated robot data is the highest-quality source but doesn't parallelize. It's bounded by the number of robots you own and the hours skilled operators can work. Researchers have developed workarounds: hand-held grippers like UMI that let humans collect demos without a robot, wearable rigs that record everyday activity, cross-embodiment datasets that pool data across robot types, and simulation pipelines. But there is an embodiment gap for each that has to be bridged. Meanwhile, the largest available corpus by far, human video on the internet, is hard to exploit directly because the actions aren't labeled. Recent work on inverse dynamics and latent action models is starting to unlock it, which is part of why world models have gained momentum.
The second is embodiment lock-in. Observation-to-action mapping tends to couple learned knowledge to a specific robot body. Transfer across embodiments is possible but imperfect. A policy trained on one arm typically needs significant adaptation to work on another. Knowledge ends up captured at the level of "how this robot should move in this specific setting" rather than "what should happen in the world."
World models attack both problems at once. If you learn an abstract representation of how the world evolves (how objects fall, how contact propagates, how liquids behave), you've learned something that is true regardless of which body is acting in it. That knowledge can be absorbed from video without action labels, because the goal isn't to predict the next motor command but to predict the next state. A model that understands physics can then be adapted to whatever embodiment is available, with calibration rather than retraining.
The opportunity extends well beyond robotics. "There are tons and tons of applications of this type," Yann told me. "You want to control anything in the real world: manufacturing plant, turbojet engine, chemical process. A human cell. You want to plan a sequence of treatment for a patient to, I don't know, control blood sugar. If you have a good predictive model of at least some aspect of the state of the patient, you might be able to do this kind of planning on a personalized basis."
It's easy, in a moment like this one, to mistake the shape of the market for the shape of the problem. LLMs are producing extraordinary value, and they will keep doing so in cases where symbolic manipulation is the actual work.
But most of the economy doesn't run on words and symbols. It runs on physical systems, environments where text serves as a wrapper, but isn't the work itself. The systems capable of operating in those environments will need something current models don't have: a base-level understanding of the world, the ability to predict the consequences of actions, and the capacity to adapt to problems they weren't trained on.
Intelligence is much more than language. Future AI systems will still use language, but language will no longer be their only substrate.
As Yann put it, "language will serve as an interface to a system that thinks."
Author’s note: An LLM was used for light copy editing only (spelling, grammar, and clarity). Content, meaning, tone, and structure remain unchanged.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み