AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
AI Snake Oil·2024年6月28日 03:16·約17分で読める

AIスケーリングの神話

#LLM#AGI#Emergent Abilities#Training Data#Scaling Laws
TL;DR

AI Snake Oil は、スケーリング法則の誤解や高品質データ枯渇、そして「創発的機能」の不確実性を指摘し、スケーリング単独での AGI 到達は極めて困難であると論じている。

AI深層分析2026年5月3日 05:09
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
4

キーポイント

1

スケーリング法則の誤解と限界

モデルサイズや計算リソースの増加が「パープレキシティ(予測精度)」を向上させることは事実だが、これがユーザーにとって重要な「創発的機能(Emergent Abilities)」の持続的な獲得を保証するものではない。

2

高品質トレーニングデータの枯渇

業界はすでに利用可能な高品質なデータソースをほぼ使い果たしており、YouTube の文字起こしなど新たなデータ源が計算能力の増大に比例して有益性を生むとは限らない。

3

汎化能力と学習の限界

LLM はトレーニングデータに含まれるタスクを効率的に習得する能力に限界があり、未知のタスクへの推論(extrapolation)には依然として懐疑的な見方が強く、従来の機械学習モデル同様に頭打ちになる可能性が高い。

4

スケーリング単独での AGI 到達の否定

過去のトレンドを単純に延長する予測は根拠が薄く、データと規模の拡大だけで人工一般知能(AGI)が実現する可能性は極めて低いという結論を示している。

5

AI スケーリングの限界とコスト

利用可能なデータ量は無限に見えるが、実質的な利用可能データは限られており、著作権や社会的反発により収集コストが急増している。

6

技術トレンドの突然の停止

CPU のクロック速度や飛行機の最高速度のように、AI スケーリングも市場の優先順位(効率性など)やビジネス判断によって、予測不能なタイミングで急激に頭打ちになる可能性がある。

7

データ量から品質への転換

研究の焦点は膨大なデータの収集から、データクリーニングとフィルタリングによる高品質なデータへのシフトへと移っており、少量の高品質データでも強力なモデルを構築できる。

影響分析・編集コメントを表示

影響分析

この記事は、現在の AI 業界が抱える「規模拡大信仰(Scaling Hypothesis)」に対する重要な警鐘であり、投資家や開発者が AGI 実現のロードマップを再評価するよう促す内容です。スケーリング単独での限界を指摘することで、データ効率化やアーキテクチャ革新など、次世代 AI 研究の方向性を示唆しています。

編集コメント

「より大きければ賢くなる」という直感的な仮説に対する冷静な分析は、現在の過熱する AI 投資環境において非常に重要な視点を提供します。特にデータ枯渇と創発的機能の不確実性は、今後の技術ロードマップ策定において無視できないリスク要因です。

これまでに、より大きな言語モデルほど能力が高まることが証明されてきました。しかし、過去は未来を予測するのでしょうか?

一つの一般的な見解では、これまで維持されてきた傾向がさらに多くの桁にわたって続き、それが潜在的に人工一般知能(AGI)へと私たちを導くと期待すべきだとされています。

この見解は一連の神話と誤解に基づいています。スケーリングの予測可能性のように見えるものは、研究が示したことの誤解です。加えて、大規模言語モデル(LLM)の開発者はすでに高品質なトレーニングデータの限界に達している兆候が見られます。また業界ではモデルサイズの縮小に向けた強い下押し圧力が生じています。AI がスケーリングを通じてどこまで進化するかを正確に予測することはできませんが、スケーリング単独で AGI につながる可能性はほぼないと考えています。

「スケーリング法則」はしばしば誤解されている

スケーリング法則に関する研究では、モデルサイズ、トレーニング計算量、データセットサイズを増やすと、言語モデルが「より良くなる」ことが示されています。その改善の予測可能性は驚くほど顕著で、多くの桁にわたって成立しています。これが、主要な AI 企業から定期的により大きく、より強力なモデルがリリースされ、スケーリングは今後も見通せる範囲で続くだろうと考える人々が多い主な理由です。

しかし、これはスケーリング法則の完全なる誤解です。「より優れた」モデルとは具体的に何を指すのでしょうか。スケーリング法則は単にパープレキシティ(予測誤差)の減少、つまりモデルがシーケンス内の次の単語をどれだけよく予測できるかという点での改善のみを定量化するものです。もちろん、パープレキシティはエンドユーザーにとってほぼ無関係です—重要なのは「創発的機能」であり、これは規模が大きくなるにつれて新しい能力を獲得しようとするモデルの傾向を指します。

創発性は法則的な振る舞いによって支配されているわけではありません。これまでにスケールの拡大が新たな能力をもたらしてきたことは事実ですが、これが無限に続くことを確信させるような経験的な規則性はありません。

なぜ創発性が無限に続かないのでしょうか。これは大規模言語モデル(LLM)の能力に関する核心的な議論の一つに触れるものです—それらは外挿が可能なのか、それともトレーニングデータに含まれるタスクのみを学習しているのかという点です。証拠は不十分であり、それを解釈する合理的な方法は多岐にわたります。しかし、私たちは懐疑的な見解に傾いています。未知のタスクを解決するためのスキル習得効率を検証するために設計されたベンチマークにおいて、LLM は概して低いパフォーマンスを示します。

もし LLM がトレーニングで見たこと以上のことをほとんどできないのであれば、いずれはより多くのデータを持っても役立たなくなる時が来ます。なぜなら、将来そのデータに含まれることになるあらゆるタスクはすでに表現されているからです。すべての従来の機械学習モデルはいずれ頭打ちになります—LLM も例外ではないかもしれません。

トレンドの外挿は無根拠な推測に過ぎません

継続的なスケーリングに対する別の障壁は、トレーニングデータの入手です。企業はすでに利用可能なすべてのデータソースを活用しています。さらにデータを獲得できるのでしょうか?

これは一見すると可能に思えるほど簡単ではありません。人々は、YouTube の全動画を文字起こしするなど新しいデータソースが利用可能なデータ量をもう 1 つないし 2 つの桁増やすと考えることがあります。確かに YouTube には驚異的な 1500 億分の動画があります。しかし、その大部分は使用可能な音声を持たず(音楽、静止画像、ゲーム映像などであるため)、Llama 3 がすでに利用している 1 兆 3000 億トークンよりもはるかに少ない推計値に落ち着きます。さらに、文字起こしされた YouTube のオーディオに対する重複除去と品質フィルタリングが行われる前段階であり、これにより少なくとももう 1 つの桁が削ぎ落とされる可能性が高いです。

人々は企業がいずれトレーニングデータを「使い果たす」のかについて議論することがありますが、これは意味のある問いではありません。トレーニングデータは常に存在しますが、それを入手するにはコストがかさみます。そして今や著作権保有者が目を覚まし、補償を求めているため、そのコストは特に高くなる可能性があります。金銭的なコストに加え、社会がデータ収集慣行に反発する可能性があるため、評判リスクや規制上のコストも生じるかもしれません。

指数関数的なトレンドは永遠に続くことはないことを確信できます。しかし、技術的なトレンドがいつ頭打ちになるかを予測するのは難しいものです。特に成長が徐々にではなく突然止まる場合、その傾向は顕著です。トレンドライン自体には、それが頭打ちになろうとしているという手がかりは含まれていません。

image
image

時間経過に伴う CPU クロック速度。縦軸は対数スケールです。[Source]

有名な例として、2000 年代の CPU クロック速度と 1970 年代の飛行機速度が挙げられます。CPU メーカーは、クロック速度のさらなる向上がコスト高であり、もはや全体性能のボトルネックではなくなったため意味がないと判断し、この次元での競争を止めることにしました。これにより、クロック速度に対する上方圧力が突然取り除かれました。飛行機の場合は物語がより複雑ですが、結局のところ市場が速度よりも燃費効率を優先したという点に帰着します。

image
image

時間経過に伴う飛行機の対気速度記録。1976 年の SR-71 ブラックバードの記録は現在も破られていません。[Source]

LLM においては、スケーリングの余地が数桁残っている可能性もあれば、すでに限界に達している可能性もあります。CPU や航空機の場合と同様に、これは最終的にはビジネス上の判断であり、事前に予測するのは根本的に困難です。

研究分野では、より大規模なデータセットを収集することから、トレーニングデータの質を向上させることに焦点が移っています。慎重なデータクリーニングとフィルタリングを行うことで、はるかに小規模なデータセットでも同等に強力なモデルを構築することが可能になります。

合成データには魔法はない

合成データは、継続的なスケーリングへの道筋としてよく提案されます。つまり、現在のモデルを使用して次世代のモデルのためのトレーニングデータを生成できるのではないかという考え方です。

しかし、私たちはこれが誤解に基づいていると考えています。開発者が(または使用できる)合成データを使ってトレーニングデータの量を増やしているわけではないのです。この論文には、トレーニングにおける合成データの有用な用途リストが掲載されており、それらはすべて特定のギャップを埋めたり、数学、コード、低リソース言語などドメイン固有の改善を行ったりすることに焦点を当てています。同様に、合成データ生成に特化したNvidia の最近のNemotron 340B モデルも、主要なユースケースとしてアライメント(整合性)を対象としています。いくつかの二次的なユースケースは存在しますが、現在の事前トレーニングデータのソースを置き換えることはその一つではありません。要するに、無意味に生成された合成トレーニングデータが、より多くの高品質な人間によるデータを持つことと同じ効果をもたらす可能性は低いのです。

合成トレーニングデータが劇的に成功した事例としては、2016年に囲碁世界チャンピオンを破った AlphaGo や、その後継である AlphaGo Zero、AlphaZero が挙げられます。これらのシステムは自分自身と対戦することで学習しました。後者の 2 つは、トレーニングデータとして人間の対局を一切使用していません。彼らは膨大な計算資源を用いてある程度高品質なゲームを生成し、そのゲームデータをニューラルネットワークのトレーニングに用いました。これにより、さらに高品質なゲームを計算と組み合わせることで生成できるモデルが生まれ、結果として反復的な改善ループが形成されました。

自己対戦は、「システム 2 --> システム 1 の蒸留(System 2 --> System 1 distillation)」の究極的な例です。ここでは、遅く高コストな「システム 2」プロセスがトレーニングデータを生成し、それを速く安価な「システム 1」モデルのトレーニングに用います。これは囲碁のような完全に自己完結した環境においてはうまく機能します。しかし、ゲーム以外の領域へ自己対戦を適応させることは、貴重な研究方向性です。コード生成(code generation)など、この戦略が価値を持つ重要なドメインも存在します。ただし、言語翻訳のようなよりオープンエンドなタスクに対して、無制限の自己改善を期待することはできません。自己対戦を通じて著しい改善が可能となるドメインは、例外であり原則ではないと考えるべきです。

AI Snake Oil は当社の書籍に関するブログです。新着投稿を受け取るには購読してください。

モデルは小型化されているが、トレーニング期間はより長くなっている

歴史的に、スケーリングの三つの軸——データセットサイズ、モデルサイズ、トレーニング計算量——は並行して進展し、これが最適であると考えられてきました。しかし、もしそのうちの一つの軸(高品質なデータ)がボトルネックになった場合、どうなるのでしょうか?残りの二つの軸、すなわちモデルサイズとトレーニング計算量は、引き続きスケーリングされ続けるのでしょうか?

現在の市場動向に基づけば、新たな創発的機能(emergent capabilities)を解き放つ可能性があったとしても、より大きなモデルを構築することは賢明なビジネス判断ではないように思われます。その理由は、能力がもはや採用の障壁ではなくなったからです。言い換えれば、現在の大規模言語モデル(LLM: Large Language Model)の能力を用いて構築可能なアプリケーションは数多く存在するものの、コストをはじめとする様々な理由により、実際に構築されたり採用されたりしていないケースが多いのです。これは特に、コード生成などのタスクを完了するために LLM を数十回から数百回呼び出す必要がある「エージェント型(agentic)」ワークフローにおいて顕著です。

過去1年間、開発努力の多くは、特定の能力レベルにおいてより小さなモデルを生産することに注がれてきました。5 フロンティアモデルの開発者はもはやモデルサイズを公開していないため、これを確実には言えませんが、API価格をサイズの粗い代理指標として用いることで、推測することは可能です。GPT-4oの料金はGPT-4の25%に過ぎず、能力は同等かそれ以上です。AnthropicとGoogleにおいても同様の傾向が見られます。Claude 3 OpusはClaudeファミリーの中で最も高価(おそらく最大)なモデルですが、より最近登場したClaude 3.5 Sonnetは、その5倍も安価でありながら、さらに高い能力を備えています。同様に、Gemini 1.5 ProはGemini 1.0 Ultraよりも安価で、かつ能力も優れています。つまり、3社すべての開発者において、最大のモデルが最も能力が高いわけではありません!

一方、トレーニング計算量は当面は引き続きスケールし続けるでしょう。逆説的に言えば、より小さなモデルほど同じ性能レベルに達するために多くのトレーニングを必要とします。つまり、モデルサイズの縮小圧力がトレーニング計算量への増加圧力につながっているのです。実質的に、開発者はトレーニングコストと推論コストの間でトレードオフを行っています。GPT-3.5 や GPT-4 といった初期のモデル群は、モデルの寿命全体を通じて推論コストがトレーニングコストを上回ると考えられているという意味で「過少トレーニング」の状態でした。理想的には、トレーニングコストを推論コストに交換することも、その逆も常に可能であるため、両者は概ね同等になるべきです。この傾向を示す顕著な例として、Llama 3 は、元の Llama モデル(約 70 億パラメータ)と同じサイズ(80 億パラメータ)のモデルにおいて、トレーニング FLOPs を 20 倍使用しました。

一般性の梯子

スケーリングを通じてさらに大きな能力向上が見られない可能性を示す一つの兆候は、CEO たちが AGI への期待を大幅に抑制していることです。残念ながら、彼らは「3 年後に AGI」という素朴な予測が誤りだったことを認めず、顔を立てるために AGI の定義を曖昧にしすぎてしまい、今やその言葉は無意味なものになってしまいました。元々 AGI が明確に定義されていなかったことが、この状況を助けた側面もあります。

一般性を二値として捉えるのではなく、スペクトラムとして捉えることができます。歴史的に、コンピュータに新しいタスクをプログラムさせるために必要な労力の量は減少してきました。これを一般性の増加と見なすこともできます。この傾向は、専用コンピューターからチューリングマシンへの移行とともに始まりました。この意味において、LLM の汎用的性質は新しいものではありません。

これは『AI Snake Oil』という書籍で私たちが採用している視点であり、同書には AGI に専念した章があります。私たちは AI の歴史を断続的平衡として概念化しており、これを「一般性の梯子」と呼びます(これは直線的な進歩を意味するものではない)。指令微調整された LLM は、この梯子における最新のステップです。AI が人間と同等の効率で経済的に価値のあるあらゆる仕事を実行できるというレベルの一般性(これが AGI の一つの定義である)に到達するまでには、未知の数のステップが先にあります。

歴史的に、梯子の各ステップに立っている間、AI 研究コミュニティは、現在のパラダイムでさらにどこまで進めるか、次のステップは何なのか、いつ到来するか、どのような新しいアプリケーションを可能にするのか、そして安全性への影響はどうなるのかについて、非常に予測が苦手でした。これは続く傾向だと私たちは考えています。

さらに読むべき文献

レオポルド・アシェンブレンナーによる最近のエッセイは、「2027 年までに AGI が実現することは驚くほど可能性が高い」という主張により波紋を広げました。ここでは一対一の反論を試みるつもりはありません——この投稿の大部分は、アシェンブレンナーのエッセイが発表される前に起草されたものです。彼のタイムラインに関する議論は面白く、考えさせられるものですが、根本的にはトレンド線の外挿に過ぎません。また、多くの AI 推進派と同様に、ベンチマークでのパフォーマンスと実世界での有用性を混同しています。

メーリン・ミッチェル、ヤン・ルコン、ゲイリー・マルクス、フランソワ・ショレ、スバラオ・カンバンプラティなど、多くの AI 研究者が懐疑的な立場を表明しています。

ドワークシュ・パテルは、議論の両側面について優れた概説を提供しています。

謝辞。ドラフトに対するフィードバックをいただいたマット・サルガニク、オリー・スティーヴンソン、ベネディクト・ストロブに感謝いたします。

1 滑らかに変化する指標を見つけることができれば、創発的性質は予測可能になりますが、そのような指標を見つけるのは容易ではありません。特に、複数のスキルを組み合わせたタスクにおいてはなおさらです。実際、次の桁の規模でどのような新しい能力が、あるいはどの程度の能力が創発するかという問いに対する答えは、誰にもわかりません。

2 AI 企業は学習のために YouTube データの文字起こしを利用していますが、その価値がある理由は、音声会話の形態を LLM が学ぶのを助けるからであり、単に量が多いからではありません。

3リバタリアンの評論家は予測可能に、飛行機速度の停滞を規制のみによるものだと帰因していますが、これは誤りか、せいぜい過度な単純化です。FAA が 1973 年に米国国内での民間航空機の超音速飛行を実質的に禁止したという事実は確かにあります。しかし、最速の航空機はすべて軍用機であり、その禁止令はそれらには影響しません。また、民間航空機は燃料効率やその他の考慮事項から、マッハ 1 を大幅に下回る速度で巡航します。

4大規模言語モデル(LLM)のトレーニングをサンプル効率において桁違いに向上させられるかどうかについては議論があります。確かに、子供たちは LLM が学習する単語数よりもはるかに少ない単語に触れるだけで言語を獲得します。一方、子供たちは「ベビーベッドの中の科学者」であり、世界モデルや推論能力を早期に発達させており、それが効率的な言語獲得を可能にしている可能性があります。この議論は私たちが主張する点とは直交しています。もしタスク表現や外挿の難しさがボトルネックであるなら、サンプル効率に関わらず、それは LLM の能力に対する上限として現れることになります。

5モデル開発者がパラメータ数という観点からより大きなモデルをリリースしたときでさえ、推論効率への注目が強まっています。例えば、Mixtral 8x22B などのエキスパート混合(mixture-of-experts)モデルでは、推論時にアクティブになるパラメータの数が総パラメータ数よりもはるかに少なくなっています。

原文を表示

So far, bigger and bigger language models have proven more and more capable. But does the past predict the future?

One popular view is that we should expect the trends that have held so far to continue for many more orders of magnitude, and that it will potentially get us to artificial general intelligence, or AGI.

This view rests on a series of myths and misconceptions. The seeming predictability of scaling is a misunderstanding of what research has shown. Besides, there are signs that LLM developers are already at the limit of high-quality training data. And the industry is seeing strong downward pressure on model size. While we can't predict exactly how far AI will advance through scaling, we think there’s virtually no chance that scaling alone will lead to AGI.

Scaling “laws” are often misunderstood

Research on scaling laws shows that as we increase model size, training compute, and dataset size, language models get “better”. The improvement is truly striking in its predictability, and holds across many orders of magnitude. This is the main reason why many people believe that scaling will continue for the foreseeable future, with regular releases of larger, more powerful models from leading AI companies.

But this is a complete misinterpretation of scaling laws. What exactly is a “better” model? Scaling laws only quantify the decrease in perplexity, that is, improvement in how well models can predict the next word in a sequence. Of course, perplexity is more or less irrelevant to end users — what matters is “emergent abilities”, that is, models’ tendency to acquire new capabilities as size increases.

Emergence is not governed by any law-like behavior. It is true that so far, increases in scale have brought new capabilities. But there is no empirical regularity that gives us confidence that this will continue indefinitely.1

Why might emergence not continue indefinitely? This gets at one of the core debates about LLM capabilities — are they capable of extrapolation or do they only learn tasks represented in the training data? The evidence is incomplete and there is a wide range of reasonable ways to interpret it. But we lean toward the skeptical view. On benchmarks designed to test the efficiency of acquiring skills to solve unseen tasks, LLMs tend to perform poorly.

If LLMs can't do much beyond what's seen in training, at some point, having more data no longer helps because all the tasks that are ever going to be represented in it are already represented. Every traditional machine learning model eventually plateaus; maybe LLMs are no different.

Trend extrapolation is baseless speculation

Another barrier to continued scaling is obtaining training data. Companies are already using all the readily available data sources. Can they get more?

This is less likely than it might seem. People sometimes assume that new data sources, such as transcribing all of YouTube, will increase the available data volume by another order of magnitude or two. Indeed, YouTube has a remarkable 150 billion minutes of video. But considering that most of that has little or no usable audio (it is instead music, still images, video game footage, etc.), we end up with an estimate that is much less than the 15 trillion tokens that Llama 3 is already using — and that’s before deduplication and quality filtering of the transcribed YouTube audio, which is likely to knock off at least another order of magnitude.2

People often discuss when companies will “run out” of training data. But this is not a meaningful question. There’s always more training data, but getting it will cost more and more. And now that copyright holders have wised up and want to be compensated, the cost might be especially steep. In addition to dollar costs, there could be reputational and regulatory costs because society might push back against data collection practices.

We can be certain that no exponential trend can continue indefinitely. But it can be hard to predict when a tech trend is about to plateau. This is especially so when the growth stops suddenly rather than gradually. The trendline itself contains no clue that it is about to plateau.

image
image

CPU clock speeds over time. The y-axis is logarithmic. [Source]

Two famous examples are CPU clock speeds in the 2000s and airplane speeds in the 1970s. CPU manufacturers decided that further increases to clock speed were too costly and mostly pointless (since CPU was no longer the bottleneck for overall performance), and simply decided to stop competing on this dimension, which suddenly removed the upward pressure on clock speed. With airplanes, the story is more complex but comes down to the market prioritizing fuel efficiency over speed.3

image
image

Flight airspeed records over time. The SR-71 Blackbird record from 1976 still stands today. [Source]

With LLMs, we may have a couple of orders of magnitude of scaling left, or we may already be done. As with CPUs and airplanes, it is ultimately a business decision and fundamentally hard to predict in advance.

On the research front, the focus has shifted from compiling ever-larger datasets to improving the quality of training data. Careful data cleaning and filtering can allow building equally powerful models with much smaller datasets.4

Synthetic data is not magic

Synthetic data is often suggested as the path to continued scaling. In other words, maybe current models can be used to generate training data for the next generation of models.

But we think this rests on a misconception — we don't think developers are using (or can use) synthetic data to increase the volume of training data. This paper has a great list of uses for synthetic data for training, and it's all about fixing specific gaps and making domain-specific improvements like math, code, or low-resource languages. Similarly, Nvidia's recent Nemotron 340B model, which is geared at synthetic data generation, targets alignment as the primary use case. There are a few secondary use cases, but replacing current sources of pre-training data is not one of them. In short, it's unlikely that mindless generation of synthetic training data will have the same effect as having more high-quality human data.

There are cases where synthetic training data has been spectacularly successful, such as AlphaGo, which beat the Go world champion in 2016, and its successors AlphaGo Zero and AlphaZero. These systems learned by playing games against themselves; the latter two did not use any human games as training data. They used a ton of calculation to generate somewhat high-quality games, used those games to train a neural network, which could then generate even higher-quality games when combined with calculation, resulting in an iterative improvement loop.

Self-play is the quintessential example of “System 2 --> System 1 distillation”, in which a slow and expensive “System 2” process generates training data to train a fast and cheap “System 1” model. This works well for a game like Go which is a completely self-contained environment. Adapting self-play to domains beyond games is a valuable research direction. There are important domains like code generation where this strategy may be valuable. But we certainly can’t expect indefinite self-improvement for more open-ended tasks, say language translation. We should expect domains that admit significant improvement through self-play to be the exception rather than the rule.

You’re reading AI Snake Oil, a blog about our book. Subscribe to get new posts.

Models have been getting smaller but are being trained for longer

Historically, the three axes of scaling — dataset size, model size, and training compute — have progressed in tandem, and this is known to be optimal. But what will happen if one of the axes (high-quality data) becomes a bottleneck? Will the other two axes, model size and training compute, continue to scale?

Based on current market trends, building bigger models does not seem like a wise business move, even if it would unlock new emergent capabilities. That’s because capability is no longer the barrier to adoption. In other words, there are many applications that are possible to build with current LLM capabilities but aren’t being built or adopted due to cost, among other reasons. This is especially true for “agentic” workflows which might invoke LLMs tens or hundreds of times to complete a task, such as code generation.

In the past year, much of the development effort has gone into producing smaller models at a given capability level.5 Frontier model developers no longer reveal model sizes, so we can’t be sure of this, but we can make educated guesses by using API pricing as a rough proxy for size. GPT-4o costs only 25% as much as GPT-4 does, while being similar or better in capabilities. We see the same pattern with Anthropic and Google. Claude 3 Opus is the most expensive (and presumably biggest) model in the Claude family, but the more recent Claude 3.5 Sonnet is both 5x cheaper and more capable. Similarly, Gemini 1.5 Pro is both cheaper and more capable than Gemini 1.0 Ultra. So with all three developers, the biggest model isn’t the most capable!

Training compute, on the other hand, will probably continue to scale for the time being. Paradoxically, smaller models require more training to reach the same level of performance. So the downward pressure on model size is putting upward pressure on training compute. In effect, developers are trading off training cost and inference cost. The earlier crop of models such as GPT-3.5 and GPT-4 was under-trained in the sense that inference costs over the model's lifetime are thought to dominate training cost. Ideally, the two should be roughly equal, given that it is always possible to trade off training cost for inference cost and vice versa. In a notable example of this trend, Llama 3 used 20 times as many training FLOPs for the 8 billion parameter model as the original Llama model did at roughly the same size (7 billion).

The ladder of generality

One sign consistent with the possibility that we won’t see much more capability improvement through scaling is that CEOs have been greatly tamping down AGI expectations. Unfortunately, instead of admitting they were wrong about their naive “AGI in 3 years” predictions, they've decided to save face by watering down what they mean by AGI so much that it's meaningless now. It helped that AGI was never clearly defined to begin with.

Instead of viewing generality as a binary, we can view it as a spectrum. Historically, the amount of effort it takes to get a computer to program a new task has decreased. We can view this as increasing generality. This trend began with the move from special-purpose computers to Turing machines. In this sense, the general-purpose nature of LLMs is not new.

This is the view we take in the AI Snake Oil book, which has a chapter dedicated to AGI. We conceptualize the history of AI as a punctuated equilibrium, which we call the ladder of generality (which isn’t meant to imply linear progress). Instruction-tuned LLMs are the latest step in the ladder. An unknown number of steps lie ahead before we can reach a level of generality where AI can perform any economically valuable job as effectively as any human (which is one definition of AGI).

Historically, standing on each step of the ladder, the AI research community has been terrible at predicting how much farther you can go with the current paradigm, what the next step will be, when it will arrive, what new applications it will enable, and what the implications for safety are. That is a trend we think will continue.

Further reading

A recent essay by Leopold Aschenbrenner made waves due to its claim that “AGI by 2027 is strikingly plausible”. We haven’t tried to give a point-by-point rebuttal here — most of this post was drafted before Aschenbrenner’s essay was released. His arguments for his timeline are entertaining and thought provoking, but fundamentally an exercise in trendline extrapolation. Also, like many AI boosters, he conflates benchmark performance with real-world usefulness.

Many AI researchers have made the skeptical case, including Melanie Mitchell, Yann LeCun, Gary Marcus, Francois Chollet, and Subbarao Kambhampati and others.

Dwarkesh Patel gives a nice overview of both sides of the debate.

Acknowledgements. We are grateful to Matt Salganik, Ollie Stephenson, and Benedikt Ströbl for feedback on a draft.

1Emergent abilities will be predictable if we can find a metric that changes smoothly instead of discontinuously, but finding such a metric isn’t easy, especially for tasks that require a combination of skills. In practice, the question of whether and which new abilities will emerge at the next order of magnitude remains anyone’s guess.

2AI companies do use transcribed YouTube data for training, but the reason it is valuable is that it helps LLMs learn what spoken conversations look like, not because of its volume.

3Libertarian commentators predictably attribute the stagnation of airplane speeds entirely to regulation, but this is wrong or, at best, highly oversimplified. It’s true that the FAA essentially banned supersonic flight by civil aircraft over land in the U.S. in 1973. But the fastest aircraft are all military, so the ban doesn’t affect them. And civil aircraft cruise well below Mach 1 due to fuel efficiency and other considerations.

4There is a debate about whether LLM training can be made orders of magnitude more sample efficient. After all, children acquire language after being exposed to far fewer words than LLMs are. On the other hand, children are “scientists in the crib”, developing world models and reasoning abilities early on, which might be what enables efficient language acquisition. This debate is orthogonal to our point. If task representation or difficulty of extrapolation is the bottleneck, it will represent an upper limit on LLM capabilities regardless of sample efficiency.

5Even when model developers have released larger models (in terms of parameter count), there is an increased focus on inference efficiency, such as in mixture-of-experts models like Mixtral 8x22B, where the number of active parameters during inference is much lower than the total parameter count.

この記事をシェア

関連記事

AI News★42026年6月10日 20:00

Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可

Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。

AI News★42026年6月10日 19:00

マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中

マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。

MarkTechPost★42026年6月10日 17:26

Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場

Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む