知性はパラメータ数ではなく時間についてである
AIモデルは大きくなるほど洞察力が低下するため、学習を継続させるには推論時間を短縮する必要がある。
キーポイント
AIモデルの知性はパラメータ数ではなく推論時間の短縮が重要であると主張
LLMは帰納的推論ではなく転導的推論エンジンとして機能する可能性を示唆
現在の機械学習理論ではLLMの汎用計算能力の説明が困難であると指摘
ビジネス・金融・気候科学などの高価値データでは従来の汎化理論が適用できないと分析
影響分析・編集コメントを表示
影響分析
この記事はAI研究のパラダイムシフトを提案しており、モデル規模の拡大競争から推論効率と適応的計算への転換を促す可能性がある。AWSの責任者による発信という点で、業界の研究方向性に影響を与える重要な提言と言える。
編集コメント
AI研究の根本的な問い直しを迫る内容で、単なる技術記事を超えた哲学的考察が含まれている。業界の「大きければ良い」という前提への挑戦として注目すべき。
知能はパラメータ数ではない。それは時間の問題だ。
AIモデルが大きくなるにつれ、洞察力は深まらず、むしろ浅くなる。継続的な学習を保証するには、推論時間を短縮する必要がある。
共有 共有 リンクをコピー
大規模言語モデル(LLM)に複雑な多項式方程式を解くよう促すと、単に答えを返すだけでなく、「思考の連鎖」を使って解決策を導き出す。ある意味で、LLMはコンピュータ、つまり解を計算する機械のように振る舞う。しかし、この機械は約90年前にアラン・チューリングが普遍的な計算モデルとして記述したものとはかなり異なる。
ステファノ・ソアットは、Amazon Web Services(AWS)エージェンティックAI組織のバイスプレジデント兼ディスティングイッシュトサイエンティストである。
LLMはどのような意味でコンピュータと見なせるのか? チューリングマシンのように、あらゆる計算可能なタスクを解決できる、つまり普遍的になり得るのか? もしそうなら、有限のデータからその能力をどのように学習するのか?
現在の機械学習理論はこれらの問いに答えるのにほとんど役立たないため、新しいツールが必要だ。以前のAmazon Scienceの記事で、我々は、AIエージェントとそれを駆動するLLMは、古典的な機械学習理論の枠組みで帰納的に訓練されているにもかかわらず、トランスダクティブ(変換的)推論エンジンであると論じた。帰納は一般化、すなわち過去のデータに対する振る舞いを将来のデータにも適用できる能力を求める。一般化を達成するには、記憶化、すなわち訓練データへの過学習を避けなければならない。
これは理論上、過去と未来のデータが同じ分布から抽出されるという条件下では機能する。しかし実際には、そのような条件を検証することはできず、一般的に、ビジネス、金融、気候科学、さらには言語における高価値なデータには適用されない。そのため、LLMが一般的な計算可能なタスクを検証可能な形で解決する方法をどのように学習するのかを説明する手がかりがない。
それに対してトランスダクションでは、過去のデータを通じて推論し、新たな問題に対する解決策を考案することを目指す。トランスダクションは、過去の解決策が一般化することを期待して適用することではない。むしろ、新たな解決策を推論する際に重要な記憶の部分を検索できることである。トランスダクションにおいて、記憶化は汚点ではなく価値である。トランスダクティブ推論の際に、テストデータと記憶を併用して解決策を考案することは、過学習ではなく、適応的でクエリ固有の計算、すなわち推論である。
帰納的一般化は、時間に迫られたときに取らざるを得ない振る舞いの一種である。このような自動的で反応的な振る舞いは、認知心理学では時に「システム1」と呼ばれる。一方、トランスダクションでは、すべてのデータを検討し、クエリ固有の可変長の推論時間計算、つまりLLMにおける思考の連鎖推論(その長さはクエリの複雑さに依存する)を実行する必要がある。このような熟慮的な振る舞いはしばしば「システム2」と呼ばれ、学習を通じて育成したいものである。この意味で、トランスダクティブ学習は、メタ学習、すなわち推論することを学習する特定の形態である。
1964年、レイ・ソロモノフは、記憶と時間が無限であると仮定すれば、トランスダクティブ推論を通じてあらゆる問題を解決する普遍的に最適なアルゴリズムを記述した。それは、チューリングマシンを通じてすべてのプログラムを実行し、観測されたデータを再現するプログラムの結果を平均するというものだ。それは普遍的に最適な答えを与えるが、一般的に無限の時間がかかる。では、普遍的に最適であるだけでなく、普遍的に高速なアルゴリズムが欲しい場合はどうか?
1973年、レオニード・レヴィンは、NP完全性の概念を導入した同じ論文で、そのようなアルゴリズムを導出した。残念ながら、レヴィンのいわゆる普遍探索は実用的ではなく、LLMを理解するのにも役立たない。一つの理由は、学習を含まないことだ。それでもレヴィンは、計算タスクを解決する際の時間の重要性を指摘した。その後、1986年にソロモノフは、学習が時間短縮にどのように役立つかを示唆した。
新しい論文で、我々はこれらのアイデアを拡張し、推論時間を短縮することが、訓練されたモデルにトランスダクティブに、すなわち推論するように作用することを示す。推論時間を短縮しようと努めることで、モデルは訓練データの統計的構造だけでなく、そのアルゴリズム的構造も学習する。そして、学習したアルゴリズム的手法を無限の方法で再結合し、任意の新たな問題に対処できるようになる。
この洞察は、AIモデルの設計と訓練の方法に影響を与える。特に、モデルは推論時間における追加コストの限界価値を予測するように設計されるべきであり、その訓練目標には複雑性コストを含め、推論中に時間を最小化するように強制すべきである。
この学習アプローチは、古典的な統計的学習理論を覆す。古典的な統計的学習理論では、最大の危険は過学習であるため、目標は解を正則化すること、すなわち訓練済みモデルが過去のデータから保持する情報(訓練損失を減らすために必要なものを超えて)を最小化することだ。一方、トランスダクティブ推論では、将来の問題解決に役立つ可能性があるため、保持される情報を最大化することが目標となる。
スケーリング則の逆転
ここ数年におけるLLMの性能向上は、主にスケーリング、つまりモデルパラメータ数の増加によるベンチマークデータセットでの精度向上によってもたらされてきた。これにより、モデルのパラメータ数をさらに増やすことで、AIモデルの認知能力が人間の創造者を超える「超知能」の時代が到来するかもしれないと多くの人が推測するようになった。
我々の論文では、その逆を主張する。ある複雑さを超えると、AIモデルは我々がサヴァン領域と呼ぶ状態に入り、学習が不要になり、ベンチマークでのより良い性能は「洞察力」の低下とともに訪れる。その極限が、ソロモノフが1964年に記述したアルゴリズムであり、あらゆるタスクが力任せに解決される。
では、スケールが知能につながらないなら、何が知能につながるのか? 我々は、その答えは時間であると主張する。
これはある程度直感的に納得できる答えだ。知能の概念は根本的に主観的で環境に依存する。しかし、知能を特徴づけることは難しくても、その不在を特徴づけることはそれほど難しくない。環境の速度に適応できないことは、我々が非知能の特性(TONI)と呼ぶ多くの振る舞いの一つである。TONIとは、それが存在すると、どのように定義しようとも知能を否定するような振る舞いのことだ。
多くのTONIは時間に制約される。同じタスクの繰り返しインスタンスを解決するのに、同じ量の(最小限でない)時間とエネルギーを費やし、より良い結果を得られないことはTONIである。目標に見合ったリソースを割り当てられず、些細なタスクと複雑なタスクに同じ労力を費やすこともTONIである。宇宙の寿命よりも長くかかることがわかっているタスクを開始し、何らかの使用可能な答えを出すことも別のTONIだろう。
この直感に基づいて、AIモデルにおける知能と時間の関係をどのように定量化するか? 第一歩は、モデルのパラメータに含まれる情報量を評価することだ。そうすれば、時間制約の課与によってそれがどのように影響を受けるかがわかる。
アルゴリズム的情報
情報を測定する標準的な方法は、クロード・シャノンが1948年の画期的な論文で提案したもので、これは本質的に情報理論の分野を創設した。シャノンは、確率変数の情報量をその分布のエントロピーとして定義した。その値についての不確実性が大きいほど、情報量は高くなる。
しかし、この定義では、与えられたデータサンプルの情報量は、サンプル自体の特性ではなく、それが生成された確率過程の特性である。
原文を表示
Intelligence isn’t about parameter count. It’s about time.
As AI models grow larger, they become less insightful, not more. To ensure that they continue to learn, we need to reduce their inference time.
Share Share Copy link
When we prompt a large language model (LLM) to solve a complex polynomial equation, it does not just return an answer but uses its “chain of thought” to work through a solution. In a sense, the LLM behaves like a computer, a machine that computes the solution. But this machine is quite unlike what Alan Turing described as a universal model of computation almost 90 years ago.
Stefano Soatto is a vice president and distinguished scientists in the Amazon Web Services (AWS) Agentic AI organization.
In what sense can an LLM be thought of as a computer? Can it be universal, that is, able to solve any computable task, as a Turing machine does? If so, how does it learn this ability from finite data?
Current theories of machine learning are of little help in answering these questions, so we need new tools. In an earlier Amazon Science post, we argued that AI agents and the LLMs that power them are transductive-inference engines, despite being trained inductively in the mold of classical machine learning theory. Induction seeks generalization, or the ability to behave on future data as one did on past data. To achieve generalization, one must avoid memorization, i.e., overfitting the training data.
This works in theory, under the condition that both past and future data are drawn from the same distribution. In practice, however, such a condition cannot be verified, and in general, it doesn’t apply to high-value data in business, finance, climate science, and even language. That leaves us with no handle to explain how an LLM might learn how to verifiably solve a general computable task.
With transduction, by contrast, one seeks to reason through past data to craft solutions to new problems. Transduction is not about applying past solutions in the hope that they generalize; rather, it is about being able to retrieve portions of memory that matter when reasoning through new solutions. In transduction, memorization is not a stigma but a value. Using the test data, along with memory, to craft a solution during transductive inference is not overfitting but adaptive, query-specific computation — i.e., reasoning.
Inductive generalization is the kind of behavior one is forced to adopt when pressed for time. Such automatic, reactive behavior is sometimes referred to as “system-1” in cognitive psychology. Transduction instead requires looking at all data and performing query-specific variable-length inference-time computation — chain-of-thought reasoning in an LLM, whose length depends on the complexity of the query. Such deliberative behavior is often referred to as “system-2” and is what we wish to foster through learning. In this sense, transductive learning is a particular form of meta-learning, or learning to reason.
In 1964, Ray Solomonoff described a universally optimal algorithm for solving any problem through transductive inference, if we assume that memory and time are unbounded: execute all programs through a Turing machine, then average the outcome of those that reproduce the observed data. That will give the universally optimal answer — but it will generally take forever. What if we want not just a universally optimal but a universally fast algorithm?
In 1973 — in the same paper where he introduced the notion of NP completeness — Leonid Levin derived such an algorithm . Unfortunately, Levin’s so-called universal search is not viable in practice, nor does it help us understand LLMs; for one thing, it involves no learning. Nonetheless, Levin pointed to the critical importance of time when solving computational tasks. Later, in 1986, Solomonoff hinted at how learning can help reduce time.
In a new paper, we expand on these ideas and show how reducing inference time induces a trained model to operate transductively — i.e., to reason. In striving to reduce inference time, the model learns not just the statistical structure of the training data but also its algorithmic structure. It can then recombine algorithmic methods it’s learned in an infinite number of ways to address arbitrary new problems.
This insight has implications for how AI models are designed and trained. In particular, they should be designed to predict the marginal value of additional costs at inference time, and their training targets should include complexity costs, to force them to minimize time during inference.
This approach to learning turns classical statistical learning theory on its head. In classical statistical learning theory, the great danger is overfitting, so the goal is to regularize the solution, i.e., to minimize the information that the trained model retains from past data (beyond what matters for reducing the training loss). With transductive inference, on the other hand, the goal is to maximize the information retained, as it may come in handy for solving future problems.
The inversion of scaling laws
LLMs’ performance gains in the past few years have come mostly from scaling: increasing the number of model parameters has improved accuracy on benchmark datasets. This has led many to speculate that further increasing the models’ parameter counts could usher in an age of “superintelligence”, where the cognitive capacities of AI models exceed those of their human creators.
If scale does not lead to intelligence, what does? We argue that the answer is time.
In our paper, we argue the opposite: beyond a certain complexity, AI models enter what we call the savant regime, where learning becomes unnecessary, and better performance on the benchmarks comes with decreased “insight”. At the limit is the algorithm Solomonoff described in 1964, where any task can be solved by brute force.
If scale does not lead to intelligence, what does? We argue that the answer is time.
It’s an answer with some intuitive appeal. The concept of intelligence is fundamentally subjective and environment dependent. But while intelligence is hard to characterize, its absence is less so. Being unable to adapt to the speed of the environment is one among many behaviors that we call traits of non-intelligence (TONIs). TONIs are behaviors whose presence negates intelligence however one wishes to define it.
Many TONIs are timebound. Taking the same amount of (non-minimal) time and energy to solve repeated instances of the same task, to no better outcome, is a TONI. So is the inability to allocate resources commensurate to the goal, thus spending the same effort for a trivial task as for a complex one. Starting a task that is known to take longer than the lifetime of the universe to render any usable answer would be another TONI.
Given this intuition, how do we quantify the relationship between intelligence and time in AI models? The first step is to assess the amount of information contained in the models’ parameters; then we can see how it’s affected by the imposition of time constraints.
Algorithmic information
The standard way to measure information was proposed by Claude Shannon in a landmark 1948 paper that essentially created the field of information theory. Shannon defined the information content of a random variable as the entropy of its distribution. The more uncertainty about its value, the higher the information content.
On this definition, however, a given data sample’s information content is not a property of the sample itself; it’s a property of the distribution it was drawn from. For any given sample, however, there are infinitely many distributions from which it could have been drawn. If all you have is a sample — say, a string of ones and zeroes — how do you compute its information content?
In the 1960s, Solomonoff and, independently, Andrey Kolmogorov, addressed this problem, with an alternative notion of information, algorithmic information, which can be used to characterize the information content of arbitrary binary strings. For a given string, one can write a program that, when run through some computer, outputs that string. In fact, one can write infinitely many such programs and run each through many computers.
The shortest possible program that, run through a universal Turing machine, outputs the specific datum is a property of that datum. That program is the algorithmic minimal sufficient statistic, and its length is the algorithmic information (Kolmogorov-Solomonoff complexity) of that datum.
In his 1948 paper, Shannon also defined a metric called mutual information, which quantifies the information that can be inferred about the value of one variable by observing a correlated variable. This concept, too, can be extended to algorithmic information theory: the algorithmic mutual information between two data strings measures how much shorter the program for generating one string will be if you have access to the other.
Time is information
If we don’t know the distribution from which a model’s training data was drawn, and we don’t know whether the model’s future inputs will be drawn from the same distribution, how can we quantify the model’s future performance?
In our paper, we assume that most tasks can be solved by combining and transforming — in infinitely many possible ways — some ultimately finite, but a priori unknown, collection of methods. In that case, we can show that optimizing performance is a matter of maximizing the algorithmic mutual information between the model’s training data and future tasks.
Finding the shortest possible algorithm for generating a particular binary string is, however, an intractable problem (for all but the shortest strings). So computing the algorithmic mutual information between a model’s training data and future tasks is also intractable.
Nonetheless, in our paper, we prove that there is a fundamental relation between the speed with which a model can find a solution to a new task and the algorithmic mutual information between the solution and the training data. Specifically, we show that
log speed-up = I(h : D)
where h is the solution to the new task, D is the dataset the model was trained on, and I(h : D) is the algorithmic mutual information between the data and the solution.
This means that, during training, minimizing the time the model takes to perform an inference task will maximize the algorithmic information encoded in its weights. Reducing inference time ensures that, even as models’ parameter counts increase, they won’t descend into the savant regime, where they solve problems through brute force, without any insight or learning.
The value of time
You may have noticed that the equation relating inference time to algorithmic information doesn’t specify any units of measure. That’s because even the value of “time” is subjective. A zebra drinking from a pond does not know a priori how long it will take to be spotted by a predator. If it lingers too long, it ends up prey; if it panics and leaves, it ends up dehydrated.
Intelligence is about time — but the value of “time” is subjective. A zebra drinking from a pond does not know a priori how long it will take to be spotted by a predator. If it lingers too long, it ends up prey; if it panics and leaves, it ends up dehydrated.
Similarly, for an AI model, there is no sing
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み