形状、対称性、構造:機械学習研究における数学の役割の変化
The Gradient の記事は、大規模化による計算リソース重視の潮流の中で数学の役割が理論的保証から事後説明や対称性の活用へと進化していると論じ、学際的な視点の重要性を強調している。
キーポイント
計算リソース重視へのシフトと数学の苦境
過去10年で、設計された数学的アーキテクチャよりも大規模なデータとパラメータによるエンジニアリングアプローチが主導権を握り、既存理論では予測できないブレークスルーが続いている。
数学の役割の進化:理論から事後説明へ
数学はモデル性能への理論的保証という従来の役割に加え、トレーニングやパフォーマンスで観察される現象を説明する「物理学におけるような」役割へとシフトしている。
高レベル設計への応用と純粋数学の台頭
詳細な特徴設計から、アーキテクチャとタスク構造やデータ対称性をマッチングさせる高レベル設計へ焦点が移り、トポロジーや代数などの「純粋」数学分野も活用され始めている。
学際的アプローチの重要性
生物学的視点(複雑系への洞察)や社会科学(社会統合の影響)など、多様な視点を共有する必要性が高まっており、これは研究の健全な発展として歓迎されるべきである。
数学分野の拡大と純粋数学の活用
スケーリングへの移行により、トポロジーや代数、幾何学といった「純粋」な数学分野が機械学習研究に組み込まれ、抽象度が高く直感的でない複雑な問題への対処が可能になっている。
評価スコアを超えたモデル理解の必要性
単一の精度指標や統計量だけでは、分布外データへの一般化性能や敵対的堅牢性といった重要な特性を捉えきれないため、完全な科学的理解にはより多角的なアプローチが必要である。
ReLUネットワークの幾何学的構造
数学は、ReLUベースのニューラルネットワークが入力空間を無数の多角形領域に分割し、各領域で線形写像として振る舞う仕組みを解明する手助けとなる。
影響分析・編集コメントを表示
影響分析
この記事は、現在の AI 研究における「計算リソース至上主義」に対する重要な哲学的・理論的な反芻であり、数学的アプローチが単なる設計ツールから現象を解き明かす分析ツールへとその本質を変容させていることを示唆しています。研究者に対して、大規模実験の成果を盲目的に受け入れるのではなく、トポロジーや対称性といった高度な数学的概念を用いてその背後にある構造を理解する必要性を再認識させる影響があります。
編集コメント
大規模モデルが主流となる中で「数学は不要になったのか」という議論に対し、その役割が変化しているだけだと指摘する本質的な視点です。特に純粋数学の応用可能性について言及しており、理論研究者にとって示唆に富む内容です。
形状、対称性、構造:機械学習研究における数学の役割の変遷
現代機械学習における数学の役割とは何か?
過去10年間で、機械学習における進歩の生み出され方が変化してきた。数学的に原理立てて慎重に設計されたアーキテクチャを用いた研究は、わずかな改善しかもたらさない一方で、計算集約的でエンジニアリングを優先し、より大規模なトレーニングデータセットとモデルパラメータ数へとスケールさせた取り組みは、既存の理論では予測されなかった驚くべき新たな能力を生み出している。かつて機械学習研究の主要な指針であった数学と統計学は、今や最新のブレークスルーに即座に洞察を与えることに苦労している。機械学習における経験的な進歩が、より理論に動機づけられたアプローチを追い越したのはこれが初めてではないが、近年の進歩の規模は、私たちに「苦い教訓」の苦い現実を再び飲み込むことを強いている[1]。
この変化は、今後における機械学習研究での数学の役割低下についての憶測を促している。数学が、より広範な視点(例えば、還元不可能に複雑なシステムについて結論を導く深い経験を持つ生物学や、AIが社会にますます深く統合されるにつれての社会科学など)と舞台を共有せざるを得なくなることは、すでに明らかである。機械学習のますます学際的な性質は、すべての研究者によって前向きな発展として歓迎されるべきである。
しかし、私たちは、数学がこれまでと同様に関連性を保っていると主張する。その役割が単に進化しているだけなのである。例えば、数学がかつては主にモデル性能に関する理論的保証を提供していたかもしれないが、近い将来、モデルのトレーニングや性能で観察される経験的現象の事後説明により一般的に使用されるようになるかもしれない。これは、物理学において果たす役割と類似したものである。同様に、数学的直感がかつては手作りの特徴量やアーキテクチャの詳細な設計を細部まで導いていたかもしれないが、その使用は、アーキテクチャを基礎となるタスク構造やデータの対称性に適合させるといった、より高レベルの設計選択へと移行するかもしれない。
これはどれも完全に新しいことではない。数学は常に機械学習において複数の目的を果たしてきた。結局のところ、上述のアーキテクチャがデータの対称性に適合するという考えを体現する、並進等価性を持つ畳み込みニューラルネットワークは、今や40年以上前のものである。変化しているのは、数学が最大の影響を与える問題の種類と、それが最も一般的に適用される方法である。
スケールへの移行の興味深い帰結の一つは、機械学習に適用可能な数学の分野の範囲が広がったことである。トポロジー、代数学、幾何学といった「純粋」数学の領域が、確率論、解析学、線形代数といったより伝統的に応用されてきた分野に加わりつつある。これらの純粋分野は、高いレベルの抽象性と複雑さを扱うために前世紀にわたって成長・発展し、数学者が一見人間の直感を超えているように見える空間、代数的対象、組み合わせ的プロセスについての発見をするのを助けてきた。これらの能力は、現代の深層学習における多くの最大の課題に対処することを約束している。
本記事では、数学が機械学習における発見と理解のプロセスを導く持続的な能力を示す、現在の研究のいくつかの領域を探求する。
図1:数学は、ReLUベースのニューラルネットワークが入力空間を無数の多角形領域に分割する方法を明らかにすることができる。各領域においてモデルは線形写像のように振る舞う[2, 3, 4]。これらの分解は美しいパターンを作り出す。(図はSplineCam [5]で作成)。
針の刺し傷から象を描写する
50層、70億パラメータのニューラルネットワークを与えられ、それを分析するように求められたとしよう。どこから始めるだろうか?標準的な手順は、関連する性能統計量を計算することだろう。例えば、一連の評価ベンチマークにおける精度などである。特定の状況では、これで十分かもしれない。しかし、深層学習モデルは複雑で多面的である。同じ精度を持つ2つのコンピュータビジョンモデルでも、分布外データへの汎化性能、キャリブレーション、敵対的ロバストネス、その他多くの実世界アプリケーションで重要な「二次統計量」が大きく異なる可能性がある。これを超えて、深層学習を完全に科学的に理解するためには、評価スコアの彼方を探求する必要があるという証拠がすべて示唆している。確かに、単一の数値(例:IQ、身長)で人間性のすべての次元を捉えることが不可能であるのと同様に、1つまたはいくつかの統計量だけでモデルを理解しようとすることは、根本的に限界がある。
人間を理解することとモデルを理解することの一つの違いは、私たちはモデルのすべてのパラメータと、モデル内で発生するすべての個々の計算に容易にアクセスできることである。実際、モデルの隠れ層の活性化を抽出することで、モデルが生の入力を予測に変換するプロセスを直接たどることができる。残念ながら、隠れ層の活性化の世界は、単純なモデル性能統計量の世界よりもはるかに扱いにくい。初期入力と同様に、隠れ層の活性化は通常高次元であるが、入力データとは異なり、人間が理解できる形で構造化されていない。さらに高次元に足を踏み入れるなら、モデルの重みを直接通してモデルを理解しようと試みることもできる。ここでは、モデル重みの空間において、私たちは単一出発点から数百万から数十億の直交方向に自由に移動することができる。これらの世界をどう理解し始めればよいのだろうか?
3人の盲人が象の異なる部分を触るというよく知られた寓話がある。それぞれがその動物について与える説明は全く異なり、各人が触った体の部分のみを反映している。私たちは、少なくとも手を使って象の体の部分のかなりの部分を感じることができる盲人とは異なり、モデルの隠れ層の活性化と重みを分析する現在の方法は、一本の針の触感から象を描写しようとするようなものだと主張する。
可視化できないものを特徴づける道具
数学者がもっぱら問題解決に焦点を当てているという一般的な認識にもかかわらず、研究数学の多くは、そもそもどのような問いを立てるべきかを理解することに関わっている。これは自然なことである。なぜなら、数学者が研究する対象の多くは日常の経験からかけ離れているため、私たちが実際に理解できることについての直感が非常に限られた状態で始めるからである。既存の直感を活用し、理解を深める扱いやすい結果を得ることを可能にする道具を構築するには、しばしば相当な努力が必要とされる。回転の概念はこの状況の良い例を提供する。なぜなら、これらは2次元や3次元では非常に身近であるが、次元が大きくなるにつれて日常の直感からますます遠ざかるからである。後者の場合、これらが実際に何であるかについてより全体的な視点を得るために、純粋数学が提供する異なる視点がますます重要になる。
線形代数を少し知っている人は、回転が高次元に一般化され、$n$次元では行列式が$1$の$n \times n$直交行列によって実現できることを思い出すだろう。これらの集合は一般に$SO(n)$と表記され、特殊直交群と呼ばれる。すべての$n$次元回転の集合を理解したいとしよう。これを行うには多くの相補的なアプローチがある。$SO(n)$内のすべての行列の線形代数的構造を探求することも、各要素が$\mathbb{R}^n$に作用する演算子としてどのように振る舞うかに基づいて$SO(n)$を研究することもできる。
あるいは、私たちの生来の空間的直感を使って$SO(n)$を理解しようと試みることもできる。これは数学において強力な視点であることがわかっている。任意の次元$n$において、$SO(n)$は多様体と呼ばれる幾何学的対象である。非常に大まかに言えば、局所的にはユークリッド空間のように見えるが、引き離して見るとねじれや穴、その他の非ユークリッド的な特徴を持つかもしれない空間である。
原文を表示
What is the Role of Mathematics in Modern Machine Learning?
The past decade has witnessed a shift in how progress is made in machine learning. Research involving carefully designed and mathematically principled architectures result in only marginal improvements while compute-intensive and engineering-first efforts that scale to ever larger training sets and model parameter counts result in remarkable new capabilities unpredicted by existing theory. Mathematics and statistics, once the primary guides of machine learning research, now struggle to provide immediate insight into the latest breakthroughs. This is not the first time that empirical progress in machine learning has outpaced more theory-motivated approaches, yet the magnitude of recent advances has forced us to swallow the bitter pill of the “Bitter Lesson” yet again [1].
This shift has prompted speculation about mathematics’ diminished role in machine learning research moving forward. It is already evident that mathematics will have to share the stage with a broader range of perspectives (for instance, biology which has deep experience drawing conclusions about irreducibly complex systems or the social sciences as AI is integrated ever more deeply into society). The increasingly interdisciplinary nature of machine learning should be welcomed as a positive development by all researchers.
However, we argue that mathematics remains as relevant as ever; its role is simply evolving. For example, whereas mathematics might once have primarily provided theoretical guarantees on model performance, it may soon be more commonly used for post-hoc explanations of empirical phenomena observed in model training and performance–a role analogous to one that it plays in physics. Similarly, while mathematical intuition might once have guided the design of handcrafted features or architectural details at a granular level, its use may shift to higher-level design choices such as matching architecture to underlying task structure or data symmetries.
None of this is completely new. Mathematics has always served multiple purposes in machine learning. After all, the translation equivariant convolutional neural network, which exemplifies the idea of architecture matching data symmetries mentioned above is now over 40 years old. What’s changing are the kinds of problems where mathematics will have the greatest impact and the ways it will most commonly be applied.
An intriguing consequence of the shift towards scale is that it has broadened the scope of the fields of mathematics applicable to machine learning. “Pure” mathematical domains such as topology, algebra, and geometry, are now joining the more traditionally applied fields of probability theory, analysis, and linear algebra. These pure fields have grown and developed over the last century to handle high levels of abstraction and complexity, helping mathematicians make discoveries about spaces, algebraic objects, and combinatorial processes that at first glance seem beyond human intuition. These capabilities promise to address many of the biggest challenges in modern deep learning.
In this article we will explore several areas of current research that demonstrate the enduring ability of mathematics to guide the process of discovery and understanding in machine learning.
Figure 1: Mathematics can illuminate the ways that ReLU-based neural networks shatter input space into countless polygonal regions, in each of which the model behaves like a linear map [2, 3, 4]. These decompositions create beautiful patterns. (Figure made with SplineCam [5]).
Describing an Elephant from a Pin Prick
Suppose you are given a 7 billion parameter neural network with 50 layers and are asked to analyze it; how would you begin? The standard procedure would be to calculate relevant performance statistics. For instance, the accuracy on a suite of evaluation benchmarks. In certain situations, this may be sufficient. However, deep learning models are complex and multifaceted. Two computer vision models with the same accuracy may have very different generalization properties to out-of-distribution data, calibration, adversarial robustness, and other “secondary statistics” that are critical in many real-world applications. Beyond this, all evidence suggests that to build a complete scientific understanding of deep learning, we will need to venture beyond evaluation scores. Indeed, just as it is impossible to capture all the dimensions of humanity with a single numerical quantity (e.g., IQ, height), trying to understand a model by one or even several statistics alone is fundamentally limiting.
One difference between understanding a human and understanding a model is that we have easy access to all model parameters and all the individual computations that occur in a model. Indeed, by extracting a model’s hidden activations we can directly trace the process by which a model converts raw input into a prediction. Unfortunately, the world of hidden activations is far less hospitable than that of simple model performance statistics. Like the initial input, hidden activations are usually high dimensional, but unlike input data they are not structured in a form that humans can understand. If we venture into even higher dimensions, we can try to understand a model through its weights directly. Here, in the space of model weights, we have the freedom to move in millions to billions of orthogonal directions from a single starting point. How do we even begin to make sense of these worlds?
There is a well-known fable in which three blind men each feel a different part of an elephant. The description that each gives of the animal is completely different, reflecting only the body part that that man felt. We argue that unlike the blind men who can at least use their hand to feel a substantial part of one of the elephant’s body parts, current methods of analyzing the hidden activations and weights of a model are akin to trying to describe the elephant from the touch of a single pin.
Tools to Characterize What We Cannot Visualize
Despite the popular perception that mathematicians exclusively focus on solving problems, much of research mathematics involves understanding the right questions to ask in the first place. This is natural since many of the objects that mathematicians study are so far removed from everyday experience that we start with very limited intuition for what we can hope to actually understand. Substantial effort is often required to build up tools that will enable us to leverage our existing intuition and achieve tractable results that increase our understanding. The concept of a rotation provides a nice example of this situation since these are very familiar in 2- and 3-dimensions, but become less and less accessible to everyday intuition as their dimension grows larger. In this latter case, the differing perspectives provided by pure mathematics become more and more important to gaining a more holistic perspective on what these actually are.
Those who know a little linear algebra will remember that rotations generalize to higher dimensions and that in $n$-dimensions they can be realized by $n \times n$ orthogonal matrices with determinant $1$. The set of these are commonly written as $SO(n)$ and called the special orthogonal group. Suppose we want to understand the set of all $n$-dimensional rotations. There are many complementary approaches to doing this. We can explore the linear algebraic structure of all matrices in $SO(n)$ or study $SO(n)$ based on how each element behaves as an operator acting on $\mathbb{R}^n$.
Alternatively, we can also try to use our innate spatial intuition to understand $SO(n)$. This turns out to be a powerful perspective in math. In any dimension $n$, $SO(n)$ is a geometric object called a manifold. Very roughly, a space that locally looks like Euclidean space, but which may have twists, holes, and other non-Euclidean features when we zoom out. Indeed, whether we make it precise or not, we all have a sense of whether two rotations are “close” to each other. For example, the reader would probably agree that $2$-dimensional rotations of $90^\circ$ and $91^\circ$ “feel” closer than rotations of $90^\circ$ and $180^\circ$. When $n=2$, one can show that the set of all rotations is geometrically “equivalent” to a $1$-dimensional circle. So, much of what we know about the circle can be translated to $SO(2)$.
What happens when we want to study the geometry of rotations in $n$-dimensions for $n > 3$? If $n = 512$ (a latent space for instance), this amounts to studying a manifold in $512^2$-dimensional space. Our visual intuition is seemingly useless here since it is not clear how concepts that are familiar in 2- and 3-dimensions can be utilized in $512^2$-dimensions. Mathematicians have been confronting the problem of understanding the un-visualizable for hundreds of years. One strategy is to find generalizations of familiar spatial concepts from $2$ and $3$-dimensions to $n$-dimensions that connect with our intuition.
This approach is already being used to better understand and characterize experimental observations about the space of model weights, hidden activations, and input data of deep learning models. We provide a taste of such tools and applications here:
Intrinsic Dimension: Dimension is a concept that is familiar not only from our experience in the spatial dimensions that we can readily access, 1-, 2-, and 3-dimensions, but also from more informal notions of “degrees of freedom” in everyday systems such as driving a car (forward/back, turning the steering wheel either left or right). The notion of dimension arises naturally in the context of machine learning where we may want to capture the number of independent ways in which a dataset, learned representation, or collection of weight matrices actually vary. In formal mathematics, the definitions of dimension depend on the kind of space one is studying but they all capture some aspect of this everyday intuition. As a simple example, if I walk along the perimeter of a circle, I am only able to move forward and backward, and thus the dimension of this space is $1$. For spaces like the circle which are manifolds, dimension can be formally defined by the fact that a sufficiently small neighborhood around each point looks like a subset of some Euclidean space $\mathbb{R}^k$. We then say that the manifold is $k$-dimensional. If we zoom in on a small segment of the circle, it almost looks like a segment of $\mathbb{R} = \mathbb{R}^1$, and hence the circle is $1$-dimensional. The manifold hypothesis posits that many types of data (at least approximately) live on a low-dimensional manifold even though they are embedded in a high-dimensional space. If we assume that this is true, it makes sense that the dimension of this underlying manifold, called the intrinsic dimension of the data, is one way to describe the complexity of the dataset. Researchers have estimated intrinsic dimension for common benchmark datasets, showing that intrinsic dimension appears to be correlated to the ease with which models generalize from training to test sets [6], and can explain differences in model performance and robustness in different domains such as medical images [7]. Intrinsic dimension is also a fundamental ingredient in some proposed explanations of data scaling laws [8, 9], which underlie the race to build ever bigger generative models. Researchers have also noted that the intrinsic dimension of hidden activations tend to change in a characteristic way as information passes through the model [10, 11] or over the course of the diffusion process [12]. These and other insights have led to the use of intrinsic dimension in detection of adversarial examples [13], AI-generated content [14], layers where hidden activations contain the richest semantic content [11], and hallucinations in generative models [15].
Curvature: While segments of th
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み