機械学習研究の芸術と禅(11 分読了)
TLDR AI は、AI 研究における成功の秘訣として「読書と実装の組み合わせ」を強調し、流行に流されず基礎理論への深い理解を持つことの重要性を説いている。
キーポイント
研究プロセスの本質:読書と実装の融合
AI 研究者になる唯一の方法は、論文を読むことと実際にコードを実装することの両方を組み合わせることであり、どちらか一方だけでは不十分である。
洞察の偶然性と継続的な努力
科学的な洞察はランダムに訪れることが多く、重要なのは洞察力が得られない日でも毎日座り続ける(研究を続ける)という disciplined な姿勢である。
流行を追わず基礎理論へ回帰する
半年未満の流行や特定のツールに固執せず、クロスエントロピーや SVD、ポリシー勾配などの 40 年前から変わらない根本的なアイデアを深く理解すべきである。
ベンチマークスコア至上主義への警鐘
研究の最良の結果が既存ベンチマークでのスコア向上のみを目指すものであれば、その研究は深みを持たず、本質的な問題解決に至っていない可能性が高い。
影響分析・編集コメントを表示
影響分析
この記事は、AI 研究コミュニティにおいて「流行に踊らされず、基礎理論への回帰と継続的な実践を重視する」という重要なマインドセットを提唱しています。特に若手研究者や実務家に対して、短期的なベンチマークスコアよりも本質的な理解を深めることの重要性を説くことで、研究の質的向上や長期的なキャリア形成に寄与する示唆を含んでいます。
編集コメント
技術的な進歩が急速な現代において、あえて「基礎への回帰」という逆説的な視点を提示しており、AI 研究の質を高めるための重要な指針となる一読です。
AI 研究を行いたいと考えていますか?実際、誰もそれを直接教えるわけではありません。しかし、始める方法は意外とシンプルです:(i) 読むことと (ii) 何かを構築することの組み合わせです。どちらか一方だけではできません。研究者になるのはこの組み合わせを通じてです。
実は、優れた研究者になるプロセスは瞑想を学ぶことに似ています:
I.
始める方法は意外とシンプルで、(a) 読んで学び、(b) 何かを構築するという組み合わせによって実現されます。片方だけではダメです。この組み合わせを通じて研究者になります。
古くからある禅の言葉にこのようなものがあります——
*洞察が見つかる日は座る。
洞察が見つからない日も座る。
*
研究を行うことは基本的にこれと同じです。科学的な洞察は、まるで偶然のように現れることがあります。しかし、ほとんどの日には現れません。成功のための重要な資質の一つは、ただ時間と努力を積み重ねることです。音楽、スポーツ、営業など他のいかなる活動と同様に、世界クラスになりたいのであれば、並外れたほどの規律が必要です。
Noam Shazeer は SwiGLU 論文において、成功する研究アイデアの持つ本質的な偶然性に対して、見事な敬意を表しています:
「なぜこれらのアーキテクチャが機能するのかについて説明は提供しません。その成功も他と同様、神の慈悲によるものとみなします。」
関連するコメントとして、*論文を読みすぎることさえあり得る*というのがあります。問題を解決したいのであれば、成功への確実な道は、まず解決策を試みて実行し、ボトルネックにぶつかったらその解決を図り、自分自身でアイデアが尽きてから初めて文献を参照することです。
II.
では、何に取り組むべきでしょうか?
もしあなたがこれから始めようとしているのであれば、率直にお答えしましょう:正確なトピックがそれほど重要だとは思いません。
ただし、6 ヶ月未満の間に流行った分野を選ぶことには警告しておきます。AI は急速に進化しますが、根本的なアイデアは 40 年間変わっていません。これをキャリアにするつもりなら、2026 年の概念(ハーネス、エージェント、コンテキストエンジニアリングなど)について過度に悩むべきではありません。これらは変化します。
むしろ、基本に戻って学ぶことでより多くのことを得られるはずです:クロスエントロピーが何かを学びましょう。小さな分布に対して手計算でそれを算出してみましょう。SVD(特異値分解)を深く理解し、頭の中で視覚化できるレベルまで到達してください。コーディングに特化した RL(強化学習)について過度に考えるのではなく、ポリシー勾配の背後にあるアイデア、それがなぜ有用なのか、そしてなぜ数十年にわたって人気があるのかを学びましょう。
もう一つメタ的なコメントですが、研究プロジェクトの最良の結果が既存ベンチマークでのスコア向上である場合、あなたはまだ深掘りできていません。多くの場合、既存のデータセットは新しい興味深い能力を試すには不十分です。
**AI 研究において、10 年前にはほとんど存在しなかったが、時として成否を分ける重要なスキルとして過小評価されているものの一つは、あなたが取り組んでいる新しい手法を実際に検証できるデータセットを見つける能力である。
具体的な提案については、私にはできません。それはあなた自身に委ねるべきだ。深く掘り下げ、基本に集中し、ベンチマークの追及に走らないこと。水の中に留まり続ければ、アイデアは自然と湧いてくるだろう。
III.**
**初心者の心には多くの可能性があり、熟練者の心には少ない可能性しかない
– 鈴木
最近シリコンバレーで繰り返される言説の一つに、「現代における優れた研究直感にとって、AI 研究の経験がむしろ逆効果になる可能性がある」というものがある。私はこれを間近で観察してきたが、スケーリング以前のエラから多くの研究者は、小規模では機能するが、スケールしてテストされた際には明らかに失敗する方法を設計することに依然として興味を持っている。
OpenAI の本当に印象的な点の一つは、同社を運営している人々の多く(少なくとも技術面においては)が 35 歳未満であることだ。chatGPT の背後にある重要な意思決定者の多くは 30 歳未満である。ここから私たちが得られる教訓の一つは、AI が非常に未成熟な分野であるため(chatGPT はまだ 4 年未満!)、*誰も大きな優位性を持っていない*ということだ。なぜなら、誰も長くこの分野に取り組んできていないからだ。
要するに、アイデアを長期間抱え続けることは、むしろ逆効果になり得る。心を開き続け、エゴが判断を曇らせることを拒否すること。
IV.**
インスピレーションは、あなたが最も期待していない時に訪れる。
歴史から二つの例を挙げる:
- ベンゼン環の構造発見は、有名な夢の中で行われました:その構造はこれまで見たことがありませんでしたが、自分の尾を噛む蛇として想像されました。
- オゼピック(Ozempic)は基本的にトカゲから来ています。それが模倣する GLP-1 ホルモンは、年間数回しか食べない砂漠のトカゲであるギラモンスター(Gila monster)の毒液中で初めて発見されました。どうやら私たちは、これを人間にも適用する方法を見つけたようです。
重要な教訓の一つは、「良い研究を行うためには、研究以外のことも行う必要がある」ということです。私の個人的な「あっと驚く瞬間」の多くは、キーボードから離れて、特に散歩をしている間に起こりました。
ダーウィン(Darwin)、テスラ(Tesla)、ファインマン(Feynman)、アリストテレス(Aristotle)。歴史上の多くの偉大な思想家が、足を伸ばして少し散歩をすることの並外れた利点を主張しました。研究を行っていなくても、おそらくもっと散歩をするべきでしょう。
V.
たとえ着想が訪れても、自然が親切であるとは限りません:完璧な実装があったとしても、私たちのアイデアは根本的な意味で「真実」ではないかもしれません。あるいは、そうだったか、またはそう見えるのかもしれません。結果が得られたとき、私たちはどのように反応すべきでしょうか?
私たちが禅から借りることのできるもう一つの原則は(実験における)平静さです。
実験を分析する際、以下の心構えを採用できます:
上手くいったか? *素晴らしい!*
失敗したか? *これも素晴らしい!*
両方の結果は同じ量の情報を教えてくれます。実際、一連のネガティブな結果から、単一のポジティブな結果よりも多くのことを学ぶことがよくあります。「まだ動かないなんて!すごい!」これは研究にとって健全な姿勢です。
その逆として、良い結果に対して過度に興奮すべきではありません。実際、ほとんどの良い結果はバグによるものです。結果自体が良いのではなく、測定が誤っており、自分自身を納得させていただけなのです。誰もが自分のアイデアが機能することを望みます——それは良いことです!——しかし、経験豊富な研究者全員が共有しているのは、特に真実らしすぎると思われる結果に対して極度の懐疑心を持つことです。残念ながら、それらはほとんど常にそうなのです。
VI.
**花は隣の花と競争しようなどと考えません。ただ咲くだけです。
研究は極めて成果指向です。特に学術界では、他人の論文上の成功を見て感情に流されがちです。
人々が成功する理由は様々です。中には単に幸運な人もいます。特に学術審査プロセスは一貫性も公平性もありません。あなたが尊敬する分野で新しい研究が発表されたら、自分自身に次のように問いかけてみてください:
*私はこの洞察を自ら得るのに十分な深さで活動していたか?*
ここには二つの可能性があります。答えが「はい」なら素晴らしいです。あなたのプロセスは妥当ですが、その発見をしたのはあなたではありませんでした。忙しかったのです。別のことをしていたのですが、可能だったはずです。
もし答えが「いいえ」なら、それをより深く探求するための動機と捉えてください。
VII.
開眼する前には薪を割り水を汲み、開眼した後にも薪を割り水を汲む。
多くの成功したプロジェクトの裏側には、数百時間にわたる地味な作業が潜んでいます。アンドレイ・カルパティは、ImageNet の非自明な部分を 手動でラベル付けしました。SWEBench の作成者たちは、多くの点で時代を先取りしていましたが、評価に有用な小さく扱いやすい GitHub イシューのセットを得るために、GitHub データを慎重にフィルタリングする作業に数百時間を費やしました。
優れた研究者たちのキャリアを見れば、成功を収める前に長い間無名の状態で研究に取り組んでいたことが伺えます。この状況に慣れてください。アイデアがより野心的で先見的であればあるほど、それを徹底的に実装し評価するためには、より多くの作業が必要になるものです。この困難さはバグではなく、機能なのです。
VIII.
私が深く尊敬する素晴らしい研究者であるコリン・ラッフェルは、かつて「多くのアイデアが失敗するのは、そのアイデア自体が悪いからではなく、研究者が発見しなかったコードのバグがあるからだ」と考えていると述べました。
一般的にこれは非常に困難な問題であり、特に大規模言語モデル(LLM)の世界では顕著です。現代の深層学習ソフトウェアスタックは極めて複雑で、バグはどこにでも潜んでいます:トレーニング中、推論中、ハッチング(評価用フレームワーク)、データの中などです。
もし何かがおかしく見えるなら、先に進むことはできません。多くのメトリクスを記録し、それらすべてを理解しようと努めるべきです。一部のメトリクスが予想と異なるように見える場合、なぜそうなのかを突き止めなければなりません。なぜなら、何か問題がある可能性があるからです。以前にツイートした通り、研究者にとって最も重要な資質の一つは健全な懐疑心です。懐疑的になりましょう!
IX.
一つの現実的なポイントは、ディープラーニング(deep learning)を伴う実験の多くが長すぎるということです。モデルのトレーニングには数週間から数ヶ月かかることもあります。最近では、単一のタスクに対するモデルの評価に数日かかることも珍しくありません。
特にエージェントとのコーディングにおいては、多くの実験を並列で立ち上げて、すべてを低速なペースで実行させるという直感に駆られるかもしれません。単純な並列化はある程度役立ちますが、コンテキストスイッチ(context switching)は有害なパターンです。
迅速な実験フィードバックをサポートする人間工学的な研究ワークフローを設計することが何よりも重要です。トレーニングの起動時間を短縮し、結果がすぐに返ってくる小規模な評価(evals)を実行してください。私はケラー・ジョーダンのnanoGPT スピードランを、迅速な反復サイクルからどれほど多くを学べるかを示す例として非常に高く評価しています。
(ただし、最終的には、一部の結果は避けられないほど長い時間を要します。可能であれば、数日間にわたる状態を維持し、今日完了した先週の實驗を理解することは、極めて有用なスキルです。)
X.
コーディングエージェントはあなたの作業を速めますが、2 つの課題を悪化させます:基本的な詳細を理解することが難しくなり、コンテキストスイッチ(文脈の切り替え)が頻繁になります。優れた研究者は、これらの両方の力に積極的に立ち向かうよう努めています。
Codex はトレーニングスクリプトを作成することもできます。さらに、そのスクリプトを実行し、実行中に見守り、結果を解釈してメールで送信することさえ可能です。しかし、エラーが発生してシステムプロンプトを確認もせずに短縮してしまったかもしれません。あるいは、評価が合理的な時間内に完了するようにシーケンス長を短縮したのかもしれません。あるいは、あなたが指定しなかったために間違った設定を実行したのかもしれません。
エンジニアリングの観点から見れば、これらはすべて簡単な修正で済む小さなエラーです。しかし、科学の観点からは深刻です。このような小さな省略は論文の重要な結果に実質的な影響を与える可能性があり、許容されるものではありません。*ドラゴンに注意してください*。コードを自分で書かなくても、結果を理解したいのであれば、それらを生成したシステムを理解する必要があります。
正直にお話ししましょう—これは難しいことです!理解を機械に委ねたくなる誘惑があります。多くのアプリケーションでは、その方が速いかもしれません。しかし、良い科学を行うためには、観察が真実であることを確信するために、システム全体がどのように機能するかを学ぶ必要があります。これを回避する簡単な方法はありません。
XI.
要約:才能は成功した研究者になるために必要なすべてではありません。*気質(temperament)* は非常に過小評価されています。好奇心を持ち続け、粘り強く、慎重かつ細部に注意を払い続ければ、アイデアは必ず現れます。
原文を表示
So you want to do AI research? It’s true that no one *really* teaches you how. Not directly, anyway. But it turns out that the way to get started is pretty simple: some combination of (i) reading and (ii) building stuff. You can’t do one without the other. You become a researcher through the combination.
It turns out the process of becoming a great researcher is not unlike learning to meditate:
I.
The way to get started is pretty simple, through some combination of **(a) reading and learning, and
(b) building stuff.
You can’t only do one. You’ll become a researcher through this combination.
There’s an old Zen saying that goes something like this –
on days we find insight, we sit. on days we do not find insight, we sit.
Doing research is basically like this. Scientific insights can come seemingly at random. Most days they will not come. An important trait for success is just putting in the time & effort. Like any other pursuit (music, sports, sales, etc.), if you want to become world-class, it will take a tremendous amount of discipline.
Noam Shazeer makes a nice hat-tip to the inherent randomness of successful research ideas in the SwiGLU paper:
“We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence.”
A related comment is that *it’s possible to read too many papers*. If you want to solve a problem, the tried-and-true path to success is to attempt a solution, try it, reach a bottleneck, try to solve it, and only reach for literature when you’ve run out of ideas yourself.
II.**
Fine, but what should I work on?
If you’re just starting out, here’s my honest answer: I don’t think the exact topic matters much.
That said, I would warn you against choosing things that have been popular for less than six months. AI moves fast, but the fundamental ideas haven’t changed in forty years. If you want to make a career out of this, I wouldn’t advise you to think too hard about the concepts of 2026: harnesses, agents, context engineering, etc. These will change.
Instead, you’ll learn more by going back to the basics: learn what cross-entropy is. Compute it by hand for a small distribution. Deeply understand SVD, to the point where you can start to visualize it in your head. Don’t think too much about RL for coding specifically, instead learn the ideas behind policy gradients, why they’re useful, and why they’ve been popular for decades.
One more meta-comment: if the best possible outcome of your research project is a higher score on an existing benchmark, you are not going deep enough. Often, existing datasets won’t test new interesting capabilities.
Jason Wei makes a similar point:
An underrated but occasionally make-or-break skill in AI research (that didn’t really exist ten years ago) is the ability to find a dataset that actually exercises a new method you are working on.
As for a concrete suggestion, I can’t make one; that has to come to you. Go deep, focus on the basics, and don’t chase benchmarks. Stay in the water and the ideas will come.
III.
in the beginner’s mind there are many possibilities; in the expert’s mind there are few – Suzuki
Something often-repeated in Silicon Valley these days is how experience in AI research might actually be counterproductive to good research intuition in the modern day. I’ve observed parts of this up-close; many researchers from the pre-scaling-era remain interested in designing methods that work at a small scale but will obviously fail when tested at scale.
One really impressive thing about OpenAI is that most of the people running the company (on the technical side, at least) are under 35. Many of the important decisionmakers behind chatGPT are under 30. One thing we can take away from this is that since AI is such a nascent field (chatGPT is less than four years old!) *no one has a huge advantage*, because no one has been working on it for very long.
In short, holding on to ideas for too long can actually be counterproductive. Stay open-minded and refuse to let ego cloud your judgement.
IV.
Inspiration strikes when you least expect it.
Here are two examples from history:
- The discovery of the structure of the benzene ring famously came in a dream: the structure had never been seen before, but was imagined as a snake biting its own tail.
- Ozempic basically comes from lizards. The GLP-1 hormone it mimics was first found in the venom of the Gila monster, a desert lizard that eats just a few times a year. Somehow we figured out how to make this work for humans too.
One important takeaway is that *to do good research, you must do things other than research*. Most of my personal “aha moments” happened away from the keyboard, especially when going on walks.
Darwin, Tesla, Feynman, Aristotle. Many great thinkers of history proclaimed the outsized benefits of stretching your legs and going for a little stroll. Even if you don’t do research, you should probably go on more walks.
V.
Even when inspiration strikes, nature may not be benevolent: even with a perfect implementation, our idea might just not be *true* in some fundamental sense. Or perhaps it was, or seems to be. When the results come in, how should we react?
Another principle we can borrow from Zen is (experimental) equanimity.
When analyzing an experiment, we can channel the following mentality:
Did it go well? *Great!*
Did it go poorly? *Also great!*
Both outcomes teach you the same amount of information. In fact, it’s often possible to learn more from a string of negative results than a single positive result. “Wow, it’s still not working – incredible!” Now that’s a healthy attitude for research.
The converse of this is that you shouldn’t get that excited about good results. In fact, most good results come because of a bug; it’s not that the results themselves were good, it’s that you measured incorrectly, and convinced yourself. Everyone wants their ideas to work – and this is a good thing! – but one thing all experienced researchers share is extreme skepticism, especially in the face of outcomes that seem too-good-to-be-true. Unfortunately, they almost always are.
VI.
A flower does not think of competing with the flower beside it. It just blooms.
Research is extremely outcome-driven. Especially in academia, it’s easy to look at others’ successes on paper and turn to emotions.
People succeed for different reasons. Some people get lucky. The academic reviewing process, in particular, is neither consistent nor fair. When new research comes out in your area that you admire, ask yourself the following question:
Am I operating at the proper level of depth to have made this insight myself?
Now there are two possible outcomes. If the answer is yes – great. Your process is sound, but you didn’t make this finding; you were busy, you were doing something else, but you could’ve.
And if the answer is no – then take this as motivation to go deeper.
VII.
before enlightenment, chop wood, carry water. after enlightenment, chop wood, carry water.
Many successful projects typically involve hundreds of hours of gruntwork behind the scenes. Andrej Karpathy labeled a nontrivial portion of ImageNet by hand. The creators of SWEBench, who were ahead of their time in many ways, spent hundreds of hours painstakingly filtering GitHub data to get a small, tractable set of GitHub issues useful for evaluation.
If you look at the career of great researchers, they likely spent lots of time working in obscurity before finding success. Get used to this. The more ambitious and forward-thinking an idea, the more work it may be to thoroughly implement and evaluate. This difficulty is a feature, not a bug.
VIII.
Collin Raffel, an amazing researcher whom I deeply respect, once mentioned that he thinks many ideas fail not because they’re bad ideas, but because the code has a bug that the researcher never found.
In general this is a really difficult problem, especially in the world of LLMs. A modern deep learning software stack is extremely complicated, and bugs can lie anywhere: in training, in inference, in harnesses, in data.
if something looks wrong, you cannot move on. You can and should log many metrics and strive to understand all of them. If some of the metrics look different than you expected, you need to figure out why, because something may be wrong. I’ve tweeted before that one of the most important traits in a researcher is healthy paranoia. Be paranoid!
IX.
One practical point is that most experiments that involve deep learning take too long. Training models can take weeks or months. These days, evaluating a model on a single task can take multiple days.
Especially when coding with agents, our instinct may be to spin up many experiments in parallel and let them all run at a slow cadence. Although simple parallelization helps to some degree, context switching is a harmful pattern.
It is of paramount importance that you design ergonomic research workflows that support fast experimental feedback. Shorten cold-start times for training, make small evals that return results quickly. I really admire Keller Jordan’s nanoGPT speedrun as an example of how much we can learn from fast iteration cycles.
(This said, at the end of the day, some results take an unavoidably long time. When you can, maintaining state over multiple days and understanding last week’s experiments when they finish today is an incredibly useful skill.)
X.
Coding agents help you move faster, but they make two problems worse: we have a harder time understanding basic details, and we context switch more often. A good researcher actively works to fight against both forces.
Codex can write a training script for you; it can even execute the script, babysit it while it’s running, interpret the results, and send them to you in an email. But maybe it ran into an error and shortened the system prompt without asking you. Maybe it shortened sequence lengths to get eval running in a reasonable time. Maybe it ran the wrong config because you didn’t specify.
From an engineering perspective, these are all small errors with an easy fix. But from a scientific one, they’re grave: small omissions like this can materially change important results of papers and are therefore not acceptable. *Beware dragons*. Even if you didn’t write the code, if you want to understand your results, you need to understand the system that produced them.
I’ll level with you – this is hard! It’s tempting to outsource understanding to the machine. For many applications, it’s faster. But doing good science requires learning how the entire system works, so that you can be sure observations about it are true. There’s no easy way around this.
XI.
TLDR: Talent isn’t all that it takes to become a successful researcher. *Temperament* is greatly underrated. Stay curious and persistent, remain thoughtful and meticulous, and the ideas will come.
関連記事
金属合金の挙動をより良くモデル化する新手法
MIT の研究チームが、ロケットや半導体などでの材料挙動予測を困難にする複雑な化学配列をシミュレーションする新たなアプローチを開発し、コストと時間を削減する可能性を示した。
初心者のための損失関数解説(モデルが誤りをどう知るか)
KDnuggets は、機械学習モデルが予測結果と正解の差を評価する「損失関数」の仕組みを初心者向けに解説している。
Python の sktime を用いた時系列機械学習モデルの構築方法
KDnuggets が公開した記事で、Python ライブラリ「sktime」を使用した時系列データ分析と機械学習モデルの作成手法について解説している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み