スーパースター AI 研究者の経済学(12 分間の読了)
最先端 AI ラボにおけるスーパー研究者の報酬が平均的なポスドクと比べて百倍を超えるという記事は、AI 業界において質の高い人材の希少性とスケーラビリティが経済的価値を決定する主要因であることを示している。
キーポイント
スーパー研究者の圧倒的報酬格差
最先端 AI ラボのトップ研究者は、平均的な AI ポスドクと比べて 100 倍以上の収入を得ており、この格差は業界全体で定着している。
数量より質が支配する市場
AI 分野では研究者の数を単純に増やすことよりも、卓越した能力を持つ少数の研究者を確保することが成果に直結するため、高報酬を支払う価値がある。
スケーラビリティによる価値増幅
優れた研究者が追加する技術的貢献は数十億人のユーザーに影響を与える可能性があり、これが彼らの高い市場価値の根拠となっている。
影響分析・編集コメントを表示
影響分析
この記事は、AI 業界の人材獲得競争が単なる給与競争ではなく、極めて限られた超優秀なリソースを巡る争いであることを浮き彫りにしています。企業にとっては、優秀な研究者を確保・維持するための戦略的投資の重要性が再認識され、業界全体の採用コストと人材流動性の構造変化を促す要因となるでしょう。
編集コメント
本記事は、AI 業界の成長が技術的ブレイクスルーだけでなく、極めて希少な人的資本への集中投資によって支えられている現実を鋭く指摘しています。企業経営者や採用担当者は、単なる人員増強ではなく、真にスケーラブルな価値を生む人材への投資戦略を見直す必要があります。
Gradient Updates は、AI 進展における大きな問いに対する、より意見が強く出されたものや非公式な見解を共有しています。これらの投稿は著者の見解のみを表すものであり、Epoch AI 全体の見解を必ずしも反映するものではありません。
AI は、最上位の存在が他の追随者よりも*はるかに*有利になる分野の一つです。フロンティア研究所におけるスーパースター研究者たちは、同僚の多くが数百万ドルという微々たる給与を得ているのに対し、その 10 倍以上の報酬を得ています。彼らは、平均的な AI ポスドク研究員と比較して、なんと 100 倍以上の報酬を得る可能性さえあります:
*AI 研究者の報酬に関する概算見積もり。ポスドクの報酬は NSF report のデータを用いて推定されています。任期付き教授については、コンピュータサイエンティストを対象としたこの Taulbee 2024 survey に基づいています。フロンティア研究所の研究者の報酬は、OpenAI の L4-L5 レベルの研究者に関する Levels.fyi と、スーパースターに関する ニュース reports) から推定されています。
では、なぜ報酬の差がこれほど大きいのでしょうか。素朴な説明は、一部の研究者が圧倒的に優れているというものです。おそらくスーパースター研究者たちは、アルゴリズムや実験を設計する際に優れた 研究 の センス を持っており、あるいは「yolo runs」——多くの野心的な変更を一度に実装し、深い直感に頼るトレーニング実行(システム的に個々の変更が機能するかを確認するために逐一テストする必要があるのが大半の人々にとっての通常の方法)——を成し遂げる才能を持っているのかもしれません。この枠組みでは、スーパースターはシリコンバレーが深く崇拝する「10 倍の研究者」であり、報酬の違いを生み出しているのは彼らの質です。1
この説明の問題点は、非常に不十分だということです。実際には、スーパースターが平均的なポスドクよりもわずかに優れているだけであっても、報酬に大きな差が生じることを期待すべきです。ではなぜでしょうか。
短い答えはこうです:能力の小さな違いを報酬の大きな違いに変える、よく知られた経済的ダイナミクスが存在します。以下に 2 つの具体例を示します:
- 100 メートル短距離走では、金メダリストは銀メダリストに比べて遥かに多くの報酬と注目を集めます。実際にはレースの大半で互角だったにもかかわらずです。ロンドン2012年オリンピックを思い出してください。ウサイン・ボルトが金メダルを獲得しました。銀メダリストの名前を知る人はほとんどいません。わずか0.12秒差で入線したのに、あなたはご存知ですか?
- 一部のミュージシャンは他よりも遥かに多く稼いでいます。テイラー・スウィフトを例に挙げましょう:昨年、彼女はSpotifyから6,000万〜7,000万ドルを稼ぎました。私と比較して彼女が「10倍の歌手」であることは疑いようがありません。しかし、エド・シーラン、ブラックピンク、チャーリーXCX、ラナ・デルレイといった他の超有名人気歌手たちと比べて彼女がそれほど優れているかどうかは非常に議論の余地があります。彼らはむしろ500万〜2,500万ドル程度を稼いでいます。
- これら二つの事例に共通するのは、能力におけるわずかな差が、何らかの形で報酬の大きな差につながっているという点です。経済学者のシャーウィン・ローゼンはこれを「スーパースター効果」と呼び、これは以下の2つの条件が満たされたときに発動します。
- ある一人の働きかけが大きな市場に届くことがあります。通常これは多くの人々がいる市場を意味しますが、少数の高給取りの人々や企業も含まれます。例えば、ウサイン・ボルトが100メートル走で優勝する姿を潜在的には数十億人が視聴しました。あなたが到達できる人々が多ければ多いほど、スーパースター効果は顕著になります。経済全体を通じて、俳優やミュージシャンのように広範な reach(到達範囲)を持つ職業は、配管工、看護師、トラック運転手など一度に一人の顧客しか相手にしない職業よりも、はるかに大きな賃金格差を示しています:2
*Data from the Bureau of Labor Statistics across different occupations, showing the ratio of 90th percentile earnings to the median. If we had data on the extremes (e.g. 99th percentile), I'd guess the difference in wage dispersion would be even larger.*
- 労働の質に対して、量で簡単に補うことはできません。複数の人が一人のスプリンターを置き換えることはできず、それはレースのルールに反するためです。また、テイラー・スウィフトがエド・シーランよりも好きである場合、テイラー・スウィフトのコンサートを逃したことを、より多くのエド・シーランのコンサートに行くことで補うのは困難です。
最初の条件は、わずかな質の優位性が莫大な追加価値を捉えることを意味し、最優秀層に多額の報酬を支払う価値があることを示します。つまり、量で質を補えない限り(二番目の条件)の話です。もし量で質を補えたなら、より多くの人員を低賃金で雇えばよく、トップの才能に多額を支払って雇う必要はなかったでしょう。3
AI 研究者は両方の条件を満たしています。巨大な市場が存在します:ChatGPT は ほぼ 10 億人のユーザーを抱えており、同じ数少ない基盤モデルによって提供されているため、単一の研究者の貢献がすべてのユーザーに同時にスケールする可能性があります。
そして AI において、研究者の数量は質を容易には補えません:最先端ラボは計算資源(compute)に制約されており、新しい ソフトウェア革新 をテストするために実行できる実験の数に限界があります。深い直感(どの実験を実行する価値があるかという点についての)が必要とされる場合、2 人の「単に非常に優れた」研究者が 1 人のノア・ブラウンを複製することはできません。さらに、ラボが時間不足の場合の研究者間の調整の難しさについても言及しておく必要があります。
これが、2 倍の能力を持つ研究者でも中位数よりもはるかに多くを得られる理由です。10 億人のユーザーにスケールした場合、わずかな質的な優位性が莫大な差別的価値を生み出します。そして、その 2 倍の能力を持つ研究者が複数の 1 倍の研究者にはできない何かを追加できるのであれば、この価値を確保するために多額を支払う価値があります。
フロンティア AI ラボはしばしば「競争」にあると表現されます。彼らがまさに何に向かって競っているのかは定かではありませんが、それは往々にして膨大な人間の労働を自動化することであり、もし勝てば年間数兆ドル規模の賞品となる可能性があります — もしあなたが勝つなら。これが AI ラボに「すべてを賭けるか、何も賭けないか」というアプローチを採用させるインセンティブとなり、わずかな可能性でも向上させるものは多大な価値を持つことになります。そのためメタは、OpenAI のトップ研究者を引き抜くために( alleged として)1 億ドル規模の報酬パッケージを提供しています。
原理的には、これが社会的に価値のある範囲を大きく超えてしまうことも可能です(その定義はいかにあれ)。これは高頻度取引業者がわずかにでも速い注文執行のために巨額の資金を費やし、ほとんど社会的利益をもたらさないことと似ています。
他の要因も働いています。トップの研究者たちは、競合他社が行っていない高価な実験の結果といった貴重なノウハウを頭の中に抱えています。これらを再現するには莫大な費用がかかります。
また、多くの研究者はチームを率いており、純粋な技術的研究能力以上の価値を提供しています。ノア・ブラウン氏は最近、自らを「OpenAI のマネージャー」と表現しました。これらの要素も、スーパースタープレミアムとは別に賃金格差に寄与している可能性があります。
さらに、スーパースター効果を定量的に分析するのは困難です。研究者の質を数値化する方法として確立されたものは存在しません。METR による RE-bench などの勇敢な試みもありますが、これらは「GPT-2 のファインチューニング」のような孤立した小規模タスクに過ぎず、数百万行のコードを持つプロジェクトや、曖昧な目的指標、そして異なる人々間の多数の調整を要するものとは異なります。
しかし、これらの複雑さにもかかわらず、スーパースター効果は私たちにいくつかの有用な示唆を与えていると思います。まず、メタがPersonal Superintelligence の追求において、研究者を過剰な給与で引き抜こうとする試みについて、私は数々の ニュース記事 や 報道 を目にしています。しかし、これらの記事は通常、この重要なスーパースター効果を見過ごしており(ただし、競合関係のダイナミクスについては言及していることが多いですが)。
もう一つの重要な示唆は、知能爆発 についてどのように考えるかという点です。もし 100 倍の給与格差が 100 倍の研究者の質の格差によって引き起こされているのであれば、トップクラスの研究者をシミュレートすることは、平均的な研究者をシミュレートするよりもはるかに速く進めることができるでしょう 7。しかし、この給与格差の多くがスーパースター効果によるものであれば、研究者の質における格差は実際にはもっと小さい可能性があります。
最後に、この効果について知っておくことは、近い将来に何が起きるのかについてのいくつかの手がかりを与えてくれます。私は、スーパースター効果が今後さらに重要になっていくと考えています。それは、より多くの人々が AI を利用し、各人が AI システムをより大規模に活用するようになるからです。そして、研究が アーミー・オブ・クローズ(Claude の軍団)の管理へとシフトしていくにつれ、深い研究直感と研究マネージャーとしての長年の経験を持つ人々は、生産性だけでなく、収入規模においてもさらに大きな恩恵を受けることになるでしょう。
つまり、スーパースターの報酬はさらに大きな問題になるかもしれません。年間の報酬 1 億ドルですら、文字通り不十分となる可能性があります。
*アンドレイ・ポトロゲア、フィル・トラムメル、ジョシュ・ユー、デビッド・オウエン、JS デナイン、チェリル・ウー、ステファニア・ゲッラ、ロバート・サンダー、リネット・バイ、そして Trajectory Labs の多くの人々に、フィードバックと支援をいただき感謝いたします。また、このエッセイを書くきっかけを与えてくれたルイス・ガリカーノにも感謝します。
経済学者が「非競合性」と呼ぶことが、ここでの重要な違いです。トム・ハンクス主演の映画を観ても、それがあなたも同時に観ることを妨げることはありませんし、これは任意の数の消費者にスケール可能です。しかし、すべての財やサービスが映画のようなわけではありません。配管工が私のシンクを修理している場合、その瞬間にあなたのシンクも修理することはできません。
厳密に言えば、人間の研究者の質の分布についても条件が必要だと思います。もしスーパースター研究者が多数いる場合、もう一人スーパースターを加えても付加価値はあまり増えず、そのため彼らへの報酬もそれほど高くない可能性があります。例えば、トム・カニンガムとマニッシュ・シェッティによる(非常に興味深い)AI R&D のリンゴ収穫モデルでは、同じ質の研究者の限界価値は指数関数的に低下します。これは以下の 2 つの仮定から導かれます:(1) 研究者たちはアイデア空間を独立してサンプリングする、および (2) 追加される各単位分の研究者努力が、発見可能なアイデアの残存量に比例した率で新しいアイデアを見つける。もちろんこれらの仮定は議論の余地があります。例えば、研究者たちは取り組む対象についてある程度協調できる可能性があり、また多様性も一定量持っています。しかしそれでも、これは興味深い予測であると考えます。
例として、先端的なラボが同時に大規模実験を 10 件行える能力を持っていると想像してください。スーパー研究者はこれらの 10 件のうち 3 件から洞察を得ることができますが、「単に非常に優秀な」研究者であれば 10 件中 2 件からしか洞察を得られません。「単に非常に優秀な」研究者を増やしても、結局同じ 2 件の洞察に行き着くため大きな助けにはなりません。一方、スーパー研究者がいることで、彼らがわずかに優れた研究センスを持っているおかげで、より高い水準を達成できるのです。重要なのは、この研究センスが並列化が難しい品質の次元であり、この微小な優位性が、100 メートル走において 0.1 秒の絶対的な差が非常に大きな意味を持つのと全く同じように、多大な影響を及ぼしうる点です。
先端的 AI ラボは、研究者の質の重要性について適切に評価できていない可能性もあると主張することもできます。
私はまた、研究者の質を純粋な一次元的なものとして記述してきましたが、実際には異なる種類の質が存在する可能性があります。ある人はクラスター内の多数の GPU を調整するのが得意であり、ある人は研究エンジニアリングに優れ、別の人は新しいアルゴリズムの考案が得意です。最悪の場合でも、「研究者の質」に関心のある特定の次元ごとに、スーパーダイナミクスを適用すればよいと考えられます。
興味深いことに、これはむしろ大きな給与格差の観察をさらに支持する可能性すらあると主張できるかもしれません。優れた研究者になるために多くの異なるスキルが重要であり、それらが乗算的に結合する場合、最終的には超巨星効果(superstar effect)が予測するように、重い裾を持つ(対数正規分布)給与分布が生じます。
これは認識しておくべき重要な点ですが、私はこれが知能の爆発を信じる人々にとって非常に決定的な要素であるとは疑っています。
原文を表示
*Gradient Updates shares more opinionated or informal takes on big questions in AI progress. These posts solely represent the views of the authors, and do not necessarily reflect the views of Epoch AI as a whole.*
AI is one of those fields where the best winds up *much* better off than the rest. Superstar researchers at frontier labs earn over ten times more than most of their colleagues, who earn measly million-dollar salaries. They might even earn over a hundred times more than your average AI postdoc:
So why are the differences in pay so large? The naive explanation is that some researchers are just vastly superior. Perhaps the superstar researchers have excellent research taste in designing algorithms and experiments. Or they have a knack for pulling off “yolo runs” — training runs that implement many ambitious changes all at once, relying on deep intuition, whereas most people would need to systematically test the individual changes to make sure they work. Under this framing, superstars are the “10× researchers” that Silicon Valley so deeply reveres, and it’s their quality that makes the difference in pay.1
The problem with this explanation is that it’s very incomplete. In reality, we should expect to see big differences in pay *even if superstars were only a tiny bit better than your average postdoc*. But why?
The short answer is this: there’s a well-known economic dynamic which turns small differences in ability into big differences in pay. Here are two illustrative examples:
- In the 100-meter sprint, the gold-medallist gets much more reward and attention than the silver-medallist, despite them being quite literally neck-and-neck for most of the race. Consider the London 2012 Olympics, where Usain Bolt won gold. Most people have no idea who won silver, despite finishing just 0.12 seconds behind — do you?
- Some musicians earn much more than others. Consider Taylor Swift: last year, she earned $60-70 million from Spotify. I don’t doubt that she’s a “10× singer” compared to me. But it’s very debatable whether she’s that much better than other extremely popular singers like Ed Sheeran, Blackpink, Charli XCX, and Lana Del Rey, who instead earned closer to $5-25 million.
Across these two cases, small differences in ability led to big differences in pay some way or another. Economist Sherwin Rosen called this the “superstar effect,” and it kicks in when two conditions hold.
- One person’s work can reach a big market. Usually this means a market with many people, but a few high-paying people or firms work too. For instance, potentially billions of people watched Usain Bolt win the 100-meter sprint. The more people you can reach, the more pronounced the superstar effects. Across the economy, jobs with broad reach — such as actors, musicians — show far bigger wage dispersion than jobs serving one client at a time, such as plumbers, nurses, and truck drivers:2
- Quantity doesn’t easily make up for quality of labor. You can’t have multiple people take the place of a single sprinter, since that would break the rules of the race. And if you like Taylor Swift more than Ed Sheeran, it’s hard to make up for missing a Taylor Swift concert by going to more Ed Sheeran ones.
The first condition means a tiny quality edge captures enormous extra value, making it worth paying a lot for the best — that is, as long as you can’t make up for quality with quantity (the second condition). If you could, you’d just hire a lot more people with lower pay — you wouldn’t need to pay a ton just to hire the cream of the crop.3
AI researchers tick both boxes. There’s a huge market: ChatGPT has almost a billion users, served by the same handful of underlying models, so a single researcher’s contribution could scale to every user simultaneously.
And in AI, researcher quantity doesn’t easily make up for quality: frontier labs are compute-constrained, so they can only run so many experiments to test new software innovations. Two “merely very good” researchers can’t replicate one Noam Brown if what’s needed is deep intuition about which experiments are worth running in the first place. Not to mention the difficulties coordinating researchers if labs are short on time.4
This is how even a 2× researcher could earn far more than the median. Scaled to a billion users, even a small quality edge generates enormous differential value. And if the 2× researcher can add something that multiple 1× researchers can’t, then it’s worth paying a lot to capture this.
Frontier AI labs are often described as being in a “race”. I’m not sure what exactly they’re racing toward, but it often seems to involve automating huge swathes of human labor, a prize potentially worth tens of trillions of dollars a year — if you win. This incentivizes AI labs to adopt an “all in or nothing” approach, and anything that improves their chances even a little might be worth a lot. Hence Meta’s (alleged) $100 million dollar compensation packages to poach top researchers from OpenAI.
In principle it’s even possible this pushes things well beyond what is socially valuable (however you define that) — it’s like how high frequency traders spend huge sums trying to execute a trade a tiny bit faster, to almost no social benefit.
Other forces are at work too. Top researchers carry valuable trade secrets in their heads — the results of expensive experiments competitors haven’t run, and which would cost a fortune to replicate. Many also manage teams, contributing more value than just their raw technical research ability; Noam Brown recently described himself as a “manager at OpenAI.”5 Each of these may contribute to the wage gap, separate from the superstar premium.
Additionally, it’s hard to quantitatively analyze the superstar effect.6 I don’t know of a good way to quantify “researcher quality”. There are some valiant efforts like METR’s RE-bench, but these contain small isolated tasks (think “finetuning GPT-2”) rather than projects with millions of lines of code, fuzzy objective metrics, and lots of coordination between different people.
But despite these complications, I think the superstar effect tells us several useful things. For one, I’ve seen a couple of news articles about Meta’s attempts to poach researchers with exorbitant salaries, in their quest for Personal Superintelligence. But these articles usually miss out on this important superstar effect (though they often do touch on race dynamics).
Another important implication is for how we think about the intelligence explosion. If a 100× pay gap is driven by a 100× researcher quality gap, then simulating a top researcher might speed things up *much* more than simulating an average researcher.7 But this isn’t the case if much of the pay gap is driven by the superstar dynamic — the gap in researcher quality might actually be much smaller.
Finally, knowing about this effect gives us some hints at what’s to come in the near future. I think that the superstar effect will only become more important moving forward. That’s because lots more people will use AI, and each person will use AI systems much more heavily. And as research increasingly shifts toward managing an army of Claudes, those with deep research intuitions and years of experience as research managers will probably see ever-growing boosts to their productivity, as well as the sizes of their wallets.
So if anything, superstar earnings might become an even bigger deal — $100 million annual compensation quite literally might not be enough.
*I’d like to thank Andrei Potlogea, Phil Trammell, Josh You, David Owen, JS Denain, Cheryl Wu, Stefania Guerra, Robert Sandler, Lynette Bye, and many people at Trajectory Labs for their feedback and support. Thanks also to Luis Garicano for inspiring me to write this essay in the first place.*
The key difference is what economists call “nonrivalry” — if I watch a Tom Hanks movie, it doesn’t stop you from doing so at the same time, and this can scale to any number of consumers. But not all goods and services are like movies — if a plumber is fixing my sink, they can’t fix your sink at the same time.
Strictly speaking, I think there should also be a condition about the distribution of human researcher quality — if you have many superstar researchers, having one more superstar might not add much value, so they might not get paid that much. For example, in Tom Cunningham and Manish Shetty’s (super interesting) apple-picking model of AI R&D, the marginal value of researchers at the same quality drops exponentially. This follows from two assumptions: (1) that researchers sample from the space of ideas independently, and (2) each additional unit of researcher effort finds new ideas at a rate proportional to how many (discoverable) ideas remain. These assumptions are of course debatable — for example, researchers might be able to coordinate to some degree on the kinds of things that they work on, and they also have some amount of diversity. But I think this is an interesting prediction nevertheless.
For illustration, imagine that a frontier lab can do ten large-scale experiments at any one time. A superstar researcher is able to get insights from three of these ten experiments, whereas a “merely very good” researcher can get insights from two out of ten. Having more “merely very good” researchers doesn’t help a great deal because they end up with the same two out of ten insights, but having a superstar researcher helps you reach a higher bar because they have slightly better research taste. The important thing is that this research taste is a dimension of quality that’s hard to parallelize, and this tiny edge can matter a lot, in the same way that an absolute quality difference of 0.1s matters a ton in the 100-meter sprint.
You could also argue that frontier AI labs might be poorly calibrated about the importance of researcher quality.
I’ve also been describing researcher quality as some purely one-dimensional thing, but there may be different kinds of quality — some people are good at coordinating many GPUs in a cluster, some people are good at research engineering, some are good at coming up with new algorithms. In the worst case, I think you could just apply the superstar dynamic along each particular dimension of “researcher quality” that you care about.
Interestingly, you could potentially also argue that this even supports the observation of big pay gaps even more. If many different skills are important for being a good researcher, and they combine multiplicatively, then you end up with a heavy-tailed (lognormal) pay distribution, just as the superstar effect predicts.
This is an important thing to be aware of, but I also doubt it’s very load-bearing for people who believe in the intelligence explosion.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み