専門化が不可避である理由
Hugging Face は、汎用モデルの限界を克服し実用性を高めるために、AI エコシステムが特定領域に特化した専門化モデルへ移行することが不可避であると論じている。
キーポイント
汎用モデルから専門化への転換
大規模な汎用モデルの限界を認識し、特定のドメインやタスクに特化したモデルへ移行することが業界の必然的な潮流であると指摘している。
性能と実用性の確保
専門化により、コスト効率の向上、推論速度の改善、そして特定領域における精度の大幅な向上が期待できると分析している。
Hugging Face の戦略的役割
この移行を加速させるプラットフォームとして、専門化モデルの開発・共有・デプロイを支えるインフラ整備の重要性を強調している。
影響分析・編集コメントを表示
影響分析
この分析は、AI 業界の将来の方向性を示す重要な指標となり、企業や開発者がリソース配分を「汎用性」から「特化型ソリューション」へとシフトさせるべきであるという示唆を与える。特に、実社会での AI 導入においては、専門化されたモデルがより高い ROI を生むという認識が広まることで、市場の構造変化を加速させる可能性がある。
編集コメント
汎用モデルのブームが続く中、実用性を追求する上で「特化」が次なる鍵となるという洞察は、開発戦略を見直す上で極めて重要です。
最適化理論、進化生物学、競争市場、そして機械学習がすべて予測するもの — そしてなぜ答えは同じなのか 標的への適合によって勝利するアルゴリズム 生物と市場がすでに知っていること 機械学習が再び発見していること 専門化の不可避性 スケーリングが変わらないこと 一次情報源 参考文献
最適化理論、進化生物学、競争市場、そして機械学習がすべて予測するもの — そしてなぜ答えは同じなのか
Dharma AI をフォローしている方ならご存知の通り、私たちは専門化を効果的な AI システムを定義づける原則の一つと捉えており、これがコストやパフォーマンスから信頼性や主権に至るまで、あらゆる側面を形作っていると考えています。この主張をこれほど厳密に論じた論文は、Goldfeder, Wyder, LeCun, および Shwartz-Ziv による 2026 年の研究以外にはほとんどありません。
本記事では、『AI は超人的適応知能を通じて専門化を受け入れなければならない』(Goldfeder, Wyder, LeCun, & Shwartz-Ziv, 2026) という論文から着想を得たアイデアを探求し、解釈します。この論文が示す収束性 — 最適化理論、生物学、組織経済学、そして機械学習にまたがる議論 — は、続く議論に対する証拠の構造と知的基盤の両方を提供しています。ここで提示される枠組み、構成、および編集による統合は Dharma のものです。
従来の期待は妥当である:AI システムがより能力を高めるにつれ、それらはより汎用的になるべきだという考えだ。高い能力と広い適用範囲は自然な相棒のように思える——より多くのリソース、より優れた手法、そして拡張されたトレーニングによって、より多くのタスクに自信を持って取り組むシステムが生み出されるはずだからだ。
実際に現れるパターンは異なる。特定のドメインにおいて最も顕著な成果を達成するシステムは、往々にしてそのドメインに極めて狭く焦点を絞ったものである。タンパク質構造予測における画期的な進展は、単一の科学的タスクのために設計されたシステムから生まれたものだ。AI の歴史的マイルストーンを詳しく検討すると、それは汎用性の拡大ではなく、強烈なドメイン特化の反映であることがわかる。
このパターンは繰り返される。ドメインを超え、数十年にわたり、ほとんど共通点のないアーキテクチャの選択を超えても、同じパターンが現れる。これほど一貫したパターンは、共通の原因を示唆している——その原因は AI 研究内部から生じたものではない。
アルゴリズムはターゲットへの適合によって勝利する
1997 年、ウォルパートとマクリーは、AI アーキテクチャに関する議論ではほとんど取り上げられない事実を証明しました。すなわち、あらゆる可能な問題において他のすべてのアルゴリズムを上回る単一の汎用最適化アルゴリズムは存在しないという事実です(Wolpert & Macready, 1997)。この証明は哲学的なものではなく数学的なものです。学習者が直面しうるあらゆる conceivable な問題を平均して見れば、どのアルゴリズムも同様に良く、そして同様に悪く機能します。ある問題分布において優位性を得るアルゴリズムは、必然的に他の分布において譲歩せざるを得ません。パフォーマンスが倍増するのではなく、再分配されるだけです。
このことの直接的な実践的含意は、「アルゴリズムは対象となる問題に適合していることで勝つ」というものです(Goldfeder et al., 2026)。この定理は一般性の不可能性を主張しているのではありません。それは、一般性がパフォーマンス上の優位性をもたらさないと言っているのです。他を凌駕するための一貫した構造的な道筋は集中にあります:広範さを適合性にトレードオフすることです。
これは、有限のリソースが関与する際にさらに鮮明になります。あらゆる実システムは制約の下で動作します——有限の計算リソース、有限のデータ量、有限の開発期間です。有限のエネルギーを前提とする場合、利用可能なリソースを有限数のタスクの学習に集中させるアプローチは、同じリソースを無制限な範囲に分散させるアプローチよりも優れたパフォーマンスを発揮します。その算術は容赦ありません:タスクセットが無限に拡大するにつれて、各タスクに割り当てられるリソースはゼロに近づきます。有限のリソースの下では、普遍的なカバレッジと有意義なパフォーマンスは、直接的に対立関係にあります。
定理が示唆する結論は、一般性が悪いということではありません。それはそれよりも狭く、より実用的なものです。論文が述べているように、「普遍的な一般性は理論上の概念ですが、実際には神話に過ぎません」(Goldfeder et al., 2026)。現実の制約と接触しても生き残るのは、何でもやろうとするシステムではなく、対象に適合するシステムです。
この数学的枠組みはこれを好意ではなく予測として確立しています。この予測が最適化理論を超えた現実世界でも成立するか否かは、別の問題です。
生物学と市場がすでに知っていること
最適化理論がこの概念に名前を与える前に、他の二つの領域も同じ予測に至っていました。
論文は生物学的事例について以下のように記述しています。あるニッチにおける性能向上のすべては、他の場所で代償を伴うものです。一般種は多くの環境に適した形質を持ちますが、いずれの環境にも最適化されておらず、能力が広がりすぎて特定の条件で支配力を発揮できません。トレードオフなしに性能向上はありません。ある機能に投資された資源は、別の機能には利用できません。自然選択は、すべての可能な環境での均一的なカバレッジのために最適化された設計よりも、局所的な条件に適合した設計を支持します。繁殖まで生き残る生物は、最も一般的に能力が高いものではなく、最も特定の条件に適合しているものです。進化的時間スケールで蓄積された結果は、一般種が支配することではなく、専門種がニッチを埋めることです。論文は次のように述べています。「 specialization は生物学の偶然ではありません。それは限られた資源、競合する目的、そして進化的に関連する課題のごく一部に対する性能を報奨する環境という要因による予測可能な帰結です」(Goldfeder et al., 2026)。
競争市場もまた、異なる手段を通じて同じダイナミクスに従います。パフォーマンスの閾値を満たすことができない組織や戦略は、絶滅という形ではなく、撤退、資金供給の停止、より適切にマッチした代替品による置き換えによって排除されます。競争は選択メカニズムとして機能し、効果的な戦略を増幅し、無効なものを排除します。このメカニズムには生物学的な選択と共通する点は一切なく、遺伝も変異も進化的な時間尺度も存在しません。選択の単位は個体ではなく、組織、製品、戦略です。しかし構造的圧力は同じです:有限の資源、パフォーマンス要件、そして重要な場所で卓越するために広がりすぎたエンティティの体系的排除。パフォーマンス基準が明確で一貫している場合、集中したキャパシティは分散したキャパシティよりも競争に勝ります。
進化と市場は全く異なるメカニズムを通じて機能します:異なる時間尺度、異なる選択単位、異なる遺伝メカニズムです。しかし両方とも資源圧力の下で同じ結果を生み出します:広がりよりも適合性。この定理はそのことを予測しています。生物学と市場は独立してこれに到達します。第三の領域が全く異なる手段を通じて同じ知見に至ったとき、そのパターンはもはや定理のように見えなくなり、制約されたシステムがどのように振る舞うかについてのより一般的な事象のように思え始めます。
機械学習は専門化を再び発見し続けている
同じパターンが機械学習の内部でも現れています。これは最適化理論から導き出されたものではなく、システムを構築し、何が改善をもたらすかを見守ることで蓄積された経験を通じて到達した結論です。
最も明確な形はネガティブ転移(negative transfer)です。これは複数のタスクで訓練されたシステムが、それらのタスクが協力するのではなく競合することによって生じる、測定可能な性能の低下を指します(Ruder, 2017)。タスク間に共通の構造がある場合、一緒に訓練することで効果が高まります。しかし、タスクが表現能力を巡って競い合ったり、訓練中に矛盾する勾配を課したりする場合、個々のタスクにおけるパフォーマンスは、専用システムが達成できる水準を下回ります。広範さを追求することによる利益は、深みを犠牲にするコストへと転じます。これは、互いに引き合うタスクに対して有限の容量を分割することがもたらす、文書化された帰結です。そのような競合に直面しない専門家は、このコストを支払う必要はありません。
最先端モデルのアーキテクチャは、異なる形式のエビデンスを提供します。エキスパート混合(Mixture-of-Experts)システムは、すべてのパラメータにわたる均一な汎用性を通じてその広範さを達成するのではなく、各入力をネットワークの専門化されたサブセットへルーティングし、異なるタスクに対して異なるエキスパートを活性化させることで実現しています。論文の著者たちはこれを構造的譲歩として解釈しています。つまり、汎用的に設計されたシステムが、内部で専門性を回復することで結果を達成しているというのです。これは論じられた解釈であり、証明された定理ではありません。これらのアーキテクチャは計算効率のために設計されたものであり、それが汎用性の限界について何を暗示するかは、明示的な意図ではなく、合理的な推論によるものです。しかし、これは注目すべき点です。最も能力の高い汎用システムがその性能を達成するのは、専門化されたシステムが設計上行うことを内部で行うことによってなのです。
最も明確な歴史的例は、同じ論理に従っています。AlphaFold は、その特定のタスクに特化したアーキテクチャとトレーニングの選択を適用することで、タンパク質構造予測において段階的な飛躍を達成しました(Jumper ら,2021)。その成果は、より広範なカバー範囲ではなく、焦点を絞ったことによるものです。この論文では、AlphaFold はすべての専門化されたシステムが同等の成果を上げるという証拠としてではなく、メカニズムを非常に明確に示す例外的な事例として扱われています。このメカニズムは繰り返し現れており、AI のマイルストーンに関する歴史において、その結果が一般知能のデモンストレーションのように見える場合でさえも、広範な能力よりも集中的なドメイン指向が頻繁に反映されていると論文は指摘しています。
三つの異なる場所。三つの異なるメカニズム。しかし、同じ結論です。
スケーリングが変わらないもの
AI 研究で最も引用される観察の一つに触れなければ、この図像は不十分なものとなります。サットンによる「苦い教訓」は、ドメイン知識に依存する手法は、計算をスケーリングする手法に一貫して劣ると主張しています(Sutton, 2019)。表面的には、これが専門化の必要性に対する議論を複雑にするように見えます:もしスケールと一般性が勝利するなら、おそらく専門化は計算が安価になるにつれて緩和されるリソース制約下でのみ有用なヒューリスティックに過ぎないのかもしれません。
この異議は、2 つの異なる概念を混同していることに根拠があります。ドメイン知識とは、システムに特定の分野に関する洞察を与えるために設計された手動でコーディングされた特徴量、エンジニアリングされた事前確率、およびルールを指します。『苦い教訓』はこの点を対象としており、そう扱うことは正しいです。明示的なドメイン知識を符号化するシステムは、スケールが増加するにつれて一貫して下回る結果となっています。
ドメイン特化(ドメイン専門化)は異なります:これは、リソース、アーキテクチャ、トレーニングを広く分散させるのではなく、限定されたタスクのセットに 向ける ことに関する決定です。これはドメインに関する知識の符号化ではありません。それはスコープに関する決定です。
論文はこれを明確に区別しています:
「ドメイン知識の有用性が低下することは、ドメイン特化(ドメイン専門化)の有用性とは異なります。スケールが進むにつれて、タンパク質折りたたみを行うシステムを構築するために必要なタンパク質に関する知識は少なくて済みますが、そのようなシステムは依然としてタンパク質に特化して焦点を当てることで恩恵を受けます。」(Goldfeder et al., 2026)
スケーリングは、システムがデータから何を学習できるかを変えます。しかし、有限のタセットにリソースを集中させることが、無制限の範囲に分散させることよりも優位であるかどうかについては変化させません。『苦い教訓』と専門化論は異なる次元で機能します — 前者は知識をどのように獲得すべきかを記述し、後者はシステムが何を目指すべきかを記述します。これらは同時に真であり得ます。スケーリングはシステムが学習するメカニズムを変えますが、広さよりも適合の方が価値があるという制約を解消するものではありません。
四つの分析伝統にわたって、異なる経路を通じて同じパターンが浮かび上がりました。これは説明を要する偶然ではありません。それは証拠です。
有限のリソースが選択圧と出会うとき — 最適化問題において、生態系において、市場において、あるいはトレーニングランにおいて — 適合は常に広さよりも優位になります。具体的なメカニズムは異なります。時間スケールも異なります。選択の単位も異なります。しかし、構造的なダイナミクスは同じであり、同じ結果を生み出します。
この定理が生物学でこのパターンを引き起こすわけではありません。生物学が市場で引き起こすわけでもありません。機械学習においても同様です。これらすべてが直面しているのは、同じ根本的な制約です:希少性におけるパフォーマンスには集中が必要です。定理が数学的に確立したことを、進化の歴史は経験的に確認し、競争的な市場は制度的に示し、機械学習はアーキテクチャ的に再発見します。
専門化は好ましい選択ではなく、限られた資源と実行要件が出会うときに生じる必然の結果です。
組織内におけるドメインの焦点が AI パフォーマンスにどう影響するかを評価している場合、あるいは組織内で専門化戦略の必要性を説くケースを作っている場合は、その文脈についてぜひお聞かせください。Dharma AI までお問い合わせください。
一次情報源
- Goldfeder, S., Wyder, M., LeCun, Y., & Shwartz-Ziv, R. (2026). AI must embrace specialization via superhuman adaptable intelligence. arXiv:2602.23643.
参考文献
- Wolpert, D.H. & Macready, W.G. (1997). No free lunch theorems for optimization. IEEE Transactions on Evolutionary Computation, 1(1), 67–82.
- Forister, M.L., Novotny, V., Panorska, A.K., Baje, L., Basset, Y., Butterill, P.T., & Dyer, L.A. (2012). Global distribution of diet breadth in insect herbivores. Proceedings of the National Academy of Sciences, 109(2), 418–423.
- Futuyma, D.J. & Moreno, G. (1988). The evolution of ecological specialization. Annual Review of Ecology and Systematics, 19, 207–233.
- Hannan, M.T. & Freeman, J. (1977). The population ecology of organizations. American Journal of Sociology, 82(5), 929–964.
- Loasby, B.J. (1983). Knowledge, learning and the firm. As cited in Goldfeder et al. (2026).
- Ruder, S. (2017). An overview of multi-task learning in deep neural networks. arXiv:1706.05098.
- Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. Journal of Machine Learning Research, 23(120), 1–39.
- Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., & Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583–589.
- Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., & Hassabis, D. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419), 1140–1144.
- Sutton, R.S. (2019). The bitter lesson. Retrieved from http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Further Reading
- Specialization Beats Scale: A Strategic Variable Most AI Procurement Decisions Overlook — The empirical and strategic complement to this article. Where the No Free Lunch theorem establishes why specialization is structurally predicted, this piece examines the evidence that it outperforms in practice — and why it remains underweighted in most AI procurement decisions.
- Text Degeneration: A Production Failure Mode That Most Benchmarks Do Not Track — A documented failure mode that emerges when language models operate outside the boundaries of their effective domain.
- チャットボットを超えた直接選好最適化 — 会話型 AI を超えた専門分野へと選好最適化技術が拡張する方法 — これは本記事で構造的に予測されているドメイン特化戦略の具体的な実装例である。
- Hugging Face の Dharma AI で、インタラクティブなデモを試したり、オープンソースモデルをダウンロードしたり、専門 AI システムが実際の企業アプリケーションにおいて汎用モデルを上回る方法を探ってみてください。
原文を表示
What optimization theory, evolutionary biology, competitive markets, and machine learning all predict — and why the answer is the same An Algorithm Wins by Fitting Its Target What Biology and Markets Already Know Machine Learning Keeps Rediscovering Specialization What Scaling Doesn't Change Primary Source Sources Further Reading
What optimization theory, evolutionary biology, competitive markets, and machine learning all predict — and why the answer is the same
Those who follow Dharma AI already know that we view specialization as one of the defining principles of effective AI systems, shaping everything from cost and performance to reliability and sovereignty. Few papers have articulated that case as rigorously as the 2026 work by Goldfeder, Wyder, LeCun, and Shwartz-Ziv.
In this article, we explore and interpret ideas from *AI Must Embrace Specialization via Superhuman Adaptable Intelligence* (Goldfeder, Wyder, LeCun, & Shwartz-Ziv, 2026). The paper's convergence case — spanning optimization theory, biology, organizational economics, and machine learning — provides both the evidential structure and the intellectual foundation for the discussion that follows. The framing, organization, and editorial synthesis presented here are Dharma's.
The conventional expectation is reasonable: as AI systems grow more capable, they should also grow more general. Greater capability and broader applicability seem like natural companions — more resources, better methods, and expanded training should produce systems that approach more tasks with increasing confidence.
The pattern that actually appears is different. The systems that achieve the most significant results in any given domain tend to be the ones most narrowly focused on it. The breakthrough in protein structure prediction came from a system engineered for a single scientific task. The historical milestones of AI, examined closely, reflect intense domain targeting rather than expanding generality.
This pattern recurs. It recurs across domains, across decades, across architectural choices that have almost nothing in common. A pattern this consistent suggests a common cause — one that does not originate inside AI research at all.
An Algorithm Wins by Fitting Its Target
In 1997, Wolpert and Macready proved something that rarely surfaces in discussions of AI architecture: no single, general-purpose optimization algorithm outperforms all others across all possible problems (Wolpert & Macready, 1997). The proof is mathematical, not philosophical. Averaged across every conceivable problem a learner might face, every algorithm performs equally well — and equally poorly. An algorithm that gains on one distribution of problems necessarily concedes on others. The performance is redistributed, not multiplied.
The practical implication is direct: “an algorithm wins by being a good fit for the target problem” (Goldfeder et al., 2026). The theorem does not say generality is impossible — it says generality is not a performance advantage. The consistent structural path to outperformance is concentration: trading breadth for fit.
This becomes sharper when finite resources enter the picture. Any real system operates under constraints — finite compute, finite data, finite development time. Given finite energy, an approach that directs available resources toward learning a finite set of tasks will outperform one that distributes those same resources across an unlimited range. The arithmetic is unforgiving: as the task set expands without bound, the resources available per task shrink toward zero. Universal coverage and meaningful performance are, under finite resources, in direct tension.
The conclusion the theorem points toward is not that generality is bad. It is narrower and more operational than that: as the paper states, "universal generality is a theoretical concept, but in practical terms it is a myth" (Goldfeder et al., 2026). What survives contact with real constraints is not the system that tries to do everything — it is the system that fits its target.
The mathematics establishes this as a prediction, not a preference. Whether that prediction holds in the world beyond optimization theory is a different question.
What Biology and Markets Already Know
Two other domains arrived at the same prediction before optimization theory gave it a name.
As the paper describes the biological case: every performance gain in one niche comes at a cost elsewhere. A generalist carries traits suited to many environments but optimal for none — competence spread too thin to dominate any particular condition. There are no performance gains without trade-offs; the resources invested in one capability are unavailable for another. Selection favors designs matched to local conditions over those optimized for uniform coverage across all possible environments. The organisms that survive to reproduce are not the most generally capable — they are the most specifically matched. The result, accumulated over evolutionary timescales, is not generalists dominating — it is specialists filling niches. As the paper states: "Specialization is not an accident of biology; it is a predictable consequence of limited resources, competing objectives, and environments that reward performance on a small subset of evolutionarily relevant challenges" (Goldfeder et al., 2026).
Competitive markets follow the same dynamic through different means. Organizations and strategies that fail to meet performance thresholds are eliminated — not through extinction, but through exit, defunding, and replacement by better-matched alternatives. Competition acts as a selection mechanism: it amplifies effective strategies and eliminates ineffective ones. The mechanism has nothing in common with biological selection — no inheritance, no mutation, no evolutionary timescale. The unit of selection is not the organism but the organization, the product, the strategy. Yet the structural pressure is the same: finite resources, performance requirements, and the systematic removal of entities too broadly distributed to excel where it counts. Concentrated capacity outcompetes distributed capacity when performance standards are clear and consistent.
Evolution and markets operate through entirely different mechanisms — different timescales, different units of selection, different inheritance mechanisms. Yet both produce the same outcome under resource pressure: fit over breadth. The theorem predicts this. Biology and markets arrive at it independently. When a third domain arrives at the same finding through different means entirely, the pattern ceases to look like a theorem and begins to look like something more general about how constrained systems behave.
Machine Learning Keeps Rediscovering Specialization
The same pattern has emerged inside machine learning — not derived from optimization theory, but arrived at through the accumulated experience of building systems and watching what improves them.
The clearest form is negative transfer: a measurable degradation that occurs when a system trained on multiple tasks suffers because those tasks compete rather than cooperate (Ruder, 2017). When tasks share structure, training together helps. But when tasks compete for representational capacity, or impose conflicting gradients during training, performance on individual tasks falls below what a dedicated system would achieve. The gain from breadth becomes a cost to depth. It is a documented consequence of dividing finite capacity across tasks that pull against each other. The specialist, facing no such competition, does not pay this cost.
The architecture of frontier models offers a different form of evidence. Mixture-of-experts systems achieve their breadth not through uniform generality across all parameters, but by routing each input to a specialized subset of the network — activating different experts for different tasks. The paper's authors read this as a structural concession: a system designed to be general achieving its results by recovering specialization internally. This is an argued interpretation, not a demonstrated theorem — these architectures were designed for computational efficiency, and what they imply about generality's limits is a reasonable inference rather than a stated intent. But it is a notable one: the most capable general-purpose systems reach their performance by doing internally what specialist systems do by design.
The clearest historical example follows the same logic. AlphaFold achieved a step change in protein structure prediction by targeting that specific task with task-specific architecture and training choices (Jumper et al., 2021). Its gains came from narrower focus, not broader coverage. The paper uses AlphaFold as an archetypal case — not as evidence that all specialized systems achieve equivalent gains, but as an unusually clear illustration of the mechanism. That mechanism has appeared repeatedly: the history of AI milestones, the paper notes, frequently reflects intense domain targeting rather than broad competence, even when the results look like demonstrations of general intelligence.
Three distinct places. Three different mechanisms. The same finding.
What Scaling Doesn't Change
The picture would be incomplete without addressing one of AI research's most cited observations. Sutton's Bitter Lesson holds that methods relying on domain knowledge are consistently outperformed by methods that scale computation (Sutton, 2019). On its face, this appears to complicate the case for specialization: if scale and generality win, perhaps specialization is only a useful heuristic under resource constraints that will ease as compute becomes cheaper.
The objection rests on a conflation between two distinct concepts. Domain knowledge refers to hand-coded features, engineered priors, and rules designed to give a system insight into a particular area. The Bitter Lesson targets this — and it is correct to do so. Systems that encode explicit domain knowledge have been consistently outperformed as scale increases.
Domain specialization is different: the decision to direct a system's resources, architecture, and training toward a bounded set of tasks rather than distributing them broadly. This is not the encoding of knowledge about a domain. It is a decision about scope.
The paper draws the distinction precisely:
"The diminishing usefulness of domain knowledge is distinct from the usefulness of domain specialization. As scaling progresses, we will need to know less about proteins to build a system that does protein folding; however, such a system still benefits from focusing specifically on proteins." (Goldfeder et al., 2026)
Scaling changes what systems can learn from data. It does not change whether concentrating resources on a finite task set outperforms distributing them across an unlimited range. The Bitter Lesson and the specialization argument operate on different dimensions — one describes how knowledge should be acquired, the other describes what a system should be pointed at. Both can be true simultaneously. Scaling changes the mechanisms by which systems learn; it does not dissolve the constraint that makes fit more valuable than breadth.
Across four analytical traditions, the same pattern emerged through different paths. This is not a coincidence that demands explanation. It is the evidence.
When finite resources meet selection pressure — in an optimization problem, an ecosystem, a market, or a training run — fit consistently beats breadth. The specific mechanisms differ. The timescales differ. The units of selection differ. But the structural dynamic is the same, and it produces the same result.
The theorem does not cause this pattern in biology. Biology does not cause it in markets. Neither causes it in machine learning. They all face the same underlying constraint: performance under scarcity requires concentration. What the theorem establishes mathematically, evolutionary history confirms empirically, competitive markets demonstrate institutionally, and machine learning rediscovers architecturally.
Specialization is not a preference. It is what emerges when finite resources meet the requirement to perform.
If you're evaluating how domain focus affects AI performance in your organization — or building the case internally for a specialization strategy — we'd like to hear about your context. Get in touch with Dharma AI.
Primary Source
- Goldfeder, S., Wyder, M., LeCun, Y., & Shwartz-Ziv, R. (2026). AI must embrace specialization via superhuman adaptable intelligence. arXiv:2602.23643.
Sources
- Wolpert, D.H. & Macready, W.G. (1997). No free lunch theorems for optimization. IEEE Transactions on Evolutionary Computation, 1(1), 67–82.
- Forister, M.L., Novotny, V., Panorska, A.K., Baje, L., Basset, Y., Butterill, P.T., & Dyer, L.A. (2012). Global distribution of diet breadth in insect herbivores. Proceedings of the National Academy of Sciences, 109(2), 418–423.
- Futuyma, D.J. & Moreno, G. (1988). The evolution of ecological specialization. Annual Review of Ecology and Systematics, 19, 207–233.
- Hannan, M.T. & Freeman, J. (1977). The population ecology of organizations. American Journal of Sociology, 82(5), 929–964.
- Loasby, B.J. (1983). Knowledge, learning and the firm. As cited in Goldfeder et al. (2026).
- Ruder, S. (2017). An overview of multi-task learning in deep neural networks. arXiv:1706.05098.
- Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. Journal of Machine Learning Research, 23(120), 1–39.
- Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., & Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583–589.
- Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., & Hassabis, D. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419), 1140–1144.
- Sutton, R.S. (2019). The bitter lesson. Retrieved from http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Further Reading
- Specialization Beats Scale: A Strategic Variable Most AI Procurement Decisions Overlook — The empirical and strategic complement to this article. Where the No Free Lunch theorem establishes why specialization is structurally predicted, this piece examines the evidence that it outperforms in practice — and why it remains underweighted in most AI procurement decisions.
- Text Degeneration: A Production Failure Mode That Most Benchmarks Do Not Track — A documented failure mode that emerges when language models operate outside the boundaries of their effective domain.
- Direct Preference Optimization Beyond Chatbots — How preference optimization techniques extend into specialized domains beyond conversational AI — a concrete instantiation of the domain focus strategy this article argues is structurally predicted.
*Explore* Dharma AI on Hugging Face *to try our interactive demos, download our open-source models, and discover how specialized AI systems outperform general-purpose models in real enterprise applications.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み