AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年5月9日 01:03·約14分

EMO:専門家の混合による突発的モジュラリティのための事前学習

TL;DR

研究者らが、専門家の混合モデルを用いた事前学習手法「EMO」を開発し、AI モデルに突発的なモジュラリティの獲得を実現した。この技術は複雑なタスク処理における効率化と柔軟性の向上に寄与する可能性がある。

記事に戻る

  • モジュラリティをどのようにして出現させるのか?
  • ベンチマーク結果
  • エキスパートのサブセットは何に特化しているのか?
  • 私たちが公開するもの

🧠 モデル: https://huggingface.co/collections/allenai/emo | 📄 技術報告書: https://allenai.org/papers/emo | 💻 コード: https://github.com/allenai/EMO | 📊 可視化ツール: https://emovisualization.netlify.app/

本日、EMO を公開します。これは、人間が定義した事前知識に依存することなく、データから直接モジュラ構造を出現させるようにエンドツーエンドで事前学習された新しいエキスパート混合(MoE: Mixture of Experts)モデルです。EMO を使用すれば、特定のタスクに対して全エキスパートのわずか 12.5% のサブセットのみを使用しながらも、ほぼフルモデル並みの性能を維持できます。また、すべてのエキスパートを併用した場合は強力な汎用モデルとしても機能します。

大規模言語モデルは通常、モノリス型システムとして訓練・展開されます:単一のモデルが初期化され、事前学習され、微調整され、一つの統合されたエンティティとして提供されます。しかし、アプリケーションにはコード生成や数学的推論、ドメイン固有の知識など、機能の一部のみが必要な場合が多くあります。最先端の言語モデルが routinely 兆単位のパラメータに到達する中、完全なモデルを使用・適応させることはほとんどのユーザーにとって現実的ではなく、不要である可能性さえあるパラメータをホストするための不必要な計算コストとメモリ負担を伴います。

エキスパート混合(Mixture-of-Experts: MoE)モデルは、この制約を緩和する自然な方法のように見えます。各層で一つの大きなフィードフォワードネットワークを使用するのではなく、MoE は多くの小さなネットワーク、すなわち「エキスパート」を含み、入力トークンごとにその一部のみを活性化します。原理的には、一つの機能しか必要としないタスクであれば、関連するエキスパートのみを読み込むことができます。

しかし実際には、既存の MoE でも良好に動作させるためには完全なモデルが必要です。単一の入力内であっても、異なるトークンはしばしば異なるエキスパートを活性化するため、あるタスクは生成過程全体で全てのエキスパートを使用することになります。論文で示すように、これは標準的な MoE におけるエキスパートが、高レベルのドメインや機能ではなく、前置詞や句読点などの低レベルな語彙パターンに特化していることが一因となっています。その結果、小さなエキスパートのサブセットだけでは信頼性を持って単独で使用することはできません。

私たちはむしろ、専門家が整合性のあるグループを形成し、選択的に使用して組み合わせることができる MoE モデルを望んでいます。

これを事前学習中に促す一つの方法は、数学、生物学、またはコードなどの事前に定義された意味ドメインに基づいてトークンを専門家へルーティングすることです。BTX や私たちの FlexOlmo プロジェクトのような先行研究はこのアプローチを試みてきました。しかし、事前に定義されたドメインには重要な制限があります。それらは事前学習コーパス全体にわたるドメインラベルを必要としますが、これらは曖昧であり、取得コストが高くなる可能性があります。また、モデルがどのように自己組織化するかに対して過度な人間のバイアスを注入する恐れもあります。さらに重要なのは、ドメインを事前に固定してしまうと、モデルのモジュラー構造も固定されてしまうことです。推論時に新しいドメインや能力が発生した場合、どの専門家を使用すべきかが明確でなくなります。

ここで EMO が登場します。

私たちは、EMO(1B アクティブ、合計 14B パラメータ(8 専門家がアクティブ、合計 128 専門家)の MoE を 1 トリリオントークンで事前学習したもの)が、選択的な専門家の使用をサポートすることを示します。特定のタスクやドメインに対しては、全体の専門家のわずか 12.5% のサブセットのみを使用しながらも、ほぼフルモデル並みの性能を維持できます。同時に、すべての専門家を併用した場合でも、EMO は強力な汎用モデルとしての役割を果たし続けます。対照的に、同じデータで同等のアーキテクチャで訓練された標準的な MoE モデルは、専門家のサブセットを選択的に使用した際に深刻な性能低下を示します。

*EMO は、モジュラリティを第一の目的として訓練された MoE です。特定のドメイン(例:数学、コード、バイオメディカル)に対して、ユーザーは任意サイズの専門家の小規模なサブセットを選択し、ほぼフルモデル並みの性能を維持できます。これにより単一のモデルが構成可能なアーキテクチャとなり、大規模でスパースな MoE においてメモリと精度のトレードオフを改善した柔軟な展開が可能になります。

モジュラリティをどのようにして出現させるか?

MoE において、各トークンがどの専門家を活性化するかを決定する「ルーター」と呼ばれる小規模なネットワークが存在します。私たちは、ルーターが類似ドメインからのトークンは類似した専門家サブセットを活性化することを学習することを望んでいます。私たちの重要な観察点は、「同じ文書内のトークンは通常、同じドメインから来る」ということです。したがって、文書の境界を弱い教師信号として使用します:訓練中、文書内のすべてのトークンは、共有された専門家プールからアクティブな専門家の選択を行うように制限されます。

*標準的な MoE と EMO の訓練の比較(k = 2, n = 10、簡略化のため共有専門家は省略)。 (左) 標準的な MoE では、各トークンは独立して上位 k 個の専門家を選択します。トークン全体を通じて、すべての専門家が使用されます。(右) EMO では、ルーターはまず文書ごとに専門家のサブセットを選択し、すべてのトークンをこのサブセット内でルーティングするように制約します。これにより文書全体にわたる専門家の使用が一致し、専門家のグループがドメイン特化を形成することを促します。*

例えば、総エクスパート数が10で、トークンごとに2つのアクティブなエクスパートを使用するMoE(Mixture of Experts)モデルでは、ドキュメント内のすべてのトークンは、上記の図に示すように、同じ4つのエクスパートからなるプール内でのみルーティングされるよう制限されます。このプールはルーター自体によって選択されます:ドキュメント内の全トークンにわたるルーターのエクスパート選好度を平均化し、最も頻繁に使用されたエクスパートをドキュメントの共有プールとして選択します。異なるドキュメントでは異なるプールを使用できるため、再帰的なエクスパートグループがトレーニングデータから直接出現することが可能になります。

システムを実装する際には、いくつか考慮すべき点があります:

負荷分散。 1 つの技術的課題は負荷分散です。標準的なMoE(Mixture of Experts)トレーニングでは、負荷分散の目的関数は、モデルが少数のエクスパートに収縮するのを防ぐために使用されます。一見すると、これはEMOのトレーニング目的と矛盾しているように思えます:私たちは明示的に各ドキュメントがエクスパートの一部のみを使用するように制限しています。

この対立は、負荷分散が通常適用されるスケールに起因します。多くのMoE実装では、負荷分散は局所的に計算されることが多く、少数のドキュメントのみを含むマイクロバッチ内で行われます。この局所的な目的関数は、同じドキュメント内のトークンを多数のエクスパートに分散させる方向に作用し、EMOがドキュメント内でエクスパートの使用を一定に保つという目的と直接対立します。

これを解決するために、多数の文書にわたってグローバルな負荷分散を適用します。このより大きなスケールでは、2 つの目的は補完的になります:EMO は同じ文書内のトークンが一貫した専門家プールを使用することを促し、一方、グローバルな負荷分散は異なる文書が集合的にすべての専門家をカバーすることを促します。実際、安定したトレーニングにはグローバルな負荷分散が重要であることがわかりました。

ドキュメントプールのサイズ。 ドキュメントプールのサイズは、モジュラリティ制約の厳しさを制御します。より小さなプールは、同じ文書内のトークンにより限られた専門家のセットを共有させることで、より強いモジュラリティを促しますが、より大きなプールはモデルにより柔軟性を与えますが、制約を弱めます。

単一のプールサイズに固定するのではなく、トレーニング中にランダムにサンプリングします。これにより、EMO が特定のサブセットサイズに過学習することを防ぎ、推論時に異なる専門家サブセットサイズをサポートできるようになります。

ベンチマーク結果

汎用ベンチマークにおいて、EMO は標準的な MoE モデル(Mixture of Experts)のパフォーマンスと同等であることを示し、モジュラリティ目的関数がフルモデルのパフォーマンスを犠牲にしないことがわかります。しかし、より重要な質問は、専門家のサブセットのみを保持した場合でもモデルが機能するかどうかです。この設定では、少量のタスク検証データにおけるルーティング使用量に基づいて専門家をランク付けし、最も使用される専門家のみを保持して他を破棄することで、タスク固有の専門家サブセットを構築します。

以下の図は、選択的な専門家使用においても EMO が堅牢であることを示しています。専門家の 25%(32 名の専門家サブセット)のみを保持した場合でも、EMO はすべてのベンチマークで絶対性能が約 1% しか低下しません;さらに専門家の 12.5%(16 名の専門家サブセット)のみを保持しても、全体の低下は約 3% に留まります。これはファインチューニング前および後の両方で成立します。一方、標準的な MoE(Mixture of Experts:エキスパートの混合モデル)では、専門家のサブセットが小さくなるにつれて性能が急激に劣化し、最も小さな専門家サブセット設定ではランダムな性能に近い、あるいはそれ以下まで低下することがよくあります。

さらに、タスクに対して適切な専門家を選択することは驚くほど低コストであることも示しています:数ショットのデモンストレーションを含む単一の例だけで、検証セット全体を使用して選択されたものと同程度の性能を発揮するモジュールを特定できます。また、EMO は特定の選択方法に縛られておらず、既存の専門家プルーニング手法(Easy-EP など)とも相性が良く、両者は互いに補完し合います。

*より小さい 130B トークン設定。異なるメモリ予算における 16 の MMLU カテゴリ全体での平均性能。EMO の専門家サブセットは、メモリと精度のトレードオフにおいてパレートフロンティアを押し上げ、標準的な MoE やゼロから訓練された固定予算モデルよりも優れた結果を示します。

専門家のサブセットは何に特化しているのか?

EMO がトレーニング後に実際に何を学習したかを確認するため、12,000 の事前トレーニング文書における最初の 100 トークン全体でのルーター活性化をクラスタリングしました。標準的な MoE との違いは明白です。

EMO のトークンクラスターは、*Health, Medical & Wellness*(健康・医療・ウェルネス)、*News Reporting*(ニュース報道)、*US Politics & Elections*(米国政治と選挙)、*Film & Music*(映画と音楽)といったものを対応しています。一方、標準的な MoE(Mixture of Experts:専門家混合モデル)では、*Prepositions*(前置詞)、*Proper Names*(固有名詞)、*Copula Verbs*(動詞 be 系)、*Definite Articles*(定冠詞)といったクラスターが生成されます。EMO では、ある文書からのトークンは主に同じクラスターに割り当てられますが、標準的な MoE では多くのクラスターに散らばってしまいます。

この対比は、単一の例を見れば最も明確です。健康に関する記事を考えてみましょう。EMO では、ほぼすべてのトークンが*Health, Medical & Wellness*(健康・医療・ウェルネス)クラスターへルーティングされます。一方、標準的な MoE では上位のクラスターは*Possessives & Definite Articles*(所有格と定冠詞)となり、モデルはその記事の内容に関係なく、*the* や *your* という単語を使用している他のあらゆるテキストと同じグループに分類してしまいます。

*1T トークンで訓練された MoE における事前学習データのトークンクラスター。EMO のクラスターは意味的に意味のあるドメインに対応し、同じ文書からのトークンは主にまとめられます。標準的な MoE 訓練では、表面的または構文的な特徴のクラスターが生成され、文書のトークンは複数のクラスターに分散します。

EMO は表面の特徴ではなく意味的ドメインにマッピングするモジュールを形成するため、少数のエキスパートサブセットを選択しても機能するモデルを得ることができます。そのグループは実際の能力に対応しているからです。

our interactive visualization(当社のインタラクティブな可視化ツール)で、クラスターリングの結果を自分で試すことができます。

公開内容

私たちは、EMO でトレーニングされた完全なモデル(同じデータでトレーニングされた標準的な MoE ベースライン)、および トレーニングコード を公開します。これらの成果物が、MoE における創発的モジュラリティを研究する他のグループにとって有用であることを願っています。

まだ取り組むべき課題は残されています。EMO は大規模なスパースモデルをよりモジュラーにするための初期段階ですが、多くの疑問が残っています:どのようにして専門家サブセットをより効果的に選択・構成するか、モデル全体を乱すことなくモジュールを更新する方法、およびモジュラー構造を用いて解釈可能性と制御性を向上させる方法などです。これらのモデルを公開することで、コミュニティがこれらの課題を検討し、展開や適応、検査、構成が容易なモジュラー言語モデルの構築へと進む手助けとなることを期待しています。

原文を表示

Back to Articles

  • How do we get modularity to emerge?
  • Benchmark results
  • What are expert subsets specializing to?
  • What we're releasing

🧠 Models: https://huggingface.co/collections/allenai/emo | 📄 Tech report: https://allenai.org/papers/emo | 💻 Code: https://github.com/allenai/EMO | 📊 Visualization: https://emovisualization.netlify.app/

Today we're releasing EMO, a new mixture-of-experts (MoE) model pretrained end-to-end so that modular structure emerges directly from the data without relying on human-defined priors. EMO lets you use a small subset of its experts - just 12.5% of the total - for a given task while keeping near full-model performance, and still works as a strong general-purpose model when all experts are used together.

Large language models are typically trained and deployed as monolithic systems: a single model is initialized, pretrained, fine-tuned, and served as one unified entity. But applications often need only a subset of capabilities, such as code generation, mathematical reasoning, or domain-specific knowledge. As frontier language models routinely reach trillions of parameters, using and adapting the full model becomes impractical for most users and incurs unnecessary computational cost and memory to host parameters that may not even be needed.

Mixture-of-experts (MoE) models seem like a natural way to relax this constraint. Instead of using one large feedforward network at each layer, MoEs contain many smaller ones, called experts, and activate only a small subset for each input token. In principle, a task that only needs one capability could load only the relevant experts.

In practice, however, existing MoEs still need the full model to work well. Even within a single input, different tokens often activate different experts, so a task can end up using all the experts during its generation. As we show in our paper, this happens partly because experts in standard MoEs often specialize in low-level lexical patterns like prepositions or punctuation rather than higher-level domains or capabilities. As a result, small subsets of experts are not reliably usable on their own.

We instead want MoE models whose experts organize into coherent groups that can be selectively used and composed.

One way to encourage this during pretraining is to route tokens to experts based on predefined semantic domains, such as math, biology, or code. Prior work like BTX and our FlexOlmo project has tried this. However, predefined domains come with important limitations. They require domain labels across the pretraining corpus, which can be ambiguous and expensive to obtain, and they may inject too much human bias into how the model is allowed to organize itself. More importantly, fixing the domains upfront also fixes the model's modular structure: if a new domain or capability emerges at inference time, it isn't obvious which experts should be used.

That's where EMO comes in.

We show that EMO - a 1B-active, 14B-total-parameter (8-expert active, 128-expert total) MoE trained on 1 trillion tokens - supports selective expert use: for a given task or domain, we can use only a small subset of experts (just 12.5% of total experts) while retaining near full-model performance. At the same time, when all experts are used together, EMO remains a strong general-purpose model. In contrast, a standard MoE of equal architecture trained on the same data shows severe degradation when selectively using its expert subsets.

*EMO is an MoE trained with modularity as a first-class objective. For a given domain (e.g., math, code, biomedical), users can select a small subset of experts of any size and retain near full-model performance. This turns a single model into a composable architecture, enabling flexible deployment with improved memory-accuracy tradeoffs for large, sparse MoEs.*

How do we get modularity to emerge?

In an MoE, a small network called the router decides which experts each token activates. We want the router to learn that tokens from similar domains should activate similar subsets of experts. Our key observation is that *tokens from the same document usually come from the same domain*. We therefore use document boundaries as a weak supervisory signal: during training, all tokens in a document are restricted to choose their active experts from a shared expert pool.

*Comparison of training of a standard MoE and EMO (k = 2, n = 10, shared experts omitted for simplicity). (Left) In a standard MoE, each token independently selects its top-k experts. Across tokens, all experts are used. (Right) In EMO, the router first selects a subset of experts for each document, and all tokens are constrained to route within this subset. This enforces consistent expert usage across the document, encouraging groups of experts to form domain specialization.*

For example, in an MoE with 10 total experts and 2 active experts per token, all tokens in a document are restricted to route within the same pool of 4 experts, as shown in the figure above. This pool is chosen by the router itself: we average the router's expert preferences across all tokens in the document, then select the most-used experts as the document's shared pool. Different documents can use different pools, allowing recurring expert groups to emerge directly from the training data.

There are a few considerations when implementing the system:

Load balancing. One technical challenge is load balancing. In standard MoE training, the load-balancing objective is used to prevent the model from collapsing onto only a small number of experts. At first glance, this seems to conflict with EMO's training objective: we are explicitly restricting each document to use only a subset of experts.

The conflict comes from the scale at which load balancing is usually applied. In many MoE implementations, load balancing is computed locally, often within a micro-batch containing only a small number of documents. This local objective can push tokens within the same document to spread across many experts, directly opposing EMO's objective of keeping expert usage consistent within a document.

To resolve this, we apply load balancing globally across many documents. At this larger scale, the two objectives become complementary: EMO encourages tokens within the same document to use a coherent expert pool, while global load balancing encourages different documents to collectively cover all experts. In practice, we found that global load-balancing is important for stable training.

Document pool size. The document pool size controls how restrictive the modularity constraint is. A smaller pool forces tokens in the same document to share a tighter set of experts, encouraging stronger modularity; a larger pool gives the model more flexibility but weakens the constraint.

Rather than fixing one pool size, we randomly sample it during training. This prevents EMO from overfitting to a single subset size and lets it support different expert subset sizes at inference time.

Benchmark results

On general-purpose benchmarks, EMO matches the performance of a standard MoE model, showing that the modularity objective does not come at the cost of full-model performance. The more important question, however, is whether the model can still work when we only keep a subset of experts. In this setting, we construct task-specific expert subsets by ranking experts according to their routing usage on a small amount of task validation data, keeping the most-used experts and discarding the rest.

The figure below shows that EMO remains robust under selective expert use. When we keep only 25% of the experts (32 expert subset), EMO loses only about 1% absolute performance across all benchmarks; even when we keep only 12.5% of the experts (16 expert subset), the overall drop is only about 3%. This holds both before and after fine-tuning. In contrast, the matching standard MoE degrades sharply as the expert subset gets smaller, often falling close to or below random performance in the smallest expert subset settings.

Furthermore, we show that selecting the right experts for a task is surprisingly cheap: a single example with few-shot demonstrations is enough to identify a module that performs on par with one selected using a full validation set. And EMO isn't tied to any particular selection method: it works well with existing expert-pruning approaches like Easy-EP, and the two complement each other.

*Smaller 130B-token setting. Averaged performance over 16 MMLU categories across different memory budgets. EMO expert subsets push the Pareto frontier in memory-accuracy trade-off, outperforming standard MoEs and even fixed-budget models trained from scratch.*

What are expert subsets specializing to?

To see what EMO actually learned after training, we clustered router activations of the first 100 tokens across 12K pretraining documents. The difference from a standard MoE is stark.

EMO's token clusters correspond to things like *Health, Medical & Wellness*, *News Reporting*, *US Politics & Elections*, and *Film & Music*. A standard MoE produces clusters like *Prepositions*, *Proper Names*, *Copula Verbs*, or *Definite Articles*. In EMO, tokens from a given document mostly land in the same cluster; in a standard MoE, they end up scattered across many.

The contrast is easiest to see on a single example. Take a health article: in EMO, almost every token would route into the *Health, Medical & Wellness* cluster. In a standard MoE, the top cluster is *Possessives & Definite Articles*; the model would group the article with every other text that happens to use the word *the* or *your*, regardless of what that text is about.

*Token clusters of pretraining data on MoEs trained on 1T tokens. EMO clusters correspond to semantically meaningful domains, with tokens from the same document largely grouped together. Standard MoE training produces clusters of surface-level or syntactic features, with document tokens dispersed across multiple clusters.*

Because EMO forms modules that map to semantic domains rather than surface features, you can pick a small expert subset and still have a functioning model: the group corresponds to a real capability.

You can play around with the clustering results yourself in our interactive visualization.

What we're releasing

We're releasing the full EMO-trained model, a matched standard-MoE baseline trained on the same data, and the training code. We hope these artifacts are useful for other groups studying emergent modularity in MoEs.

There's more work to do. EMO is an early step toward making large sparse models more modular, but many questions remain: how to better select and compose expert subsets, how to update modules without disrupting the full model, and how to use modular structure for better interpretability and control. Releasing these models should help the community to study these questions and build toward modular language models that are easier to deploy, adapt, inspect, and compose.

この記事をシェア

関連記事

Allen AI (AI2)重要度42026年5月8日 17:00

EMO:データからモジュール型専門家が自然発生的に出現する事前学習混合専門家モデル

Hugging Face Blog2026年6月26日 01:11

ハイブリッドモデルはどのトークンをより正確に予測するか?

Hugging Face Blog重要度42026年6月26日 07:01

1 コマンドで Hugging Face Jobs で vLLM サーバーを実行可能に

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む