大規模モジュラー LLM:デンマーク基盤モデルプロジェクトが FlexOlmo を活用し、機密データを共有せずに専門知識を集約する方法
デンマークの基盤モデルプロジェクトが、データ共有なしで専門家を統合する「FlexOlmo」を拡張した「FlexMoRE」を開発し、低リソース言語向けにプライバシーと規制を遵守した分散型 AI 開発を実現した。
キーポイント
データ非共有によるモジュラー学習の実現
医療機関や公的機関など、機密データを外部へ流出させられない組織が独自に専門モデル(エキスパート)を訓練し、それらを統合して一つのモデルとして機能させるアーキテクチャを採用した。
FlexMoRE によるリソース要件の削減
元の FlexOlmo が抱えていた「各専門家が巨大なモデルサイズになるためスケーラビリティに課題がある」という問題を解決し、消費者向けハードウェアでも動作可能な軽量版モジュールを開発した。
EU 規制への準拠と低リソース言語の支援
EU AI 法や GDPR に完全準拠しながら、商業大手に依存しない形でデンマーク語などの低リソース言語モデルを育成し、国内の教育・医療・公共セクターでの活用を促進する。
分散型マルチリンガルモデルへの貢献
各国が独自のデータで訓練したモジュールを組み合わせて国際的に有益な多言語モデルを構築するという、より広範なビジョンの具体化を目指している。
影響分析・編集コメントを表示
影響分析
このアプローチは、データガバナンスの制約が AI 開発のボトルネックとなっている多くの国や業界において、実用的かつ倫理的な解決策を提供する画期的なステップです。特に低リソース言語圏における技術的自立を促し、商業的な巨大企業に依存しない分散型 AI エコシステムの構築に大きな影響を与える可能性があります。
編集コメント
データ共有の壁を「モジュラー化」という技術的アプローチで突破した事例であり、特に欧州の厳格な規制下での AI 開発モデルとして極めて参考になります。計算リソースの制約も解消されたため、今後多くの地域で同様のプロジェクトが生まれる可能性があります。
昨年に FlexOlmo を公開した際、言語モデルは必ずしも巨大な単一構造(モノリス)である必要はないことを示したかったのです。異なるチームが、それぞれ独自に専門的なモジュールである「エキスパート」と呼ばれる部品を訓練し、その下にあるデータを一切共有することなく、それらを統合して共通のモデルへと組み合わせることが可能であることを伝えたかったのであります。
デンマークから生まれたプロジェクト Danish Foundation Models (DFM) は、FlexOlmo を自らのアーキテクチャの中核として採用しました。DFM は、リソースが限られた言語向けのモデルは、リソースに恵まれた商業ラボからの独立した取り組みがなければ遅れをとるという前提のもと、デンマーク語用のオープンな言語モデルを開発しています。デンマーク語のモデルから最も恩恵を受けるべき機関——病院、大学、公共セクターの組織、そして中小企業——は、規制や機密保持の理由からデータを共有できないケースが多くあります。しかし、それらの機関に奉仕するモデルを訓練するために必要とされているのは、まさにそのデータなのです。
DFM にとって、FlexOlmo は最適な出発点でした。
「私たちは、私たちのような国家的イニシアチブがそれぞれのコーパス上で独立してトレーニングを行い、その後、それらの独立してトレーニングされたモデルを統合できるモジュラーシステムを構想しました」と、Ordbogen A/S の産業博士研究員であり、Peter Schneider-Kamp と Lukas Galke Poech が率いる SDU(デンマーク南部大学)OdenseNLP 研究室の研究者である Jacob Nielsen は語ります。この研究室は DFM の一部です。「より広範には、国際的な規模で有益なモジュラー多言語モデルへの貢献を目指しています。」
Nielsen と OdenseNLP の協力チームは、FlexOlmo のモジュラー構造を維持しつつ、コンシューマー向けハードウェアで実行可能なサイズに縮小した FlexMoRE を構築しました。これは DFM が FlexOlmo で直面した限界に対処するものです:元のフレームワークでは、各エキスパートが完全なスタンドアロンモデルと同じサイズであり、少数のエキスパートしかない場合には機能しますが、容易にはスケーリングできません。より多くのグループが独自のエキスパートを提供するにつれ、統合システムは DFM のパートナーが通常利用可能な種類のマシンで実行するには大きくなりすぎます。
「FlexMoRE は、ほぼすべてのカテゴリでパフォーマンスを維持しながら FlexOlmo のメモリ要件を大幅に削減し、より広い層がモジュラーモデルの恩恵を受けられるようにします」と Nielsen は述べています。
FlexMoRE が変えるもの
DFM は、EU AI 法および GDPR に準拠して構築された、オープンなトレーニングコーパス、評価インフラストラクチャ、そして一連のオープンライセンス付与されたデンマーク語モデルを含む、デンマーク語 AI のフルスタックを網羅しています。その究極の目標は、ユーザーが必要な専門家(数言語と数ドメイン)だけをダウンロードし、独自のハードウェア上で結合されたモデルを実行できるシステムを実現することです。
このビジョンを実現するために、ニールセン率いるオーデンセNLP のチームが FlexOlmo を中核レイヤーとして活用しています。
FlexOlmo はエキスパートの混合(Mixture-of-Experts)モデルです。すべてのトークン(単語の一部であることが多いテキストの小さな断片)を一つの巨大なシステムに通して応答を生成するのではなく、各トークンを専門的なエキスパートのサブセットにルーティングします。例えば、モデルが法律文書からのトークンに出会った場合、ルーターは法律テキストで訓練されたエキスパートに送ります。コードに遭遇した場合は、コードで訓練されたエキスパートに送られます。推論時に実行されるのは選択されたエキスパートのみです。
ニールセンと彼の同僚たちが変更したのは、「すべてのエキスパートが同じサイズである必要がある」という前提でした。
FlexMoRE では、一部の専門家はフルサイズですが、大部分は低ランクアダプターと呼ばれるはるかに小さなバージョンに置き換えられています。これは、フルサイズの専門家が学習した内容のコンパクトな近似であり、はるかに少ないパラメータ数で実現されています。各アダプターのサイズはランクと呼ばれる値によって設定され、チームは最適なランクが専門家に求められるタスクの種類に依存することを見つけました。推論を重視するタスク、例えば多段階の数式問題を解くようなものは、パフォーマンスを維持するために高いランクが必要ですが、モデルが学習した事実に基づく知識作業では、より低いランクを使用できます。
この 2 つの主要なタスクタイプ(推論と知識)は異なる要件を持つため、FlexMoRE は能力を失うことなく全体のモデルを縮小することができます。最良の設定において、FlexMoRE はフルサイズの専門家による FlexOlmo ベースラインを上回る性能を発揮しながら、パラメータ数は 3 分の 1 未満で済みます。
ニールセン氏はこれについて、「これはデータ共有なしで分散型および連合学習アプローチを可能にするため、オープンモデルエコシステムに極めて大きな影響を与えます。プライバシーやガバナンスの制約を受けるデータ所有者にとって、非常に重要な意義があります」と述べています。
より多様な方向性でのモジュラー化
FlexOlmo を通じて、言語モデルは独立して訓練された高性能なコンポーネントから構築できることを示しました。FlexMoRE は、これらのコンポーネントをより小さくすることで、そのアイデアを拡張し、結果として得られるモデルがよりアクセスしやすいハードウェアで実行可能になります。
「デンマークの国家プロジェクトが当社の FlexOlmo アーキテクチャを採用し、重要なプロジェクトのために適応させている姿を目にできるのは非常に興奮します」と語るのは、UC Berkeley の EECS 准教授であり、Ai2 の研究科学者でもあり、FlexOlmo 論文の共著者でもある Sewon Min です。「私たちは、モジュラー学習(modular training)に関する勢いが、社内だけでなくより広範な研究コミュニティ全体で高まっていることを見ています。これは、ファウンデーションモデルの分散型・並列学習が単に概念的に洗練されたアイデアであるだけでなく、実用的な必要性であることを示唆しています。最先端モデルのトレーニングと展開のコストが高まるにつれ、AI システムから得られる莫大な恩恵が少数の手に独占されないようにするための、このようなソリューションはますます重要になっています。」
私たちもまた、この方向へと推進しています。
最近の2 つのプロジェクト、EMO と BAR は、モジュラーアプローチをモデル開発の他の段階にも持ち込んでいます。EMO は、FlexOlmo が事前学習段階で抱えていた制限に対処します。つまり、各専門家の専門分野は事前に定義する必要があり、その結果、モジュラー構造の良さは事前に描かれたカテゴリに依存していました。EMO はこの制約を撤廃し、専門家自身がトレーニングを通じて独自のトピック専門性を発展させることを可能にしています。BAR は、モジュラリティを事前学習を超えて、モデルが指示に従い、推論を行い、ツールを呼び出し、安全でないリクエストを拒否する方法を形作る事後学習段階へと拡張します。標準的なパイプラインでは、これらの行動は互いに絡み合っているため、1 つを変更すると他のものが壊れやすくなります。BAR は、各新しい機能に独自の事後学習パイプラインを与え、共有ベースの上に孤立して実行されます。
これら各プロジェクトはモデル開発の異なる段階を対象としていますが、同じ基盤となる前提を共有しています。つまり、強力なモデルが必ずしも集中化や単一構造である必要はなく、オープン性が分散型構築を可能にするのだという前提です。これが Ai2 が最初から目指してきた原則であり、FlexMoRE などの取り組みが可能になる根本的な理由でもあります。
「FlexOlmo や FlexMoRE を巡る研究は、別個にトレーニングし共同で推論を行うパラダイムが成功し得ること、そしてそれが効率的であることを示しています」とニールセン氏は述べています。「私たちはこれが、独立してトレーニングされた専門家のモジュラーアーキテクチャの核心的な利点であると信じています。
*FlexMoRE*は、デンマークの基礎モデルプロジェクトの一環として、南デンマーク大学の研究者とOrdbogen A/Sによって独立して開発されました。Ai2 は本研究には関与しておらず、本プロジェクトやそのパートナーに対して資金提供や制度的な関係もありません。
最新の Ai2 のニュースに関する月次更新を受け取るには、購読してください。
原文を表示
When we released FlexOlmo last year, we wanted to show that a language model doesn't have to be a monolith. Different teams could train their own pieces – specialized modules called experts – in isolation and merge them into a shared model, without ever pooling the data underneath.
A project out of Denmark, Danish Foundation Models (DFM), used FlexOlmo as the cornerstone for an architecture of their own. DFM develops open language models for the Danish language on the premise that models for lower-resource languages will fall behind unless independent efforts step in from outside well-resourced commercial labs. The institutions that would benefit most from Danish-language models – hospitals, universities, public-sector organizations, and smaller companies – often hold data that they can't share, whether for regulatory or proprietary reasons. Yet that data is exactly what's needed to train the models that would serve them.
For DFM, FlexOlmo was the right starting point.
"We envisioned a modular system whereby national initiatives like ours can independently train on their respective corpora, and then bring those independently trained models together," says Jacob Nielsen, an Industrial PhD Fellow at Ordbogen A/S and a researcher at the University of Southern Denmark's (SDU) OdenseNLP lab, a research group at SDU led by Peter Schneider-Kamp and Lukas Galke Poech and part of DFM. “More broadly, we aim to contribute to modular multilingual models that are beneficial on an international scale.”
Nielsen and a team of collaborators at OdenseNLP built FlexMoRE, which preserves FlexOlmo's modular structure but shrinks the model enough to run on consumer hardware. It addresses a limit DFM ran into with FlexOlmo: in the original framework, each expert is the size of a full standalone model, which works when there are only a handful of experts but doesn't scale easily. As more groups contribute their own experts, the combined system grows too large to run on the kinds of machines DFM's partners often have available.
"FlexMoRE significantly reduces FlexOlmo's memory demands while preserving performance across almost all categories, allowing a broader audience to benefit from modular models,” says Nielsen.
What FlexMoRE changes
DFM covers the full stack of Danish-language AI: open training corpora, evaluation infrastructure, and a series of openly licensed Danish language models, all built to comply with the EU AI Act and GDPR. Its end goal is a system where a user can download just the experts they need – a few languages, plus a few domains – and run the combined model on their own hardware.
That vision is what Nielsen's team at OdenseNLP set out to make possible, using FlexOlmo as the core layer.
FlexOlmo is a mixture-of-experts model. Rather than running every token (a small chunk of text, often part of a word) through one large system to generate a response, it routes each to a subset of specialized experts. When the model encounters a token from a legal document, for example, the router might send it to an expert trained on legal text; when it hits code, an expert trained on code. Only the selected experts run at inference time.
What Nielsen and his colleagues changed was the assumption that every expert has to be the same size.
In FlexMoRE, some experts are full-size, but most are replaced with much smaller versions called low-rank adapters—compact approximations of what a full-size expert learned using far fewer parameters. The size of each adapter is set by a value called its rank, and the team found that the best rank depends on what the expert is being asked to do: reasoning-heavy tasks, like working through a multi-step math problem, need higher ranks to preserve performance, while knowledge work, which draws on facts the model has learned, can use lower ones.
Because these two dominant task types – reasoning and knowledge – have different needs, FlexMoRE can shrink the overall model without losing capability. In its best configuration, FlexMoRE outperforms a FlexOlmo-style baseline of full-size experts while using less than one-third the parameters.
"This comes with immense implications for the open model ecosystem, as it facilitates distributed and federated training approaches without data sharing,” Nielsen says. “It's of incredibly high relevance for data owners subject to privacy and governance constraints.”
Modular, in more directions
With FlexOlmo, we showed that language models could be built from independently trained, highly performant components. FlexMoRE extends that idea by making those components smaller so the resulting models can run on more accessible hardware.
“It’s very exciting to see this Danish national project picking up our FlexOlmo architecture and adapting it for their important project,” says Sewon Min, an Assistant Professor in EECS at UC Berkeley, a Research Scientist at Ai2, and a co-author of the FlexOlmo paper. “We’re seeing growing momentum around modular training, both internally and across the broader research community, suggesting that decentralized and distributed training of foundation models is not merely a conceptually elegant idea, but a practical necessity. As frontier models become more and more costly to train and deploy, solutions like this become even more critical to make sure the immense benefits that come from AI systems are not consolidated in just a few hands.”
And we're pushing in this direction too.
Two of our recent projects, EMO and BAR, carry the modular approach into other stages of model development. EMO addresses a limitation FlexOlmo had at pretraining: each expert's specialty had to be defined up front, which meant the modular structure was only as good as the categories drawn in advance. EMO drops that constraint, letting experts develop their own topic specializations as they train. BAR extends modularity past pretraining and into the post-training stages that shape how a model follows instructions, reasons, calls tools, and refuses unsafe requests. In a standard pipeline, those behaviors get tangled together, so changing one tends to break others. BAR gives each new capability its own post-training pipeline, run in isolation on top of a shared base.
Each of these projects targets a different phase of model development, but they share the same underlying premise: that powerful models needn't be centralized or monolithic, and that openness is what makes distributed building work. That's the principle Ai2 has been building toward from the start—and what makes work like FlexMoRE possible in the first place.
"The line of work around FlexOlmo and FlexMoRE has established that a separate-training joint-inference paradigm can be successful, and that it can be efficient," Nielsen says. "We believe that this is the core advantage of the modular architecture of independently trained experts."
*FlexMoRE was developed independently by researchers at the University of Southern Denmark and Ordbogen A/S under the Danish Foundation Models project. Ai2 was not involved in the research and has no funding or institutional relationship with the project or its partners.*
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み