Introducing Olmo Hybrid: Combining transformers and linear RNNs for superior scaling｜Olmo Hybridの発表：トランスフォーマーと線形RNNを組み合わせ、優れたスケーリングを実現 | AIニュース最前線

ハイブリッド言語モデル、すなわちトランスフォーマーの注意機構と線形再帰層を混合したアーキテクチャは、Samba、Nemotron-H、Qwen3-Next、Kimi Linear、Qwen 3.5 などのプロジェクトにおける最近の取り組みにより、分野全体で勢いを増しています。トランスフォーマーがシーケンスの初期部分から正確な詳細を recall（記憶）する能力と、再帰層が進化する状態を追跡する効率性を組み合わせることで、ハイブリッドモデルは長いコンテキスト長において、より高性能かつ実行コストが低いことが期待されています。しかし、コミュニティの間では、ハイブリッドアーキテクチャ purportedly（称されている）な利点が、それらをスケールアップするためのコストを正当化するかどうかについて合意形成されていませんでした。 本日、[Olmo Hybrid](https://huggingface.co/collections/allenai/olmo-hybrid) をリリースいたします。これは 7B パラメータの完全オープンなモデルファミリーであり、Olmo 3 7B との制御された比較において明確な性能向上を示すことで、ハイブリッドモデルを支持する説得力のある証拠を提供します。さらに、当社のレポートでは、理論分析とスケーリング実験を通じて、なぜハイブリッドモデルがトランスフォーマーよりも優れたパフォーマンスを発揮するのかを深く解説しています。新しい研究により、ハイブリッドアーキテクチャは純粋なトランスフォーマーや純粋な線形 RNN（Recurrent Neural Network）単体よりも本質的に表現力が高いことが示され、この表現力の優位性が事前学習中のより効率的なスケーリングに直接寄与することが明らかになりました。一般知識と推論のための広く使用されているベンチマークである MMLU において、Olmo Hybrid は Olmo 3 と同等の精度を達成しますが、必要なトークン数は 49% 削減されています。これは約 2 倍のデータ効率性を意味します。つまり、同じ能力を得るために半分だけのデータでトレーニングできるか、あるいは同じデータ量でトレーニングしてより有意に優れたモデルを獲得できるのです。 結果の詳細に入る前に、なぜ私たちがハイブリッドアーキテクチャを言語モデリングにおける重要な方向性と考えているのかを理解しておく価値があります。 トランスフォーマーアーキテクチャは、2017 年の登場以来、言語モデリングの分野を支配し続けています。その中核には、「自己注意（self attention）」と呼ばれるメカニズムがあり、これはモデルがシーケンス内のすべての先行単語を同時に参照し、次の単語予測に対してどの単語が最も関連性が高いかを決定する仕組みです。内部計算に内在する並列処理により、トランスフォーマーは現代のハードウェア上でトレーニングを行う際に極めて効率的であり、入力シーケンスの任意の部分に直接アクセスできる能力は、文脈内での記憶（in-context recall）において顕著な性能を発揮します。 しかし、トランスフォーマーには限界もあります。その注意メカニズムはシーケンス長に対して二次関数的にスケーリングするため、2 倍の長さのシーケンスを処理するには計算量が 4 倍必要となり、コンテキストが拡大するにつれて推論コストはますます高騰します。また、記憶タスクにおいては卓越していますが、トランスフォーマーは自然な状態追跡（state tracking）——例えば、チェス盤の状態がプレイヤーの手番によって変化するのを追うように、継続的な集計の更新や変化する状況に対するメンタルモデルの維持が必要となる計算——を本質的に表現するものではありません。私たちの過去の[理論的研究](https://arxiv.org/abs/2207.00729)および[研究](https://arxiv.org/abs/2404.08819)はこの点を探求してきました。 再帰型ニューラルネットワークは、根本的に異なるアプローチを採用しています。一度にシーケンス全体を参照するのではなく、RNN はテキストをトークン単位で処理し、新しい入力ごとに更新される隠れた「状態」を維持します。これにより RNN は状態追跡に適していますが、従来の RNN はその逐次的な性質が並列化を妨げるため、大規模での訓練が困難です。 最近の並列化可能な線形 RNN や状態空間スタイルのモデルに関する研究は、再帰構造を効率的に訓練可能となるように再設計することで、再帰的アプローチへの関心を復活させました。これらのモデルは推論時にシーケンス長に対して線形的にスケーリングしますが、過去の情報を有界な状態に圧縮するため、シーケンスの初期部分からの正確な想起が必要なタスクでは困難を伴うことがあります。 これが、トランスフォーマーと線形 RNN の層を混合して各アーキテクチャの利点を得るハイブリッドモデルである Olmo Hybrid へとつながります。さらに、私たちはハイブリッドモデルが、単独で用いられるトランスフォーマーや線形 RNN よりも表現力が高いことを示しました。この理論的動機により、私たちはハイブリッドモデルのスケーリング拡大を探求し、それが Olmo 3 と比較して事前学習性能の向上につながることを見出しました。 ## Olmo Hybrid の概要 私たちのハイブリッドモデルは、トランスフォーマー層とゲート付き DeltaNet 層を交互に配置しています。DeltaNet は現代的な線形 RNN の設計でありながら、訓練中は並列化が可能で、表現力豊かな状態ダイナミクスを提供します。 私たちは、Olmo Hybrid を一連の漸次大規模化された実験を通じて開発しました。まず 1B スケールでは、ハイブリッドモデルがビット毎バイト評価においてトランスフォーマーを一貫して上回ることを発見し、RNN およびハイブリッドアーキテクチャについて反復改良を行いました。次に 7B スケールでは、このパターンが維持されることを確認し、ハイブリッドモデルは大幅に少ないトークン数でトランスフォーマーのベースラインと同等の性能を達成しました。6 トリリオントークンのフルスケールの事前学習トレーニング実行により、これらの改善がスケーリングしても持続することが確認されました。これは訓練ダイナミクスの副産物ではなく、アーキテクチャ自体に内在する性質であると考えられます。 Olmo Hybrid は 3:1 のパターンを採用しています。すなわち、デルタネット（DeltaNet）サブレイヤーを 3 つ続けた後にマルチヘッドアテンション（multihead attention）サブレイヤーを 1 つ配置し、これをネットワーク全体で繰り返します。これにより、アテンションミキシングの 75% がゲート付きデルタネット（Gated DeltaNet）に置き換えられ、モデルは状態追跡（デルタネット経由）と精密な想起（アテンション経由）の両方のアーキテクチャパスを獲得します。また、アテンションが十分に頻繁に現れることで、情報が有界な再帰状態に「閉じ込められる」ことを防ぎます。 Olmo Hybrid は 7B パラメータを持つモデルで、Olmo 3 32B から改良されたデータミックスを用いて 6 トリリオントークンで事前学習されました。トレーニングは 512 個の GPU で実施され、当初は NVIDIA H100 で開始しましたが、事前学習のほぼ半ばで Lambda のインフラ上でホストされる NVIDIA HGX B200 に移行しました。これにより、Olmo Hybrid は B200 で訓練された最先端の完全オープンモデルの一つとなりました。 Olmo Hybrid は、ハイブリッド置換を除き Olmo 3 の設計図にほぼ沿っています。トレーニングのスループットは Olmo 3 と同等に設定されており、両モデルとも同程度のパラメータ数で比較可能な速度で学習します。これは、効率性の向上が速度と性能のトレードオフによるものではなく、ハイブリッドアーキテクチャ自体に由来することを示唆しています。 制御された研究におけるデータおよび計算リソースの効率性向上 Olmo Hybrid は、同じサイズの Olmo 3 モデルよりも優れたパフォーマンスを達成し、大幅に少ないトレーニングデータでこれを成し遂げます。トークン数が減少することはトレーニングオーバーヘッドの削減を意味するため、その節約は直接的に計算リソースの節約にもつながります。MMLU 評価では、約 2 倍のトークン効率が見られます。つまり、ハイブリッドモデルは Olmo 3 と同等の精度を達成するために、49% 少ないトークン数で済みます。Common Crawl の評価スライスにおいても、Olmo Hybrid は 35% 少ないトークン数で同等のパフォーマンスに達します。いずれの場合も、両アーキテクチャ間でトレーニングのスループットが同等であるため、トークンの節約は総トレーニング計算リソースの比例した削減に対応します。 事前学習の終了時点で、Olmo Hybrid は選択された数学および科学ベンチマークにおいて Olmo 3 よりも明らかに優れた性能を示しますが、コーディングタスクや一般的な質問応答においてはわずかに劣ります。しかし、学習途中（ミッドトレーニング）以降ではこれらの差は縮小し、Olmo Hybrid はすべての主要な評価ドメインで Olmo 3 を上回ります。この優位性は、長いコンテキストへの拡張後も概ね維持されます。 Olmo 3 の開発時に使用されなかった保留評価（ホールデッドアウト評価）においても、ハイブリッドモデルは BBH および MMLU Pro で改善を示し、LBPP と DM Math ではわずかな後退が見られました。 長いコンテキストへの拡張後、Olmo Hybrid は標準的な長文コンテキストベンチマークである RULER において Olmo 3 よりも大幅な向上を示します。短いコンテキスト（4k トークン）ではハイブリッドモデルは Olmo 3 にわずかに劣りますが、8k で逆転し、コンテキストの長さが増すにつれてその差は広がります。 我々は、モデルが元々学習したよりも長い入力を処理可能にする 2 つのアプローチ、YaRN と DRoPE を評価しました。64k のコンテキスト長において、DRoPE を採用した Olmo Hybrid は、長文コンテキストベンチマークである RULER で 85.0 のスコアを記録しました。一方、YaRN を使用した Olmo 3 7B は 70.9 です。同じ YaRN メソッドを使用した場合でも、ハイブリッドアーキテクチャはトランスフォーマーベースラインを上回り 76.9 を記録しましたが、DRoPE を用いた場合の非常に長いコンテキスト長における改善は特に顕著です。 ## 表現力とスケーリング ハイブリッドモデルにおける一般的な動機は、長いコンテキスト長における推論効率性でした。それとは対照的に、私たちの結果は異なる、根本的な強さを示唆しています：ハイブリッドモデルはトランスフォーマーよりも表現力が豊かであり、これが実務での事前学習においてより効率的なスケーリングをもたらします。理論的には、ハイブリッドモデルは、純粋なトランスフォーマー単独や純粋な線形 RNN（Recurrent Neural Network）単独では容易に表現できない有用な計算を表現できます。さらに、私たちは理論的に論じ、この表現力の優位性が、実務で発見したより優れた事前学習のスケーリングを説明する可能性が高いと主張します。 ハイブリッドモデルの事前学習効率性の向上をより体系的に定量化するために、同等のトレーニング条件下でアーキテクチャを比較するためスケーリング則（scaling-law）の曲線に適合させました。制約のない適合では、点推計は Olmo Hybrid が Olmo 3 よりも有利であることを示していますが、不確実性が大きすぎて係数の違いが統計的に決定的であるとは言えません。 これらの適合された法則はまた、トークン削減率がスケールとともに増加し、固定された目標損失において 1B パラメータでは約 1.3 倍から、70B パラメータでは約 1.9 倍に上昇すると予測しています。 なぜより表現力の高いモデルの方がデータに対してよりよくスケーリングするのでしょうか？一つの直感的な説明は、[多くの](https://arxiv.org/abs/2102.04074)[最近の](https://arxiv.org/abs/2307.15936)[分析](https://openreview.net/forum?id=cuWsR25bbI)で指摘されているように、言語モデリングは多くの離散的なサブタスクを学習することから成り立っており、各サブタスクはアーキテクチャによって表現可能（そして最終的に学習される）か、あるいは表現不可能（そして削減不能な損失に寄与する）のいずれかであるという点にあります。ハイブリッドモデルが自然言語に現れるより多くのサブタスクを表現できれば、1 トークンあたりの効率よく損失を低下させることができます。この説明を形式化するために、ニューラルスケーリング法則の理想化されたモデルである[量子化モデル](https://arxiv.org/abs/2303.13506)の下で証明を行いましたが、表現力の向上が確かにより効率的なスケーリング傾向につながることを示しました。したがって、ハイブリッドモデルとトランスフォーマーを比較した際の実際の観察結果のように、より表現力の高いアーキテクチャがより効率的な事前学習のスケーリング傾向を示すのは理にかなっています。 ## 次のステップ 私たちは、生成および推論ベンチマークにおける評価の拡大や、長いコンテキスト長における推論効率の優位性に関するさらなる調査など、ハイブリッドアーキテクチャの可能性を探り続ける予定です。 モデルとともに、主要な実証結果、上記の表現性向上の理論的根拠、表現性とデータ効率を結びつけるスケーリング則分析、ハイブリッド比や RNN レイヤー設計に関するアブレーションを含む実装詳細などを網羅した技術報告書も公開します。また、他のオープンモデル（ハイブリッド型およびそれ以外）との比較結果や、ポストトレーニングにおけるハイブリッドモデルの初期調査についても発表しています。 もう一度強調しておきますが、この方向性を探索したのは私たちだけではありません。Olmo Hybrid は、訓練のあらゆる側面で Olmo 3 と非常に近い比較対象となることで、他の最近のハイブリッドモデルリリースを補完するものです。Olmo 3 を上回る劇的な事前学習および中間学習での性能向上を確認できたことは、ハイブリッドモデルの有効性を示す説得力のある証拠となります。私たちは、ハイブリッドモデルが理論的洞察と実証結果の両方に裏打ちされた、分野にとって有望な方向性であると信じています。Olmo Hybrid をダウンロードし、[技術報告書](https://allenai.org/papers/olmo-hybrid)を詳しく読み込み、ご発見いただいたことをぜひお知らせください。 *本研究は、Olmo Hybrid の訓練において Lambda が提供した計算資源と専門的技術支援により多大な恩恵を受けました。そのサポートに感謝いたします。 最新の Ai2 ニュースに関する月次アップデートを受け取るには、購読してください。

Olmo Hybridの発表：トランスフォーマーと線形RNNを組み合わせ、優れたスケーリングを実現

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト