AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Allen AI (AI2)·2026年4月23日 17:00·約12分

OlmPool:小さなアーキテクチャの選択が長文コンテキスト拡張を阻害する仕組み

#Long Context#LLM Architecture#Allen AI#Model Evaluation
TL;DR

Allen AI は、OlmPool を用いて学習データやトレーニングレシピを一定に保った状態で、アーキテクチャの微小な選択が長文コンテキスト拡張においてどのように累積的に悪影響を与えるかを実証した。

AI深層分析2026年5月1日 04:03
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
4

キーポイント

1

制御された実験環境の構築

OlmPool は26個のモデルからなる統制されたスイートであり、学習データとトレーニングレシピを固定することで、アーキテクチャの違いのみが長文コンテキスト性能に与える影響を孤立させて評価可能にした。

2

微小な選択の累積的悪影響

単一の設計変更は軽微に見えても、それが積み重なることで長文コンテキストの拡張が著しく困難になることが示され、アーキテクチャ設計の重要性を浮き彫りにした。

3

データとレシピの限界

学習データやトレーニング手法(レシピ)が最適化されていても、基礎的なアーキテクチャの欠陥は長文処理能力を根本的に阻害することを明らかにし、単純なスケーリングでは解決できない課題がある。

影響分析・編集コメントを表示

影響分析

この研究は、LLM の長文コンテキスト拡張において、単なるデータ量やトレーニング手法の改善だけでなく、アーキテクチャ設計の質的側面が極めて重要であることを示唆しています。業界全体として、次世代モデルの開発においては、スケーリング則への依存だけでなく、アーキテクチャの詳細な最適化とその累積効果に対する深い理解が不可欠であるという認識を促す画期的な知見です。

編集コメント

データやトレーニング手法の最適化だけでは解決できない、アーキテクチャ設計の本質的な課題を浮き彫りにした重要な研究です。長文処理能力向上を目指す開発者にとって、設計選択の重みを再考するきっかけとなるでしょう。

ほとんどの言語モデルは、モデルが入力の基本単位として使用する単語サイズの断片であるトークンで測定される短いテキストシーケンスに対してトレーニングされ、その後、より長い文書に対する追加トレーニングを通じて、はるかに長い入力を処理できるように教え込まれます。このプロセスは「コンテキスト拡張」と呼ばれています。

コンテキスト拡張に関する公開された研究の大部分は、Llama ファミリーモデル上で開発および検証されてきました。これは Llama の人気による部分もありますが、同時に Llama 3 が非常に容易に拡張できるという事実にも起因しています。

しかし、Llama 3 の背後にある事前トレーニングデータが proprietary(独自)であるため、その拡張の容易さがアーキテクチャ上の決定によるものなのか、トレーニングデータによるものなのか、あるいは両方によるものなのかを判断することが困難でした。これは重要です。なぜなら、他のアーキテクチャに基づいて研究を進めている人々は、同じ拡張レシピが転移可能であると仮定せざるを得ないからです。

本研究では、それらがしばしばそうではないことを示し、アーキテクチャが拡張後のモデルの長文コンテキスト処理能力を決定する主要な要因であることを明らかにしました。少なくとも Olmo、Llama、または Qwen のいずれかのモデルファミリーに存在する 4 つのアーキテクチャ上の選択は、長文コンテキスト性能に対して複合的に悪影響を及ぼします。これらの選択のうちどれか一つだけでも軽微な影響しか持ちませんが、3 つ以上を組み合わると、長文コンテキストベンチマークでのスコアが最大で 47% 低下することがあります。これを研究するために、私たちは OlmPool を開発しました。これはこれらのアーキテクチャ上の差異を分離した、26 の 7B モデルからなる統制されたスイートです。コンテキスト拡張前後の完全なチェックポイントを含むこのスイート全体を公開します。

4 つのアーキテクチャ上の選択

OlmPool に含まれる各モデルは、同じデータで 1,400 億トークンにわたって事前学習され、その後、同じ長文コンテキストデータのミックスと手順を用いて 64K のコンテキストに拡張されました。モデル間で変化する唯一の要素はアーキテクチャであり、OlmPool を構築する総コストは約 160,000 GPU 時間のトレーニングです。

私たちがテストしたすべての 4 つの設計決定は、予測を行う際にモデルが入力のどの部分に焦点を当てるかを決定するメカニズムであるアテンション(attention)に影響を与えます。入力が長くなるにつれてアテンションへの要求が高まり、これらの設計決定がモデルの適応度をどのように形作るかが決まります:

QK 正規化。 QK 正規化は、各アテンション層内のクエリベクトルとキーベクトルを正規化する技術であり、通常はトレーニングの安定性を向上させ、大規模で不安定なアテンションスコアを防ぐために追加されます。これは Olmo 3、Qwen 3、Gemma 3 で使用されています。ヘッドごとの QK 正規化と呼ばれる変種では、層全体ではなく各アテンションヘッドごとに個別に正規化が適用され、この変種は Qwen 3 と Gemma 3 で採用されています。

グループ化クエリアテンション (GQA)。 GQA は、複数のアテンションヘッド間でキー・バリューパラメータを共有することで推論時のメモリ使用量を削減する効率化技術です。その代償としてモデルの容量が低下します。独立したキー・バリューヘッドが少ないということは、モデルが過去のコンテキストから情報を取得し組み合わせる際の柔軟性が低くなることを意味します。GQA は Llama 3、Qwen 3、Gemma 3 および他の多くの最近のモデルで使用されています。

スライディングウィンドウアテンション。 これは、大部分のアテンション層が入力の全体ではなく、近傍のトークンのローカルウィンドウのみを対象とするように制限するものです。少数の層だけがコンテキスト全体にわたって完全なアテンションを保持します。スライディングウィンドウアテンションは Olmo 3 と Gemma 3 で使用されています。Olmo 3 の構成では、完全アテンション層 1 層に対してローカルアテンション層が 3 層使用されます。

事前トレーニングのコンテキスト長。 一部のモデルファミリーは、より短いシーケンス長(例:4,096 トークン)で事前トレーニングを行い、長いコンテキストに到達するために完全に文脈拡張に依存します。一方、他のモデルはより長い長さ(例:8,192 トークン)で事前トレーニングを行うため、拡張前にある程度の長距離パターンへの曝露を得ています。

分析とベンチマーク結果

私たちは、3 つの確立された長文コンテキストベンチマークにおいてすべてのモデルを評価しました。HELMET は、さまざまなコンテキスト長におけるインコンテキスト学習、検索、および質問応答をテストします。RULER は、難易度が段階的に高くなる一連の合成検索タスクです。LongPPL は、長距離コンテキストに依存するトークンに焦点を当てたパープレキシティ(perplexity)の変種です。これら 3 つは密接に関連しており、可読性の観点から、以下では主に HELMET のスコアを報告します。

これらの評価において、モデルは OLMoE 事前トレーニングコーパスからの 1T トークンで事前トレーニングされた後、50B トークンの annealing(annealing)フェーズを経ます。完全な結果については、当社の技術レポートをお読みください。

実は、短いコンテキストの指標は長いコンテキストのパフォーマンスを予測できません。 標準的なトレーニング信号では、拡張後にモデルが長いコンテキストをどの程度処理できるかを示す兆候はほとんど得られません。トレーニングロス、検証時のパープレキシティ(モデルが未提示されたテキストをどれだけ正確に予測できるかを表す指標)、および16の短いコンテキストベンチマークのすべてが、32K や 64K のコンテキスト長で高いスコアを獲得するモデルを予測することに失敗します。同じベンチマークでもっとも短いコンテキスト分割である8KにおけるHELMETスコアさえも、拡張後のパフォーマンスにおける二桁の変動を予見することはできません。標準的な評価ではほぼ同一に見えるモデル同士でも、拡張すると32KのHELMETで26ポイント以上も乖離することがあります。

コンテキスト拡張は通常、開発サイクルの後半、アーキテクチャの決定がすでに確定した後に実施されます。しかし、標準的なトレーニング指標がこの問題を見逃す一方で、事前学習の初期段階でコンテキスト拡張実験を実行することで、コストを大幅に抑えつつ問題を表面化できることがわかりました。

これらの効果は複合的に作用します。 1 つのアーキテクチャ的特徴のみが異なるモデル間の対照比較では、個々の特徴の影響は概して限定的です。QK 正規化(QK normalization)が単独で最も大きな影響を与えます:Olmbo アーキテクチャにおいて QK ノルムを削除し、異なる正規化順序に切り替えると、32K の HELMET で 6 ポイントの向上が見られます。ヘッドごとの QK ノルムは、標準的なレイヤーごとのバージョンよりもさらにわずかな性能低下を引き起こします。GQA(Grouped Query Attention)と短い事前トレーニング文脈長はそれぞれより小さな低下をもたらしますが、スライディングウィンドウアテンション(sliding window attention)は単独で HELMET で約 1 ポイントのコストを要します。

しかし、これらの選択が組み合わされると、その効果は各部分の単純な合計よりもはるかに大きくなります。GQA を使用しているモデルにスライディングウィンドウアテンションを追加すると、平均して約 9 ポイントのパフォーマンス低下が生じます。OlmPool における最悪スコアの構成では、モデルが完全な入力に対して柔軟に注意を向ける能力を制約する 2 つ以上の選択が組み合わされています。

実際、長文脈性能に対する単一の最も良い予測因子は、OlmPool の 4 つのアーキテクチャ的選択のうちいくつが存在するかを単純に数えることであることがわかりました。この数値自体が、4 つの選択を別々の変数として使用する統計モデルよりも、モデル間のばらつきをより多く説明します。

Llama 3 は長文コンテキストにおいて強力ですが、必ずしも最良とは限りません。 OlmPool ではデータが一定に保たれているため、Llama 3 の構成は最も優れたパフォーマンスを示すものの一つですが、すべてのケースで最適というわけではありません。他のいくつかのモデルはこれを明確に上回っています。これは Llama 3 の長文コンテキストにおける成功が主にアーキテクチャによるものであり、Llama で検証された拡張レシピは他のモデルファミリーでは適応が必要であることを示唆しています。

アーキテクチャに起因する格差は、データ量を増やしても解消されません。 これを二つの方法でテストしました。

  • まず、3 つの代表的なモデルに対して、1B、10B、50B トークンの 3 つのデータ規模でコンテキスト拡張(context extension)を実行しました。すべてのモデルがデータ量が増えるにつれて性能向上を示しますが、アーキテクチャに起因する差異は残りました。コンテキスト拡張に 50B トークンを使用し、これは総トレーニング量の 26% に相当しても、最悪のアーキテクチャでは、Llama アーキテクチャがわずか 1B トークンのコンテキスト拡張で達成した性能には到達できません。
  • 次に、70B から最大 2 トリリオントークンに及ぶ非常に長い事前学習(pretraining)の実行中、複数の時点でコンテキスト拡張を行いました。アーキテクチャ間の相対順位は、140B トークン以降も一貫して維持されました。アテンションパターン(attention patterns)がその理由を説明します。 OlmPool に含まれる 26 のモデルすべてについて、コンテキスト全体にわたるアテンションの分散方法を分析した結果、QK ノーム(QK norm)を持たないモデルでは、より強いアテンションシンク(attention sinks)が発達することがわかりました。アテンションシンクとは、入力列の初期位置(通常は最初の数トークン以内)で、現在の予測に無関係であるにもかかわらず、一貫して大量のアテンションを割り当てられてしまう現象です。研究者たちは一般的に、アテンションシンクがモデル圧縮を複雑にするため望ましくないと考えてきました。しかし、OlmPool における分析では、より強いシンクは優れた長文コンテキスト性能と相関していました。過剰なアテンション重みを管理するための他のメカニズムが存在しない場合、シンクは QK ノームを持たないモデルが、長い入力に対する検索(retrieval)をサポートするために学習するデフォルトの戦略であるように見えます。

また、モデルが長いドキュメントに埋め込まれた特定の情報を検索できるかどうかをテストしました。これは、ターゲットとなる事実が長い文章のどこかに配置される「干し草の中の針」設定を用いたものです。QK norm を採用したモデルは、ターゲット情報に対して注意を向ける割合が少なく、全体的な長期コンテキスト性能が劣っていることと一致しています。

OlmPool: コミュニティ向けのリソース

私たちが研究した 4 つのアーキテクチャ上の選択には、それぞれ他の文脈において明確な利点があります。QK norm はトレーニングの安定性を向上させ、短い事前トレーニングコンテキスト長は計算効率に優れており、GQA(Grouped Query Attention)とスライディングウィンドウアテンション(sliding window attention)はいずれも推論コストを削減します。しかし、私たちの研究では、これらの組み合わせが実務者が予想するよりもはるかに低い長期コンテキスト性能を生み出すことが示されました。また、この結果は標準的なトレーニング信号からは検出できないことも明らかになりました。

私たちは、完全な事前トレーニングおよびコンテキスト拡張プロセスをカバーする 26 の OlmPool モデル(それぞれ 38 チェックポイントを含む)を公開します。これらのモデルが、より優れたコンテキスト拡張手法の開発や、早期の事前トレーニングにおける他の現象の研究に役立つことを願っています。

Ai2 の最新ニュースに関する月次更新を受け取るには購読してください。

原文を表示

Most language models are trained on short sequences of text – measured in tokens, the word-sized fragments that models use as their basic unit of input – and then taught to handle much longer inputs through additional training on longer documents, a process called context extension. A large share of the published work on extending context has been developed and validated on Llama-family models, partly because of Llama's popularity, but also because Llama 3 happens to extend very easily.

But since the pretraining data behind Llama 3 is proprietary, it has been difficult to tell whether that ease of extension comes from architectural decisions, the training data, or both. This matters because researchers building on other architectures have had to assume that the same extension recipes will transfer.

In this work, we show that they often do not, and that architecture is a primary driver of how well a model handles long context after extension. Four architectural choices – each present in at least one of the Olmo, Llama, or Qwen model families – have a compoundingly negative effect on long context performance. Any one of these choices alone has a minor impact. Combining three or more can drop scores on long context benchmarks by up to 47%. To study this, we developed OlmPool, a controlled suite of 26 7B models that isolate these architectural differences. We're releasing the whole suite with full checkpoints before and after context extension.

The four architectural choices

Each model in OlmPool was pretrained for 140 billion tokens on the same data, then extended to 64K context using the same long context data mix and procedure. The only thing that varies across models is the architecture; the total cost of constructing OlmPool is approximately 160,000 GPU hours of training.

All four design decisions we tested affect attention, the mechanism that determines which parts of the input the model focuses on when making a prediction. As inputs get longer, the demands on attention increase, and these design decisions shape how well the model adapts:

QK normalization. QK norm is a technique that normalizes the query and key vectors inside each attention layer, typically added to improve training stability and prevent large, erratic attention scores. It’s used in Olmo 3, Qwen 3, and Gemma 3. A variant called headwise QK norm applies normalization separately to each attention head rather than across the full layer; this variant is used by Qwen 3 and Gemma 3.

Grouped-query attention (GQA). GQA is an efficiency technique that shares key-value parameters across multiple attention heads, reducing memory usage during inference. The tradeoff is reduced model capacity: fewer independent key-value heads means the model has less flexibility in how it retrieves and combines information from prior context. GQA is used in Llama 3, Qwen 3, Gemma 3, and many other recent models.

Sliding window attention. This restricts most attention layers to look at only a local window of nearby tokens rather than the full input. A smaller number of layers retain full attention over the entire context. Sliding window attention is used in Olmo 3 and Gemma 3. The Olmo 3 configuration uses three local-attention layers for every one full-attention layer.

Pretraining context length. Some model families pretrain at shorter sequence lengths (e.g., 4,096 tokens) and rely entirely on context extension to reach longer contexts later. Others pretrain at longer lengths (e.g., 8,192 tokens), giving the model some exposure to longer-range patterns before extension.

Analysis and benchmark results

We evaluated every model on three established long context benchmarks: HELMET, which tests in-context learning, retrieval, and question answering at various context lengths; RULER, a set of synthetic retrieval tasks of increasing difficulty; and LongPPL, a variant of perplexity focused on tokens that depend on long-range context. All three correlate closely—for readability, we primarily report HELMET scores below.

In these evaluations, models are pretrained on 1T tokens from the OLMoE pretraining corpus, followed by a 50B-token annealing phase. For full results, read our technical report.

As it turns out, short context metrics don't predict long context performance. Standard training signals give almost no indication of how well a model will handle long context after extension. Training loss, validation perplexity (how well the model predicts held-out text), and a suite of 16 short-context benchmarks all fail to predict which models will score well at 32K or 64K context lengths. Even HELMET scores at 8K – the shortest context split of the same benchmark – fail to anticipate double-digit swings in post-extension performance. Models that look nearly identical on standard evaluations can diverge by more than 26 points on HELMET at 32K once extended.

Context extension typically happens late in the development cycle, well after architecture decisions have been locked in. But while standard training metrics miss these issues, we found that running a context extension experiment early in pretraining can surface problems at a fraction of the cost.

These effects compound. In paired comparisons between models that differ in only one architectural feature, most individual features have a modest effect. QK normalization has the single largest individual impact: on the Olmo architecture, removing QK norm and switching to a different normalization ordering yields a 6-point gain on HELMET at 32K. Headwise QK norm causes an additional slight degradation beyond the standard layerwise version. GQA and shorter pretraining context length each cause smaller drops, and sliding window attention costs about 1 point on HELMET in isolation.

But when these choices are combined, the effects are much larger than the sum of their parts. Adding sliding window attention to a model that also uses GQA drops performance by around 9 points on average. The worst-scoring configurations in OlmPool combine two or more choices that constrain how flexibly the model can attend over its full input.

Indeed, we found that the single best predictor of long context performance is simply counting how many of the four architectural choices in OlmPool are present—that count alone explains more of the variation across models than a statistical model using the four choices as separate variables.

Llama 3 is strong for long context, but not necessarily the best. In OlmPool, where data is held constant, the Llama 3 configuration is one of the strongest performers—but it isn’t the optimum in all cases. Several other models measurably beat it. This confirms that Llama 3's long context success is primarily architectural, and it suggests that extension recipes validated on Llama may need adaptation for other model families.

Architecture-driven gaps don't wash out with more data. We tested this in two ways:

  • First, we ran context extension at three data scales – 1B, 10B, and 50B tokens – on three representative models. All three improve with more data, but the architecture-originated deltas remain. Even after 50B tokens of context extension, representing 26% of total training, the worst architecture doesn’t reach the performance the Llama architecture achieves after just 1B tokens.
  • Second, we performed context extensions at multiple points during much longer pretraining runs, from 70B up to 2 trillion tokens. The relative ranking of architectures stays consistent from 140B tokens onward.

Attention patterns help explain why. We analyzed how all 26 models in OlmPool distribute attention across their context and found that models without QK norm develop stronger attention sinks—positions early in the input (typically among the first few tokens) that consistently receive a large share of attention, even when they aren’t relevant to the current prediction. Researchers have generally considered attention sinks undesirable, since they can complicate model compression. But in OlmPool, stronger sinks correlate with better long context performance. In the absence of other mechanisms for managing excess attention weight, sinks appear to be the default strategy learned by models without QK norm to support retrieval over long inputs.

We also tested whether models could retrieve specific information embedded in long documents, using a needle-in-a-haystack setup where a target fact is placed somewhere in a long passage. Models with QK norm placed less attention on the target information, consistent with their weaker long context performance overall.

OlmPool: a resource for the community

Each of the four architectural choices we studied has a clear benefit in other contexts—QK norm improves training stability, shorter pretraining context length is more compute-efficient, and GQA and sliding window attention both reduce inference cost. But our work shows that the combination can produce long context performance far below what practitioners would expect, and that this outcome isn’t visible from standard training signals.

We're releasing all 26 OlmPool models with 38 checkpoints each, covering the full pretraining and context extension process. We hope these models are useful both for developing better context extension methods and for studying other phenomena in early pretraining.

Subscribe to receive monthly updates about the latest Ai2 news.

この記事をシェア

関連記事

Allen AI (AI2)重要度42026年6月25日 17:00

ハイブリッドモデルはどのトークンをより正確に予測するか?

Allen AI (AI2)2026年6月18日 17:00

Domyn と AISquared が Ai2 のオープンリリースをどう活用したか

Allen AI (AI2)重要度42026年6月18日 17:00

Domyn と AISquared が Ai2 のオープンリリースをどう活用したか

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む