AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業このサイトについてRSS
© 2026 ainew.jp
お問い合わせ特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年6月26日 01:11·約10分で読める

ハイブリッドモデルはどのトークンをより正確に予測するか?

#LLM#Hybrid Models#Token Prediction#Hugging Face
TL;DR

Hugging Face Blog は、ハイブリッド型言語モデルが従来の単一アーキテクチャモデルと比較して、特定のトークン予測において精度向上を示す分析結果を公開した。

AI深層分析2026年6月26日 02:06
3
注目/ 5段階
深度40%
4
関連度30%
4
実用性20%
3
革新性10%
3

キーポイント

1

ハイブリッドモデルの精度特性

研究により、ハイブリッド型モデルが従来のモデルよりも特定の種類や文脈のトークンをより正確に予測できることが実証された。

2

アーキテクチャ比較分析

単一モジュール構成と混合专家(MoE)やハイブリッド構成を比較し、それぞれの強みが異なるトークンタイプで発揮されることを明らかにした。

3

実用への示唆

モデル選択において、タスクの性質に応じて最適なアーキテクチャを選ぶ重要性が再確認され、開発指針としての価値を示している。

影響分析・編集コメントを表示

影響分析

この分析は、LLM のアーキテクチャ選択において「万能モデル」ではなく「用途特化型」の重要性を浮き彫りにしており、開発者がコストと精度のバランスを最適化する際の指針となる。特にハイブリッド構造がもたらす微妙な性能差を定量化した点は、実務におけるモデル選定の質を高める貢献がある。

編集コメント

アーキテクチャの細部まで踏み込んだ分析は、実務家にとって非常に参考になりますが、具体的なベンチマーク数値や詳細な実験設定が原文に明記されていない点は情報不足です。

記事一覧に戻る

  • アテンションと再帰の比較、その差を測定する
  • 実際のテキストが示すもの
  • 私たちが今どこにいるか

📄 技術報告書: https://arxiv.org/abs/2606.20936

モデルはどのような種類のトークンをよく予測し、どのようなものを予測できないのか?この問いは特にハイブリッド(hybrid)モデルにおいて興味深いものです。ハイブリッドとは、標準的なトランスフォーマーに挑戦し始めた言語モデルアーキテクチャであり、私たちは Olmo Hybrid を通じてこれを調査しています。

ハイブリッドは標準ベンチマークにおいてトランスフォーマーと同等かそれ以上の性能を発揮しますが、主要な数値だけでは、ハイブリッドモデルがトランスフォーマーに対して持つ具体的な優位性についてはあまり明らかになりません。

これらのトークンレベルの振る舞いについて光を当てる試みとして、私たちは最近、最も強力な 7B トランスフォーマーである Olmo 3 とハイブリッドモデルである Olmo Hybrid を直接比較する実験を行いました。具体的には、LLM(大規模言語モデル)への入力として現れる異なる種類のトークン、すなわち情報の単位において、モデルの予測の違いを微細に比較します。

Olmo 3 と Olmo Hybrid は、アーキテクチャ以外の部分(データ、トークナイザー、トレーニングレシピ)を可能な限り一致させて構築されているため、両者の予測における違いは主にアーキテクチャそのものによるものです。これらの違いをトークンレベルで観察することで、ハイブリッドモデルがトランスフォーマーモデルに対して持つ具体的な強みについて洞察を得ることができます。

私たちの結果 は、ハイブリッドモデルの優位性が多くのトークンにおいて実証されていることを示していますが、すべてのトークンで当てはまるわけではありません。Olmo Hybrid は、名詞、動詞、形容詞など意味を担うトークンや、文脈の流れを追跡することでしか予測できないトークン(例えば、代名詞がどの人物を指しているかといったもの)において最も強力です。しかし、入力に含まれる内容を単に繰り返すだけのトークン、つまり以前に出た単語やフレーズをそのまま再現する必要がある場合、ハイブリッドモデルの優位性はほぼ消滅します。このようなケースでは、答えはすでにそこにあり、参照するだけで済むからです。こここそがトランスフォーマーモデルの強みが発揮される領域です。

アテンションと再帰性、そしてその差の測定

言語モデルは、繰り返しの層を積み重ねて構築されており、各層は周囲のトークンを用いて、すべてのトークンの表現を徐々に洗練させていきます。

トランスフォーマーは、すべての層においてアテンション(注意機構)を使用します。このモデルは、すべての以前のトークンを一度に直接参照し、それぞれが現在の予測に対してどの程度関連しているかを重み付けます。これにより、アテンションは、そのトークンが入力データの遠く後方に現れていたとしても、特定の以前のトークンを正確に思い出すのに優れています。ただし、すべてのトークンがそれ以前のすべてのトークンと比較されるため、入力サイズが大きくなるにつれてアテンションのコストは急激に上昇します。さらに、アテンションは情報の想起と集約には強力ですが、時間とともに逐次的に変化する情報を表現することには苦戦します。

ハイブリッドモデルは、いくつかのアテンション層を維持しつつ、残りの層をリカレント(再帰的)層に置き換えます。アテンション層とは異なり、リカレント層は左から右へトークンを読み取り、固定サイズのメモリを保持しながら、新しいトークンを一つずつメモリに折りたたんでいきます。これにより、入力長がどれだけ長くても、各トークンの処理コストは一定のまま保たれます。このメモリは圧縮されており情報損失を伴うため、リカレント層はアテンションのように正確な以前のトークンを呼び出すことはできません。しかし、モデルがトークンを読み進めるにつれて変化するものの継続的な記録を維持するには非常に適しており、アテンションの強さを補完する役割を果たします。

アテンション層とリカレント層の強みと弱みを特定するために、Olmo 3 と Olmo Hybrid に記事、ウィキペディアのエントリ、書籍、科学論文といったテキストや、Python、HTML、LaTeX といった構造化テキストを供給しました。各モデルは、与えられたサンプル内で先行するトークンから次のトークンを予測する精度について評価されました。

両モデルは同じ先行トークンを見て、あり得るすべての次トークンに対して確率を割り当てます。実際に次に現れたトークンに対して各モデルが付与した確率を記録しました。その後、2 つのモデル間の損失ギャップ(つまり 2 モデル間の損失差)を計算することで、トークンごとに 2 モデルの違いを要約します。正のギャップはハイブリッドモデルが実際の次トークンをよりよく予測したことを意味し、負のギャップはトランスフォーマーモデルの方が優れていたことを示します。

損失ギャップがどこに集中する可能性があるかを調べるために、いくつかの分析を行いました。まず、各トークンをカテゴリに分類し、これらのカテゴリ内での損失ギャップを平均化しました。生の平均値は、カテゴリの希少性やテキストサンプル内でのトークンの反復頻度といった他の要因によって歪められる可能性があるため、他の要因を一定に保ちながらカテゴリ自体の影響を推定する回帰分析を用いて各パターンを再検証しました。

実際のテキストが示すもの

Olmo Hybrid は、ほとんどの種類のトークンにおいて Olmo 3 よりも低い損失を示しますが、その差は種類によって一律ではありません。

文章において、最も明確な区切りは、意味を担う名詞・動詞・形容詞などの内容語と、「the」「of」「is」などの機能語との間に見られます。ハイブリッドモデルはトランスフォーマーよりも内容語の予測に優れており、その損失の差は約 0.04 です。一方、機能語における差は約 0.02 とより小さいものです。

特に副詞や形容詞といった内容語のカテゴリーにおいて、ハイブリッドモデルの優位性は顕著です。ただし、「there」のような存在を表す機能語のカテゴリーでも、ハイブリッドモデルに大きな利点が見られます。要するに、ハイブリッドモデルの優位性が最も大きいのは文が何について述べているかを表す単語であり、最小限なのは、どのモデルも構文からほぼ推測できるような文法用語です。

一方、ハイブリッドモデルの優位性がトランスフォーマーに対して消滅する特定の文脈も見られます。その一つは閉じ括弧(braces)ですが、開き括弧ではありません。このパターンは、言語、コード、マークアップを問わず、すべての括弧類にわたって堅牢です。なぜでしょうか? 注意機構(attention)が括弧の対応関係を表現するのに十分であることは知られており、これは注意機構のみで閉じ括弧の予測も可能であることを示唆しています。

ハイブリッドモデルの優位性がほぼ消滅するもう一つの場所は、次のトークンがすでに文中にあるものを単に繰り返している場合です。これらのケースは、連続したテキスト(n-grams)を繰り返し検索することで特定できます。これは、あるシーケンスを完了させるトークンが、同じ文中で以前に文字通り出現していたパターンです。繰り返しの長さが長いほど、ハイブリッドモデルのリードは小さくなり、最終的にはゼロに近づきます。

最後に、これらの知見に触発され、特定の種類のトークンに対するフィルタリングされた損失を評価指標として用いることで、事前学習実験における異なるアーキテクチャをより適切に比較できるか探索しました。私たちは、以前の Olmo Hybrid 研究 で使用した 3 つの 10 億パラメータモデル、すなわちトランスフォーマー、ハイブリッド型、そして注意機構を全く持たない純粋なリカレントモデルを用いました。

意味を持つ繰り返しでないトークンにおいては、ハイブリッド型と純粋なリカレントモデルがトランスフォーマーを上回り、その中でハイブリッド型が最も優れた性能を示しました。一方、繰り返されるトークンにおいては、コピーのために過去を参照する注意機構を持たない純粋なリカレントモデルは、ハイブリッド型およびトランスフォーマーの両方に後れを取ります。

したがって、これらのフィルタリングされたトークン損失は、コピー能力やトレーニング初期における内容語(content words)の違いなど、アーキテクチャ間の異なる微細な差異を明らかにします。これは、通常の手法では見ることができない違いです。

ここまでの結論

*10 億パラメータの事前学習中にフィルタリングされたトークン損失がアーキテクチャの違いを浮き彫りにしました。WSD(Word Sense Disambiguation)アニーリング済みチェックポイントにおける、トランスフォーマー、ハイブリッド型、および純粋なリカレントニューラルネットワーク(RNN: Recurrent Neural Network)のトークン損失曲線。

この研究から得られる教訓は 2 つあります。

第一に、モデルがすべてのトークンにわたる平均誤差である単一の全体損失では、トランスフォーマーとハイブリッド型アーキテクチャを比較するには粗すぎます。特定のモデル能力を検証するトークンのみに焦点を当てて損失を評価することで、重要な違いが浮き彫りになります。

第二に、特にハイブリッドモデルにおいては、オープンクラス(open-class)のトークンに対して特定の利点があるという証拠を見出しました。これはおそらく RNN レイヤーの状態追跡能力に関連していると考えられます。

次のステップとして、これらの知見を現在進行中のハイブリッドモデリング作業に取り入れていきます。各コンポーネントがどの程度の性能を発揮するかをトークン単位で理解することから、最適なハイブリッドアーキテクチャが生まれると私たちは信じています。このような研究が、AI コミュニティ全体における理解の深化に寄与することを願っています。

ぜひ、完全なレポートをお読みいただき、Olmo 3 を探索し、Olmo Hybrid を試して、関連するオープンな成果物についても詳しく調べてみてください。

原文を表示

Back to Articles

  • Attention versus recurrence, and measuring the difference
  • What real text shows
  • Where this leaves us

📄 Tech report: https://arxiv.org/abs/2606.20936

Which kinds of tokens does a model predict well, and which does it not? That question is especially intriguing in the case of hybrids, a language model architecture that’s begun to challenge the standard transformer and that we’ve been investigating with Olmo Hybrid.

Hybrids can match or beat transformers on standard benchmarks, but the headline numbers don’t reveal much about what specific advantages hybrid models have over transformers.

In an attempt to shed light on these token-level behaviors, we recently conducted experiments comparing our own strongest 7B transformer, Olmo 3, and hybrid model, Olmo Hybrid, head-to-head. Specifically, we compare the differences in model predictions in a fine-grained way across different types of tokens, or units of information that appear as input to an LLM.

Because Olmo 3 and Olmo Hybrid were built to be as alike as possible outside their architectures — closely matched in data, tokenizer, and training recipe — any difference in their predictions mostly reflects the architecture itself. Viewing these differences at the token level allows us to glean insights about the specific strengths of hybrid models over transformers.

Our results show that the hybrid’s advantage is real across many tokens, but not all. Olmo Hybrid is strongest on tokens that carry meaning, such as nouns, verbs, and adjectives, and on tokens that can only be predicted by following what’s going on, like which person a pronoun refers to. But the hybrid’s advantage almost disappears on tokens that simply repeat something already in the input — a word or phrase reproduced verbatim from earlier — where the answer is sitting right there to be looked up. That’s where the transformer’s strength lies.

Attention versus recurrence, and measuring the difference

A language model is built from a stack of repeated layers, each one refining its representation of every token using the tokens around it.

A transformer uses attention in every layer. The model can draw directly on every earlier token at once, weighing how relevant each is to the current prediction. That makes attention good at recalling a specific earlier token exactly, even when that token appeared far back in the input. The catch is that every token is compared against all the earlier ones, so attention’s cost climbs steeply as the input grows. Additionally, while attention is strong at recalling and aggregating information, it also struggles to represent information that evolves sequentially over time.

A hybrid model keeps a few attention layers but swaps the rest for recurrent layers. Unlike an attention layer, a recurrent layer reads tokens left to right and carries a fixed-size memory, folding each new token into memory as it goes so the cost of processing each token stays flat however long the input gets. That memory is compressed and lossy, so a recurrent layer can’t reach back for an exact earlier token the way attention can. But it is well suited to keeping a running account of anything that changes as the model reads tokens, providing a complementary strength to attention.

To isolate the areas of strength and weakness for attention and recurrent layers, we fed Olmo 3 and Olmo Hybrid passages of text: articles, Wikipedia entries, books, and scientific papers, as well as structured text like Python, HTML, and LaTeX. We scored each model on how well it predicted each token from the tokens before it in a given sample.

Both models saw the same earlier tokens and assigned a probability to every possible next token. We recorded the probability each gave to the token that actually followed. We then summarize the difference between the two models token by token by computing the loss gap, or the difference in loss between the two models. A positive gap means the hybrid predicted the real next token better. A negative gap means the transformer did.

To find where the loss gaps might concentrate, we ran several analyses. First, we sorted each token into a category and averaged the loss gap within these categories. Because a raw average can be skewed by other factors, such as a category’s rarity or how often tokens repeat in a sample of text, we re-checked each pattern with a regression that estimates the category’s own effect while holding other factors constant.

What real text shows

We find that Olmo Hybrid has lower loss than Olmo 3 on most kinds of tokens, though not by the same amount on each.

In prose, the clearest divide is between content words — meaning-bearing nouns, verbs, and adjectives — and function words like “the,” “of,” and “is.” The hybrid predicts content words better than the transformer, with a loss gap around 0.040.04, whereas the gap is closer to 0.020.02 on function words.

In particular, on content-word categories like adverbs and adjectives, the advantage of hybrid models is especially pronounced, though some function-word categories like existentials, such as “there,” also show a large advantage for hybrid models. In short, the hybrid’s edge is biggest on the words that say what a sentence is about and smallest on the grammatical words any model can nearly guess from syntax.

In contrast, we find some specific contexts where the advantage of hybrid models over transformers disappears. The first is closing, but not opening, braces, a pattern that is robust across brackets in language, code, and markup. Why? It’s known that attention suffices for representing bracket matching, which suggests attention alone suffices for closing brace prediction.

The second place where the hybrid’s advantage all but disappears is when the next token simply repeats something already in the passage. We spot these cases by looking for repeated n-grams: runs of text where the token that completes a sequence has appeared, verbatim, earlier in the same passage. The longer the repeated run, the smaller the hybrid’s lead, until it approaches zero.

Finally, inspired by these findings, we explore using filtered losses on specific types of tokens as an evaluation to better compare different architectures in pretraining experiments. We use three 1B-parameter models from our earlier Olmo Hybrid work: a transformer, a hybrid, and a pure recurrent model with no attention at all.

On meaning-bearing tokens that aren’t repeats, the hybrid and pure recurrent model overtake the transformer, with the hybrid performing the best. On repeated tokens, the pure recurrent model — with no attention to reach back for the copy — falls behind both the hybrid and the transformer.

Thus, these filtered token losses reveal different fine-grained differences between architectures, including copying abilities and differences on content words, early in training in a way that would not otherwise be visible.

Where this leaves us

*Filtered token losses surface architecture differences during 1B pretraining. Token-loss curves at WSD-annealed checkpoints for a transformer, a hybrid, and a pure recurrent neural network, or RNN.*

Two lessons follow from this work.

First, a single overall loss — the model’s average error across all tokens — is too blunt to compare transformer and hybrid architectures. Scoring the loss on just the tokens that test a specific model ability surfaces key differences.

Second, specifically for hybrid models, we found evidence of particular advantages on open-class tokens, which perhaps is related to the state-tracking capabilities of RNN layers.

As a next step, we’re taking these findings into our ongoing hybrid modeling work. We believe the best hybrid architectures will come from understanding, token by token, what each component of a model does well. We hope studies like this help that understanding grow across the whole AI community.

We encourage you to read our full report, explore Olmo 3, try Olmo Hybrid, and dig into their associated open artifacts.

この記事をシェア

関連記事

TLDR AI★42026年6月25日 09:00

NVIDIA NeMo AutoModelによるTransformersの微調整加速

NVIDIAはHugging FaceでNeMo AutoModelを公開し、Qwen3やDeepSeek V3のような大規模Mixture-of-Expertsアーキテクチャの微調整パイプラインを最適化した。同フレームワークはExpert ParallelismとDeepEP融合通信カーネルを導入し、GPUクラスター上で専門的なエキスパート重みを動的に分散させることで、トレーニングスループットを最大3.7倍向上させ、ピークGPUメモリ使用量を32%削減した。

TechCrunch AI★42026年6月26日 02:38

Anthropic の Claude が有料消費者層で ChatGPT を凌駕し市場を席巻

Anthropic が提供する AI チャットボット「Claude」が、従来 ChatGPT が独占していた有料顧客市場において支持を集め、シェア拡大に成功していることが示された。

NVIDIA Developer Blog★42026年6月26日 01:43

NVIDIA TensorRT を用いた複数 GPU での AI 推論のスケーリングとマルチデバイス推論サポートの紹介

NVIDIA は、TensorRT の新機能であるマルチデバイス推論サポートを活用し、複数の GPU にわたって AI 推論を効率的にスケーリングする手法を発表した。これにより大規模モデルの実行性能が向上する。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む