Olmo Hybridの発表:トランスフォーマーと線形RNNを組み合わせ、優れたスケーリングを実現
Allen AIは、Transformerと線形RNNを組み合わせるハイブリッドアーキテクチャを採用した7Bパラメータの完全オープンモデル「Olmo Hybrid」をリリースし、同等性能を達成するために必要な学習トークン数を約半分(49%削減)に抑えるデータ効率の向上を実証した。
キーポイント
Olmo Hybridの公開と性能比較
7Bパラメータの完全オープンモデル「Olmo Hybrid」をリリースし、従来のTransformerベースモデル「Olmo 3」との制御された比較において、明確な性能向上を示した。
ハイブリッドアーキテクチャの優位性
Transformerの詳細な記憶能力と線形RNNの効率的な状態追跡機能を組み合わせることで、純粋なTransformerや線形RNN単独よりも表現力が高く、事前トレーニング中のスケーリング効率が高まることを理論的・実験的に証明した。
データ効率の大幅な向上
MMLUベンチマークにおいて、Olmo 3と同等の精度を達成するために必要なトークン数を49%削減(約2倍のデータ効率)することに成功し、半分のデータで同等の能力を得られるか、同じデータでより高性能なモデルを学習できることを示した。
Transformerの限界とハイブリッドの解決策
Transformerが長文コンテキストにおいて計算コストが二次関数的に増加する課題を抱える中、ハイブリッドモデルはコンテキスト長の拡大に伴う推論コストの増大を抑制しつつ、正確なインコンテキスト記憶と状態追跡の両立を実現する。
影響分析・編集コメントを表示
影響分析
この発表は、Transformer一択だったLLMのアーキテクチャ選択肢を広げ、特に長文コンテキスト処理におけるコスト効率を劇的に改善する可能性を示唆しています。データ効率の向上は、大規模モデルの学習コスト削減に直結するため、リソース制約のある研究機関や企業にとって重要な知見となります。また、「ハイブリッド」という概念が単なる実験段階から、実用的なパフォーマンス向上をもたらす段階に入ったことを示すマイルストーンと言えます。
編集コメント
Transformerの計算コスト課題を解決する「ハイブリッド」アプローチが、単なる理論的な興味から実証済みの効率化手段へと成熟しつつあることを示す重要な事例です。
ハイブリッド言語モデル、すなわちトランスフォーマーの注意機構と線形再帰層を混合したアーキテクチャは、Samba、Nemotron-H、Qwen3-Next、Kimi Linear、Qwen 3.5 などのプロジェクトにおける最近の取り組みにより、分野全体で勢いを増しています。トランスフォーマーがシーケンスの初期部分から正確な詳細を recall(記憶)する能力と、再帰層が進化する状態を追跡する効率性を組み合わせることで、ハイブリッドモデルは長いコンテキスト長において、より高性能かつ実行コストが低いことが期待されています。しかし、コミュニティの間では、ハイブリッドアーキテクチャ purportedly(称されている)な利点が、それらをスケールアップするためのコストを正当化するかどうかについて合意形成されていませんでした。
本日、Olmo Hybrid をリリースいたします。これは 7B パラメータの完全オープンなモデルファミリーであり、Olmo 3 7B との制御された比較において明確な性能向上を示すことで、ハイブリッドモデルを支持する説得力のある証拠を提供します。さらに、当社のレポートでは、理論分析とスケーリング実験を通じて、なぜハイブリッドモデルがトランスフォーマーよりも優れたパフォーマンスを発揮するのかを深く解説しています。新しい研究により、ハイブリッドアーキテクチャは純粋なトランスフォーマーや純粋な線形 RNN(Recurrent Neural Network)単体よりも本質的に表現力が高いことが示され、この表現力の優位性が事前学習中のより効率的なスケーリングに直接寄与することが明らかになりました。一般知識と推論のための広く使用されているベンチマークである MMLU において、Olmo Hybrid は Olmo 3 と同等の精度を達成しますが、必要なトークン数は 49% 削減されています。これは約 2 倍のデータ効率性を意味します。つまり、同じ能力を得るために半分だけのデータでトレーニングできるか、あるいは同じデータ量でトレーニングしてより有意に優れたモデルを獲得できるのです。
結果の詳細に入る前に、なぜ私たちがハイブリッドアーキテクチャを言語モデリングにおける重要な方向性と考えているのかを理解しておく価値があります。
トランスフォーマーアーキテクチャは、2017 年の登場以来、言語モデリングの分野を支配し続けています。その中核には、「自己注意(self attention)」と呼ばれるメカニズムがあり、これはモデルがシーケンス内のすべての先行単語を同時に参照し、次の単語予測に対してどの単語が最も関連性が高いかを決定する仕組みです。内部計算に内在する並列処理により、トランスフォーマーは現代のハードウェア上でトレーニングを行う際に極めて効率的であり、入力シーケンスの任意の部分に直接アクセスできる能力は、文脈内での記憶(in-context recall)において顕著な性能を発揮します。
しかし、トランスフォーマーには限界もあります。その注意メカニズムはシーケンス長に対して二次関数的にスケーリングするため、2 倍の長さのシーケンスを処理するには計算量が 4 倍必要となり、コンテキストが拡大するにつれて推論コストはますます高騰します。また、記憶タスクにおいては卓越していますが、トランスフォーマーは自然な状態追跡(state tracking)——例えば、チェス盤の状態がプレイヤーの手番によって変化するのを追うように、継続的な集計の更新や変化する状況に対するメンタルモデルの維持が必要となる計算——を本質的に表現するものではありません。私たちの過去の理論的研究および研究はこの点を探求してきました。
再帰型ニューラルネットワークは、根本的に異なるアプローチを採用しています。一度にシーケンス全体を参照するのではなく、RNN はテキストをトークン単位で処理し、新しい入力ごとに更新される隠れた「状態」を維持します。これにより RNN は状態追跡に適していますが、従来の RNN はその逐次的な性質が並列化を妨げるため、大規模での訓練が困難です。
最近の並列化可能な線形 RNN や状態空間スタイルのモデルに関する研究は、再帰構造を効率的に訓練可能となるように再設計することで、再帰的アプローチへの関心を復活させました。これらのモデルは推論時にシーケンス長に対して線形的にスケーリングしますが、過去の情報を有界な状態に圧縮するため、シーケンスの初期部分からの正確な想起が必要なタスクでは困難を伴うことがあります。
これが、トランスフォーマーと線形 RNN の層を混合して各アーキテクチャの利点を得るハイブリッドモデルである Olmo Hybrid へとつながります。さらに、私たちはハイブリッドモデルが、単独で用いられるトランスフォーマーや線形 RNN よりも表現力が高いことを示しました。この理論的動機により、私たちはハイブリッドモデルのスケーリング拡大を探求し、それが Olmo 3 と比較して事前学習性能の向上につながることを見出しました。
Olmo Hybrid の概要
私たちのハイブリッドモデルは、トランスフォーマー層とゲート付き DeltaNet 層を交互に配置しています。DeltaNet は現代的な線形 RNN の設計でありながら、訓練中は並列化が可能で、表現力豊かな状態ダイナミクスを提供します。
私たちは、Olmo Hybrid を一連の漸次大規模化された実験を通じて開発しました。まず 1B スケールでは、ハイブリッドモデルがビット毎バイト評価においてトランスフォーマーを一貫して上回ることを発見し、RNN およびハイブリッドアーキテクチャについて反復改良を行いました。次に 7B スケールでは、このパターンが維持されることを確認し、ハイブリッドモデルは大幅に少ないトークン数でトランスフォーマーのベースラインと同等の性能を達成しました。6 トリリオントークンのフルスケールの事前学習トレーニング実行により、これらの改善がスケーリングしても持続することが確認されました。これは訓練ダイナミクスの副産物ではなく、アーキテクチャ自体に内在する性質であると考えられます。
Olmo Hybrid は 3:1 のパターンを採用しています。すなわち、デルタネット(DeltaNet)サブレイヤーを 3 つ続けた後にマルチヘッドアテンション(multihead attention)サブレイヤーを 1 つ配置し、これをネットワーク全体で繰り返します。これにより、アテンションミキシングの 75% がゲート付きデルタネット(Gated DeltaNet)に置き換えられ、モデルは状態追跡(デルタネット経由)と精密な想起(アテンション経由)の両方のアーキテクチャパスを獲得します。また、アテンションが十分に頻繁に現れることで、情報が有界な再帰状態に「閉じ込められる」ことを防ぎます。
Olmo Hybrid は 7B パラメータを持つモデルで、Olmo 3 32B から改良されたデータミックスを用いて 6 トリリオントークンで事前学習されました。トレーニングは 512 個の GPU で実施され、当初は NVIDIA H100 で開始しましたが、事前学習のほぼ半ばで Lambda のインフラ上でホストされる NVIDIA HGX B200 に移行しました。これにより、Olmo Hybrid は B200 で訓練された最先端の完全オープンモデルの一つとなりました。
Olmo Hybrid は、ハイブリッド置換を除き Olmo 3 の設計図にほぼ沿っています。トレーニングのスループットは Olmo 3 と同等に設定されており、両モデルとも同程度のパラメータ数で比較可能な速度で学習します。これは、効率性の向上が速度と性能のトレードオフによるものではなく、ハイブリッドアーキテクチャ自体に由来することを示唆しています。
制御された研究におけるデータおよび計算リソースの効率性向上
Olmo Hybrid は、同じサイズの Olmo 3 モデルよりも優れたパフォーマンスを達成し、大幅に少ないトレーニングデータでこれを成し遂げます。トークン数が減少することはトレーニングオーバーヘッドの削減を意味するため、その節約は直接的に計算リソースの節約にもつながります。MMLU 評価では、約 2 倍のトークン効率が見られます。つまり、ハイブリッドモデルは Olmo 3 と同等の精度を達成するために、49% 少ないトークン数で済みます。Common Crawl の評価スライスにおいても、Olmo Hybrid は 35% 少ないトークン数で同等のパフォーマンスに達します。いずれの場合も、両アーキテクチャ間でトレーニングのスループットが同等であるため、トークンの節約は総トレーニング計算リソースの比例した削減に対応します。
事前学習の終了時点で、Olmo Hybrid は選択された数学および科学ベンチマークにおいて Olmo 3 よりも明らかに優れた性能を示しますが、コーディングタスクや一般的な質問応答においてはわずかに劣ります。しかし、学習途中(ミッドトレーニング)以降ではこれらの差は縮小し、Olmo Hybrid はすべての主要な評価ドメインで Olmo 3 を上回ります。この優位性は、長いコンテキストへの拡張後も概ね維持されます。
Olmo 3 の開発時に使用されなかった保留評価(ホールデッドアウト評価)においても、ハイブリッドモデルは BBH および MMLU Pro で改善を示し、LBPP と DM Math ではわずかな後退が見られました。
長いコンテキストへの拡張後、Olmo Hybrid は標準的な長文コンテキストベンチマークである RULER において Olmo 3 よりも大幅な向上を示します。短いコンテキスト(4k トークン)ではハイブリッドモデルは Olmo 3 にわずかに劣りますが、8k で逆転し、コンテキストの長さが増すにつれてその差は広がります。
我々は、モデルが元々学習したよりも長い入力を処理可能にする 2 つのアプローチ、YaRN と DRoPE を評価しました。64k のコンテキスト長において、DRoPE を採用した Olmo Hybrid は、長文コンテキストベンチマークである RULER で 85.0 のスコアを記録しました。一方、YaRN を使用した Olmo 3 7B は 70.9 です。同じ YaRN メソッドを使用した場合でも、ハイブリッドアーキテクチャはトランスフォーマーベースラインを上回り 76.9 を記録しましたが、DRoPE を用いた場合の非常に長いコンテキスト長における改善は特に顕著です。
表現力とスケーリング
ハイブリッドモデルにおける一般的な動機は、長いコンテキスト長における推論効率性でした。それとは対照的に、私たちの結果は異なる、根本的な強さを示唆しています:ハイブリッドモデルはトランスフォーマーよりも表現力が豊かであり、これが実務での事前学習においてより効率的なスケーリングをもたらします。理論的には、ハイブリッドモデルは、純粋なトランスフォーマー単独や純粋な線形 RNN(Recurrent Neural Network)単独では容易に表現できない有用な計算を表現できます。さらに、私たちは理論的に論じ、この表現力の優位性が、実務で発見したより優れた事前学習のスケーリングを説明する可能性が高いと主張します。
ハイブリッドモデルの事前学習効率性の向上をより体系的に定量化するために、同等のトレーニング条件下でアーキテクチャを比較するためスケーリング則(scaling-law)の曲線に適合させました。制約のない適合では、点推計は Olmo Hybrid が Olmo 3 よりも有利であることを示していますが、不確実性が大きすぎて係数の違いが統計的に決定的であるとは言えません。
これらの適合された法則はまた、トークン削減率がスケールとともに増加し、固定された目標損失において 1B パラメータでは約 1.3 倍から、70B パラメータでは約 1.9 倍に上昇すると予測しています。
なぜより表現力の高いモデルの方がデータに対してよりよくスケーリングするのでしょうか?一つの直感的な説明は、多くの最近の分析で指摘されているように、言語モデリングは多くの離散的なサブタスクを学習することから成り立っており、各サブタスクはアーキテクチャによって表現可能(そして最終的に学習される)か、あるいは表現不可能(そして削減不能な損失に寄与する)のいずれかであるという点にあります。ハイブリッドモデルが自然言語に現れるより多くのサブタスクを表現できれば、1 トークンあたりの効率よく損失を低下させることができます。この説明を形式化するために、ニューラルスケーリング法則の理想化されたモデルである量子化モデルの下で証明を行いましたが、表現力の向上が確かにより効率的なスケーリング傾向につながることを示しました。したがって、ハイブリッドモデルとトランスフォーマーを比較した際の実際の観察結果のように、より表現力の高いアーキテクチャがより効率的な事前学習のスケーリング傾向を示すのは理にかなっています。
次のステップ
私たちは、生成および推論ベンチマークにおける評価の拡大や、長いコンテキスト長における推論効率の優位性に関するさらなる調査など、ハイブリッドアーキテクチャの可能性を探り続ける予定です。
モデルとともに、主要な実証結果、上記の表現性向上の理論的根拠、表現性とデータ効率を結びつけるスケーリング則分析、ハイブリッド比や RNN レイヤー設計に関するアブレーションを含む実装詳細などを網羅した技術報告書も公開します。また、他のオープンモデル(ハイブリッド型およびそれ以外)との比較結果や、ポストトレーニングにおけるハイブリッドモデルの初期調査についても発表しています。
もう一度強調しておきますが、この方向性を探索したのは私たちだけではありません。Olmo Hybrid は、訓練のあらゆる側面で Olmo 3 と非常に近い比較対象となることで、他の最近のハイブリッドモデルリリースを補完するものです。Olmo 3 を上回る劇的な事前学習および中間学習での性能向上を確認できたことは、ハイブリッドモデルの有効性を示す説得力のある証拠となります。私たちは、ハイブリッドモデルが理論的洞察と実証結果の両方に裏打ちされた、分野にとって有望な方向性であると信じています。Olmo Hybrid をダウンロードし、技術報告書を詳しく読み込み、ご発見いただいたことをぜひお知らせください。
*本研究は、Olmo Hybrid の訓練において Lambda が提供した計算資源と専門的技術支援により多大な恩恵を受けました。そのサポートに感謝いたします。
最新の Ai2 ニュースに関する月次アップデートを受け取るには、購読してください。
原文を表示
Hybrid language models – architectures that mix transformer attention with linear recurrent layers – have been gaining momentum across the field, with recent efforts from projects like Samba, Nemotron-H, Qwen3-Next, Kimi Linear, and Qwen 3.5. By combining transformers' ability to recall precise details from earlier in a sequence with recurrent layers' efficiency at tracking evolving state, hybrids promise to be both more capable and cheaper to run at long context lengths. But the community has lacked consensus on whether the purported benefits of hybrid architectures justify the cost of scaling them up.
Today we're releasing Olmo Hybrid, a new 7B-parameter fully open model family that provides compelling evidence in favor of hybrid models by showing clear performance gains in a controlled comparison to Olmo 3 7B. Additionally, our report dives deep into explaining *why* hybrid models outperform transformers via theoretical analysis and scaling experiments. Our new study shows that hybrid architectures are fundamentally more expressive than pure transformers or pure linear RNNs alone, and that this expressivity advantage translates directly to more efficient scaling during pretraining. On MMLU, a widely used benchmark for general knowledge and reasoning, Olmo Hybrid reaches the same accuracy as Olmo 3 using 49% fewer tokens — roughly 2× data efficiency. That means you can train to the same capability with half the data, or train on the same data and get a meaningfully better model.
Before diving into results, it’s worth understanding why we think hybrid architectures are an important direction for language modeling.
The transformer architecture has dominated the field of language modeling since its introduction in 2017. At its core, a transformer processes text using “self attention,” a mechanism that lets the model look at every preceding word in a sequence simultaneously and decide which words are most relevant to each next-word prediction. The parallelism inherent to their internal computations makes transformers extremely efficient to train on modern hardware, and their ability to directly access any part of the input sequence gives them remarkable in-context recall.
But transformers have limitations. Their attention mechanism scales quadratically with sequence length – processing a sequence twice as long takes four times as much computation – so inference gets increasingly expensive as context grows. And while they excel at recall tasks, transformers don’t naturally represent robust state tracking—the kind of computation where you need to update a running tally or maintain a mental model of changing conditions (for example, the state of a chessboard as players make different moves). Our past theoretical work has explored this.
Recurrent neural networks take a fundamentally different approach. Instead of looking at the entire sequence at once, an RNN processes text one token at a time, maintaining a hidden "state" that gets updated with each new input. This makes RNNs naturally suited for state tracking, but traditional RNNs are difficult to train at scale because their sequential nature prevents parallelization.
Recent work on parallelizable linear RNNs and state-space-style models has revived interest in recurrent approaches by redesigning recurrence to be trainable efficiently. These models scale linearly with sequence length at inference, but because they compress past information into a bounded state, they can struggle with tasks requiring precise recall from earlier in a sequence.
This brings us to hybrid models like Olmo Hybrid, which mix transformer and linear RNN layers to get the benefits of each architecture. Moreover, we show that hybrid models are more expressive than either transformers or linear RNNs in isolation. This theoretical motivation led us to explore scaling up hybrid models, which we found translated to improved pretraining performance relative to Olmo 3.
Olmo Hybrid at a glance
Our hybrid model interleaves transformer layers with Gated DeltaNet layers, a modern linear RNN design that remains parallelizable during training while offering expressive state dynamics.
We developed Olmo Hybrid through a series of increasingly large experiments, first at 1B scale where we found that hybrid models consistently beat transformers on bits-per-byte evaluations and iterated on the RNN and hybrid architecture, then at 7B scale where we confirmed the pattern held and hybrids matched transformer baselines with substantially fewer tokens. The full 6T-token pretraining training run confirmed that these gains persist at scale—they appear to be a property of the architecture rather than an artifact of training dynamics.
Olmo Hybrid uses a 3:1 pattern—three DeltaNet sublayers followed by one multihead attention sublayer, repeated throughout the network. That replaces 75% of attention mixing with Gated DeltaNet, giving the model architectural paths for both state tracking (via DeltaNet) and precise recall (via attention), with attention appearing often enough to prevent information from getting “stuck” in a bounded recurrent state.
Olmo Hybrid is a 7B-parameter model pretrained on 6 trillion tokens using the improved data mix from Olmo 3 32B. Training was carried out on 512 GPUs—starting on NVIDIA H100s before migrating to NVIDIA HGX B200s hosted on Lambda's infrastructure roughly halfway through pretraining, making Olmo Hybrid one of the first state-of-the-art fully open models trained on B200s.
Olmo Hybrid closely follows the Olmo 3 blueprint except for the hybrid substitution. Training throughput was matched to Olmo 3—both models train at comparable speeds with similar parameter counts, which suggests the efficiency gains come from the hybrid architecture itself rather than from trading speed for performance.
Improved data and compute efficiency in controlled studies
Olmo Hybrid reaches better performance than Olmo 3 models of the same size with substantially less training data—and because fewer tokens means less training overhead, the savings translate directly into compute savings as well. On MMLU, we see roughly 2× token efficiency—the hybrid model reaches the same accuracy as Olmo 3 using 49% fewer tokens. On a Common Crawl evaluation slice, Olmo Hybrid reaches parity in 35% fewer tokens. In both cases, since training throughput is matched between the two architectures, the token savings correspond to proportional reductions in total training compute.
By the end of pretraining, Olmo Hybrid does noticeably better on a selected set of math and science benchmarks but is slightly worse on coding tasks and general question-answering compared to Olmo 3. After mid-training, those gaps close—Olmo Hybrid outperforms Olmo 3 across every primary evaluation domain, and these gains largely persist after long-context extension. On held-out evaluations not used during Olmo 3 development, the hybrid model posts gains on BBH and MMLU Pro, with small regressions on LBPP and DM Math.
After long-context extension, Olmo Hybrid shows substantial gains over Olmo 3 on RULER, a standard long-context benchmark. At shorter contexts (4k tokens), the hybrid model trails Olmo 3 slightly, but it overtakes at 8k and the gap widens with context length.
We evaluated two approaches to long-context adaptation – YaRN and DRoPE – which allow models to handle longer inputs than they were originally trained on. At 64k context length, Olmo Hybrid with DRoPE scores 85.0 on RULER, a long-context benchmark, compared to 70.9 for Olmo 3 7B with YaRN. Even using the same YaRN method, the hybrid architecture outperforms the transformer baseline, scoring 76.9—and with DRoPE, the gains at very long context lengths are particularly striking.
Expressivity and scaling
A common motivation for hybrid models has been inference efficiency on long context lengths. In contrast, our results suggest a different, fundamental strength: hybrid models are more expressive than transformers, and this translates to more efficient scaling when they are pretrained in practice. Theoretically, hybrid models can represent useful computations that neither pure transformers nor pure linear RNNs can easily express alone. Moreover, we argue theoretically that this expressivity advantage likely explains the better pretraining scaling we find in practice.
To more systematically quantify the pretraining efficiency gains of hybrid models, we fit scaling-law curves to compare architectures under matched training conditions. In the unconstrained fit, the point estimates favor Olmo Hybrid over Olmo 3, but uncertainty is large enough that coefficient differences aren’t statistically conclusive.
These fitted laws also predict that the token-savings factor grows with scale, rising from ~1.3× at 1B parameters to ~1.9× at 70B parameters at a fixed target loss.
Why should more expressive models scale better with data? One intuition: as highlighted in many recent analyses of scaling laws, language modeling consists of learning many discrete subtasks, and each subtask is either expressible by the architecture (and eventually gets learned) or inexpressible (and contributes to irreducible loss). If hybrids can express more of the subtasks that appear in natural language, they can lower loss more efficiently per token seen. We formalize this explanation by proving that, under an idealized model of neural scaling laws called the quantization model, increasing expressivity indeed translates to more efficient scaling trends. Thus, it makes sense that more expressive architectures should exhibit more efficient pretraining scaling trends, as we observe in practice for hybrid models vs. transformers.
What's next
We're continuing to explore the hybrid architecture's potential, including expanded evaluations across generative and reasoning benchmarks and further investigation of inference efficiency advantages at long context lengths.
Alongside the models, we're releasing a technical report covering the main empirical results, the theoretical basis for expressivity benefits described above, scaling-law analysis connecting expressivity to data efficiency, and implementation details including ablations on the hybrid ratio and RNN layer design. We also present comparisons with other open models (hybrid and otherwise) and preliminary investigations into post-training hybrid models.
It's important to note once again that we're not the first to explore this direction. Olmo Hybrid complements other recent hybrid model releases by being closely comparable to Olmo 3 across all aspects of training; the fact that we see dramatic pretraining and mid-training gains over Olmo 3 provides compelling evidence for hybrid models. We think hybrid models represent a promising direction for the field, one grounded in both theoretical insight and empirical results. We encourage you to download Olmo Hybrid, dig into thetechnical report, and let us know what you find.
*This research benefited greatly from the computational resources and technical expertise of Lambda to train Olmo Hybrid. We thank them for their support.*
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
ParaRNN:並列学習可能な大規模非線形RNN
アップル研究所は、RNNの並列学習手法「ParaRNN」を開発し、数十億パラメータ規模の大規模RNN学習を初めて可能にした。これにより推論効率の高いモデル設計の選択肢が広がった。
AIとサイバーセキュリティの未来:オープン性が重要な理由
AI技術の進展に伴い、サイバーセキュリティ業界はオープンな情報共有と透明性を確保する必要がある。
Google、マルチモーダルとエージェント機能を備えたGemma 4をApache 2.0で公開
GoogleがApache 2.0ライセンスでオープンウェイトAIモデル「Gemma 4」を発表。動画・画像処理の強化、小型モデルでの音声入力、最大256Kトークンの拡張コンテキストウィンドウが特徴。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み