コンテキストウィンドウが破られる:Subquadratic が 1200 万トークンの窓を公開し GPT-5.5 を上回る性能を示す
Subquadratic は、コンテキスト長に対する計算コストの二乗スケーリングという根本的な課題を解決し、1200 万トークンの巨大なコンテキストウィンドウを持つ新モデルを発表した。
キーポイント
1200 万トークン・コンテキストウィンドウの実現
従来の技術的限界を突破し、1200 万トークンという破格のコンテキスト長をサポートする新モデルをリリースした。
計算コストのスケーリング問題の解決
入力長の二乗に比例して計算コストが増大する従来のアテンション機構のボトルネックを克服し、サブ二次関数的な効率化を実現したと主張している。
GPT-5.5 を上回る検索性能
retrieval ベンチマークにおいて、次世代モデルとされる GPT-5.5 よりも高いパフォーマンスを示すことを確認した。
5000 万トークンへの拡張計画
今回のリリースに続き、間もなく 5000 万トークンのコンテキストウィンドウを備えたモデルの提供も予定されている。
影響分析・編集コメントを表示
影響分析
このニュースは、LLM が扱える情報の量と質に革命的な変化をもたらす可能性があり、長文書解析や大規模データベースとの対話といった分野での実用化が加速すると予測されます。計算効率の劇的な向上は、コスト面での課題も解決し、企業における AI 導入のハードルをさらに下げる要因となるでしょう。
編集コメント
計算コストの二乗則という長年の課題に対する突破は、業界全体のパラダイムシフトを促す極めて重要な出来事であり、今後の LLM の進化方向性を決定づける可能性が高い。
2026 年のすべてのフロンティアモデルは、少なくとも 100 万トークンのコンテキストウィンドウを謳っていますが、その情報のすべてを実際に活用する能力において優れたものはほとんどありません。MRCR v2(多参照検索ベンチマーク)のラボレポートによると、最良のモデルは GPT-5.5 で、スコアは 74.0% です。一方、Claude Opus 4.7 の 32.2% など他のモデルは大きく後れをとっています。
現時点では、主要なフロンティア研究所が提供しているコンテキストウィンドウの最大値は 100 万トークンのようです。この 100 万トークンという上限の主な理由は、2017 年以降のすべてのトランスフォーマーベースモデルを形作ってきたものと同じです:アテンションコスト(attention cost)はコンテキスト長に対して二次関数的にスケールするため、入力を倍にすると処理量が 4 倍になります。本質的に、RAG(Retrieval-Augmented Generation)、エージェントによる分解、ハイブリッドモデルアーキテクチャ、および業界が構築してきた他のすべての回避策は、この課題を回避するためにトレードオフを行うための手段です。
マイアミに拠点を置くスタートアップである Subquadratic は火曜日に最初のモデルを発表し、これらすべてを回避できると主張しています。現在、1200 万トークンのウィンドウを処理できるモデルを提供しており、さらに同社はまもなく 5000 万トークンのコンテキストウィンドウを持つモデルも提供する計画だと述べています。

同社は社内に博士号取得研究者を11名抱えており、SSA(Subquadratic Selective Attention)と呼ばれる自社のアーキテクチャが、コンテキスト長に対して計算量とメモリ使用量の両方で線形にスケーリングすると主張しています。同社によると、このモデルは100万トークンにおいて密なアテンションよりも52倍高速で動作し、1200万トークンの文脈長において「干し草の山の中の針」検索タスクで92.1%の精度を達成しました。これは現在、最先端モデルが近づくことのできないコンテキスト長です。また、MRCR v2では83点を記録し、OpenAIを9ポイント上回っています。
同社は、SSA(Subquadratic Selective Attention)アーキテクチャが100万トークンで密なアテンションより52倍高速であり、1200万トークンの文脈長において「干し草の山の中の針」検索タスクで92.1%の精度を達成し、MRCR v2では83点を記録してOpenAIを9ポイント上回ると述べています。
これらは大きな主張であり、Subquadraticが初めてこの問題に取り組もうとしたわけではありません。同社が公開するベンチマークは印象的で、SWE-benchでは82.4%のスコアを記録し、直前のAnthropic製モデルであるOpus 4.6(81.42%)やGoogle's Gemini 3.1 Pro(80.6%)を上回っています。そして、これらすべてを大幅に低いコストで実現しています。
Subquadraticは、このモデルをAPIを通じて提供しており、そこには1200万トークンのコンテキストウィンドウが特徴として含まれます。また、コーディングエージェント(SubQ Code)と深層研究ツール(SubQ Search)も用意されています。
先行する技術について
アテンションの二次コストは明らかに新しい問題ではなく、SSA もそれを解決しようとする最初の試みではありません。この研究の系譜はオリジナルのトランスフォーマー論文にまで遡り、全体的なパターンは一貫して維持されてきました。すべてのアプローチが別の必要な特性を獲得するために一つの必要な特性をトレードオフしており、フロンティアスケールにおいて密なアテンション(dense attention)を置き換えることはできていません。
TRENDING STORIES
- The context window has been shattered: Subquadratic debuts a 12-million-token window
- A nine-point checklist for shipping production-ready AI
- Why developers are betting on Postgres for AI
- Lovelace emerges from stealth with context engine that claims 1000x AI investigative power
- AI won't speed up software delivery — nothing has
すべてのアプローチが別の必要な特性を獲得するために一つの必要な特性をトレードオフしており、フロンティアスケールにおいて密なアテンション(dense attention)を置き換えることはできていません。
異なるアプローチの一つとして、例えば固定パターン型スパースアテンションがあります。Longformer などのモデルでは、各トークンがスライディングウィンドウ内のトークンのみにアテンションを向けることで線形スケーリングを実現しています。これは関連情報が近傍に存在する場合に機能しますが、存在しない場合には破綻します。
Mamba や Mamba-2、RWKV、RetNet といった状態空間モデルは、すべてのペア間の比較を再帰的な状態に置き換え、これまでに見たものを圧縮します。ただし、この圧縮には情報損失が伴います。Nvidia の 8B スケールでの研究では、純粋な Mamba-2 は MMLU や電話帳検索においてトランスフォーマーよりも遅れをとっており、アテンション(注意機構)を再び追加することで初めてその差が埋められることが示されました。
Jamba、Kimi Linear、Qwen3-Next、Nvidia の Nemotron v3 に見られるようなハイブリッドアーキテクチャは、この課題に対する現実的な解決策です。これらは大部分の層を効率的に保ちつつ、検索のために少数の密なアテンション層を保持します。しかし、その経済性は見た目ほど有利ではありません。32K トークンで 3 倍安価なハイブリッドモデルも、10M トークンでは依然として 3 倍安価です。なぜなら、保持されている密な層が依然として O(n²) の計算負荷を担っているからです。
最新の取り組みは異なる方向へ進んでいます。パターンの修正や状態の圧縮を試みるのではなく、どの位置にアテンションを向けるべきかを学習するアプローチです。
例えば、DeepSeek の Native Sparse Attention は ACL 2025 の最優秀論文賞を受賞しました。その後継である DeepSeek Sparse Attention (DSA) は、DeepSeek V3.2-Exp で提供されています。DSA の高速インデクサーは注意機構を少数の選択されたキーにルーティングし、そのキーに対する注意計算は本質的にスパースです。しかし、それらを選択するインデクサー自体は、すべてのクエリに対してすべてのキーをスコアリングする必要があり、つまり選択ステップ自体が二次的(quadratic)な計算量になります。
SubQuadratic の CTO である Alex Whedon は『The New Stack』に対し、「スパース注意とは基本的に、トランスフォーマーが行うような処理ではなく、1,000 語がある場合、そのすべての 1,000 語間のあらゆる関係(1,000 の二乗の組み合わせ)を調べるのではなく、実際に重要なのは一部のみであることを理解し、その重要な部分だけを処理する」と述べています。
SSA が独自に主張すること
SSA の売りは、DSA が目指したことをインデクサーの罠なしで実現できる点にあります。選択はコンテンツ依存型です。特定のクエリに対して、モデルはそのクエリとキーが実際に何を含んでいるかに基づいて、どの位置が重要かを判断します。最も重要な点は、その選択メカニズム自体が二次的計算量にならないことです。
「プロンプト A では、1 番目の語と 6 番目の語がお互いに重要になります」とWhedon は言います。「プロンプト B では、おそらく 2 番目と 3 番目の語が重要になるでしょう。入力ごとに異なります。」
Whedonによれば、ハイブリッド型は「スカラー的な恩恵」をもたらすものの、純粋なサブクアドラティック機構はスケーリング則の優位性を提供します。SubQ のベンチマークでは、128K で 7.2 倍、1M で 52.2 倍の高速化が報告されています。
ベンチマーク
RULER の 128K 環境では、SubQ は 97.1 を記録し、Opus 4.6 の 94.8 を上回ります。MRCR v2 では、他社が最先端モデル群に対して持つ差よりも、残りの最先端モデル群自体に対する SubQ の差の方が広くなっています。
SWE-Bench Verified では、SubQ は 82.4% を記録し、Opus 4.6 の 81.4% や Gemini 3.1 Pro の 80.6% をわずかに上回ります。最先端モデルが動作していない 1200 万トークンの環境において、SubQ は「干し草の山の中の針」ベンチマークで 92.1% を維持しています。
いくつかの注意点もあります。技術論文によると、推論コストが高いため、各モデルは一度だけ実行されました。SWE-Bench の差については、論文自体も認めている通り、「モデルの能力を最大限に引き出すもの」です。また、Whedon 自身の説明によれば、SubQ モデルは「大手ラボのモデルよりもはるかに小さい」ものです。
Subquadratic が現在提供しているもの
同社はベータ版として 2 つの製品をリリースしています。1 つ目は全 1200 万トークンのコンテキストウィンドウ(文脈窓)を公開する API、もう 1 つは同じモデルを基盤とした CLI エージェント「SubQ Code」です。これらは主要なハイパースケーラーではなく、ネオクラウド上で動作します。「非常に高価だからです」と CEO の Justin Dangel は述べています。
同社は重み(ウェイト)のオープンソース化は行いませんが、企業が独自にポストトレーニングを行うためのトレーニングツールを提供する計画です。5000 万トークンのコンテキストウィンドウ目標は第 4 四半期に設定されています。
ただし、ここには少し教訓的な物語もあります。Magic.dev は 2024 年 8 月に、100M トークンのコンテキストウィンドウを持つモデルを発表し、 claimed 1000× efficiency advantage を謳いました。その強みにより、5 億ドル以上を調達しています。2026 年初頭現在、Magic 社外で LTM-2-mini が使用されているという公的な証拠は存在しません。
資金調達
Subquadratic はこれまで、元ソフトバンク・ビジョンファンドパートナーのハビエル・ビリャミサール氏や Tinder 共同創設者のジャスティン・マティーン氏を含む投資家から、評価額 5 億ドルで 2900 万ドルを調達しました。同社は以前は Aldea という名称で、ピボットする前は音声モデルの開発に取り組んでいました。技術的な根拠は確かに存在します。しかし、このカテゴリーのこれまでの実績こそが、物語の残りの部分を成しています。
[YOUTUBE.COM/THENEWSTACK
Tech moves fast, don't miss an episode. Subscribe to our YouTube
channel to stream all our podcasts, interviews, demos, and more.
SUBSCRIBE](https://youtube.com/thenewstack?sub_confirmation=1)
Group
Created with Sketch.
原文を表示
Every frontier model in 2026 advertises a context window of at least a million tokens, but almost none of them are actually great at making use of all of that information. On MRCR v2, the multi-reference retrieval benchmark labs report, the best model is GPT-5.5, which scores 74.0%. Others like Claude Opus 4.7 at 32.2% are far behind.
At this point, a million tokens seems to be the maximum for the context window that the major frontier labs are offering. One major reason for the million-token max is the same one that has shaped every transformer-based model since 2017: Attention cost scales quadratically with context length, so doubling the input quadruples the work. Essentially, RAG, agentic decomposition, hybrid model architectures, and every other workaround the industry has built are ways of making tradeoffs to get around this.
Subquadratic, a Miami-based startup, launched its first model on Tuesday and claims it can get around all of this, now offering a model that can handle a token window of 12 million tokens. What’s more, the company says it plans to offer a model with a 50-million-context window soon.

The company, which has 11 Ph.D. researchers on staff, argues that its architecture, called Subquadratic Selective Attention (SSA), scales linearly in both compute and memory with respect to context length. The company says it runs 52 times faster than dense attention at a million tokens, hits 92.1% on needle-in-a-haystack retrieval at 12 million tokens — a context length no frontier model currently gets close to — and scores 83 on MRCR v2, beating OpenAI by nine points.
The company says its Subquadratic Selective Attention architecture runs 52 times faster than dense attention at a million tokens, hits 92.1% on needle-in-a-haystack retrieval at 12 million tokens, and scores 83 on MRCR v2, beating OpenAI by nine points.
Those are large claims, and Subquadratic isn’t the first to try to tackle this problem. The benchmarks the company is releasing are impressive, including a 82.4% score on SWE-bench, which bests Anthropic’s last model, Opus 4.6, which scored 81.42% and Google’s Gemini 3.1 Pro at 80.6%. And it’s doing all of this at a significantly lower cost.
Subquadratic is making this model available through an API — which will feature a 12-million-token context window — as well as a coding agent (SubQ Code) and a deep research tool (SubQ Search).
What came before
The quadratic cost of attention is obviously not a new problem, and SSA is not the first attempt to solve it. The research line goes back nearly to the original transformer paper, and the overall pattern has remained consistent. Every approach has traded one necessary property to gain another, and none have been able to replace dense attention at the frontier scale.
TRENDING STORIES
- The context window has been shattered: Subquadratic debuts a 12-million-token window
- A nine-point checklist for shipping production-ready AI
- Why developers are betting on Postgres for AI
- Lovelace emerges from stealth with context engine that claims 1000x AI investigative power
- AI won't speed up software delivery — nothing has
Every approach has traded one necessary property to gain another, and none have been able to replace dense attention at the frontier scale.
Among the different approaches is, for example, fixed-pattern sparse attention. In models like Longformer, it achieves linear scaling by letting each token attend only to a sliding window. It works when relevant information sits nearby and breaks when it does not.
State-space models like Mamba, Mamba-2, RWKV, RetNetreplace the all-pairs comparison with a recurrent state that compresses everything seen so far. The compression is lossy, however. Nvidia’s study at 8B scale found pure Mamba-2 lagged transformers on MMLU and phonebook lookup, with the gap closing only when attention was added back.
Hybrid architectures, as seen in Jamba, Kimi Linear, Qwen3-Next, and Nvidia’s Nemotron v3, are the pragmatic answer to this. They keep most layers efficient and retain a few dense attention layers for retrieval. But the economics are less favorable than they look. A hybrid that is three times cheaper at 32K tokens remains three times cheaper at 10M tokens, because the dense layers it retains still do O(n²) work.
The most recent entries went in a different direction. Rather than trying to fix the pattern or compress the state, they learn which positions to attend to.
DeepSeek’s Native Sparse Attention won the ACL 2025 best paper award, for example. Its successor, DeepSeek Sparse Attention (DSA), is shipping in DeepSeek V3.2-Exp. DSA’s lightning indexer routes attention to a small subset of selected keys, and the attention over those keys is genuinely sparse. The indexer that picks them, however, has to score every query against every key, meaning the selection step is itself quadratic.
SubQuadratic CTO Alex Whedon tells *The New Stack*, “Sparse attention basically means instead of doing what transformers do, which is if you have 1,000 words, you look at every possible relationship between all 1,000 words, which is 1,000 squared combinations. You realize that only a portion of those actually matter and you only process the portion that matter.”
What SSA says it does differently
SSA’s pitch is that it does what DSA tried to do without the indexer trap. Selection is content-dependent. For any given query, the model picks which positions matter based on what the query and keys actually contain — and most importantly, the selection mechanism itself does not go quadratic.
“For prompt A, words one and six are going to be important to each other,” Whedon says. “For prompt B, maybe it’s words two and three. It’s different for every single input.”
According to Whedon, hybrids deliver “a scalar benefit,” but a pure subquadratic mechanism delivers a scaling-law advantage. SubQ’s reported 7.2× speedup at 128K and 52.2× at 1M in its benchmarks.
The benchmarks
On RULER at 128K, SubQ scores 97.1 against Opus 4.6’s 94.8. On MRCR v2, the gap to the rest of the frontier is wider than the gap between the rest of the frontier and itself.
On SWE-Bench Verified, SubQ reports 82.4%, edging out Opus 4.6’s 81.4%, and Gemini 3.1 Pro’s 80.6%. At 12 million tokens, where no frontier model operates, SubQ holds 92.1% on a needle-in-a-haystack benchmark.
There are some caveats. Each model was run only once, according to the technical paper, due to their high inference cost. The SWE-Bench margin is, as the paper acknowledges, “harness as much as model.” And the SubQ model is, by Whedon’s own description, “way smaller than the big labs.”
What Subquadratic is shipping now
The company is launching two products in beta: an API that exposes the full 12M-token window and SubQ Code, a CLI agent built on the same model. Both run on neoclouds rather than the major hyperscalers — “they’re very expensive,” CEO Justin Dangel says.
The company is not open-sourcing weights but plans to offer training tools for enterprises to do their own post-training. The 50-million-token context window target is set for Q4.
There is a bit of a cautionary tale here, though. Magic.dev announced a 100M-token context-window model in August 2024, with a claimed 1000× efficiency advantage. It raised over $500 million on its strength. As of early 2026, there is no public evidence of LTM-2-mini being used outside Magic.
Funding
Subquadratic has raised $29 million to date at a $500 million valuation from investors including former SoftBank Vision Fund partner Javier Villamizar and Tinder co-founder Justin Mateen. The company was previously called Aldea and worked on speech models before pivoting. The technical case is real. The category’s track record is the rest of the story.
[YOUTUBE.COM/THENEWSTACK
Tech moves fast, don't miss an episode. Subscribe to our YouTube
channel to stream all our podcasts, interviews, demos, and more.
SUBSCRIBE](https://youtube.com/thenewstack?sub_confirmation=1)
Group
Created with Sketch.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み