AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Berkeley AI Research·2026年5月8日 18:00·約15分

適応型並列推論:効率的な推論スケーリングの新たなパラダイム

#Reasoning#LLM Inference#Parallel Chain-of-Thought#Adaptive Parallel Reasoning#Berkeley AI Research
TL;DR

Berkeley AI Research は、推論モデルが問題に応じて自己判断でタスクを分解・並列化し、スレッド数を動的に調整する「適応型並列推論(Adaptive Parallel Reasoning)」のパラダイムを提案した。

AI深層分析2026年5月9日 03:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
5

キーポイント

1

自律的な並列化の概念

従来の固定された Chain-of-Thought と異なり、モデルが問題の性質に基づいて独立したサブタスクを識別し、いつ分解して並列処理すべきかを自ら決定する仕組み。

2

動的スレッド管理と調整

問題の複雑さに応じて同時に生成するコンカレントスレッド数を動的に調整し、結果の統合も状況に応じて最適化する協調メカニズムを提案している。

3

効率性と推論性能の両立

計算リソースを無駄遣いせず、複雑な推論タスクにおいて並列化による速度向上と、単一パスでの精度低下を防ぐバランスを実現する新アプローチ。

4

ThreadWeaver と Multiverse の紹介

このパラダイムを具体化する技術として、スレッドの生成・調整を行う「ThreadWeaver」や多様な推論経路を探索する「Multiverse」などの手法が分析対象となっている。

5

逐次推論のスケーラビリティの限界

探索量に比例して遅延が増大し、コンテキストウィンドウが膨張することで「コンテキスト・ロト(性能劣化)」が発生する問題があります。

6

並列推論による解決アプローチ

複数の推論スレッドを独立かつ同時に実行することで、逐次探索のボトルネックを解消し、効率と信頼性を向上させる手法です。

7

既存手法の限界:外部制御と冗長性

現在の並列推論アプローチは、モデル自体に並列構造を選ばせるのではなく外部で決定しており、独立したサンプリングにより計算が冗長になりがちです。

影響分析・編集コメントを表示

影響分析

この記事は、LLM の推論効率化における「静的な並列処理」から「動的・適応的並列処理」へのパラダイムシフトを明確に示しており、将来の大規模モデルの設計思想に大きな影響を与える可能性がある。特に計算コストと推論精度のトレードオフを解決する新たな手法として、実用化に向けた研究開発が加速すると予想される。

編集コメント

推論の「効率化」が単なる高速化ではなく、モデル自身が状況を判断してリソースを配分する自律性へと進化している点は非常に注目すべき動向です。

適応型並列推論の概要。

推論モデルが、独立したサブタスクをいつ分解・並列化するか、同時にいくつのスレッドを生成するか、そして問題に応じてそれらをどう調整するかを、*自ら決定できる*としたらどうでしょうか?私たちは、特に適応型並列推論に関する分野における最近の進展について詳細な分析を提供します。

開示:本投稿は、適応型並列推論に関する景観調査(ランドスケープ・サーベイ)と視点の両方の側面を含んでいます。著者の一人である Tony Lian は、以下で議論される手法の一つである ThreadWeaver (Lian et al., 2025) の共同リーダーを務めました。著者たちは、各アプローチをその独自性に基づいて提示することを目的としています。

モチベーション

大規模言語モデル(LLM)の推論能力における最近の進展は、主にデータとパラメータのスケーリングに加え、推論時のスケーリングによって牽引されてきました (OpenAI et al., 2024; DeepSeek-AI et al., 2025)。中間ステップ、バックトラック(後退)、探索を通じて明示的に推論トークンを出力するモデルは、現在、数学、コーディング、エージェントベンチマークにおいて支配的な地位を占めています。これらの振る舞いにより、モデルは代替仮説を検索し、以前のミスを修正し、単一の解決策に固執するのではなく結論を合成することが可能になります (Wen et al., 2025)。

問題は、逐次的推論が探索量の増加に伴って線形にスケーリングしてしまう点にあります。逐次的推論のトークンを増やすことにはコストがかかり、モデルが実効的なコンテキスト制限を超えてしまうリスクがあります (Hsieh et al., 2024)。中間の探索パスが蓄積されることで、モデルは文脈内の情報を注意する際に、ノイズ(distractors)の中から正しい経路を特定することが難しくなり、その結果としてモデル性能が低下します。これはコンテキスト・ロト (context-rot) とも呼ばれます (Hong, Troynikov and Huber, 2025)。また、推論の遅延も推論長さに比例して増加します。探索と計画に数百万トークンを要する複雑なタスクにおいては、ユーザーが回答を待つのに数十分甚至いは数時間かかることも珍しくありません (Qu et al., 2025)。出力シーケンス長の次元に沿ってスケーリングを続けるにつれ、推論はより遅くなり、信頼性は低下し、計算リソースの消費も増大します。そこで、並列推論が自然な解決策として浮上してきました。逐次的に探索パスを進め (Gandhi et al., 2024)、各ステップでコンテキストウィンドウを蓄積するのではなく、モデルが複数のスレッドを独立して(スレッドは互いの文脈に依存しない)、かつ並行して(スレッドは同時に実行可能)探索できるようにします。

imageimage**

*Figure 1: Sequential vs. Parallel Reasoning*

近年、合成環境(例えばカウントダウンゲーム (Katz, Kokel and Sreedharan, 2025))や実世界の数学問題、一般的な推論タスクにおいて、このアイデアを探求する研究が蓄積されつつあります。

固定並列処理から適応的制御へ

既存のアプローチは、並列推論が有効であることを示していますが、その多くはまだモデル外で並列構造を決定しており、モデル自身に選択させるものではありません。

単純なフォーク・アンド・ジョイン。**

  • 自己一貫性/多数決投票 — 複数の完全な推論トレースを独立してサンプリングし、各々から最終回答を抽出して、最も頻出するものを返す (Wang et al., 2023)。
  • Best-of-N (BoN) — 自己一貫性と似ているが、多数決投票の代わりに訓練された検証器を用いて最良の解を選択する (Stiennon et al., 2022)。
  • これらは実装は簡易だが、経路が独立してサンプリングされるため、枝間で冗長な計算が発生することが多い。

ヒューリスティックに基づく構造化探索。**

  • 思考のツリー/グラフ/スケルトン — 既知の探索アルゴリズム (BFS/DFS) を用いて複数の代替「思考」を検索し、LLM ベースの評価によって不要な枝を剪定する一連の構造的分解手法 (Yao et al., 2023; Besta et al., 2024; Ning et al., 2024)。
  • Monte-Carlo Tree Search (MCTS) — ランダムロールアウトのサンプリングによってノード値を推定し、Upper Confidence Bound (UCB) スタイルの探索・活用のバランス(Xie et al., 2024; Zhang et al., 2024)を用いて探索木を展開します。
  • これらの手法は単純なフォーク&ジョインよりも改善されていますが、タスクを重複しないサブタスクに分解する戦略に関する事前知識が必要であり、その戦略が常に既知であるとは限りません。

最近のバリアント。

  • ParaThinker — 2 つの固定ステージで動作するようにモデルを訓練します。最初のステージでは複数の推論スレッドを並列に生成し、次のステージでそれらを統合します。彼らは、推論中の独立性と要約時の制御された統合を、2 フェーズのアテンションマスクを通じて強制するために、学習可能なコントロールトークン () と思考固有の位置埋め込みを導入しました (Wen et al., 2025)。
  • GroupThink — 複数の並列推論スレッドは、トークンレベルで互いの部分的な進捗を参照し、生成途中に適応します。独立したリクエスト上で動作する従来の同時処理手法とは異なり、GroupThink は単一の LLM が複数の相互依存する推論経路を同時に生成します (Hsu et al., 2025)。
  • Hogwild! Inference — 複数の並列推論スレッドは KV キャッシュを共有し、明示的な調整プロトコルなしでタスクの分解方法を決定します。ワーカーは RoPE を使用して個別の KV ブロックを異なる順序でつなぎ合わせながら再計算を行わずに、共有アテンションキャッシュへ同時に生成します (Rodionov et al., 2025)。

imageimage**

*Figure 2: Various Strategies for Parallel Reasoning*

上記の手法には共通する限界があります。すなわち、並列化を行うかどうか、どの程度の並列化を行うか、そして探索戦略をどうするかという決定が、その問題が実際にそれらの恩恵を受けるかどうかに関係なく、モデルに強制的に課される点です。しかし、異なる問題には異なるレベルの並列化が必要であり、これが並列化の有効性を決める上で極めて重要な要素となります。例えば、「25+42 はいくつですか?」という問いと「単位長さの線分を 180°回転させるために必要な最小の平面領域はどれですか?」という問いに対して、同じ並列構造を適用するフレームワークは、前者では計算資源を無駄にし、後者ではおそらく不適切な分解戦略を用いていることになります。上記で説明したアプローチでは、モデルはこの適応的な振る舞いを学習していません。そこで自然に浮かび上がる疑問があります。「もしモデル自身が、問題に応じて並列化を行うべきかどうか、どの程度のスレッドを生成すべきか、そしてそれらをどう調整すべきかを自ら決定できたらどうなるでしょうか?」**

適応並列推論(Adaptive Parallel Reasoning)は、並列化をモデルの生成制御フローの一部とすることでこの問いに答えます。形式的には、適応性とは、推論時に並列演算と逐次演算の間で計算リソースを動的に割り当てるモデルの能力を指します。言い換えれば、適応並列推論(APR)機能を備えたモデルは、制御フローを調整する方法、つまりシーケンスを逐次的に生成すべきか並列的に生成すべきかを学習しています。

重要な点として、適応並列推論という概念は『言語モデルを用いた適応並列推論の学習』(*Learning Adaptive Parallel Reasoning with Language Models*)(Pan et al., 2025)という研究によって導入されましたが、これは特定の手法ではなくパラダイムです。本記事全体を通じて、APRはパラダイムを指し、「APR 手法」は Pan et al. (2025) の具体的な実装を指します。

この変化は3つの理由から重要です。Tree-of-Thoughtsと比較して、APR は分解にドメイン固有のヒューリスティックを必要としません。 強化学習(RL)において、モデルは試行錯誤を通じて*汎用的な*分解戦略を学習します。実際、モデルは、前のステップの自己検証と並行して次のステップを実行する、または主要なアプローチをバックアップで補完するなど、手動設計が困難な方法で有用な並列化パターンを発見します (Yao et al., 2023; Wu et al., 2025; Zheng et al., 2025)。

BoN(Best-of-N)と比較して、APR は冗長な計算を回避します。 APR モデルは分岐する前に、各並列スレッドが何を行うかを制御できます。したがって、APR は独立したスレッドに割り当てる前に、重複しない一意のサブタスクセットを生成することを学習できます (Wang et al., 2023; Stiennon et al., 2022; Pan et al., 2025; Yang et al., 2025)。

適応型でないアプローチと比較して、APR は並列化を行わないことを選択できます。 適応型モデルは、問題の複雑さと並列化の複雑さおよびオーバーヘッドを比較し、並列化のレベルを調整できます (Lian et al., 2025)。

実際には、モデルが並列推論と逐次推論のどちらを行うかを制御する特殊なトークンを出力することで実装されます。以下は ThreadWeaver スタイルの簡略化されたトレース例です:1 つのブロックの下に 2 つのアウトラインと 2 つのパスがあり、その後スレッドが単一のボックス囲み回答で合意します。

imageimage**

*Figure 3: Example of an Adaptive Parallel Reasoning Trajectory from ThreadWeaver, manually condensed for ease of illustration.*

image
image

*Figure 4: Special Tokens Variants across Adaptive Parallel Reasoning Papers*

適応的並列推論のための推論システム

実際に並列ブランチを実行するにはどうすればよいでしょうか。私たちはコンピュータシステム、特にマルチスレッド処理とマルチプロセス処理からインスピレーションを得ています。この研究の多くは、フォーク・ジョイン設計を活用したものと見なすことができます。

推論時には、実質的にモデルにマップ・リデュース操作を実行させることになります:**

  • 問題をサブタスク/スレッドに分割し、並列処理する
  • それらを結合して最終回答とする

imageimage**

*Figure 5: Fork-join Inference Design*

具体的には、モデルはサブタスクのリストに遭遇します。その後、各サブタスクをプリフィルし、推論エンジンが処理するために独立したリクエストとして送信します。これらのスレッドは、終了トークンに到達するか最大長を超えるまで並列にデコードされます。このプロセスは、すべてのスレッドがデコードを終了するまでブロックされ、その後結果を集約します。これはさまざまな適応型並列推論アプローチで共通しています。しかし、集約中に一つの課題が生じます:ブランチで生成されたコンテンツを KV キャッシュレベルで容易に集約できないことです。これは、独立したスレッド内のトークンが同じ位置 ID で始まるため、エンコーディングの重複が発生し、KV キャッシュを再度結合する際に標準的ではない動作を引き起こすからです。同様に、独立したスレッドは互いに注意(アテンション)しないため、その連結された KV キャッシュ結果は因果関係のない注意パターンとなり、これはベースモデルがトレーニング中に経験していないものです。

この課題に対処するため、分野は推論エンジンを変更するか、それを回避して作業するかのどちらかによって定義される、集約プロセスを実行する方法に関する二つの学派に分裂します。

Multiverse は、結合フェーズを跨いで KV キャッシュを再利用するように推論エンジンを修正します。Multiverse (Yang et al., 2025) のメモリ管理について深く掘り下げる前に、まず「結合」フェーズまでの KV キャッシュの扱い方について理解しましょう。各独立したスレッドがプレフィックスシーケンス、つまりサブタスクのリストを共有している点に注目してください。最適化を行わない場合、各スレッドはプレフィックスシーケンスに対してプリフィル(初期化)を行い、KV キャッシュを再計算する必要があります。しかし、SGLang の RadixAttention (Sheng et al., 2023) を用いることで、この冗長性を回避できます。RadixAttention は複数のリクエストをラジックスツリー(要素のシーケンスを持つトライ、すなわち接頭辞木)に整理します。これは単一の要素ではなく、異なる長さの要素シーケンスで構成される構造です。これにより、新たに KV キャッシュエントリが必要となるのは、独立したスレッドでの生成から生じるものだけになります。

image
image

*図 6: RadixAttention の KV キャッシュ管理戦略*

さて、すべてが順調に進めば、すべての独立したスレッドが推論エンジンから戻ってきたことになります。現在の目標は、これらを単一のシーケンスに統合して、次のステップのデコーディングを継続する方法を見出すことです。実は、この統合段階において、これらの独立したスレッドの KV キャッシュ(Key-Value Cache)を再利用することができます。具体的には、Multiverse (Yang et al., 2025)、Parallel-R1 (Zheng et al., 2025)、および NPR (Wu et al., 2025) は推論エンジンを変更し、各スレッドによって生成された KV キャッシュをコピーするとともに、ページテーブルを編集して非連続的なメモリブロックを単一の KV キャッシュシーケンスに結合します。これにより、2 回目のプリフィル(Prefill)における冗長な計算を回避し、既存の KV キャッシュを可能な限り再利用することができます。しかし、このアプローチにはいくつかの重大な制限があります。

まず、このアプローチでは推論エンジンを変更して標準的ではないメモリ処理を行う必要があり、予期せぬ動作を引き起こす可能性があります。具体的には、合成リクエストが以前の要求からの KV キャッシュを参照するため、システムに脆弱性が生じ、不適切なポインタの発生可能性が生じます。別のリクエストが入力され、合成リクエストが完了する前に参照された KV キャッシュが退去させられると、そのリクエストは停止して前のスレッド要求の再プリフィルリングを開始する必要があります。この問題により、Multiverse の研究者たち (Yang et al., 2025) は推論エンジンが処理できるバッチサイズを制限しており、スループットが制約されています。

image
image

*Figure 7: Multiverse 推論中の KV キャッシュ「ステッチング」*

第二に、このアプローチはモデルがシーケンスを認識する方法を変更するため、事前学習されていない分布シフトが生じ、行動を整合させるためにより広範なトレーニングが必要となります。具体的には、このように KV キャッシュを結合すると、標準的ではない位置エンコーディングを持つシーケンスが作成されます。独立したスレッド生成中は、すべてのスレッドが同じ位置インデックスで開始され、前のサブタスクに注意を向けますが、互いには注意を向けません。したがって、スレッドが再び結合されると、結果として得られる KV キャッシュは標準的ではない位置エンコーディングを持ち、因果的なアテンションを使用しません。そのため、このアプローチでは広範なトレーニングが必要です

原文を表示
Adaptive Parallel Reasoning overview
Adaptive Parallel Reasoning overview

**

*Overview of adaptive parallel reasoning.*

What if a reasoning model could decide *for itself* when to decompose and parallelize independent subtasks, how many concurrent threads to spawn, and how to coordinate them based on the problem at hand? We provide a detailed analysis of recent progress in the field of parallel reasoning, especially Adaptive Parallel Reasoning.

Disclosure: this post is part landscape survey, part perspective on adaptive parallel reasoning. One of the authors (Tony Lian) co-led ThreadWeaver (Lian et al., 2025), one of the methods discussed below. The authors aim to present each approach on its own terms.

Motivation

Recent progress in LLM reasoning capabilities has been largely driven by inference-time scaling, in addition to data and parameter scaling (OpenAI et al., 2024; DeepSeek-AI et al., 2025). Models that explicitly output reasoning tokens (through intermediate steps, backtracking, and exploration) now dominate math, coding, and agentic benchmarks. These behaviors allow models to explore alternative hypotheses, correct earlier mistakes, and synthesize conclusions rather than committing to a single solution (Wen et al., 2025).

The problem is that sequential reasoning scales linearly with the amount of exploration. Scaling sequential reasoning tokens comes at a cost, as models risk exceeding effective context limits (Hsieh et al., 2024). The accumulation of intermediate exploration paths makes it challenging for the model to disambiguate amongst distractors when attending to information in its context, leading to a degradation of model performance, also known as context-rot** (Hong, Troynikov and Huber, 2025). Latency also grows proportionally with reasoning length. For complex tasks requiring millions of tokens for exploration and planning, it’s not uncommon to see users wait tens of minutes or even hours for an answer (Qu et al., 2025). As we continue to scale along the output sequence length dimension, we also make inference slower, less reliable, and more compute-intensive. Parallel reasoning has emerged as a natural solution. Instead of exploring paths sequentially (Gandhi et al., 2024) and accumulating the context window at every step, we can allow models to explore multiple threads independently (threads don’t rely on each other’s context) and concurrently (threads can be executed at the same time).

Figure 1: Sequential vs. Parallel Reasoning
Figure 1: Sequential vs. Parallel Reasoning

**

*Figure 1: Sequential vs. Parallel Reasoning*

Over recent years, a growing body of work has explored this idea across synthetic settings (e.g., the Countdown game (Katz, Kokel and Sreedharan, 2025)), real-world math problems, and general reasoning tasks.

From Fixed Parallelism to Adaptive Control

Existing approaches show that parallel reasoning can help, but most of them still decide the parallel structure outside the model rather than letting the model choose it.

Simple fork-and-join.**

  • Self-consistency/Majority Voting — independently sample multiple complete reasoning traces, extract final answer from each, and return the most common one (Wang et al., 2023).
  • Best-of-N (BoN) — similar to self-consistency, but uses a trained verifier to select the best solution instead of using majority voting (Stiennon et al., 2022).
  • Although simple to implement, these methods often incur redundant computation across branches since trajectories are sampled independently.

Heuristic-based structured search.

  • Tree / Graph / Skeleton of Thoughts — a family of structured decomposition methods that explores multiple alternative “thoughts” using known search algorithms (BFS/DFS) and prunes via LLM-based evaluation (Yao et al., 2023; Besta et al., 2024; Ning et al., 2024).
  • Monte-Carlo Tree Search (MCTS) — estimates node values by sampling random rollouts and expands the search tree with Upper Confidence Bound (UCB) style exploration-exploitation (Xie et al., 2024; Zhang et al., 2024).
  • These methods improve upon simple fork-and-join by decomposing tasks into non-overlapping subtasks; however, they require prior knowledge about the decomposition strategy, which is not always known.

Recent variants.

  • ParaThinker — trains a model to run in two fixed stages: first generating multiple reasoning threads in parallel, then synthesizing them. They introduce trainable control tokens () and thought-specific positional embeddings to enforce independence during reasoning and controlled integration during summarization via a two-phase attention mask (Wen et al., 2025).
  • GroupThink — multiple parallel reasoning threads can see each other’s partial progress at token level and adapt mid-generation. Unlike prior concurrent methods that operate on independent requests, GroupThink runs a single LLM producing multiple interdependent reasoning trajectories simultaneously (Hsu et al., 2025).
  • Hogwild! Inference — multiple parallel reasoning threads share KV cache and decide how to decompose tasks without an explicit coordination protocol. Workers generate concurrently into a shared attention cache using RoPE to stitch together individual KV blocks in different orders without recomputation (Rodionov et al., 2025).
Figure 2: Various Strategies for Parallel Reasoning
Figure 2: Various Strategies for Parallel Reasoning

**

*Figure 2: Various Strategies for Parallel Reasoning*

The methods above share a common limitation: the decision to parallelize, the level of parallelization, and the search strategy are imposed on the model, regardless of whether the problem actually benefits from it. However, different problems need different levels of parallelization, and that is something critical to the effectiveness of parallelization. For example, a framework that applies the same parallel structure to “What’s 25+42?” and “What’s the smallest planar region in which you can continuously rotate a unit-length line segment by 180°?” is wasting compute on the former and probably using the wrong decomposition strategy for the latter. In the approaches described above, the model is not taught this adaptive behavior. A natural question arises: What if the model could decide for itself when to parallelize, how many threads to spawn, and how to coordinate them based on the problem at hand?**

Adaptive Parallel Reasoning (APR) answers this question by making parallelization part of the model’s generated control flow. Formally defined, adaptivity refers to the model’s ability to dynamically allocate compute between parallel and serial operations at inference time. In other words, a model with adaptive parallel reasoning (APR) capability is taught to coordinate its control flow — when to generate sequences sequentially vs. in parallel.

It’s important to note that the concept of adaptive parallel reasoning was introduced by the work *Learning Adaptive Parallel Reasoning with Language Models* (Pan et al., 2025), but is a paradigm rather than a specific method. Throughout this post, APR refers to the paradigm, while “the APR method” denotes the specific instantiation from Pan et al. (2025).

This shift matters for three reasons. Compared to Tree-of-Thoughts, APR doesn’t need domain-specific heuristics for decomposition. During RL, the model learns *general* decomposition strategies from trial and error. In fact, models discover useful parallelization patterns, such as running the next step along with the self-verification of a previous step, or hedging a primary approach with a backup one, in an emergent manner that would be difficult to hand-design (Yao et al., 2023; Wu et al., 2025; Zheng et al., 2025).

Compared to BoN, APR avoids redundant computation. APR models have control over what each parallel thread will do before branching out. Therefore, APR can learn to produce a set of unique, non-overlapping subtasks before assigning them to independent threads (Wang et al., 2023; Stiennon et al., 2022; Pan et al., 2025; Yang et al., 2025).

Compared to non-adaptive approaches, APR can choose not to parallelize. Adaptive models can adjust the level of parallelization to match the complexity of the problem against the complexity and overhead of parallelization (Lian et al., 2025).

In practice, this is implemented by having the model output special tokens that control when to reason in parallel versus sequentially. Below is a condensed ThreadWeaver-style trace: two outlines and two paths under a block, then the threads agree on a single boxed answer.

Figure 3: Example of an Adaptive Parallel Reasoning Trajectory from ThreadWeaver, manually condensed for ease of illustration.
Figure 3: Example of an Adaptive Parallel Reasoning Trajectory from ThreadWeaver, manually condensed for ease of illustration.

**

*Figure 3: Example of an Adaptive Parallel Reasoning Trajectory from ThreadWeaver, manually condensed for ease of illustration.*

Figure 4: Special Tokens Variants across Adaptive Parallel Reasoning Papers
Figure 4: Special Tokens Variants across Adaptive Parallel Reasoning Papers

*Figure 4: Special Tokens Variants across Adaptive Parallel Reasoning Papers*

Inference Systems for Adaptive Parallelism

How do we actually execute parallel branches? We take inspiration from computer systems, and specifically, multithreading and multiprocessing. Most of this work can be viewed as leveraging a fork-join design.

At inference time, we are effectively asking the model to perform a map-reduce operation:**

  • Fork the problem into subtasks/threads, process them concurrently
  • Join them into a final answer
Figure 5: Fork-join Inference Design
Figure 5: Fork-join Inference Design

**

*Figure 5: Fork-join Inference Design*

Specifically, the model will encounter a list of subtasks. It will then prefill each of the subtasks and send them off as independent requests for the inference engine to process. These threads then decode concurrently until they hit an end token or exceed max length. This process blocks until all threads finish decoding and then aggregates the results. This is common across various adaptive parallel reasoning approaches. However, one issue arises during aggregation: the content generated in branches cannot be easily aggregated at the KV cache level. This is because tokens in independent threads start at identical position IDs, resulting in encoding overlap and non-standard behavior when merging KV cache back together. Similarly, since independent threads do not attend to each other, their concatenated KV cache results in a non-causal attention pattern, which the base model has not seen during training.

To address this issue, the field splits into two schools of thought on how to execute the aggregation process, defined by whether they modify the inference engine or work around it.

Multiverse modifies the inference engine to reuse KV cache across the join.** Before taking a deeper look into Multiverse (Yang et al., 2025)’s memory management, let’s first understand how KV cache is handled up until the “join” phase. Notice how each of the independent threads share the prefix sequence, i.e., the list of subtasks. Without optimization, each thread needs to prefill and recompute the KV cache for the prefix sequence. However, this redundancy can be avoided with SGLang’s RadixAttention (Sheng et al., 2023), which organizes multiple requests into a radix tree, a trie (prefix tree) with sequences of elements of varying lengths instead of single elements. This way, the only new KV cache entries are those from independent thread generation.

Figure 6: RadixAttention’s KV Cache Management Strategy
Figure 6: RadixAttention’s KV Cache Management Strategy

*Figure 6: RadixAttention’s KV Cache Management Strategy*

Now, if everything went well, all the independent threads have come back from the inference engine. Our goal is now to figure out how to synthesize them back into a single sequence to continue decoding for next steps. It turns out, we can reuse the KV cache of these independent threads during the synthesis stage. Specifically, Multiverse (Yang et al., 2025), Parallel-R1 (Zheng et al., 2025), and NPR (Wu et al., 2025) modify the inference engine to copy over the KV cache generated by each thread and edits the page table so that it stitches together non-contiguous memory blocks into a single KV cache sequence. This avoids the redundant computation of a second prefill and reuses existing KV cache as much as possible. However, this has several major limitations.

First, this approach requires modifying the inference engine to perform non-standard memory handling, which can result in unexpected behaviors. Specifically, since the synthesis request references KV cache from previous requests, it creates fragility in the system and the possibility of bad pointers. Another request can come in and evict the referenced KV cache before the synthesis request completes, requiring it to halt and trigger a re-prefilling of the previous thread request. This problem has led the Multiverse researchers (Yang et al., 2025) to limit the batch size that the inference engine can handle, which restricts throughput.

Figure 7: KV Cache “Stitching” During Multiverse Inference
Figure 7: KV Cache “Stitching” During Multiverse Inference

*Figure 7: KV Cache “Stitching” During Multiverse Inference*

Second, this approach modifies how models see the sequence, which creates a distributional shift that models are not pretrained on, therefore requiring more extensive training to align behavior. Specifically, when we stitch together KV cache this way, we create a sequence with non-standard position encoding. During independent-thread generation, all threads started at the same position index and attended to the prior subtasks, NOT each other. So when the threads merge back, the resulting KV cache has a non-standard positional encoding and does not use causal attention. Therefore, this approach requires extensiv

この記事をシェア

関連記事

Vercel Blog重要度42026年6月25日 22:00

AI SDK 7 の発表

Vercel Blog重要度42026年6月25日 16:00

Vercel でエージェントに製品デザインを教える

Berkeley AI Research重要度42026年4月20日 18:00

長期ホライズンにおけるワールドモデルのための勾配ベース計画手法

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む