DeepSeek が LLM 推論を最大 85% 高速化する新フレームワーク「DSpark」をオープンソース化
DeepSeek が MIT ライセンスで公開した推論高速化フレームワーク「DSpark」は、スペキュレーティブ・ディコーディングの精度を向上させ、LLM の応答速度を最大 85% 改善する画期的な技術である。
キーポイント
DSpark の動作原理と革新性
「スキャウト(偵察兵)」が推論パスを先読みし、メインモデルが安全か迅速に検証することで、従来の逐次生成よりも大幅な速度向上を実現する。
DeepSeek-V4 への適用と性能
このフレームワークは DeepSeek の最新モデル「V4-Flash」および「V4-Pro」に適用され、推論コストを削減しながらリアルタイム性を確保する。
オープンソース化と利用範囲
MIT ライセンスでコードベース(DeepSpec)やモデルチェックポイントが GitHub や Hugging Face で公開され、企業や研究者による自由な実装・改良が可能となった。
影響分析・編集コメントを表示
影響分析
この発表は、LLM の推論コスト削減という最大の課題に対し、スペキュレーティブ・ディコーディングの精度を飛躍的に高める手法を提供した点で極めて重要です。MIT ライセンスでの公開により、大手企業からスタートアップまで広く技術が普及し、AI サービスのリアルタイム性が劇的に向上する可能性があります。
編集コメント
DeepSeek が再び業界の常識を覆すような技術革新をもたらしました。特に MIT ライセンスでの公開は、競合他社や研究者が即座にこの技術を検証・応用できる環境を整えた点で、オープンソースコミュニティ全体にとって大きな追い風となります。
AI を巡る地政学的な議論が、Anthropic の新モデルへのアクセス制限を命じる米国政府の措置 U.S. government's actions to limit the new models from Anthropic や、OpenAI の新モデル OpenAI への限定的なプレビューパートナー向けアクセス制限に続く中、さらに緊迫化しているにもかかわらず、中国のオープンソース界の寵児である DeepSeek は、再び世界全体の AI 開発を変えうる新たな公開リリースを発表しました。
今週末、同社は DSpark をリリースしました。これは MIT ライセンスの下で提供される新しいシステムであり、基盤となるモデルが伝えようとする内容を一切変えることなく、大規模言語モデル(LLM: Large Language Model)の回答速度を向上させることを目的としています。
これを最も簡単に理解する方法は次の通りです。多くの AI チャットボットは、川を一つずつ飛び石で渡るかのように文章を生成します。まず小さなテキストの断片を選び、次にまた別の断片を選び、さらにその次へと進んでいきます。
DSpark はシステムに先導役(スキャウト)を与えます。この先導役が数ステップ ahead に走り、おそらく通るべき経路を予測し、より大きなモデルに対してどのステップが安全かを素早く確認できるようにします。予測が的確な場合、モデルは高速で移動できます。一方、予測が不確かな場合、DSpark はそれらを確認するために時間を浪費しないように努めます。
DeepSeek は、技術論文、モデルのチェックポイント、および推測的デコーディング(speculative decoding)システムのトレーニングと評価を行うためのコードベースである DeepSpec を公開しました。このリリースは、DeepSeek のパブリックな GitHub および Hugging Face ページを通じて利用可能であり、どちらも寛容で親しみやすく一般的な MIT ライセンスの下に置かれています。これにより、このアプローチを研究したり適応させたい開発者、研究者、および商業的な企業運用において、新しい技術が広く利用可能になります。
このシステムは、AI デプロイメントにおける最も高価な問題の一つに対処するものです。すなわち、大規模モデルを実際のユーザーに対して十分に高速に提供しつつ、経済的に成立させるためにハードウェアを効率的に使用することです。これは、消費者向けのチャットボット、コーディングアシスタント、エージェントワークフロー、およびエンタープライズ AI システムにおいて重要です。これらのシステムでは、ユーザーは単語ごとにゆっくりと出力されるのではなく、長い回答が素早くストリーミングされることを期待しています。
DeepSeek は、DSpark を自社最新のフロンティアオープンモデルである DeepSeek-V4 にも適用しています。
具体的には、DeepSeek はその新しい DSpark フレームワークを、すでに速度最適化が施された 2840 億パラメータの混合専門家モデル(130 億のパラメータがアクティブ)である DeepSeek-V4-Flash と、より慎重かつ強力な 1.6 兆パラメータのモデル(490 億のパラメータがアクティブ)である DeepSeek-V4-Pro に適用しました(両方とも最大 100 万トークンのコンテキストウィンドウをサポートしています)。
しかし、より広範な意義は、DSpark が概念的に DeepSeek-V4 に限定されない点にあります。DeepSeek 自身のテストと公開されたチェックポイントは、アリババのオープンウェイト Qwen や Google のオープンウェイト Gemma など、他のオープンモデルファミリーもカバーしています。
つまり、オープンウェイトモデルを実行している企業チームは、原則として、自社のターゲットモデル向けに DSpark スタイルのドラフトモジュールをトレーニングまたはファインチューニングすることが可能です。これは API 顧客が外部から切り替えられるスイッチではありませんが、オペレーターが重みとサービングスタックを制御できる場合、他のモデルにも適用可能な手法です。
推論中のトークン生成における驚異的な速度向上
DeepSeek のライブ生産環境でのテストでは、DSpark は DeepSeek-V4-Flash においてユーザーあたり 1 秒間に 80 トークンのサービス目標で集約スループットを 51% 向上させ、DeepSeek-V4-Pro においてはユーザーあたり 1 秒間に 35 トークンの目標で 52% 向上させました。システム容量を同等に保った場合、DeepSeek は報告によると、V4-Flash では従来型の MTP-1 生産ベースラインに対してユーザーあたりの生成速度が 60% から 85% 向上し、V4-Pro では 57% から 78% 向上したと述べています。
異なる速度の主張は、異なるものを測定しています。V4-Flash の 60% から 85% という数値と、V4-Pro の 57% から 78% という数値は、DeepSeek が DSpark と MTP-1 を同等の実用的なシステム容量で比較した際に、個々のユーザーが生成されたトークンをどれだけ速く受け取るかを示しています。
imageクレジット:DeepSeek、「DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation」
これらはより明確な「生成速度」の数値です。DeepSeek はまた、はるかに大きな 661% および 406% の増加も報告していますが、これらは非常に厳しい速度目標下での集約スループットを測定したものです:V4-Flash ではユーザーあたり秒間 120 トークン、V4-Pro ではユーザーあたり秒間 50 トークンです。
これらの目標において、DeepSeek は自社の古い MTP-1 ベースラインが運用上の崖に近づくと述べています。つまり、そのレベルの応答性を維持しながら実行できる同時リクエスト数はごくわずかしかありません。
DSpark はそのような崩壊をより多く回避するため、総システム出力におけるパーセンテージ差ははるかに大きくなります。簡単に言えば、85% という数値は同等の条件下での「ユーザーにとっての体験がどれだけ速く感じるか」に近く、一方 661% と 406% の数値は、古いシステムがすでにボトルネックとなっている状況における「道路がさらに運べる交通量」に近いものです。
なぜ推測的デコーディングが重要なのか
LLM(大規模言語モデル)は通常、1 トークンずつテキストを生成します。トークンは単語、単語の一部、句読点、またはその他の小さなテキストの断片になり得ます。新しいトークンのすべては既に生成されたテキストに依存するため、モデルは常に一時停止して完全な文脈を確認し、次の断片を選択する必要があります。
これは正確ですが、遅いです。作家が次の単語に進む前にシニアエディターがすべての単語を承認する必要があるようなものです。エディターが優秀であっても、このプロセスにはボトルネックが生じます。
推測的デコーディング(speculative decoding)は、トランスフォーマー時代初期に開発されたもので、このボトルネックを解消しようとするものです。大規模モデルにトークンを一つずつ生成させるのではなく、システムはより小さく軽量なドラフトコンポーネントを使用して、次に発生する可能性が高い複数のトークンを提案します。その後、大規模モデルはその一連の推測を並列で検証します。ドラフトが正しく予測した場合、システムは一度に数トーンを進みます。ドラフトが誤った推測をした場合、システムはその誤ったトークンとそれ以降のすべてのトークンを拒否し、修正されたトークンを追加して再試行します。
重要なのは、大規模モデルが意図する出力を変更せずに速度を向上させることです。標準的な推測的デコーディングの設定では、ドラフトモデルはターゲットモデルを置き換えるものではなく、シニアエディターが承認または拒否するための粗い次の文を準備するアシスタントのような役割を果たします。
このアイデアは、今日の大規模言語モデル(LLM)において突然現れたものではありません。2018 年に 重要な先行研究 が登場しました。ミッチェル・スターン氏、ノア・シャゼー氏、ヤコブ・ウシュコライト氏が、深層自己回帰モデルに対するブロック並列デコード(blockwise parallel decoding)を提案したのです。彼らの手法は、複数の未来ステップを並列に予測し、その後、メインモデルによって検証された最長のプレフィックス(先行部分)のみを保持するというものでした。この論文は、後のスペキュレティブ・ディコーディング(speculative decoding:推測的デコード)研究の背後にある「草案作成と検証」の直観的な考え方の多くを確立しました。
この研究の流れは 2022 年にさらに明確化されました。ヘミング・シャ氏、タオ・ゲ氏ら共著者が、シーケンスからシーケンスへの生成のための草案作成・検証アプローチである SpecDec(スペックデック)[](https://arxiv.org/abs/2203.16487) を紹介しました。同年晚く、ヤニヴ・レヴィタン氏、マタン・カルマン氏、ヨシ・マティアス氏が「Transformer からの高速推論のためのスペキュレティブ・ディコーディング」を発表し、これがトランスフォーマーベースの言語モデルにおける現代版の技術定義に寄与しました。DeepMind の研究者たちは 2023 年に、これと密接に関連する「スペキュレティブ・サンプリング(speculative sampling:推測的サンプリング)」[](https://arxiv.org/abs/2302.01318) と呼ばれる手法で続きました。
これらの 2022 年および 2023 年の論文は、現在の LLM 推論研究において議論されるスペキュレティブ・ディコーディングの最も明確な祖先です。より高速な草案プロセスがトークンを提案し、より大きなターゲットモデルが、ターゲットモデルの出力分布を維持するように設計された方法でそれらを検証します。
以来、この分野は複数のバリアントを急速に発展させました。これには個別のドラフトモデル、マルチトークン予測ヘッド、木ベースの検証、EAGLE などの特徴量レベル手法、自己推測、Medusa スタイルの追加ヘッド、そして DFlash に代表される並列/ブロック方式ドラフターが含まれます。
重要な指標は、ドラフトモデルが何トークンを予測できるかではありません。重要なのは、その予測のうち大きなモデルが実際に受け入れる数がどれほどかです。提案されたトークンの十分な部分が検証を通過しない限り、長い推測ブロックは役立ちません。そうでなければ、システムは捨てられる予測をチェックするために計算リソースを浪費することになります。
これが DSpark の背景となる文脈です。推論技術としての推測デコーディング(speculative decoding)は DeepSeek のリリース以前から確立されたものであり、主要なサービングスタックや複数の競合する研究アプローチでサポートされています。しかし、まだ解決済みの問題ではありません。速度向上はドラフトモデル、ワークロード、サービング設定、および現在のトラフィックレベルに大きく依存します。DSpark の貢献は、このトレードオフの両側面を改善することにあります。つまり、より一貫性のあるトークンブロックを生成しようとしつつ、実際のサービング条件下で効果が期待できる部分のみを検証するのです。
DSpark が変える点
DSpark は 2 つの関連する問題に取り組んでいます。それは「悪い予測」と「無駄な検証」です。
まず、システムは DeepSeek が「半自己回帰生成(semi-autoregressive generation)」と呼ぶ手法を使用します。平易な英語で言えば、これは DSpark が速度と、少しばかりの文脈への意識を組み合わせようとする試みです。
完全に並列的なドラフターは一度に複数のトークンを推測できるため高速ですが、各位置があまりにも独立して予測されるため、後の推測の整合性が低下する可能性があります。一方、純粋な逐次的ドラフターは1 つのトークンが次のトークンへとどのようにつながるかをよりよく追跡できますが、速度の利点を大きく失ってしまいます。
DSpark は両者の長所を維持しようとしています。主に並列的なバックボーンを使用してドラフト作業の大部分を行い、その後、軽量な逐次的ヘッドを追加して、ドラフトが近接するトークンの関係を考慮できるようにしています。論文の例では、並列ドラフターは「もちろん」や「問題ありません」といった可能性のあるフレーズの終わりを混同し、位置をあまりにも個別に推測しているために不自然な組み合わせを生み出すことがあります。DSpark の逐次的コンポーネントは、システムが後のトークンを前のトークンに合わせて調整するのを助けます。
第二に、DSpark は信頼度に基づくスケジュール化された検証を追加します。ターゲットモデルに対して常に同じ数のドラフトトークンのチェックを依頼するのではなく、どのプレフィックス(接頭辞)がドラフトとして生き残る可能性が高いかを推定します。ハードウェアを意識したスケジューラーは、モデルの信頼度と現在のサービング負荷の両方に基づいて、各ドラフトのどの部分を検証すべきかを調整します。
単純な例え話:レストランが閑散としているときは、料理長は調理担当者の作業をより多くチェックできます。しかし、厨房が混雑しているときは、料理長は完成する可能性が高い料理にのみ注意を集中させます。DSpark はこの考え方を AI サービングに応用しています。トラフィックが少ない場合、システムはより長いドラフト接頭辞をチェックする余裕があります。一方、トラフィックが多い場合は、他のユーザーのために使用できるバッチ容量を消費する前に、信頼度の低い末尾の推測を切り捨てます。
DeepSeek はこれを、一般的な生産環境におけるトレードオフに対する回答として位置付けています。静的なマルチトークンドラフトは単独では魅力的に見えますが、システムが拒否される可能性の高いトークンをチェックし続けるため、高い同時実行性下ではスループットを損なう可能性があります。DSpark のスケジューラは、検証予算を固定されたものではなく柔軟なものにします。
オフライン結果:Qwen および Gemma 全体でドラフト受容率が向上
DeepSeek は、数学、コーディング、チャットのベンチマークにおいて、Qwen3-4B、Qwen3-8B、Qwen3-14B、および Gemma4-12B のターゲットモデルに対して DSpark をオフライン環境でテストしました。
これらのテストでは、チームは DSpark を並列ドラフターである DFlash および自己回帰型ドラフターである Eagle3 と比較しました。論文では、デコードラウンドあたりの受容長(平均して何トークンが検証を生き残るかを示す指標)が報告されています。
imageQwen3-4B、Qwen3-8B、Qwen3-14B、およびGemma4-12BにおけるEagle3やDFlashに対するDSparkのモデル速度向上。クレジット:DeepSeek、「DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation」
3 つの Qwen3 モデルサイズすべてにおいて、DSpark は Eagle3 に対してマクロ平均受容長をそれぞれ 30.9%、26.7%、30.0% 向上させました。DFlash と比較すると、受容長は 16.3%、18.4%、18.3% 改善されました。論文では、これらの効果は Gemma4-12B にも一般化されると述べています。
これは、開発者の Daniel Han が X で指摘した点も裏付けるものです。Han は、DeepSeek が DSpark を自社の V4 モデルだけでなく、Gemma や Qwen といった他社モデルでも動作させることを示したと強調しました。私は Han の発言をコミュニティの反応として含めますが、この主張に対する唯一の根拠とするわけではありません。より強力な支持は、DeepSeek 自身のベンチマーク結果と公開されたチェックポイントから得られます。
オフラインの結果はまた、ワークロードがなぜ重要であるかも示しています。数学やコードといった構造化タスクは、自由形式のチャットに比べて受容長が高くなる傾向があります。これは直感的にも理解できます。コード補完や数学の手順では、自由な会話に比べて妥当な次の手が限られるからです。
企業にとって、これはDSpark スタイルの手法が、コード支援ツールやデータ分析エージェント、構造化されたワークフロー自動化など、出力パターンがより予測可能なシナリオにおいて特に魅力的であることを意味します。
DeepSeek-V4 を使わずに企業が DSpark を活用する方法
最も重要な質問の一つは、DSpark が DeepSeek 専用最適化なのか、それとも他のモデルにも適用できる広範な手法なのかです。答えは「広範な手法だが、自動プラグインではない」です。
オープンウェイト モデルの場合、道筋は比較的明確です。Qwen、Gemma、Llama、Mistral、Granite、Command スタイルのオープンウェイト、または自社でホストする他のモデルを実行している企業であれば、その対象モデルに対して DSpark スタイルのドラフトモジュールをトレーニングまたはファインチューニングできます。
その後、チームは自社のワークロードにおける受容率を測定し、検証スケジューラを推論スタックに統合します。
これは単に DeepSeek の DSpark モジュールをダウンロードして任意のモデルに取り付けることとは異なります。スペキュレイティブ・ディコーディング(speculative decoding)は、ドラフトモジュールと対象モデル間の整合性に依存します。ドラフターは、対象モデルが何を受理する可能性が高いかを学習する必要があります。DeepSeek-V4 用にトレーニングされたドラフターが、異なるモデル、特に企業の内部データでファインチューニングされたモデルや、異なる推論動作のために構成されたモデルにとって自動的に適切なドラフターになるとは限りません。
DeepSpec のワークフローはこの点を反映しています。このプロセスには、データの準備、ターゲットモデルの回答再生成、ターゲットキャッシュの構築、ドラフトモデルのトレーニング、そして推測的デコーディングの受容率評価が含まれます。ドメイン固有の使用においては、ドラフトモデルは追加のファインチューニングを必要とする場合があります。特に、ターゲットモデルが思考や推論モードで動作する場合です。
プロプライエタリモデルの場合、答えは企業が何を制御できるかにかかっています。企業がモデル重みとサービングスタックを所有または完全にホストしている場合、理論的には DSpark スタイルのドラフターをトレーニングしてデプロイすることは可能です。しかし、モデルがベンダーからのホスト API 経由でのみ利用可能な場合、顧客は外部から直接 DSpark を追加することはできません。API プロバイダは同様の最適化を内部で実装できるかもしれませんが、顧客一般には DSpark が動作するために必要なトークン検証ループ、ロジット、バッチ処理の挙動、サービングスケジューラへのアクセス権限はありません。
この区別は企業購入者にとって重要です。DSpark は、高度なチームが速度とコストを改善するための別のレバーを提供するため、オープンまたはセルフホスト型の AI インフラストラクチャを採用するケースを強化します。しかし同時に、モデルサービングが専門的な分野へと進化している理由も示しています。価値は単にモデルを選ぶことではなく、そのモデルをいかに知的に実行するかにかかっています。
DeepSpec から開発者が得るもの
開発者にとって、DeepSpec は推測デコーディングのドラフトモデルをトレーニングおよび評価するための具体的な実装パスを提供します。これにはデータ準備、トレーニング、ベンチマーク評価の手順が含まれており、複数のオープンモデルファミリーに対するチェックポイントも公開されています。このリリースは、DeepSeek-V4 を DSpark で実行するだけでなく、他のオープンモデルに高速デコーディングを追加する方法を研究している研究者やインフラチームにとっても有用なものです。
実運用にはいくつかの注意点があります。DeepSpec 自身の README によると、デフォルトの Qwen3-4B データ準備セットアップでは、ターゲットキャッシュストレージとして約 38TB の容量が必要となる場合があります。また、デフォルトのスクリプトは 8 つの GPU を備えた単一ノードを前提としています。このため、このリリースは通常のアプリケーション開発者よりも、AI ラボ、クラウドチーム、高度なエンタープライズ AI インフラストラクチャを持つ組織にとって即座に関連性が高いと言えます。
それでも、トレーニングパイプラインを公開することは重要です。多くの推論最適化手法は、論文や曖昧なベンチマーク、あるいはクローズドな生産環境での主張としてしか存在しません。DeepSpec は開発者に対して、完成したエンタープライズ製品というよりは、むしろ一連の設計図に近いものを提供します。これはその方法を再現し、適応させ、評価するための手段となるものです。
初期コミュニティテスト
本リリースはすでに迅速な開発者の注目を集めています。開発者 ラファエル・カリシオが、単一ストリームの DeepSeek-V4-Flash DSpark に関する作業を文書化した GitHub プルリクエスト を公開し、推測的デコーディングなしでは秒間 26.33 トークン、MTP-1(Multi-Token Prediction)を使用すると秒間 39.88 トークン、DSpark を使用すると約秒間 60 トークンのウォームアップ済みベンチマークアンカーを報告しました。これは MTP-1 より約 1.5 倍、推測的デコーディングなしより約 2.3 倍の性能です。
同じスレッド内の後のコミットでは、5 回のランの平均が秒間 60.31 トークンとなり、MTP-1 に対して 1.51 倍、非推測的デコーディングに対して 2.29 倍の向上が記録されました。
同様の作業は、重要な実用的な限界も示しています。現実的な複数ターンにわたるコーディングセッションでは、コンテキストが拡大するにつれてドラフトの受容率が低下し、パフォーマンスが劣化する可能性があります。つまり、DSpark はデコーディングを高速化できますが、システムが実際に実現できる速度は依然として受容品質によって決定されます。
これは有用な現実確認です。DSpark は魔法ではありません。それは依然として次のトークンの予測可能性と、ドラフターがターゲットモデルとどれだけよく整合しているかに依存します。しかし、初期の実装作業は DeepSeek の主張が純粋に学術的なものではないことを示唆しています。開発者はすでに実用的なサービング環境でこの方法をテストしており、論文で示された単一ストリームの期待値に近い向上を報告しています。
結論
DSpark は、基盤となるモデルアーキテクチャが同じままでも、推論層においてどれほどの性能向上余地が残されているかを示しています。AI企業がモデルの品質、コンテキスト長、価格を巡って競争する中、デコーディング効率(decoding efficiency)は新たな主要な戦場となっています。
生成速度の向上は、ユーザーにとっては遅延時間の短縮、プロバイダーにとってはスループットの向上、大規模にオープンモデルを提供するチームにとってはより良い経済性をもたらします。
DeepSeek のリリースが注目されるのは、実証済みの手法、オープンソースコード、公開されたチェックポイント、そして詳細な論文を組み合わせている点にあります。主な革新点は単により多くのトークンをドラフトすることではなく、どの推測作業を検証する価値があるかをシステムがより選択的になるようにした点です。
企業チームにとってのより広い教訓は、今後の AI パフォーマンス向上が大きなモデルのみから来るわけではないということです。それは、企業がすでに保有しているモデルをより賢く実行する方法からも生まれます。特に、その企業がスタックの十分な部分を制御し、モデルのチューニングや互換性のあるドラフトモジュールのトレーニング、実際のワークロードに合わせたサービングエンジン(serving engine)の最適化が可能である場合に、それは顕著です。
原文を表示
Even as the geopolitical conversation around AI continues to grow more fraught following theU.S. government's actions to limit the new models from Anthropic and OpenAI, Chinese open source darling DeepSeek is back with yet another open release that could once again change AI development around the globe.
Over the weekend, the firm released DSpark, a new, MIT-Licensed system designed to make large language models answer faster without changing what the underlying model is trying to say.
The easiest way to think about it is this: most AI chatbots write like someone crossing a river one stepping stone at a time. They choose one small chunk of text, then the next, then the next.
DSpark gives the system a scout that runs a few steps ahead, guesses the likely path, and lets the larger model quickly check which steps are safe. When the guesses are good, the model moves faster. When the guesses are weak, DSpark tries not to waste time checking them.
DeepSeek published the work with a technical paper, model checkpoints and DeepSpec, a codebase for training and evaluating speculative decoding systems. The release is available through DeepSeek’s public GitHub and Hugging Facepages, both under the permissive, friendly, commonplace MIT license, making the new technique broadly usable by developers, researchers and commercial enterprise operations that want to study or adapt the approach.
The system is aimed at one of the most expensive problems in AI deployment: serving large models quickly enough for real users, while using hardware efficiently enough to make the economics work. That matters for consumer chatbots, coding assistants, agentic workflows and enterprise AI systems where users expect long answers to stream quickly rather than crawl out word by word.
DeepSeek is applying DSpark to its own latest frontier open model,DeepSeek-V4.
Specifically, DeepSeek used its new DSpark framework on DeepSeek-V4-Flash, its already speed-optimized 284-billion-parameter mixture-of-experts model with 13 billion active parameters, and DeepSeek-V4-Pro, its more thoughtful and powerful 1.6-trillion-parameter model with 49 billion active parameters (Both support context windows up to one million tokens).
But the broader significance is that* DSpark is not conceptually limited to DeepSeek-V4.* DeepSeek’s own tests and released checkpoints cover other open model families, including Alibaba's open weights *Qwen* and Google's open weights *Gemma. *
That means enterprise teams running open-weight models could, in principle, train or fine-tune DSpark-style draft modules for their own target models. It is not a switch that any API customer can flip from the outside, but it is a method that can travel to other models when the operator controls the weights and serving stack.
Staggering speed increases for generating tokens during inference
In DeepSeek’s live production tests, DSpark improved aggregate throughput by 51% for DeepSeek-V4-Flash at an 80-token-per-second-per-user service target, and by 52% for DeepSeek-V4-Pro at a 35-token-per-second-per-user target. At matched system capacity, DeepSeek reports per-user generation speedups of 60% to 85% for V4-Flash and 57% to 78% for V4-Pro over its prior MTP-1 production baseline.
The different speed claims measure different things. The 60% to 85% figure for V4-Flash, and the 57% to 78% figure for V4-Pro, describe how much faster individual users receive generated tokens when DeepSeek compares DSpark with MTP-1 at matched practical system capacity.

Those are the cleaner “generation speed” numbers. DeepSeek also reports much larger 661% and 406% increases, but these measure aggregate throughput under very strict speed targets: 120 tokens per second per user for V4-Flash and 50 tokens per second per user for V4-Pro.
At those targets, DeepSeek says its older MTP-1 baseline approaches an operational cliff, meaning it can keep only a small number of concurrent requests running while preserving that level of responsiveness.
DSpark avoids more of that collapse, so the percentage difference in total system output becomes much larger. Put simply: the 85% number is closer to “how much faster the ride feels for a user” under comparable conditions, while the 661% and 406% figures are closer to “how much more traffic the road can still carry” when the old system is already bottlenecking.
Why speculative decoding matters
LLMs usually generate text one token at a time. A token can be a word, part of a word, punctuation mark or other small piece of text. Every new token depends on the text already produced, so the model has to keep pausing, checking the full context and choosing the next piece.
That is accurate, but slow. It is like having a senior editor approve every word before a writer can move to the next one. The editor may be excellent, but the process creates a bottleneck.
Speculative decoding, developed in the early Transfomer era, tries to fix that bottleneck. Instead of asking the large model to produce every token one by one, the system uses a smaller or lighter draft component to suggest several likely next tokens. The large model then checks that batch of guesses in parallel. If the draft guessed correctly, the system moves ahead several tokens at once. If the draft made a bad guess, the system rejects the bad token and anything after it, adds a corrected token, and tries again.
The point is speed without changing the larger model’s intended output. In the standard speculative decoding setup, the draft model is not replacing the target model. It is acting more like an assistant who prepares a rough next sentence for the senior editor to approve or reject.
The idea did not appear out of nowhere with today’s large language models. A key precursor came in 2018, when Mitchell Stern, Noam Shazeer and Jakob Uszkoreit proposed blockwise parallel decoding for deep autoregressive models. Their method predicted multiple future steps in parallel, then kept the longest prefix validated by the main model. That paper established much of the draft-and-check intuition behind later speculative decoding work.
The research line became more explicit in 2022. Heming Xia, Tao Ge and co-authors introduced SpecDec, a draft-and-verify approach for sequence-to-sequence generation. Later that year, Yaniv Leviathan, Matan Kalman and Yossi Matias posted “Fast Inference from Transformers via Speculative Decoding,” which helped define the modern version of the technique for transformer-based language models. DeepMind researchers followed in 2023 with a closely related method called speculative sampling.
Those 2022 and 2023 papers are the clearest ancestors of how speculative decoding is discussed in current LLM inference work: a faster draft process proposes tokens, and the larger target model verifies them in a way designed to preserve the target model’s output distribution.
Since then, the field has moved quickly through several variants, including separate draft models, multi-token prediction heads, tree-based verification, feature-level methods such as EAGLE, self-speculation, Medusa-style extra heads and parallel/blockwise drafters such as DFlash.
The key metric is not how many tokens a draft model can guess. It is how many of those guesses the larger model actually accepts. Long speculative blocks help only if enough of the proposed tokens survive verification. Otherwise, the system spends compute checking guesses that it throws away.
That is the context for DSpark. Speculative decoding is already an established inference technique before DeepSeek’s release, with support in major serving stacks and multiple competing research approaches. But it is still not a solved problem. Speedups depend heavily on the draft model, the workload, the serving setup and the current traffic level. DSpark’s contribution is to improve both sides of the trade-off: it tries to draft more coherent token blocks and then verify only the parts of those blocks that are likely to pay off under real serving conditions.
What DSpark changes
DSpark tackles two related problems: bad guesses and wasted checking.
First, the system uses what DeepSeek calls semi-autoregressive generation. In plain English, that means DSpark tries to combine speed with a bit more awareness of sequence.
A fully parallel drafter can guess several tokens at once, which is fast, but its later guesses can become less coherent because each position is predicted too independently. A purely step-by-step drafter can keep better track of how one token leads to the next, but it loses much of the speed advantage.
DSpark tries to keep the best of both. It uses a parallel backbone for most of the drafting work, then adds a lightweight sequential head that lets the draft take nearby token relationships into account. In the paper’s example, a parallel drafter might confuse likely phrase endings such as “of course” and “no problem,” producing awkward combinations because it is guessing positions too separately. DSpark’s sequential component helps the system make the later tokens fit the earlier ones.
Second, DSpark adds confidence-scheduled verification. Rather than always asking the target model to check the same number of draft tokens, DSpark estimates which prefix of the draft is likely to survive. A hardware-aware scheduler then adjusts how much of each draft should be verified based on both model confidence and current serving load.
A simple analogy: when a restaurant is quiet, the head chef can inspect more of the prep cook’s work. When the kitchen is slammed, the chef spends attention only on the dishes most likely to be ready. DSpark applies a similar idea to AI serving. Under lighter traffic, the system can afford to check longer draft prefixes. Under heavier traffic, it trims low-confidence trailing guesses before they consume batch capacity that could be used for other users.
DeepSeek frames this as an answer to a common production trade-off. Static multi-token drafting can look attractive in isolation, but can hurt throughput under high concurrency because the system keeps checking tokens that are likely to be rejected. DSpark’s scheduler makes the verification budget flexible instead of fixed.
Offline results: better draft acceptance across Qwen and Gemma
DeepSeek tested DSpark offline on Qwen3-4B, Qwen3-8B, Qwen3-14B and Gemma4-12B target models across math, coding and chat benchmarks.
In those tests, the team compared DSpark with DFlash, a parallel drafter, and Eagle3, an autoregressive drafter. The paper reports accepted length per decoding round, a measure of how many tokens survive verification on average.

Across the three Qwen3 model sizes, DSpark improved macro-average accepted length over Eagle3 by 30.9%, 26.7% and 30.0%, respectively. Compared with DFlash, it improved accepted length by 16.3%, 18.4% and 18.3%. The paper also says the gains generalized to Gemma4-12B.
That supports a point raised by developer Daniel Han, who highlighted on X that DeepSeek showed DSpark working beyond DeepSeek’s own V4 models, including Gemma and Qwen. I would include Han as community reaction, not as the sole evidence for the claim. The stronger support comes from DeepSeek’s own benchmarks and released checkpoints.
The offline results also show why workload matters. Structured tasks such as math and code tend to have higher accepted lengths than open-ended chat. That makes intuitive sense: a code completion or math step often has fewer reasonable next moves than a free-form conversation.
For enterprises, this means DSpark-style methods may be especially attractive for coding assistants, data analysis agents, structured workflow automation and other settings where outputs follow more predictable patterns.
How enterprises could use DSpark without DeepSeek-V4
One of the most important questions is whether DSpark is a DeepSeek-only optimization or a broader method that can be applied to other models. The answer is: broader method, but not automatic plug-in.
For open-weight models, the path is relatively clear. An enterprise running Qwen, Gemma, Llama, Mistral, Granite, Command-style open weights or another model it hosts itself could train or fine-tune a DSpark-style draft module against that target model.
The team would then measure acceptance on its own workloads and integrate the verification scheduler into its inference stack.
That is different from simply downloading DeepSeek’s DSpark module and attaching it to any model. Speculative decoding depends on alignment between the draft module and the target model. The draft has to learn what the target model is likely to accept. A drafter trained for DeepSeek-V4 will not automatically be the right drafter for a different model, especially one fine-tuned on a company’s internal data or configured for different reasoning behavior.
DeepSpec’s workflow reflects this. The process involves preparing data, regenerating target-model answers, building a target cache, training the draft model and evaluating speculative-decoding acceptance. For domain-specific use, the draft model may need additional fine-tuning, especially if the target model runs in a thinking or reasoning mode.
For proprietary models, the answer depends on what the enterprise controls. If a company owns or fully hosts the model weights and serving stack, it could theoretically train and deploy a DSpark-style drafter. If the model is available only through a hosted API from a vendor, the customer cannot directly add DSpark from the outside. The API provider could implement a similar optimization internally, but the customer generally cannot access the token verification loop, logits, batching behavior or serving scheduler needed to make DSpark work.
That distinction matters for enterprise buyers. DSpark strengthens the case for open or self-hosted AI infrastructure because it gives advanced teams another lever to improve speed and cost. But it also shows why model serving is becoming a specialized discipline. The value is not just in picking a model, but in how intelligently that model is run.
What developers get from DeepSpec
For developers, DeepSpec gives a concrete implementation path for training and evaluating speculative decoding draft models. It includes data preparation, training and benchmark evaluation steps, along with released checkpoints for several open model families. That makes the release useful not only for running DeepSeek-V4 with DSpark, but also for researchers and infrastructure teams studying how to add faster decoding to other open models.
There are real deployment caveats. DeepSpec’s own README says the default Qwen3-4B data preparation setup can require roughly 38 TB of target cache storage, and the default scripts assume a single node with eight GPUs. That makes the release more immediately relevant to AI labs, cloud teams and sophisticated enterprise AI infrastructure groups than to ordinary application developers.
Still, releasing the training pipeline matters. Many inference optimizations appear only as papers, vague benchmarks or closed production claims. DeepSpec gives developers something closer to a set of blueprints: not a finished enterprise product, but a way to reproduce, adapt and evaluate the method.
Early community testing
The release has already drawn fast developer attention. Developer Rafael Caricio published a GitHub pull requestdocumenting single-stream DeepSeek-V4-Flash DSpark work, reporting warmed benchmark anchors of 26.33 tokens per second without speculative decoding, 39.88 tokens per second with MTP-1, and roughly 60 tokens per second with DSpark — about 1.5x over MTP-1 and 2.3x over no-spec decoding.
A later commit in the same thread recorded a five-run mean of 60.31 tokens per second, with a 1.51x gain over MTP-1 and 2.29x over non-speculative decoding.
The same work also points to an important practical limit: in realistic multi-turn coding sessions, performance can degrade as draft acceptance falls with growing context. In other words, DSpark can make decoding faster, but acceptance quality still determines how much speed the system actually realizes.
That is a useful reality check. DSpark is not magic. It still depends on how predictable the next tokens are and how well the drafter stays aligned with the target model. But the early implementation work suggests DeepSeek’s claims are not purely academic. Developers are already testing the method in practical serving environments and reporting gains close to the paper’s single-stream expectations.
The bottom line
DSpark shows how much performance remains available in the inference layer, even when the underlying model architecture stays the same. As AI companies compete on model quality, context length and pricing, decoding efficiency is becoming another major battleground.
Faster generation means lower latency for users, higher throughput for providers and better economics for teams serving open models at scale.
DeepSeek’s release is notable because it combines a production-tested method, open code, public checkpoints and a detailed paper. The main innovation is not just drafting more tokens. It is making the system more selective about which speculative work is worth verifying.
For enterprise teams, the broader lesson is that the next wave of AI performance gains will not come only from larger models. It will also come from smarter ways to run the models companies already have — especially when those companies control enough of the stack to tune the model, train a compatible draft module and optimize the serving engine around real workloads.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み