DeepSeek-V3の新論文公開:ハードウェア連携設計による低コスト大規模モデル学習の秘密
DeepSeek の新論文は、ハードウェア制約を克服し低コストで大規模モデルを訓練・推論するための「ハードウェア意識型協調設計」の具体的な手法と、MLA や DeepSeekMoE などのアーキテクチャ革新の詳細を明らかにした。
キーポイント
ハードウェア意識型協調設計の確立
モデル設計とハードウェア特性(FP8 計算、ネットワーク帯域など)を密接に連携させることで、現在のボトルネックを解消し、コスト効率の高い大規模トレーニングを実現するアプローチを提唱している。
メモリ効率の劇的向上
LLM の指数関数的なメモリ需要に対し、Multi-head Latent Attention (MLA) と KV Cache 最適化を採用することで、HBM の成長速度に追いつくための根本的な解決策を示している。
実証された大規模クラスター運用
2048 枚の NVIDIA H800 GPU クラスターを用いた DeepSeek-V3 の訓練事例を通じて、ハードウェアとモデルの相乗効果が実際のスケールアップにおいて機能することを裏付けている。
次世代ハードウェア開発への指針
DeepSeek-V3 の経験から得た知見を基に、将来のスケーラブルでコスト効果の高い AI システムに向けた、モデルとハードウェアの協調設計の方向性を示唆している。
MLAによるメモリ効率の劇的向上
Multi-head Latent Attention (MLA) を採用し、キーバリュー表現を圧縮ベクトルに変換することで、トークンあたりのKVキャッシュメモリ使用量を70KBにまで削減しました。
DeepSeekMoEによるコスト効果の最大化
671Bパラメータを持つモデルでありながらトークンあたり37Bのみを活性化させるSparse計算により、大規模なDenseモデルと同等以上の性能を桁違いに低い計算コストで実現しています。
ローカル環境での個人利用への展開
MoEアーキテクチャの選択的活性化特性を活かし、AI SoC搭載のPCでも20トークン/秒以上の推論速度を達成し、ローカルで動作するパーソナライズドLLMエージェントの実現を可能にしました。
影響分析・編集コメントを表示
影響分析
この論文は、単なるアーキテクチャの紹介を超え、AI ハードウェアとソフトウェアの境界を融合させる「協調設計」のパラダイムシフトを示唆しており、今後 AI インフラストラクチャの設計思想に大きな影響を与えるでしょう。特に、高価なハードウェアへの依存度を下げつつ大規模モデルを運用する方法論を提示することで、開発コストの削減とアクセシビリティ向上に寄与する可能性があります。
編集コメント
DeepSeek が公開したこの技術論文は、単なるモデル性能の比較ではなく、AI インフラ全体の設計思想を根本から問い直す重要な内容を含んでいます。特に「ハードウェア制約をどう克服するか」という実務的な課題に対して、具体的なアーキテクチャ解決策を示している点は、開発者にとって極めて示唆に富むものです。

DeepSeek-V3 の開発チームによって新たに公開された 14 ページの技術論文には、DeepSeek の CEO である梁文峰(Wenfeng Liang)氏も共著者として名を連ねており、「AI アーキテクチャにおけるハードウェアのスケーリング課題と考察」について明らかにしています。この初期技術報告書の続編となる本論文は、大規模言語モデル(LLM: Large Language Model)の開発・トレーニングと、それを支える基盤となるハードウェアインフラストラクチャーとの複雑な関係性を探求するものです。DeepSeek-V3 のアーキテクチャ固有の詳細を超え、ハードウェアを意識したモデルの共同設計(co-design)が、現在のハードウェアの限界をどのように効果的に克服し、最終的にコスト効率の高い大規模トレーニングと推論を可能にするのかについて掘り下げています。
image https://arxiv.org/pdf/2505.09343
LLM の急速な拡大は、現在のハードウェアアーキテクチャにおける重要なボトルネックを露呈させました。特にメモリ容量、計算効率、および相互接続帯域幅に関する課題です。DeepSeek-V3 は 2048 個の NVIDIA H800 GPU からなるクラスターでトレーニングされた事例研究として、モデル設計とハードウェア考慮事項間の相乗的アプローチがこれらの限界をどのように克服できるかを示す魅力的な例となっています。本研究は、経済的な大規模トレーニングおよび推論を実現するためのハードウェアアーキテクチャとモデル設計の相互作用に焦点を当てており、パフォーマンスやアクセシビリティを損なうことなく LLM を効率的にスケーリングするための実践的な洞察を提供することを目的としています。
論文における主要な注目領域は以下の通りです:
ハードウェア駆動型モデル設計: DeepSeek-V3 内のアーキテクチャ選択に、FP8 低精度計算やスケールアップ/スケールアウトネットワーク特性といったハードウェアの特性がどのように影響を与えるかを分析します。
ハードウェアとモデルの相互依存関係: ハードウェアの能力がモデルイノベーションをどのように形成するか、および LLM の進化に伴う需要が次世代ハードウェアにどのような要件をもたらすかを調査します。
ハードウェア開発の将来方向: DeepSeek-V3 から得られる実践的な洞察に基づき、スケーラブルでコスト効果の高い AI システムのための将来のハードウェアとモデルアーキテクチャのコデザインを導く指針を示します。
DeepSeek-V3 の設計原則:核心的なスケーリング課題への対応

DeepSeek-V3 は、論文の図 1 に示されているように、いくつかの重要なアーキテクチャ革新を取り入れており、その中には DeepSeekMoE アーキテクチャと Multi-head Latent Attention (MLA) が含まれます。これらの設計は、大規模言語モデル(LLM)のスケーリングにおける中核的な課題である、メモリ効率、コスト効果、推論速度に直接取り組んでいます。
メモリ効率:MLA と KV キャッシュ最適化
LLM は、HBM などの高速メモリの成長が比較的緩やかであるのに対し、メモリ需要において指数関数的な成長を示します。マルチノード並列処理は一つの解決策となりますが、ソースレベルでのメモリ使用量の最適化も依然として極めて重要です。DeepSeek は、Multi-head Latent Attention (MLA) を用いてこのボトルネックに対処しています。MLA は、すべてのアテンションヘッドのキーバリュー(KV)表現を、モデルと共に共同訓練されるより小さな潜在ベクトルに圧縮する射影行列を採用します。推論時には、この圧縮された潜在ベクトルのみをキャッシュすればよく、各ヘッドに対して完全な KV キャッシュを保存する場合と比較して、メモリ消費量を大幅に削減できます。
MLA 以外にも、DeepSeek は KV キャッシュサイズの削減に向けた他の有用な技術を紹介しており、これらはメモリ効率の高いアテンションメカニズムの将来の進展に対する示唆となっています:
共有 KV(GQA; MQA): 複数のアテンションヘッドが単一のキーバリューペアセットを共有し、ストレージを劇的に圧縮します。
ウィンドウ KV: KV キャッシュのためのコンテキストウィンドウを制限します。
量子化圧縮:保存される KV 値の精度を低下させます。
論文の表 1 は、DeepSeek-V3、Qwen-2.5 72B、LLaMA-3.1 405B のトークンあたりの KV キャッシュメモリフットプリントを比較しています。DeepSeek-V3 は顕著な削減を実現し、トークンあたりわずか 70 KB で済み、これは LLaMA-3.1 405B の 516 KB や Qwen-2.5 72B の 327 KB と比べて大幅に低い数値です。

コストパフォーマンス:スパース計算のための DeepSeekMoE
スパース計算において、DeepSeek は高度なエキスパート混合(Mixture-of-Experts: MoE)アーキテクチャである DeepSeekMoE を開発しました(図 1、右下)。MoE モデルは、コストパフォーマンスの観点から以下の 2 つの主要な利点を提供します。
トレーニング計算量の削減:トークンごとにエキスパートパラメータの一部を選択的に活性化することで、MoE アーキテクチャでは総パラメータ数を大幅に増やしつつ、管理可能な計算負荷を維持することが可能になります。例えば、DeepSeek-V3 は 671B のパラメータを有し、その前身である V2(236B)の約 3 倍ですが、トークンあたりの活性化パラメータ数は 37B に留まります。一方、Qwen2.5–72B や LLaMa3.1–405B といった密結合モデルでは、トレーニング中にすべてのパラメータが活性化される必要があります。表 2 は、DeepSeekV3 がこれらの密結合モデルと同等かそれ以上の性能を達成しつつ、計算コストは 1 桁小さく(トークンあたり約 250 GFLOPS)であることを示しています。これに対し、72B の密結合モデルでは 394 GFLOPS、405B の密結合モデルでは 2448 GFLOPS が必要です。
個人利用およびローカル展開における利点:MoE モデルにおけるパラメータの選択的活性化は、単一リクエスト推論時のメモリ要件と計算要件を大幅に低減します。例えば DeepSeek-V2(236B パラメータ)では、推論時に 21B パラメータのみが活性化されるため、AI SoC を搭載したパーソナルコンピュータ上で 1 秒あたり 20 トークン以上(TPS)の処理速度を実現可能であり、これは同等サイズの密結合モデルを同様のハードウェアで実行した場合に比べてはるかに優れた能力です。これにより、ローカルで動作するパーソナライズされた大規模言語モデルエージェントの実現が可能になります。

推論速度の向上:計算と通信の重なり
DeepSeek は、推論速度においてシステムレベルでの最大スループットと単一リクエストのレイテンシの両方を優先します。スループットの最大化のため、モデルは初めからデュアルマイクロバッチ重なりアーキテクチャを採用し、意図的に通信レイテンシを計算処理と重ね合わせています。
さらに、DeepSeek は MLA と MoE の計算を別々の段階に分離しています。あるマイクロバッチが MLA または MoE 計算の一部を実行している間、もう一方のマイクロバッチは対応するスケジューリング通信を並行して実行します。逆に、2 つ目のマイクロバッチの計算フェーズでは、1 つ目のマイクロバッチが結合(combine)通信ステップを担当します。このパイプライン化されたアプローチにより、オール・トゥー・オール通信と継続的な計算をシームレスに重ね合わせることが可能となり、GPU の利用率を最大化します。本番環境では、DeepSeek はプリフィルとデコードの分離アーキテクチャを採用しており、大規模バッチのプリフィル処理とレイテンシが敏感なデコードリクエストを異なるサイズのエキスパート並列グループに割り当てることで、実世界のサービス条件下におけるシステムスループットを最大化しています。
論文では、推論モデルにおけるテストタイムスケーリング(test-time scaling)の重要性にも言及しており、強化学習ワークフローにおけるトークン出力速度の高さや、長い推論シーケンスにおけるユーザーが感じるレイテンシ低減のためのその役割の重要性を強調しています。したがって、ハードウェアとソフトウェアの共同革新を通じて推論速度を最適化することは、推論モデルの効率にとって極めて重要です。
低精度駆動型設計:FP8 学習と LogFMT
FP8 混合精度学習
GPTQ や AWQ といった量子化技術は、主に推論におけるメモリ要件を大幅に削減してきましたが、DeepSeek は大規模な MoE モデルに対して FP8 混合精度トレーニングの活用を先駆けて実現しました。NVIDIA の Transformer Engine が FP8 をサポートしているにもかかわらず、DeepSeek-V3 は、トレーニングに FP8 を活用したとして公的に知られている最初の大型モデルであり、これは画期的な一歩です。インフラストラクチャチームとアルゴリズムチームとの緊密な協力および広範な実験の結果得られたこの成果は、モデルの品質を維持しつつ計算コストを大幅に削減し、大規模トレーニングの実現可能性を高めています。図 1 は、トレーニング中の順伝播(フォワードパス)および逆伝播(バックワードパス)で使用される FP8 精度を示しています。
効率的な通信のための LogFMT
DeepSeek はまた、DeepSeek-V3 アーキテクチャ内のネットワーク通信に対して低精度圧縮を採用しています。EP パラレルism(エキスパート並列処理)において、トークンは微細な FP8 量子化を用いてスケジューリングされ、BF16 に比べて通信量を 50% 削減することで、通信時間を大幅に短縮しています。
従来の浮動小数点形式を超えて、DeepSeek は LogFMT-nBit(対数浮動小数点形式)と呼ばれる新たなデータ型の実験も行いました。
相互接続主導の設計:ハードウェア制約への対応
現在のハードウェアアーキテクチャとその制約
DeepSeek は現在、NVIDIA H800 GPU の SXM アーキテクチャ(図 2)を利用しています。これは H100 と同様に Hopper アーキテクチャを基盤としていますが、規制要件により FP64 演算性能や NVLink バンド幅が低下しており、H100 の 900 GB/s から 400 GB/s に削減されています。このノード内スケーリング帯域の大幅な低下は、高性能ワークロードにとって課題となっています。これを補うため、各ノードには 8 枚の 400G Infiniband (IB) CX7 ネットワークインターフェースカード(NIC)が搭載され、ノード間スケーリング能力を強化しています。

ハードウェア認識型並列化とモデル共設計
H800 アーキテクチャの制限を克服するため、DeepSeek-V3 モデルは並列化に関するハードウェア認識型の設計考慮事項を取り入れており、具体的には Tensor Parallelism (TP) の回避、Pipeline Parallelism (PP) の強化、Expert Parallelism (EP) の加速が含まれます。これらの戦略の詳細については、オリジナル論文をご参照ください。
モデルの共設計における重要な側面の一つは、MoE アーキテクチャにおける TopK 専門家選択戦略のための「ノード認識ルーティング」です。イントラノード通信(NVLink、有効帯域幅約 160 GB/s)とインターノード通信(IB、NIC あたり有効帯域幅約 40 GB/s)の間に約 4:1 の帯域幅差があることを踏まえ、DeepSeek はこのルーティングを設計して、より高いイントラノード帯域幅を活用しています。8 ノード・64 GPU 構成において各 GPU に 4 つずつ配置される 256 のルーティング専門家(エキスパート)を、それぞれ単一のノードに収まるように 32 個の専門家を 1 グループとした 8 グループにグループ化し、アルゴリズム的に各トークンが最大 4 つのノードにのみルーティングされるようにすることで、DeepSeek は IB 通信のボトルネックを緩和し、トレーニング中の有効な通信帯域幅を向上させています。同じノード上の専門家宛てのトークンは、IB を介して一度送信された後、NVLink を経由して転送されるため、重複する IB トラフィックが削減されます。
スケールアップとスケールアウトの収束:将来のハードウェア方向性
ノード認識ルーティングは帯域幅要件を低減しますが、NVLink と IB の間の帯域幅格差は、通信集約型カーネルの実装を複雑にしています。現在、GPU ストリーミングマルチプロセッサ(SM)は、ネットワークメッセージの処理と NVLink を介したデータ転送の両方に対応しており、計算リソースを大幅に消費しています。DeepSeek は、イントラノード(スケールアップ)通信とインターノード(スケールアウト)通信を統合されたフレームワークに組み込むことを提唱しています。
ネットワークトラフィック管理や NVLink と IB ドメイン間のシームレスな転送のために専用コプロセッサを統合することで、ソフトウェアの複雑さを低減し、帯域幅の利用効率を最大化できます。動的トラフィック重複排除のためのハードウェアサポートは、DeepSeek-V3 のノード認識ルーティングなどの戦略をさらに最適化できる可能性があります。DeepSeek はまた、Ultra Ethernet Consortium (UEC) や Ultra Accelerator Link (UALink) といった新興の相互接続プロトコルも探っており、スケールアップとスケールアウトを収束させる最近のアプローチとして Unified Bus (UB) に注目しています。論文では、この収束をプログラミングフレームワークレベルで達成するための手法を詳細に説明しており、そこには統一されたネットワークアダプタ、専用通信コプロセッサ、柔軟な転送およびブロードキャスト/リダクションメカニズム、ハードウェア同期プリミティブが含まれます。
帯域幅競合とレイテンシ
現在のハードウェアのもう一つの制限は、NVLink と PCIe 上の異なるトラフィックタイプ間で帯域幅を動的に割り当てる柔軟性の欠如です。例えば、推論中に CPU メモリから GPU へ KV キャッシュデータを転送すると、PCIe の帯域幅が飽和し、IB を介した GPU 間 EP 通信との競合を引き起こす可能性があります。これにより、全体の性能が低下したり、レイテンシの急上昇が発生したりする恐れがあります。DeepSeek は、動的な NVLink/PCIe トラフィックの優先順位付け、I/O チップレットの統合、スケールアップドメイン内の CPU-GPU 相互接続などの解決策を提案しています。
大規模ネットワーク駆動型設計:マルチプレーンファットツリー
ネットワーク共設計:マルチプレーンファットツリー
DeepSeek-V3 のトレーニングでは、マルチプレーン・ファットツリー(MPFT)スケールアウトネットワークが展開されました(図 3)。各ノードは 8 個の GPU と 8 個の IB NIC を備えており、各 GPU-NIC ペアを異なるネットワークプレーンに割り当てています。さらに、各ノードには、3FS 分散ファイルシステムへのアクセス用に別々のストレージネットワークプレーンに接続された 400 Gbps イーサネット RoCE NIC が搭載されています。このスケールアウトネットワークは 64 ポート 400G IB スイッチを採用しており、理論的には 2 層ネットワークのメリット(コストとレイテンシ)を維持したまま最大 16,384 個の GPU をサポート可能です。しかし、ポリシーおよび規制上の制約により、実際の展開では 2,000 基を超える GPU が使用されました。

現在、IB ConnectX-7 の技術的制約により、展開された MPFT ネットワークは意図したアーキテクチャを完全に実現できていません。理想的な構成(Figure 4)では、各 NIC は複数の物理ポートを持ち、それぞれが独立したネットワークプレーンに接続されますが、ユーザーにはポート結合(port bonding)を通じて単一の論理インターフェースとして提示されます。これにより、1 つのキューペア(QP: Queue Pair)が、パケットスプレイングと同様に、利用可能なすべてのポートをシームレスに通過してメッセージを送受信できるようになります。同じ QP から送信されたパケットが異なるネットワーク経路を経由し、順序不同で到着する可能性があるため、NIC 内でネイティブな順序不同レイアウトのサポートが必要となり、メッセージの一貫性と正しい順序付けセマンティクスを保証します。InfiniBand ConnectX-8 はネイティブに 4 つのプレーンをサポートしており、高度なマルチプレーン機能を完全にサポートする将来の NIC は、大規模 AI クラスターにおける 2 層ファットツリーネットワークのスケーラビリティを大幅に向上させるでしょう。全体として、マルチプレーンアーキテクチャは、大規模システムにおいて、障害分離、堅牢性、負荷分散、スケーラビリティの面で顕著な利点を提供します。

DeepSeek は、MPFT のいくつかの利点を強調しています。これには、Multi-Rail Fat-Tree (MRFT) のサブセットとして構成されているため既存の NVIDIA および NCCL 最適化を MRFT ネットワークにシームレスに統合できること、コスト効果の高さ、トラフィックの分離、レイテンシの低減、そして堅牢性が含まれます。MPFT と MRFT を比較した性能分析(図 5 および 6、表 4)では、マルチプレーンネットワークのアールツーオール通信性能がシングルプレーンのマルチレールネットワークと非常に類似していることが明らかになりました。また、2048 個の GPU で V3 モデルをトレーニングする際の MPFT と MRFT の性能はほぼ同一でした。



低レイテンシ・ネットワーク
DeepSeek のモデル推論において、大規模な EP(Expert Parallelism)はアールツーオール通信に大きく依存しており、これは帯域幅とレイテンシの両方に敏感です。マイクロ秒レベルの固有のネットワーク遅延でさえ、システム性能に大きな影響を及ぼす可能性があります。
DeepSeek は、IB と RoCE のレイテンシ特性(表 5)を分析し、IB が一貫して低いレイテンシを示すことを指摘しています。これにより、分散トレーニングや推論など、レイテンシに敏感なワークロードにおいて IB が好ましいとされています。RoCE はコスト効果の高い代替手段となる可能性がありますが、現在のレイテンシとスケーラビリティの制限により、大規模 AI システムが求める要件を完全に満たすことはできていません。DeepSeek は RoCE に対して、専用低遅延 RoCE スイッチ、最適化されたルーティングポリシー、および強化されたトラフィック分離または輻輳制御メカニズムといった具体的な改善策を提案しています。

ネットワーク通信のレイテンシをさらに低減させるため、DeepSeek は InfiniBand GPUDirect Async(IBGDA)を活用しています。従来のネットワーク通信では CPU プロキシスレッドが介在し、追加のオーバーヘッドが生じていました。しかし、IBGDA を用いることで、GPU が直接 Work Request(WR)の内容を記述し、RDMA doorbell MMIO アドレスへの書き込みを行うことが可能となり、GPU と CPU の間での通信に伴う大きな遅延を排除できます。制御プレーン全体を GPU 内で管理することで、IBGDA は特に多数の小さなパケットを送信する際の CPU ボトルネックを回避します。これは、GPU の並列スレッドがワークロードを分散できるためです。DeepSeek の DeepEP や他の研究では、IBGDA を活用することで顕著なパフォーマンス向上が実証されており、これにより DeepSeek は各種アクセラレーターデバイスにおいて此类機能の広範なサポートを提唱しています。
将来のハードウェアアーキテクチャ設計に関する考察と洞察
特定の実装文脈において特定されたハードウェアの制限と提案された解決策に基づき、本論文は将来のハードウェアアーキテクチャ設計に向けた先見的な方向性を提示するために議論を広げています:
堅牢性の課題: 高度なエラー検出および訂正メカニズムを通じてハードウェア障害やサイレントデータ破損に対処し、停止しない AI インフラストラクチャを構築すること。
CPU のボトルネックと相互接続の制限: CPU とアクセラレータのコラボレーションを最適化すること、特に従来のインターフェース(PCIe など)が持つ限界を打破し、高速でボトルネックのないノード内通信を実現すること。
AI 向けのインテリジェントネットワーク: コパッケージド・オプティクス、ロスレスメカニズム、適応型ルーティングなどの技術を用いて、複雑な通信要件に対応する低遅延かつインテリジェントなネットワークを構築すること。
メモリスマンティックコミュニケーションと順序付け: 現在のメモリスマンティックコミュニケーションにおけるデータ整合性と順序付けの課題を解決し、通信効率を向上させるためのハードウェアレベルでの組み込み保証を検討すること。
ネットワーク内での計算と圧縮: EP(エッジプロセッシング)などの特定ワークロード向けに、計算および圧縮機能をネットワークへオフロードし、ネットワーク帯域幅の可能性を引き出すこと。
メモリ中心アーキテクチャの革新:指数関数的なモデル拡張によって引き起こされるメモリ帯域幅の危機に対処するため、DRAM スタッキングやウェハスケール統合といった最先端技術を探求する。
本論文はこれらの各領域について具体的な洞察と推奨事項を詳述し、大規模 AI の継続的な進展とアクセシビリティを実現するために、ハードウェアとソフトウェア間の包括的な協調設計(co-design)の必要性を強調している。
結論として、この技術レポートは DeepSeek-V3 の開発およびトレーニング過程で遭遇した課題と解決策に関する貴重な洞察を提供する。モデルアーキテクチャとハードウェア制限との相互作用を綿密に分析することで、DeepSeek はコスト効率が高くスケーラブルな大規模言語モデルを実現するためのハードウェア意識型協調設計の決定的な役割を強調し、AI インフラストラクチャの未来に対する説得力のあるビジョンを示している。MLA、DeepSeekMoE、FP8 学習(training)、LogFMT、MPFT ネットワークといった技術の詳細な探求と、ハードウェア開発に向けた先見的な推奨事項は、大規模 AI 研究およびエンジニアリング分野における重要な貢献となっている。
「DeepSeek-V3 に関する論文:AI アーキテクチャのためのスケーリング課題とハードウェアへの考察」が arXiv に掲載された。
本記事「DeepSeek-V3 の新論文登場!ハードウェア意識型協調設計による低コスト大規模モデルトレーニングの秘密を解明」は、Synced において最初に発表されました。
原文を表示

A newly released 14-page technical paper from the team behind DeepSeek-V3, with DeepSeek CEO Wenfeng Liang as a co-author, sheds light on the “Scaling Challenges and Reflections on Hardware for AI Architectures.” This follow-up to their initial technical report delves into the intricate relationship between large language model (LLM) development, training, and the underlying hardware infrastructure. The paper moves beyond the architectural specifics of DeepSeek-V3 to explore how hardware-aware model co-design can effectively address the limitations of current hardware, ultimately enabling cost-efficient large-scale training and inference.
imagehttps://arxiv.org/pdf/2505.09343
The rapid scaling of LLMs has exposed critical bottlenecks in current hardware architectures, particularly concerning memory capacity, computational efficiency, and interconnect bandwidth. DeepSeek-V3, trained on a cluster of 2048 NVIDIA H800 GPUs, serves as a compelling case study demonstrating how a synergistic approach between model design and hardware considerations can overcome these limitations. This research focuses on the interplay between hardware architecture and model design in achieving economical large-scale training and inference, aiming to provide actionable insights for efficiently scaling LLMs without compromising performance or accessibility.
Key areas of focus in the paper include:
Hardware-Driven Model Design: Analyzing how hardware characteristics, such as FP8 low-precision computation and scale-up/scale-out network properties, influence architectural choices within DeepSeek-V3.
Hardware-Model Interdependencies: Investigating how hardware capabilities shape model innovation and how the evolving demands of LLMs drive requirements for next-generation hardware.
Future Directions for Hardware Development: Drawing practical insights from DeepSeek-V3 to guide the co-design of future hardware and model architectures for scalable and cost-effective AI systems.
DeepSeek-V3’s Design Principles: Addressing Core Scaling Challenges

DeepSeek-V3 incorporates several key architectural innovations, as illustrated in Figure 1 of the paper, including the DeepSeekMoE architecture and Multi-head Latent Attention (MLA). These designs directly tackle the core challenges of scaling LLMs: memory efficiency, cost-effectiveness, and inference speed.
Memory Efficiency: MLA and KV Cache Optimization
LLMs exhibit exponential growth in memory demands, outpacing the slower growth of high-speed memory like HBM. While multi-node parallelism offers a solution, optimizing memory usage at the source remains crucial. DeepSeek addresses this bottleneck with Multi-head Latent Attention (MLA), which employs projection matrices to compress the key-value (KV) representations of all attention heads into a smaller latent vector, trained jointly with the model. During inference, only this compressed latent vector needs to be cached, significantly reducing memory consumption compared to storing full KV caches for each head.
Beyond MLA, DeepSeek highlights other valuable techniques for KV cache size reduction, providing inspiration for future advancements in memory-efficient attention mechanisms:
Shared KV (GQA; MQA): Multiple attention heads share a single set of key-value pairs, drastically compressing storage.
Window KV: Limiting the context window for KV caching.
Quantization Compression: Reducing the precision of stored KV values.
Table 1 in the paper compares the per-token KV cache memory footprint of DeepSeek-V3, Qwen-2.5 72B, and LLaMA-3.1 405B. DeepSeek-V3 achieves a remarkable reduction, requiring only 70 KB per token, significantly lower than LLaMA-3.1 405B’s 516 KB and Qwen-2.5 72B’s 327 KB.

Cost-Effectiveness: DeepSeekMoE for Sparse Computation
For sparse computation, DeepSeek developed DeepSeekMoE, an advanced Mixture-of-Experts (MoE) architecture (Figure 1, bottom right). MoE models offer two key advantages in terms of cost-effectiveness:
Reduced Training Compute: By selectively activating a subset of expert parameters per token, MoE architectures allow for a substantial increase in the total number of parameters while maintaining manageable computational demands. For instance, DeepSeek-V3 boasts 671B parameters, nearly three times that of its predecessor V2 (236B), yet only activates 37B parameters per token. In contrast, dense models like Qwen2.5–72B and LLaMa3.1–405B require all parameters to be active during training. Table 2 demonstrates that DeepSeekV3 achieves comparable or superior performance to these dense models with an order of magnitude less computational cost (around 250 GFLOPS per token vs. 394 GFLOPS for the 72B dense model and 2448 GFLOPS for the 405B dense model).
Advantages for Personal Use and Local Deployment: The selective activation of parameters in MoE models translates to significantly lower memory and compute requirements during single-request inference. DeepSeek-V2 (236B parameters), for example, only activates 21B parameters during inference, enabling near or above 20 tokens per second (TPS) on AI SoC-equipped personal computers — a capability far exceeding that of similarly sized dense models on comparable hardware. This opens possibilities for personalized LLM agents running locally.

Enhanced Inference Speed: Overlapping Computation and Communication
DeepSeek prioritizes both system-level maximum throughput and single-request latency for inference speed. To maximize throughput, the model employs a dual micro-batch overlapping architecture from the outset, intentionally overlapping communication latency with computation.
Furthermore, DeepSeek decouples the computation of MLA and MoE into distinct stages. While one micro-batch performs part of the MLA or MoE computation, the other concurrently executes the corresponding scheduling communication. Conversely, during the second micro-batch’s computation phase, the first micro-batch undertakes the combine communication step. This pipelined approach enables seamless overlap of all-to-all communication with continuous computation, ensuring full GPU utilization. In production, DeepSeek utilizes a prefill and decode separation architecture, assigning large-batch prefill and latency-sensitive decode requests to different-sized expert-parallel groups, maximizing system throughput under real-world serving conditions.
The paper also touches upon the importance of test-time scaling for reasoning models and highlights the critical role of high token output speed in reinforcement learning workflows and for reducing user-perceived latency in long inference sequences. Optimizing inference speed through hardware-software co-innovation is therefore paramount for the efficiency of reasoning models.
Low-Precision Driven Design: FP8 Training and LogFMT
FP8 Mixed-Precision Training
While quantization techniques like GPTQ and AWQ have significantly reduced memory requirements primarily for inference, DeepSeek has pioneered the use of FP8 mixed-precision training for a large-scale MoE model. Despite NVIDIA’s Transformer Engine supporting FP8, DeepSeek-V3 marks a significant step as the first publicly known large model to leverage FP8 for training. This achievement, resulting from close collaboration between infrastructure and algorithm teams, along with extensive experimentation, significantly reduces computational costs while maintaining model quality, making large-scale training more feasible. Figure 1 illustrates the FP8 precision used in the forward and backward passes during training.
LogFMT for Efficient Communication
DeepSeek also employs low-precision compression for network communication within the DeepSeek-V3 architecture. During EP parallelism, tokens are scheduled using fine-grained FP8 quantization, reducing communication volume by 50% compared to BF16, thereby significantly shortening communication time.
Beyond traditional floating-point formats, DeepSeek experimented with a novel data type called LogFMT-nBit (Logarithmic Floating-Point Formats).
Interconnect-Driven Design: Addressing Hardware Limitations
Current Hardware Architecture and its Constraints
DeepSeek currently utilizes the NVIDIA H800 GPU SXM architecture (Figure 2), which, while based on the Hopper architecture similar to the H100, features reduced FP64 compute performance and NVLink bandwidth (400 GB/s down from 900 GB/s in H100) due to regulatory requirements. This significant reduction in intra-node scaling bandwidth poses challenges for high-performance workloads. To compensate, each node is equipped with eight 400G Infiniband (IB) CX7 network interface cards (NICs) to enhance inter-node scaling capabilities.

Hardware-Aware Parallelization and Model Co-design
To navigate the limitations of the H800 architecture, the DeepSeek-V3 model incorporates hardware-aware design considerations for parallelization, including: avoiding Tensor Parallelism (TP), enhancing Pipeline Parallelism (PP), and accelerating Expert Parallelism (EP). Specific details of these strategies are available in the original paper.
A key aspect of model co-design is “node-aware routing” for the TopK expert selection strategy in the MoE architecture. Given the approximately 4:1 bandwidth difference between intra-node (NVLink, ~160 GB/s effective) and inter-node (IB, ~40 GB/s effective per NIC) communication, DeepSeek designed the routing to leverage the higher intra-node bandwidth. By grouping the 256 routing experts (4 per GPU in an 8-node, 64-GPU setup) into 8 groups of 32 experts, each residing on a single node, and algorithmically ensuring that each token is routed to at most 4 nodes, DeepSeek mitigates the IB communication bottleneck and improves effective communication bandwidth during training. Tokens destined for experts on the same node can be sent via IB once and then forwarded via NVLink, reducing redundant IB traffic.
Scale-Up and Scale-Out Convergence: Future Hardware Directions
While node-aware routing reduces bandwidth demands, the bandwidth disparity between NVLink and IB complicates the implementation of communication-intensive kernels. Currently, GPU Streaming Multiprocessors (SMs) handle both network message processing and data forwarding via NVLink, consuming significant compute resources. DeepSeek advocates for integrating intra-node (scale-up) and inter-node (scale-out) communication into a unified framework.
Integrating dedicated co-processors for network traffic management and seamless forwarding between NVLink and IB domains could reduce software complexity and maximize bandwidth utilization. Hardware support for dynamic traffic deduplication could further optimize strategies like DeepSeek-V3’s node-aware routing. DeepSeek also explores emerging interconnect protocols like Ultra Ethernet Consortium (UEC) and Ultra Accelerator Link (UALink), noting the Unified Bus (UB) as a recent approach to converging scale-up and scale-out. The paper details methods for achieving this convergence at the programming framework level, including unified network adapters, dedicated communication co-processors, flexible forwarding and broadcast/reduce mechanisms, and hardware synchronization primitives.
Bandwidth Contention and Latency
Another limitation of current hardware is the lack of flexibility in dynamically allocating bandwidth between different traffic types on NVLink and PCIe. For instance, transferring KV cache data from CPU memory to GPUs during inference can saturate PCIe bandwidth, leading to contention with inter-GPU EP communication via IB, potentially degrading overall performance and causing latency spikes. DeepSeek suggests solutions including dynamic NVLink/PCIe traffic prioritization, I/O chiplet integration, and CPU-GPU interconnect within the scale-up domain.
Large-Scale Network-Driven Design: Multi-Plane Fat-Tree
Network Co-design: Multi-Plane Fat-Tree
For DeepSeek-V3 training, a Multi-Plane Fat-Tree (MPFT) scale-out network was deployed (Figure 3). Each node, equipped with 8 GPUs and 8 IB NICs, assigns each GPU-NIC pair to a different network plane. Additionally, each node has a 400 Gbps Ethernet RoCE NIC connected to a separate storage network plane for accessing the 3FS distributed file system. The scale-out network utilizes 64-port 400G IB switches, theoretically supporting up to 16,384 GPUs while retaining the cost and latency advantages of a two-layer network. However, due to policy and regulatory constraints, the actual deployment involved over two thousand GPUs.

The deployed MPFT network did not fully realize its intended architecture due to current limitations of the IB ConnectX-7. Ideally (Figure 4), each NIC would have multiple physical ports, each connected to a separate network plane but presented to the user as a single logical interface via port bonding. This would allow a single Queue Pair (QP) to seamlessly send and receive messages across all available ports, similar to packet spraying. Native out-of-order layout support within the NIC would be necessary to ensure message consistency and correct ordering semantics, as packets from the same QP might traverse different network paths and arrive out of order. InfiniBand ConnectX-8 natively supports four planes, and future NICs with full support for advanced multi-plane capabilities will significantly benefit the scalability of two-layer fat-tree networks for large AI clusters. Overall, multi-plane architectures offer significant advantages in fault isolation, robustness, load balancing, and scalability for large systems.

DeepSeek highlights several advantages of MPFT, including its composition as a subset of Multi-Rail Fat-Tree (MRFT) allowing seamless integration of existing NVIDIA and NCCL optimizations for MRFT networks, cost-effectiveness, traffic isolation, reduced latency, and robustness. Performance analysis comparing MPFT and MRFT (Figures 5 and 6, Table 4) revealed that the all-to-all performance of multi-plane networks is very similar to single-plane multi-rail networks, and the performance of MPFT and MRFT was nearly identical when training the V3 model on 2048 GPUs.



Low-Latency Networking
In DeepSeek’s model inference, large-scale EP heavily relies on all-to-all communication, which is sensitive to both bandwidth and latency. Even microsecond-level inherent network latency can significantly impact system performance.
DeepSeek analyzes the latency characteristics of IB and RoCE (Table 5), noting IB’s consistently lower latency, making it preferable for latency-sensitive workloads like distributed training and inference. While RoCE offers a potentially cost-effective alternative, its current latency and scalability limitations prevent it from fully meeting the demands of large-scale AI systems. DeepSeek proposes specific improvements for RoCE, including dedicated low-latency RoCE switches, optimized routing policies, and enhanced traffic isolation or congestion control mechanisms.

To further reduce network communication latency, DeepSeek utilizes InfiniBand GPUDirect Async (IBGDA). Traditionally, network communication involves CPU proxy threads, introducing additional overhead. IBGDA allows GPUs to directly populate Work Request (WR) content and write to RDMA doorbell MMIO addresses, eliminating the significant latency associated with GPU-CPU communication. By managing the entire control plane within the GPU, IBGDA avoids CPU bottlenecks, especially when sending numerous small packets, as the GPU’s parallel threads can distribute the workload. DeepSeek’s DeepEP and other works have demonstrated significant performance gains using IBGDA, leading DeepSeek to advocate for broad support of such features across various accelerator devices.
Discussion and Insights for Future Hardware Architecture Design
Building upon the identified hardware limitations and proposed solutions in specific application contexts, the paper broadens the discussion to offer forward-looking directions for future hardware architecture design:
Robustness Challenges: Addressing hardware failures and silent data corruption through advanced error detection and correction mechanisms for building non-stop AI infrastructure.
CPU Bottlenecks and Interconnect Limitations: Optimizing CPU-accelerator collaboration, particularly breaking the limitations of traditional interfaces like PCIe for high-speed, bottleneck-free intra-node communication.
Intelligent Networks for AI: Creating low-latency and intelligent networks with technologies like co-packaged optics, lossless mechanisms, and adaptive routing to handle complex communication demands.
Memory Semantic Communication and Ordering: Resolving data consistency and ordering challenges in current memory semantic communication, exploring hardware-level built-in guarantees for improved communication efficiency.
Computation and Compression in the Network: Offloading computation and compression capabilities into the network, especially for specific workloads like EP, to unlock network bandwidth potential.
Memory-Centric Architecture Innovations: Addressing the memory bandwidth crisis driven by exponential model scaling, exploring cutting-edge technologies like DRAM stacking and wafer-scale integration.
The paper delves into each of these areas with specific insights and recommendations, highlighting the need for a holistic co-design approach between hardware and software to enable the continued advancement and accessibility of large-scale AI.
In conclusion, this technical report provides valuable insights into the challenges and solutions encountered during the development and training of DeepSeek-V3. By meticulously analyzing the interplay between model architecture and hardware limitations, DeepSeek offers a compelling vision for the future of AI infrastructure, emphasizing the critical role of hardware-aware co-design in achieving cost-efficient and scalable large language models. The paper’s detailed exploration of techniques like MLA, DeepSeekMoE, FP8 training, LogFMT, and the MPFT network, coupled with its forward-looking recommendations for hardware development, serves as a significant contribution to the field of large-scale AI research and engineering.
The Paper Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures is on arXiv
The post DeepSeek-V3 New Paper is coming! Unveiling the Secrets of Low-Cost Large Model Training through Hardware-Aware Co-design first appeared on Synced.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み