AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年4月25日 08:29·約8分で読める

NVIDIA BlackwellとGPUアクセラレーションエンドポイントを用いたDeepSeek V4の構築

#LLM#DeepSeek V4#NVIDIA Blackwell#GPU推論最適化#インフラ連携
TL;DR

DeepSeekが第4世代モデル「V4-Pro」と「V4-Flash」をリリースし、NVIDIAはBlackwell GPUとGPUアクセラレーションエンドポイントを用いた開発環境を提供した。

AI深層分析2026年4月25日 09:43
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

DeepSeek V4シリーズのリリース

高効率を目標としたフラッグシップモデル「V4-Pro」と「V4-Flash」が正式に公開され、推論コストとパフォーマンスの両立が追求されている。

2

NVIDIA Blackwellアーキテクチャの最適化

最新のBlackwell GPU向けにモデルがハードウェアレベルで最適化され、大規模推論におけるスループットとレイテンシが大幅に改善された。

3

GPUアクセラレーションエンドポイントの提供

開発者が既存のインフラにシームレスに統合できるよう、GPUアクセラレーションされたAPIエンドポイントが整備され、デプロイのハードルが低下した。

4

モデル開発とインフラの緊密な連携

アルゴリズム側(DeepSeek)とハードウェア側(NVIDIA)が早期から連携し、実運用でのスケーラビリティとコスト効率を標準化するエコシステムが構築された。

影響分析・編集コメントを表示

影響分析

本記事は、次世代AIモデルと最先端GPUアーキテクチャの連携が実用段階に入ったことを示している。開発者にとっては推論コストの削減とスケーラビリティの向上が期待でき、業界全体としてハイエンドLLMの実装ハードルが下がることで、大規模なビジネスへの展開が加速する見込みである。

編集コメント

NVIDIAとDeepSeekの連携は、モデル開発からハードウェア最適化までを一体化する業界標準を加速させる。開発者はBlackwell環境での推論コスト削減とスケーリングメリットを早期に活用できるだろう。

DeepSeekは、高度に効率的な百万トークン単位のコンテキスト推論を可能にするために設計された、DeepSeek-V4-ProおよびDeepSeek-V4-Flashという2つのフラッグシップモデルをリリースしました。

DeepSeek-V4-Proは、総パラメータ数が1.6T、アクティブパラメータ数が49Bのファミリー中最大規模モデルです。一方、DeepSeek-V4-Flashは284Bパラメータの小型モデルで、アクティブパラメータ数は13Bであり、高速かつ高効率なワークロード向けに設計されています。両モデルとも最大1Mトークンのコンテキストウィンドウをサポートしており、長期コンテキストのコーディング、ドキュメント分析、検索、エージェントAIワークフローにおける新たな可能性を開きます。

仕様DeepSeek-V4-ProDeepSeek-V4-Flash

モダリティテキストテキスト

総パラメータ数1.6T284B

アクティブパラメータ数49B13B

コンテキスト長1Mトークン1Mトークン

最大出力長DeepSeek APIドキュメント経由で最大384KトークンまでDeepSeek APIドキュメント経由で最大384Kトークンまで

主なユースケース高度な推論、コーディング、長期コンテキストエージェント高速効率性、チャット、ルーティング、要約

ライセンスMITMIT

*表1. DeepSeek V4モデルファミリーの仕様。*

長期コンテキスト推論のためのアーキテクチャ革新

V4ファミリーはDeepSeekのMoE(Mixture of Experts:専門家混合)アーキテクチャを基盤としており、トランスフォーマーアーキテクチャの注意機構(attention)コンポーネントの最適化に重点を置いています。これらの革新により、DeepSeek-V3.2と比較して、トークンあたりの推論FLOPs(浮動小数点演算数)を73%削減し、KVキャッシュのメモリ負荷を90%削減することを目指しています。

これは重要です。なぜなら、長期コンテキストはエージェントアプリケーションの中核要件になりつつあるからです。エージェントは単一のプロンプトと応答だけでなく、システム指示、ツール出力、取得されたコンテキスト、コード、ログ、メモリ、そしてワークフロー全体にわたる多段階の推論トレースを保持します。コンテキストウィンドウが拡大するにつれ、注意機構とKVキャッシュは主要なボトルネックとなります。

imageimage*図1. DeepSeek-V4のハイブリッド注意アーキテクチャの概要。CSA、DSA、HCAを組み合わせることで、標準的なトランスフォーマーブロック内でのKVキャッシュメモリフットプリントと計算オーバーヘッドを大幅に削減しています。

この課題に対する中核的なアーキテクチャソリューションはハイブリッド注意機構であり、以下の要素を融合しています:

  • 圧縮スパース注意(CSA):動的シーケンス圧縮を活用してKVエントリを圧縮し、KVキャッシュのメモリフットプリントを削減した上で、DeepSeekスパース注意(DSA)を適用して注意行列をスパース化し、計算オーバーヘッドを削減します。
  • 重圧縮アテンション(HCA: Heavily Compressed Attention):一連のトークンにわたるKVエントリを単一の圧縮されたエントリに統合することで、より積極的な圧縮を適用し、KVキャッシュのサイズを大幅に削減します。

DeepSeek-V4のアーキテクチャ革新は、基本的なチャットからマルチターン・ロングコンテキスト推論およびエージェントシステムへの移行を示しています。この新しいパラダイムは、ソフトウェア、メモリ、計算、ネットワークのすべてのスタックに負荷をかけ、推論経済のダイナミクスを根本的に変えます。オープンモデルが知能の最前線に達するにつれ、企業の焦点はモデル選択からインフラストラクチャ戦略へとシフトしています。この状況において、究極の競争優位性は、これらの高性能モデルを最低のトークンコストでデプロイしスケーリングする能力です。

箱から出したままのNVIDIA Blackwellのパフォーマンス洞察

開発者が高度な推論のために1.6T Proモデルをデプロイするか、高速効率のための284B Flashモデルを使用するかにかかわらず、Blackwellは1Mのロングコンテキスト推論およびトリリオンパラメータ知能の新時代に必要なスケールと低レイテンシパフォーマンスを提供します。

NVIDIA Blackwellプラットフォームは、このクラスのワークロードのために構築されています。NVIDIA GB200 NVL72上でのDeepSeek-V4-Proの箱から出したままのテストでは、ユーザーあたり150トークン/秒以上のパフォーマンスが確認されました。これらの初期テストに加え、NVIDIAチームはvLLMのDay 0 NVIDIA Blackwell B300レシピを活用し、パレート全体にわたる箱から出したままのパフォーマンスのスナップショットを生成しました(図2)。

imageimage*図 2. NVIDIA Blackwell B300上でのDeepSeek-V4-Proの箱出しパフォーマンス。結果は、モデルのネイティブMXFP4形式を使用した1K/1K ISL/OSL構成に基づいています。*

Dynamo、NVFP4、最適化されたCUDAカーネル、高度な並列化技術など、極限の共同設計スタック全体を最適化するにつれて、このパフォーマンスはさらに向上すると予想されます。

NVIDIA GPUアクセラレートエンドポイントでの構築

開発者は、NVIDIA Developer Programの一環として、build.nvidia.com上のNVIDIA GPUアクセラレートエンドポイントを通じてDeepSeek V4の構築を開始できます。ホストされたエンドポイントは、最新のモデルでプロトタイピングを行うための高速な方法を提供し、その後、セルフホスト型のデプロイメントパスに移行することができます。

DeepSeek V4は、NVIDIA NIMを通じてDay-0でダウンロード可能であり、おなじみのAPIパターンを使用して、ロングコンテキストのコーディング、ドキュメント分析、アジェンティックワークフローを構築するためにデプロイできます。

SGLangでのデプロイ

SGLangは、NVIDIA BlackwellおよびHopper上でのDeepSeek-V4に対して、3つの主要なサービングレシピを提供しています。これらはそれぞれ、低レイテンシ、バランス型、最大スループットという異なるレイテンシ/スループットのプロファイルに最適化されており、ロングコンテキストワークロードおよびプリフィル/デコードの分離(prefill/decode disaggregation)用の特殊なレシピも用意されています。

vLLMでのデプロイ

vLLM は、NVIDIA Blackwell および Hopper 向けに DeepSeek-V4 のシングルノードおよびマルチノードサービングのレシピを提供しています。これには、ツール呼び出し、推論、スペキュラティブデコーディングをサポートし、100 GPU 以上にスケールするマルチノードプレフィル/デコード分離のレシピも含まれます。

エージェントワークフローを駆動する

DeepSeek V4 は、長いコンテキストのオーケストレーション、推論、ツール呼び出しに優れているため、特にエージェントに適しています。開始するには、開発者は DeepSeek V4 を LLM として構成できます:

  • NVIDIA NemoClaw: OpenShell 環境で OpenClaw を実行し、コード生成、パーソナルアシスタント、自律型サポートなどのタスクに対応する DeepSeek V4 搭載の長時間稼働型パーソナルアシスタントを作成します。オンボードで nemoclaw を実行し、ステップ 3 で DeepSeek V4 プロバイダー URL とその DeepSeek V4 モデル名を入力します。
  • NVIDIA AI-Q Blueprint: このブループリントは、最高クラスのディープリサーチアシスタントをあなたやあなたのエージェントに提供します。LangChain Deep Agents を基盤とするこのブループリントは拡張可能であり、オーケストレーションと計画のために DeepSeek V4 をワークフローに簡単に追加できます。
  • NVIDIA Data Explorer Agent: このエージェントは DABstep ベンチマークで第 1 位を獲得しており、データ分析、データサイエンス、表形式の調査に優れています。このエージェントは NeMo Agent Toolkit で記述されており、DeepSeek V4 への切り替えが容易です。

オープンエージェントハーネスやオープンモデルを使用する最大の利点は、常に新しいモデルを試して最先端の技術を取り入れることができることです。

DeepSeek の始め方

NVIDIA Blackwell 上のデータセンターでのデプロイメントから、管理された NIM マイクロサービス、ファインチューニングワークフローに至るまで、NVIDIA は DeepSeek やその他のオープンモデルを開発およびデプロイメントの異なる段階で統合するための幅広いオプションを提供しています。NVIDIA はオープンソースエコシステムへの積極的な貢献者であり、数百ものプロジェクトをオープンソースライセンスの下で公開しています。NVIDIA はコミュニティソフトウェアの最適化にコミットしており、オープンモデルによりユーザーは AI の安全性とレジリエンスに関する取り組みを広く共有することができます。

始めるには、Hugging Face で DeepSeek-V4 をチェックするか、build.nvidia.com で Pro 版をテストしてください。

著者について

原文を表示

DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference.

DeepSeek-V4-Pro is the largest model in the family, with 1.6T total parameters and 49B active parameters. DeepSeek-V4-Flash is a smaller 284B-parameter model with 13B active parameters, designed for higher-speed, higher-efficiency workloads. Both models support up to a 1M-token context window, opening new possibilities for long-context coding, document analysis, retrieval, and agentic AI workflows.

Architectural innovations for long-context inference

The V4 family builds on the DeepSeek MoE architecture, with an increased focus on optimizing the attention component of the transformer architecture. These innovations are designed to achieve a 73% reduction in per-token inference FLOPs and a 90% reduction in KV cache memory burden compared with DeepSeek-V3.2.

That matters because long context is becoming a core requirement for agentic applications. Agents store more than a single prompt and response. They carry system instructions, tool outputs, retrieved context, code, logs, memory, and multi-step reasoning traces across a workflow. As context windows grow, attention and KV cache become major bottlenecks.

Figure 1. Overview of the DeepSeek-V4 Hybrid Attention architecture. By combining CSA, DSA, and HCA, the model achieves a significant reduction in KV cache memory footprint and computational overhead within the standard transformer block.
Figure 1. Overview of the DeepSeek-V4 Hybrid Attention architecture. By combining CSA, DSA, and HCA, the model achieves a significant reduction in KV cache memory footprint and computational overhead within the standard transformer block.

The core architectural solution to this challenges is hybrid attention, which blends together:

  • Compressed Sparse Attention (CSA): Leverages dynamic sequence compression to compress KV entries to reduce the KV cache memory footprint and then applies DeepSeek Sparse Attention (DSA) to sparsify the attention matrices and reduce computational overhead.
  • Heavily Compressed Attention (HCA): Applies much more aggressive compression by consolidating KV entries across sets of tokens into a single compressed entry, resulting in significant reduction in KV cache size.

DeepSeek-V4’s architectural innovations signal a shift from basic chat toward multi-turn, long-context inference and agentic systems. This new paradigm stresses the entire stack – software, memory, compute, and networking – fundamentally altering the dynamics of inference economics. As open models reach the frontier of intelligence, the enterprise focus is pivoting from model selection to infrastructure strategy. In this landscape, the ultimate competitive advantage is the ability to deploy and scale these high-performance models at the lowest token cost.

Out-of-the-box NVIDIA Blackwell performance insights

Whether developers are deploying the 1.6T Pro model for advanced reasoning or the 284B Flash model for high-speed efficiency, Blackwell provides the scale and low-latency performance required for a new era of 1M long-context inference and trillion-parameter intelligence.

The NVIDIA Blackwell Platform is built for this class of workload. Out of the box tests on DeepSeek-V4-Pro on NVIDIA GB200 NVL72 demonstrate over 150 tokens/sec/user. In addition to these initial tests, the NVIDIA team leveraged vLLM’s Day 0 NVIDIA Blackwell B300 recipe to produce a snapshot of out-of-the-box performance across the pareto (Figure 2).

Figure 2. Out-of-the-box performance of DeepSeek-V4-Pro on NVIDIA Blackwell B300. Results are based on a 1K/1K ISL/OSL configuration using the model’s native MXFP4 format.
Figure 2. Out-of-the-box performance of DeepSeek-V4-Pro on NVIDIA Blackwell B300. Results are based on a 1K/1K ISL/OSL configuration using the model’s native MXFP4 format.

Expect this performance to climb even higher as we optimize our entire extreme co-design stack: Dynamo, NVFP4, optimized CUDA kernels, advanced parallelization techniques, and beyond.

Build with NVIDIA GPU-accelerated endpoints

Developers can start building withDeepSeek V4 through NVIDIA GPU-accelerated endpoints on build.nvidia.com as part of the NVIDIA Developer Program. Hosted endpoints provide a fast way to prototype with the latest models before moving to self-hosted deployment paths.

DeepSeek V4 is also available to download on day-0 with NVIDIA NIM so it can be deployed to build long-context coding, document analysis, and agentic workflows using familiar API patterns.

Deploying with SGLang

SGLang offers three primary serving recipes for DeepSeek‑V4 on NVIDIA Blackwell and Hopper, each tuned for a different latency/throughput profile (low‑latency, balanced, and max‑throughput), along with specialized recipes for long‑context workloads and for prefill/decode disaggregation.

Deploying with vLLM

vLLM provides DeepSeek‑V4 single‑node and multinode serving recipesfor NVIDIA Blackwell and Hopper, including multinode prefill/decode disaggregation recipes scaling up to 100+ GPUs, with support for tool calling, reasoning, and speculative decoding.

Powering agentic workflows

DeepSeek V4 is especially great for agents as it excels at long context orchestration, reasoning, and tool calling. To get started, developers can configure DeepSeek V4 as the LLM:

  • NVIDIA NemoClaw: Run OpenClaw in a secure OpenShell environment to create a long-running personal assistant powered by DeepSeek V4 for tasks like code generation, personal assistant, autonomous support, and more. Run nemoclaw onboard and during step 3, enter your DeepSeek V4 provider URL and their DeepSeek V4 model name.
  • NVIDIA AI-Q Blueprint: The blueprint makes a best-in-class deep research assistant available to you or your agents. The blueprint, based on LangChain Deep Agents, is extensible, making it easy to add DeepSeek V4 into your workflow for orchestration and planning.
  • NVIDIA Data Explorer Agent: The agent won 1st place in the DABstep benchmark; it excels at data analysis, data science, and tabular research. The agent is written with NeMo Agent Toolkit making it easy to switch to using DeepSeek V4.

The best part of using open agent harnesses and open models is you’re always able to try new models to pick up the bleeding edge.

Get started with DeepSeek

From data center deployments on NVIDIA Blackwell to managed NIM microservices and fine-tuning workflows, NVIDIA provides a range of options for integrating DeepSeek and other open models across different stages of development and deployment. NVIDIA is an active contributor to the open-source ecosystem and has released several hundred projects under open-source licenses. NVIDIA is committed to optimizing community software and open models lets users broadly share work in AI safety and resilience.

To get started, check out DeepSeek-V4 on Hugging Face or test out pro on build.nvidia.com.

About the Authors

この記事をシェア

関連記事

DeepSeek Blog2026年2月16日 19:01

駿馬が春を迎え、共に新たな境地へ駆ける | DeepSeek 丙午新年・春節 AI 挨拶

DeepSeekが春節の挨拶を発表し、AI技術の進展と新年の希望を詩的な表現で示した。

TLDR AI★32026年5月8日 09:00

DeepSeek V4 Flash のための軽量ネイティブ推論エンジン「ds4.c」が GitHub に公開

開発チームは、DeepSeek V4 Flash 専用として意図的に小型化されたローカル推論エンジン「ds4.c」を公開した。このプロジェクトはエンドツーエンドで完成したモデル体験を目指し、現在は Metal 環境のみ対応のアルファ版だが、将来的に CUDA サポートも検討されている。

Hugging Face Blog★42026年4月24日 09:00

DeepSeek-V4:エージェントが実際に活用できる100万トークンコンテキスト

DeepSeekは、自律型エージェントが実際に活用できる100万トークンのコンテキスト長を実現した新モデル「DeepSeek-V4」を公開した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む