DeepSeekの新型モデルはトースターでも動作するほど効率的…実際はファーウェイのNPU上で
DeepSeekが公開した新モデルV4は、推論コストを大幅に削減しつつHuawei Ascend NPUをサポートし、高性能な米国製プロプライエタリLLMと対抗する可能性を示した。
キーポイント
DeepSeek V4の公開と性能
中国のAI企業DeepSeekが、オープンウェイトの大規模言語モデル「V4」をプレビュー版として公開し、その性能は米国の最高峰プロプライエタリLLMに匹敵すると主張している。
推論コストの劇的な削減
新モデルは前世代や競合モデル(R1)と比較して推論コストを大幅に削減できることを謳っており、実用面での大きな利点をもたらす。
Huawei Ascend NPUへの対応
DeepSeek V4はHuaweiのAscendシリーズAIアクセラレータ(NPUs)をサポートするよう拡張され、米国製チップへの依存を減らす代替案として注目されている。
影響分析・編集コメントを表示
影響分析
このニュースは、米国製チップやモデルへの依存を脱却しようとする中国のAIエコシステムにおいて、強力な代替案が存在することを示唆しています。特に推論コストの削減とHuaweiハードウェアとの互換性は、大規模なAI導入における経済性とインフラの多様性という二つの重要な課題を同時に解決する可能性があり、業界全体の競争構造に影響を与える可能性があります。
編集コメント
DeepSeekのV4モデルがHuawei Ascendハードウェアを公式サポートしたことは、地政学的緊張下におけるAIインフラの分断と再構築において象徴的な出来事です。コスト削減と高性能を両立させたこのアプローチは、開発者にとって米国製モデルへの依存度を下げる現実的な選択肢となり得ます。
中国のAI界の寵児であるDeepSeekが、米国の独自開発LLM(大規模言語モデル)と肩を並べる性能を約束する新しいオープンウェイトの大規模言語モデルを発表しました。おそらくそれ以上に重要なのは、推論コストを劇的に削減できると主張している点であり、さらにHuaweiのAscendシリーズAIアクセラレータへのサポートも拡張されています。
金曜日に公開されたDeepSeek V4は、Hugging Faceのような人気のあるモデルリポジトリ(https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)、同社のAPI、およびWebサービスからダウンロード可能です。このモデルには2つの新しいバリエーションがあります。1つは、アクティブパラメータ数が130億個の小さな2840億パラメータのFlash Mixture-of-Experts(MoE:専門家の混合)モデル、もう1つは、アクティブパラメータ数が490億個の大きな1.6兆パラメータモデルです。
V4-Proは33兆トークンで学習されており、DeepSeekの主張によれば、オープンウェイトLLMをすべて凌駕し、ベンチマークスイート全体で西洋の最高レベルの独自開発モデルと競合する性能を持っています。
DeepSeekがV4モデルを競合他社と比較した結果は以下の通りです。- 拡大するにはクリックしてください
もちろん、これらの主張にはある程度の疑いを持って受け取る必要があります。DeepSeekはV3およびR1シリーズのモデルで強い実績を積み重ね、中国の開発者を有名にしたものの、 cannedベンチマーク(定型テスト)で高いパフォーマンスを示すからといって、現実世界でのアプリケーションでも同等の結果が得られるとは限りません。
DeepSeek V4-Pro が同社のこれまでの成果よりも大幅に優れていることは予想通りだ。新モデルはパラメータ数が約1兆個多く、推論時にはより多くのアクティブパラメータを使用する。しかし、DeepSeek V3 の場合と同様に(大規模なフロンティアモデルは以前考えられていたよりも少ない計算資源で訓練可能であることを示した)、ベンチマークの結果は全ての状況を表しているわけではない。
内部構造において、DeepSeek V4 は開発者によればモデルの提供コストを大幅に削減するはずの、いくつかの革新的なアーキテクチャ変更を導入している。
まず第一に、これは比較的単純な変更である。今回は DeepSeek が 第二の小型版 Flash モデルをリリース しており、これは実行に必要なインフラが少なく、より低コストでインタラクティブなユーザー体験を提供できる。小型モデルは提供コストが単純に安いのだ。
これ自体は新しい戦略ではないが、少なくとも自社モデルに関しては、DeepSeek がこれを採用したのは今回が初めてである。
より大きく、意味のある変更は、DeepSeek がアテンション(注意機構)を計算する方法にある。モデルのアテンションメカニズムは、プロンプトを出力トークンの生成に使用されるキー・バリューペアに変換するプロセスに影響を与える。
新しいモデルとともに公開された論文DeepSeek-V4-Proにおいて、DeepSeekの研究者たちは、推論時に必要な計算量とモデルの状態を追跡するために使用されるKVキャッシュ(Key-Value Cache)のメモリ要件を削減するため、圧縮スパースアテンション(Compressed Sparse Attention)と重圧縮アテンション(Heavy Compressed Attention)の2つの技術を組み合わせたハイブリッド・アテンション機構について説明しています。
後者の要素はDeepSeek V4の効率性の鍵であり、これらのキャッシュはかなり大きくなることがあるためです。推論プロバイダーはまた、コールドスタートペナルティを回避するために、これらをシステムメモリやフラッシュストレージにオフロードする傾向があります。より強く圧縮されたKVキャッシュは、大規模な推論デプロイメントに必要なメモリとストレージを削減します。
これらの技術を組み合わせることで、モデルはDeepSeek V3.2と比較して9.5倍から13.7倍少ないメモリを使用しながら、100万トークンのコンテキストウィンドウをサポートできます。
さらにモデルのメモリフットプリントを削減するため、DeepSeekは低精度データ型を使用する伝統を引き継いでいます。DeepSeek V3は、FP8でトレーニングされた最初のオープンウェightsモデルの一つでした。
現在、両方のV4モデルはFP8とFP4の精度の混合を使用しています。具体的には、モデル開発者はMoE(Mixture of Experts)のエキスパート重みに対して量子化 aware トレーニング(Quantization-Aware Training)を使用しました。
以前に議論した通り、FP4はモデル重みを保存するために必要なメモリをFP8と比較して半分に削減し、精度の損失を受け入れられれば、それは大きな節約となります。
DeepSeek のアーキテクチャ改善は推論に限らない。V4 では、モデル開発者は収束を加速しトレーニングの安定性を向上させるために設計された新しいオプティマイザ「Muon」を導入した。
国産ハードウェアのための国産モデル
新しいモデルの中で最も興味深く、詳細が明記されていない要素は、その動作環境であるハードウェアに関連している。DeepSeek V3 が Hopper GPU に対して強く最適化されていたのに対し、V4 は Nvidia および Huawei のアクセラレータ上で動作することが検証されている。
DeepSeek V4 の論文では、チップについて軽く触れ、「細粒度の EP(Expert Parallel:専門家並列)スキームを Nvidia GPU および Ascend NPU(ニューラルプロセッシングユニット:人工知能処理用専用回路)プラットフォームの両方で検証した」と述べているに留めている。
明確にしておくと、これはモデルが Huawei のハードウェアだけで完全にトレーニングされたことを意味するものではなく、DeepSeek が中国の通信大手である Huawei の AI アクセラレータがモデルを動作させることを検証したというだけの話である。
DeepSeek が事前トレーニングに Nvidia GPU の組み合わせを使用し、強化学習には Huawei アクセラレータを使用した可能性もある。後者は推論に隣接するトレーニング後のステップであり、モデルに新しいスキル、行動、思考の連鎖を教えるために使用される。しかし、論文ではこれについて直接言及していない。
推論(Inference)は、新しいチップメーカーにとって参入障壁が低い傾向があります。しかし、DeepSeekはある時期、Huaweiのチップでモデルの学習(Training)を試みていました。この試みは、品質不良のチップ、極端に遅いインターコネクト(Interconnect)、そして未成熟なソフトウェアスタックによって頓挫し、最終的にDeepSeekをNvidiaの傘下に戻す結果となりました。
最後に、V4における4ビット精度データ型の使用により、一部の人々はDeepSeekが中国での販売が禁止されているNvidiaのBlackwellアクセラレータを入手したと推測するかもしれませんが、これは必ずしも必要ではありません。
Hopper GPUはFP4のハードウェアアクセラレーションをサポートしていませんが、重み(Weights)のみを使用する形式でこのデータ型を扱うことができます。このアプローチは浮動小数点演算の性能には寄与しませんが、学習および推論の両方の段階で必要なメモリフットプリントと帯域幅を削減するため、多くのユースケースにおいて妥当なトレードオフとなります。
- AnthropicはClaudeを賢くしようとする際に、機能を制限したことを認めた
- Claude Opus 4.7が過度に執拗なクエリコピーライターになったと開発者が苦情
- 一枚のチップで全てを支配する時代は終わり:TPU 8により、GoogleはAI軍拡競争で勝利しようとしている
- MicrosoftのGitHubは容量逼迫のため、Copilotアカウントのサインアップを停止
販売価格設定
DeepSeek V4は現在プレビュー版として提供されており、ベースモデルおよびインストラクションチューニング済みバージョンの両方が、ダウンロードまたはAPI経由で利用可能です。
同社は当然のことながら、小規模モデルに対して API アクセスを提供しており、その料金はキャッシュなしの入力トークン 100 万個あたり 0.14 ドル、出力トークン 100 万個あたり 0.28 ドルという割安な設定となっています。
大規模な Pro モデルは、入力トークン 100 万個あたり 1.74 ドル、出力トークン 100 万個あたり 3.48 ドルとかなり高額ですが、それでも欧米の AI ベンダーが自社の最高級モデルへのアクセスに対して請求する金額の一部に過ぎません。参考までに、OpenAI は GPT-5.5 に対して入力トークン 100 万個あたり 5 ドル、出力トークン 100 万個あたり 30 ドルを請求しています。
原文を表示
Chinese AI darling DeepSeek is back with a new open weights large language model that promises performance to rival the best proprietary American LLMs. Perhaps more importantly, it claims to dramatically reduce inference costs and it extends support for Huawei's Ascend family of AI accelerators.
Unveiled on Friday, DeepSeek V4 is available for download on popular model repos like Hugging Face, the company's API, and web service in two new flavors. The first is a smaller 284 billion parameter Flash mixture-of-experts (MoE) model with 13 billion active parameters, while the larger of the two is a 1.6 trillion parameter model, 49 billion of which are in use at any given moment.
V4-Pro was trained on 33 trillion tokens and, if DeepSeek is to be believed, beats out every open weight LLM while rivaling the West's best proprietary models across its benchmark suite.
Here's how DeepSeek says its V4 model stacks up against the competition. - Click to enlarge
Of course, these claims should be taken with a grain of salt. While DeepSeek has had a strong track record with its V3 and R1 family of models that made the Chinese dev a household name, just because it performs well in canned benchmarks doesn't mean it'll hold up in real world applications.
We would expect DeepSeek V4-Pro to be much better than the company's prior efforts. The new model is nearly a trillion parameters larger and uses more active parameters during inference. But as was the case with DeepSeek V3, which showed that large frontier models could be trained using less compute than previously thought, benchmarks don't tell the full story.
Under the hood, DeepSeek V4 introduces several novel architectural changes that, according to developers, should make the model much less expensive to serve.
The first is rather simple. This time around, DeepSeek is releasing a second smaller Flash model, which requires less infrastructure to run and will deliver a more interactive user experience at a lower cost. Smaller models are simply cheaper to serve.
This in itself isn't a new strategy, but it's one that DeepSeek is only now embracing, at least as far as its in house models are concerned.
The bigger and more meaningful change comes to how DeepSeek is calculating attention. A model's attention mechanism impacts how it converts a prompt into key-value pairs that are used to generate the output tokens.
In a paper published alongside the new models, DeepSeek researchers describe a hybrid attention mechanism that combines two technologies: Compressed Sparse Attention and Heavy Compressed Attention to reduce the amount of compute required during inference and the memory required by the KV caches used to track model state.
The latter element is key to DeepSeek V4's efficiency, as these caches can be quite large. Inference providers also tend to offload these to system memory or flash to avoid cold start penalties. More heavily compressed KV caches mean less memory and storage is required for large-scale inference deployments.
Combined, these technologies mean the model can support a million token context window while using 9.5x-13.7x less memory than DeepSeek V3.2.
To further reduce the model's memory footprint, DeepSeek is continuing its tradition of using lower precision datatypes. DeepSeek V3 was among the first open weights models trained at FP8.
Now, both V4 models are using a mixture of FP8 and FP4 precision. Specifically, the model devs used quantization-aware training for the MoE expert weights.
As we've previously discussed, FP4 effectively halves the memory required to store model weights compared to FP8, making it a significant saving, if you can stomach the loss of precision.
DeepSeek's architectural improvements aren't limited to inference either. In V4, the model devs introduced a new optimizer called Muon, designed to speed up convergence and improve training stability.
A homegrown model for homegrown hardware
Perhaps the most interesting, least detailed element of the new models relates to the hardware they're running on. While DeepSeek V3 was heavily optimized for Hopper GPUs, V4 has been validated to run on both Nvidia and Huawei accelerators.
The DeepSeek V4 paper only mentions the chips in passing, noting that the company validated its "fine-grained EP [Expert Parallel] scheme on both Nvidia GPUs and Ascend NPU platforms."
To be clear, this does not mean the model was trained entirely on Huawei hardware, only that DeepSeek has validated the Chinese telecommunications giant's AI accelerators to serve the model.
It is possible DeepSeek used a combination of Nvidia GPUs for pre-training and Huawei accelerators for reinforcement learning. The latter is an inference-adjacent post-training step used to teach models new skills, behavior, and chain of thought reasoning. However, the paper doesn't directly address this.
Inference generally has a lower barrier to entry for new chipmakers. However, at one point, DeepSeek was trying to train its models on Huawei's chips as well. This effort was reportedly derailed by dodgy chips, glacial interconnects, and an immature software stack that ultimately drove DeepSeek back into Nvidia's embrace.
Finally, the use of 4-bit precision data types in V4 could lead some to assume DeepSeek got its hands on Nvidia's Blackwell accelerators, which the AI arms dealer isn't allowed to sell in China, but this isn't strictly necessary.
Hopper GPUs don't support FP4 hardware acceleration but can work with the data type in a weights-only fashion. This approach doesn't benefit floating point performance, but reduces the memory footprint and bandwidth required during both training and inference, making it a worthwhile trade-off in many use cases.
- Anthropic admits it dumbed down Claude when trying to make it smarter
- Claude Opus 4.7 has turned into an overzealous query cop, devs complain
- Forget one chip to rule them all: With TPU 8, Google has an AI arms race to win
- Microsoft's GitHub grounds Copilot account sign-ups amid capacity crunch
Priced to sell
DeepSeek V4 is currently in preview with both base and instruct tuned versions of the model available for download or via its API.
The company is unsurprisingly offering API access to the smaller model at a reduced rate of $0.14 per million input tokens (uncached) and $0.28 per million output tokens.
The larger Pro model is much more expensive at $1.74 per million input tokens and $3.48 per million output tokens, but that's still a fraction of what Western AI vendors are charging for access to their top models. For reference, OpenAI charges $5 per million input tokens and $30 per million output tokens for GPT-5.5. ®
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み