DeepSeek V4 ProおよびFlashモデル、Huawei Ascendチップで動作可能に
DeepSeekがNVIDIA依存からの脱却を図りHuawei Ascendチップで動作するV4 Pro/Flashモデルをリリースし、1Mトークンコンテキストと高度な注意力機構によりオープンソース界隈に大きな衝撃を与えた。
キーポイント
DeepSeek V4シリーズの正式リリース
DSV3以来初の主要アーキテクチャ刷新となるDeepSeek-V4 Pro(1.6Tパラメータ)とFlash(284Bパラメータ)が公開され、MITライセンスでBaseおよびInstructバージョンの両方が提供された。
Huawei Ascendチップとの互換性
輸出規制対象のNVIDIA/CUDA環境からの依存脱却を目指し、Huawei Ascendチップ(CANN)との互換性を確保。中国の完全な自立生産における重要なマイルストーンとなった。
技術的革新:CSA/HCAと効率性
Compressed Sparse Attention (CSA) と Heavily Compressed Attention (HCA) を採用し、1Mトークンコンテキストにおいて従来のDeepSeek-V3.2比でFLOPsを27%、KVキャッシュメモリを10%に削減する驚異的な効率を実現した。
競合他社との位置づけと評価
Kimi K2.6やXiaomi Mimo 2.5と並ぶオープンモデルのリーダー格であり、Gemini 3.1やGPT-5.4に匹敵する性能を持つと評価され、技術レポートは今年最重要クラスの論文として称賛されている。
ハイブリッド長文コンテキストアーキテクチャ
共有KVベクトル、圧縮ストリーム、スパース注意機構、およびスライディングウィンドウを組み合わせることで、1MトークンのコンテキストをKVキャッシュサイズ約9.62 GiB(V3.2の8.7倍小さい)で実現。
混合精度量子化と単一ノード動作
MoEエキスパート重みをFP4、注意機構などをFP8で量子化したチェックポイント形式を採用し、完全なモデルを単一の8×B200ノードに収容可能と主張。
モデル構成とトレーニング規模
V4 Pro(1.6T/49Bアクティブ)とV4 Flash(284B/13Bアクティブ)の二層構成を採用し、約32-33Tトークンで学習済み。
影響分析・編集コメントを表示
影響分析
このリリースは、単なるモデル性能の向上だけでなく、地政学的リスクを背景としたハードウェア多様化(特にHuawei Ascendへの対応)という戦略的意義が極めて大きい。また、1Mトークンコンテキストの実用化と計算効率の劇的な改善は、長文処理やエージェント開発におけるオープンソースモデルの競争力を大幅に高め、業界標準を押し上げる要因となる。
編集コメント
技術レポートの密度とHuawei Ascendへの対応は、オープンソース界隈における「性能」と「実装可能性」の両面での競争激化を示唆しており、今後のハイエンドモデル開発におけるハードウェア要件の見直しを迫られるだろう。
数ヶ月の遅延と多くの憶測を経て、DeepSeek はついに長年待ち望まれていた DSV4 をリリースしました。これは 2024 年 12 月の DSV3 や 2025 年 1 月の DSR1 に続く、最初の主要バージョンモデルです。これにより、DeepSeek シリーズは現在のオープンモデルリーダーである Kimi K2.6 や、2 日前にリリースされたやや知名度の低いシリーズである Xiaomi Mimo 2.5 と肩を並べるものとなりました。

DSV4 シリーズは、Gemini 3.1、GPT 5.4、Opus 4.6 レベルのモデルに相当し、最大 1.6T の MOE(Mixture of Experts:専門家混合モデル)を持ち、FP4 精度で 32T トークンを使用してトレーニングされています。1M(百万)トークンのコンテキストをサポートしており、これは新しい Compressed Sparse Attention(CSA:圧縮スパースアテンション)および Heavily Compressed Attention(HCA:高度圧縮アテンション)の技術によって可能になっています。さらに驚くべきことに、Base(ベースモデル)と Instruct(指示学習済みモデル)の両方をリリースしました。これにより、将来「DeepSeek R2」の可能性を示唆する基盤が整いましたが、このモデル自体にもすでに推論機能(reasoning effort)が含まれています。

技術レポートは、典型的に密度の濃い58ページからなり、1月に公開したManifold Constrained Hyper-Connections (mHC) 論文からのトレーニングおよび推論に関する洞察と改善、MoonshotのMuonの継続的な使用、そしてDeepSeek 3.2-Expのすでに印象的なSparse Attention(疎性Attention)におけるCSA/HCAの全体的な驚くべき効率向上を示しています。1Mトークンにおいて、DeepSeek-V3.2と比較してFLOPs(浮動小数点演算)が27%、KVキャッシュメモリが10%で済みます:

Huawei CANN(Compute Architecture for Neural Networks)互換性の背後にある地政学的背景は、DeepSeekが輸出規制対象のNVIDIA/CUDAチップへの依存を脱却することです。Ascend(アセンダ)の供給量はH100の4分の1に過ぎませんが、これは中国の完全な自立にとって重要なマイルストーンです。
2026年4月23日〜4月24日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、および追加のDiscordサーバーを確認しました。AINewsのウェブサイトでは過去のすべての号を検索できます。 reminderとして、AINewsは現在Latent Spaceの一部です。メール配信頻度のオプトイン/オプトアウトが可能です!
AI Twitterレキャップ
トップストーリー:DeepSeek V4
DeepSeekは、V3以降初となる主要なアーキテクチャ刷新であり、明確な2段階のラインアップであるDeepSeek-V4 ProとDeepSeek-V4 Flashをリリースしました。これらは100万トークンのコンテキスト、ハイブリッドな推論/非推論モード、MITライセンスを備えており、その技術レポートは詳細 enough で、複数の研究者から今年最重要または最も優れたモデル論文の一つと称されています。反応全体を通じ、事実に基づくコンセンサスは、V4がオープンウェイトのロングコンテキストおよびアジェンティックコーディングのパフォーマンスを大幅に向上させた一方で、総合的にはトップのクローズドなフロンティアモデルにはやや及ばないというものです。独立したベンチマーカーによれば、V4 Proはオープンウェイト層で第2位程度に位置し、Kimi K2.6 / GLM-5.1 / 強力なClaude SonnetクラスからOpus級にほぼ相当し(ベンチやモードによる)、特にロングコンテキストとアジェンティックパフォーマンスが顕著です。GPT-5.x / Opus 4.7にどの程度近づいているか、そしてこれが「民主化」への進展なのか、それともオープンラボが現実的に再現できるような複雑さを持つアーキテクチャなのかについては意見が分かれています。主要な情報源には、@ArtificialAnlys、@scaling01、@nrehiew_、@ben_burtenshaw、@TheZachMueller、@ZhihuFrontierからの詳細な解説や、@vllm_project、@NVIDIAAI、@Togethercomputeからのインフラ/ベンダー投稿が含まれます。
コアな事実と技術的詳細
議論全体で繰り返される最も具体的な技術的な主張は以下の通りです:
2つのモデル
V4 Pro: 総パラメータ数1.6T / アクティブ49B
V4 Flash: 総パラメータ数284B / アクティブ13B
@ArtificialAnlys、@teortaxesTex、@baseten、@NVIDIAAIによって報告
@ArtificialAnlys 氏によると、V3.2 の 128K から増加し、100万トークンに到達。
複数の投稿者がこれを見どころとなる成果と位置づけている。「堅実な超長文コンテキスト」という評価が @teortaxesTex 氏から寄せられている。
トレーニング規模
32T〜33T トークンが繰り返し言及されている。
@nrehiew_ 氏は、1.6T パラメータに対して 32T トークン(つまり、パラメータあたり約 20 トークン)と指摘している。
@teortaxesTex 氏は 33T を引用している。
@nrehiew_ 氏は事前トレーニングの計算量を約 1e25 FLOPs と推定している。
推論 / モード
@Togethercompute 氏によると、DeepSeek は 3 つの推論モードを提供している。
@ArtificialAnlys 氏は、「思考あり/なし」のハイブリッドな位置づけに言及している。
長文コンテキストアーキテクチャ
複数のスレッドで、新しいハイブリッド注意機構の要約がなされている:
共有 KV ベクトル
圧縮された KV ストリーム
圧縮トークンに対するスパース注意
近接コンテキストに対するローカル/スライディングウィンドウ注意
@ZhihuFrontier 氏は、最もコンパクトな公開要約を提供している:
共有キー・バリューベクトルによる KV 削減率 2 倍
c4a ≈ 4 倍圧縮
c128a ≈ 128 倍圧縮
圧縮トークンに対する top-k スパース注意
128 トークンのスライディングウィンドウ
1M コンテキストの KV キャッシュ = 9.62 GiB/シーケンス(bf16)
DeepSeek V3.2 の 83.9 GiB よりも 8.7 倍小さい
FP4 インデックスキャッシュと FP8 注意キャッシュを組み合わせることで、さらに約 2 倍の削減が可能
@ben_burtenshaw 氏はこれを「KV キャッシュが 10 倍小さい」と要約している。
@TheZachMueller 氏と @TheZachMueller 氏は、CSA(Combined Self-Attention)と HCA(Hybrid Cache Attention)のレイヤーパターンを記述しており、V4 Flash では一部の場所で HCA の代わりにスライディングウィンドウレイヤーを使用している。
量子化 / チェックポイント形式
@LambdaAPI 氏によると、チェックポイントは FP4 と FP8 の混合である。
MoE(Mixture of Experts)のエキスパート重みは FP4。
注意 / 正規化 / ルーターは FP8。
主張:フルモデルは単一の8×B200ノードに収まる
推論ハードウェア / サービング
@NVIDIAAI:Blackwell Ultra上では、V4 Proはエージェントワークフローに対してユーザーあたりのインタラクティブ性として150+ TPS(トランザクション/秒)を提供可能
@NVIDIAAI:vLLMを用いたV4 Proのパフォーマンスパレート(効率性)をDay-0で公開
@SemiAnalysis_:H200、MI355、B200、B300、GB200/300 acrossでのDay-0サポートとベンチマーク
@Prince_Canuma:256GB Mac上でのDeepSeek4-Flash
@Prince_Canuma:MLX量子化(quantization)が公開済み
@simonwは、より少ないRAMを持つMacの実用性について質問しており、コミュニティの関心を示唆しているが、サポート状況は完全ではない
@QuixiAIは、多くのローカルスタックがまだテンソル並列(tensor parallel)を欠いていることをユーザーに思い出させ、V4クラスモデルが推論インフラストラクチャを強く負荷することに関連して指摘している
ライセンス / 利用可能性 / 価格
@ArtificialAnlysによると、MITライセンス
公式APIに加え、@Togethercompute、@baseten、@NousResearch、@Teknium経由で第三者製APIが急速に利用可能
V4 Proの価格:入力/出力トークン100万個あたり$1.74 / $3.48
V4 Flashの価格:$0.14 / $0.28
@ArtificialAnlysにより、キャッシュヒット時の価格も提供済み
@scaling01は、この価格を将来の「Mythosレベル」の安価なコーディングモデルの一瞥と見なしている
Reuters経由で投稿された@scaling01の引用:DeepSeekは、H2にHuawei Ascend 950スーパーノードが大量展開されれば、Proの価格は大幅に下落する可能性があると言っている
独立した評価とV4の位置づけ
最も有用な独立ベンチマークの合成は@ArtificialAnlysからのものであった:
V4 Pro Max:Artificial Analysis Intelligence Indexで52
V3.2の42から10ポイント上昇
Kimi K2.6(54)に次ぐ、オープンウェイトの推論モデルとして#2位となる
V4 Flash Max:47
中堅~上位のオープンモデルに位置づけられ、「Claude Sonnet 4.6 max レベルの知能」
GDPval-AA(エージェント型実世界作業):
V4 Pro:1554、オープン重みモデルの中で首位
Kimi K2.6(1484)、GLM-5.1(1535)、MiniMax-M2.7(1514)を上回る
AA-Omniscience
V4 Pro:-10、V3.2 より 11 ポイント改善
ただし幻覚発生率は依然として 94%
V4 Flash:幻覚発生率 96%
AA インデックスの実行コスト
V4 Pro:$1,071
V4 Flash:$113
AA インデックスで使用された出力トークン数
V4 Pro:190M
V4 Flash:240M
これは重要な注意点である:トークン単価が安くても、モデルが膨大な量のトークンを出力すれば、総タスクコストは安くなるとは限らない
追加の評価視点:
@arena:
デビュー時、Text Arena 全体でオープンモデル第2位
カテゴリ別勝利・順位:
#1 医療・ヘルスケア
#15 クリエイティブライティング
#18 多ターン対話
思考型バリアント:
#8 数学
#9 生命/物理/社会科学
@arena は Pro と Flash のトレードオフを強調している:
Pro は約 30 位上回る
コストは 12 倍高い
Flash は中国語、医学、数学において依然として競争力がある
@scaling01:
「SimpleBench においては、現在も Opus 4.5 の推定値が妥当である」
@scaling01:
V4 は「GLM-5.1 より明らかに優れているが、Opus 4.7、GPT-5.4、Gemini 3.1 Pro にはまだ及ばない」
@scaling01 は、6 ヶ月以内のギャップを確認するためのスコアをリストアップしている:
ARC-AGI-1 約 75%
ARC-AGI-2 約 35%
GSO 約 26%
METR 4.5~5 時間
WeirdML 約 63%
@TheZachMueller:
自身の評価において、Flash@max は Pro@high と推論能力が同等
Pro は知識(SimpleQA)により焦点を当てている
@VictorTaelin:
ベンチマークのバグを修正し、長時間実行されるモデルにより多くの処理時間を許容した結果、DeepSeekとKimiは大幅に改善された。
@mbusigin:
詳細のない単純な否定的な初期印象
@petergostev:
BullshitBench(嘘つきベンチマーク)では、能力ではなく拒否や反発の行動に関するものであり、GPT-5.5は下回った結果となった。ここでは多くの読者がV4を評価に懐疑的な環境で比較するため、ここに含めている。
事実と意見
事実 / 比較的裏付けのある主張
V4 Pro / Flashは上記の仕様でリリースされ、MITライセンスの下、100万トークンのコンテキスト(context)、オープンな技術ドキュメントが提供された:@ArtificialAnlys、@TheZachMueller
このアーキテクチャは、KVキャッシュ(Key-Value Cache)の劇的な削減を特徴とする新しい長期コンテキスト注意機構を導入した:@ZhihuFrontier、@ben_burtenshaw
独立したベンチマーク実施者は、V4 Proをオープンウェイト(重み公開モデル)の最高峰に近い位置に置いているが、総合的なベストなプロプライエタリ(独自開発)モデルには及ばないと見なしている:@ArtificialAnlys、@arena、@scaling01
DeepSeek V4は一部の評価でトークン使用量が非常に多い:@ArtificialAnlys
チェックポイント(モデルの保存データ)はFP4/FP8混合精度を使用しており、8×B200ノードに収まる:@LambdaAPI
vLLMやその他のプロバイダーを通じて、Day 0(リリース当日)から急速なエコシステムサポートがもたらされた:@vllm_project、@SemiAnalysis_
意見 / 解釈
「V4はフロンティア(最先端)から約4〜5ヶ月遅れている」という@scaling01の見解は、情報に基づいた推定であり、測定された事実ではない
@teortaxesTexによる「トップ3のオープンモデル」対「フロンティアに近い唯一のオープンモデル」という議論は、ベンチマークへの信頼性と枠組み設定に関する部分が大きい
@teortaxesTex 氏による「我々が持つ中で最も強力な事前学習モデル」という見解は、直接のベンチマークでの優位性ではなく、スケールとアーキテクチャに依存するものである。
@Dorialexander 氏による「今年最も重要な AI 論文」という評価は、合意形成ではなく熱狂の表れである。
@scaling01 氏による「これが研究のあるべき姿だ」という発言は、能力のみならず透明性やスタイルにも言及している。
@teortaxesTex 氏による「必ずしも民主化を促進する技術ではない」という指摘は、強力なアーキテクチャ的・政治的な解釈を示している。
異なる意見と亀裂
1) V4 はフロンティアに近いのか、それとも明確に遅れているのか?
より楽観的な見方
@scaling01 氏:GPT-5.2 / Opus 4.5+ のティアに位置づけるとする
@scaling01 氏:SimpleBench は約 Opus 4.5 をサポートする
@teortaxesTex 氏:オープンソースの事前学習ベースの中で最強であると主張し、ポストトレーニングが何を行うかについて人々が過小評価していると示唆する
より懐疑的な見方
@scaling01 氏:Opus 4.7 / GPT-5.4 / Gemini 3.1 Pro に劣るとする
@scaling01 氏:クローズドラボにはより大きなモデル、優れた科学・法律・医療のカバレッジ、GB200 を用いた高速推論があるため、ギャップが再び拡大する可能性がある
@mbusigin 氏:初期の印象は「それほど良くない」
@teortaxesTex 氏:K2.6 や GLM 5.1 のような磨き上げられたモデルは、内在する能力が低くともコーディングにおいてより良く感じられる場合があると述べる
2) V4 の真の貢献はモデル品質か、それともロングコンテキストシステムの設計か?
多くの技術的な読者が、生のベンチマークの位置づけよりもロングコンテキストアーキテクチャの方が重要だと考えているという、反応における大きな分断がある。
@teortaxesTex 氏:「彼らはその探求を完了した:堅固な超ロングコンテキスト」
@ben_burtenshaw: 長期コンテキストとアジェンティック(自律型エージェント)のポストトレーニングが「出会う」最初のオープンモデル
@scaling01: 他のオープンラボもアーキテクチャの一部を採用すると見込んでいる
@Dorialexander: Huaweiや主権制約を、ハードウェアとメモリ/インターコネクト設計を再構築する機会として位置づけている
@jukan05: 論文は、NVIDIAのハードウェアロードマップがMoE(Mixture of Experts)や長期コンテキストモデルの方向性と unusually(非常に)よく整合していることを示す証拠として読める
3) V4は「オープンな民主化」か、それとも複製が難しすぎるか?
これは最も鋭い戦略的意見の相違点の一つだった。
@teortaxesTex: V4は「厳密には民主化を促進する技術ではない」と述べる。その理由は、アーキテクチャがほとんどのラボにとって複製に難しすぎるからである。
@teortaxesTex: DeepSeek自身も、リファクタリングを行わない限り、この正確なアーキテクチャを再度採用したくないかもしれないと示唆する。
@stochasticchasm: 膨大なハイパーパラメータの複雑さが畏怖すべきものであることに言及する。
これに対し、@Prince_Canumaと@Prince_Canumaは、エコシステムがすでにFlashを圧縮し、ローカルに近いApple Siliconでの使用に適応させていることを示している。推論側においては「民主化していない」という主張を和らげる結果となっているが、学習(トレーニング)側ではそうではないかもしれない。
4) 人々はFlashを見下しすぎているか?
いくつかの反応は、実用的な採用においてFlashがProよりも重要かもしれないことを示唆している。
@arena: Flashは価格対性能のフロンティアをシフトさせる
@TheZachMueller: 推論タスクにおいて、Flash@maxはPro@highと同等の性能を示す
@teortaxesTex: ベンチマークは「 Penny(数セント)で1Mコンテキストを正当に利用可能」という点を過小評価している可能性がある
@Prince_Canuma: Flashは256GBのMac上で動作する
@baseten と @Togethercompute は、Flash の経済性が重要となる長文書分析やエージェント型ユースケースを強調している。
中国、チップ、Huawei、そして主権の文脈
DeepSeek V4 は純粋なモデルリリースとして議論されたのではなく、より大きな米中間の計算資源と主権をめぐる論争における証拠として扱われた。
@scaling01:中国のラボは、そのモデルがより良いモデルの構築に寄与するという意味で、「離脱(takeoff)」の状態にあるか、それに近づいている。ただし、依然として5ヶ月以上遅れている。
@scaling01:チップ輸出規制は、長期的には広範な分野における格差を拡大させる可能性が高いと考えている。
@teortaxesTex, @teortaxesTex:Huawei を単純に否定する見解に異議を唱え、Huawei に対する中国の世論は複雑であることを指摘している。
@ogawa_tter:Ascend 950 および A3 クラスターの分析、および V4 の展開計画について言及している。
@Dorialexander:Huawei に関連する主権をめぐる取り組みが、ハードウェアアーキテクチャを再形成しうる主張している。
@scaling01:DeepSeek が、第2四半期に Ascend 950 スーパーノードのスケールアウトが進めば、価格が急落する可能性があると言っていることを引用している。
@jukan05:V4 は NVIDIA の Blackwell/Rubin/HBM/インターコネクト戦略を検証するものだと解釈している。
@NVIDIAAI, @NVIDIAAI:Blackwell の初日パフォーマンスを強調するのは当然のことだが、これはベンダー側のフレームングであり、戦略的優位性の独立した証明ではない。
さらに、よりイデオロギー的なスレッドもある:
@teortaxesTex氏は、西洋の議論は中国のラボを単なる国家の代理や蒸留(distillation)の工場と誤解しがちであるが、それらはむしろ明確なミッションを持つ真剣なアクターであると見なすべきだと主張している。この解釈は主観的ではあるが、今回のリリースがなぜそのような感情的に絡み合った地政学的な反応を招いたのかを理解する助けとなる。
蒸留、トレーニングデータ、そしてデータの質
繰り返し現れる暗流:V4は主にアーキテクチャの革新を反映しているのか、それとも批評家はそれを「蒸留」として一蹴できるのか。
@yacineMTB氏は、中国の蒸留に関する一部の不満は、自分が劣っていることに気づいた人々から来ているのかもしれると推測している。
@cloneofsimo氏:「非常に興味深い…彼らがClaudeを蒸留したことを考慮すれば」
@kalomaze氏:DeepSeekがDeepSeekの推論トレースでトレーニングするというジョーク
より実質的な側面では、@teortaxesTex氏は、DeepSeekの、特に中国語における文章の質は、長年にわたるデータクリーンliness(清浄性・精製)への執着を反映しており、その根拠として求人情報などを引用している。
@nrehiew_氏は、このレポートが標準的なカテゴリ以外における事前トレーニングデータの詳細をまだ欠いていると指摘している。
全体として、このツイートセットにおける客観的な公的証拠は、「DeepSeekは大規模なスケールで強力なデータ処理を行いながらトレーニングしている」という主張を支持するものではあるが、推測の域を出ない外部蒸留の程度に関する強力な主張を支持するものではない。
アーキテクチャの系譜と先行技術
複数の研究者が、V4が nowhere から出現したわけではないことを指摘している。
@jaseweston氏:DeepSeekは2021年のParlAIのアプローチからハッシュルーティング(hash routing)を使用していると述べている
@suchenzang: ルーティングに起因する外れ値を批判し、ハッシュ手法への皮肉を込めた
@teortaxesTex: Mixtral 風の MoE(Mixture of Experts)は妥当な過去のハックだったと指摘しつつ、DSMoE が状況を変えたと主張
@art_zucker: MoE を全体的に「行き詰まり」として攻撃
@gabriberton: 不格好ではあるものの、MoE は効果的であることが証明されていると反論
@stochasticchasm: さらに前向きで、「MoE は素晴らしい」と述べる
これは重要だ。なぜなら V4 は単なる強力なチェックポイントとしてだけでなく、オープンな長文コンテキスト対応 MoE のための新たな設計指針となり得ると見なされたからである。
なぜ技術レポート自体が重要だったのか
モデルだけでなく、論文/レポートの品質に対しても驚くほど多くの称賛が向けられた。
@scaling01: 「技術論文は大きな意義を持つ」
@Dorialexander: 「今年最も重要な AI 論文」
@morqon: 「これまで読んだ中で最高クラスのものの一つ」
@scaling01: 「これが研究のあるべき姿だ」
@TheZachMueller、@iamgrigorev、@nrehiew_:全員が、このレポートを消化しテストするために非常に高い努力を払ったことを示唆
専門家読者にとって、これは重要だ。なぜなら、多くの最先端リリースは現在、技術的な開示が限られたものとして提供されているからである。V4 のレポートは、真摯なオープンリリースがどのようなものになるべきかという期待をリセットしたように見える。
実用的な制限と注意点
熱狂にもかかわらず、いくつかの注意点が繰り返されている:
総合的な能力では依然としてクローズドな最先端に及ばない
特に科学、法律、医療分野および @scaling01 による広範な「一般領域」において
推論 RL が十分に煮詰まっていない可能性
@scaling01: V3.2 Speciale と比較して推論効率に大きな変化なし
サービング(提供)は依然として困難
@scaling01: 多くのラボは20〜30トークン/秒の速度と限られた同時実行数しか提供しておらず、評価(evals)の実行には1日かかることがあります
@ClementDelangue: Hugging Face(HF)における同時実行数のボトルネックを認める
高いトークン使用量
@ArtificialAnlys からの主要な実用上の注意点
API制御
@stochasticchasm: DeepSeek APIはサンプリング制御を許可していないように見えると指摘
採用可能性
@teortaxesTex: 多くのラボがきれいにコピーするには複雑すぎる
より広い影響
3つの重要な示唆があります。
オープンウェイトの長文コンテキストは、もはや単なるマーケティング用語ではありません。
V4の最も重要な貢献は、1Mコンテキストがオープンウェイトモデルにおいて運用上信頼できるものであり得ることを証明した点にあるかもしれません。これには、具体的なKVキャッシュのエンジニアリングとオープンな推論サポートが含まれます。これが複数の投稿者がベンチマークの差分よりもシステム設計に焦点を当てた理由です:@ben_burtenshaw、@ZhihuFrontier、@scaling01。
中国のトップラボは、クローズドモデルとの格差を完全に埋めていなくても、オープンモデルにおいて競争力を維持しています。
@ArtificialAnlys、@arena、@scaling01 全体のベンチマークの状況は、中国のラボがオープンウェイトのトップティアの多くを支配していることを示唆しています:Kimi、GLM、DeepSeek、そしてまもなく MiMo。
「オープン」の基準は、チェックポイントの公開からフルスタックのコデザインへと上昇しています。
V4 は vLLM、Blackwell、MLX 量子化(quants)、Mac の実用性、Ascend クラスタ、キャッシュ/メモリアーキテクチャとともに即座に議論されました。つまり、「モデル」は推論基盤と切り離せなくなっています。
インフラ、推論、ローカル/オープンエコシステム
@MillieMarconnni 氏によると、Hugging Face は ML Intern をリリースしました。これは機械学習(ML)作業のためのオープンソースの CLI「AI インターン」で、論文のリサーチ、コードの記述、実験の実行、HF データセットやジョブの使用、GitHub の検索を行い、最大 300 ステップの反復処理が可能です。関連する反応として、@getpy 氏は HF の $9 Pro チアは非常に強力なコストパフォーマンスであると指摘しています。
@AIatMeta 氏によると、Meta は数十億人のユーザー向けに Meta AI およびエージェントシステムをスケーリングするため、計算リソースポートフォリオに数千万の AWS Graviton コアを追加すると発表しました。
ローカル/オープンなコーディングスタックの勢いは健闘しています:
@julien_c 氏によると、MacBook Pro で llama.cpp を介して Qwen3.6-27B を実行すると、多くのコーディングタスクにおいて最新の Opus に迫る感覚があるとのことです。
@p0 氏は、Pi、Ollama、Gemma 4、Parallel web search MCP を組み合わせて構築された無料の CLI エージェントを紹介しました。
@Prince_Canuma 氏は、DeepSeek V4 の量子化モデル(quants)が近日中に登場すると述べています。
@QuixiAI 氏は、llama.cpp / Ollama / LM Studio がテンソル並列処理(tensor parallel)をサポートしていないため、本格的なマルチ GPU サービングユーザーは vLLM へ移行するよう促しています。
Nous/Hermes の出荷が活発です:
@WesRoth 氏によると、Hermes Agent v0.11.0 では、書き直された React TUI(テキストユーザーインターフェース)、ダッシュボードプラグイン、テーマ設定、より多くの推論プロバイダー、画像バックエンド、QQBot サポートが導入されました。
@mr_r0b0t 氏および @Teknium 氏によると、Hermes は DeepSeek V4 と GPT-5.5 の両方に対して広範な称賛と迅速なサポートを受けました。
@JulianGoldieSEO 氏と @LoicBerthelot 氏は、Hermes を OpenClaw と比較し、学習ループ、メモリ、モデルサポート、デプロイの柔軟性、セキュリティにおいて有利であると評価しました。
@nu_b_kh 氏により、bubblewrap と cgroups v2 を使用した Deep Agents 用のネイティブ Linux サンドボックスバックエンドがリリースされました。
研究論文とベンチマーク
オンポリシー蒸留(on-policy distillation)トークン選択:
@TheTuringPost が、一部のトークンだけが大部分の学習信号を担っていることを示す論文を紹介しています。約50%のトークンを使用することで、完全な学習に匹敵する、あるいはそれを超える性能を実現し、メモリ使用量を約47%削減できます。さらに、自信のある誤り(confident-wrong)トークンに焦点を当てた10%未満のケースでも、ほぼ完全な学習結果に近い性能が得られます。
Google Res
原文を表示
After a couple months’ delay and lots of speculation, DeepSeek finally released the heavily anticipated DSV4, the first major version model since DSV3 (Dec 2024) and DSR1 (Jan 2025). It brings the DeepSeek family up in line with Kimi K2.6, the current open model leader, and Xiaomi Mimo 2.5, a lesser known family released 2 days ago.

The DSV4 family is roughly a Gemini 3.1, GPT 5.4, Opus 4.6 level model, up to 1.6T MOE withtrained on 32T tokens with FP4, with 1M token context (supported by their new Compressed Sparse Attention (CSA) and Heavily Compressed Attention (HCA) techniques), and incredibly rarely, they released both the Base and Instruct versions - surely setting the stage for a possible “DeepSeek R2” in future, though this one already has reasoning effort.

The technical report is a typically dense 58 pages, demonstrating training and inference insights and improvements from the Manifold Constrained Hyper-Connections (mHC) paper they released in January, continued usage of Moonshot’s Muon, and CSA/HCA’s overall INCREDIBLE efficiency improvements on DeepSeek 3.2-Exp’s already impressive Sparse Attention - at 1M tokens, requiring only 27% of FLOPs and 10% of KV cache memory compared with DeepSeek-V3.2:

The geopolitical backdrop behind the Huawei CANN compatibility is DeepSeek weaning dependence off export-controlled NVIDIA/CUDA chips — Ascends are still a quarter the supply of H100s, but this is an important milestone for Chinese total independence.
AI News for 4/23/2026-4/24/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Top Story: DeepSeek V4
DeepSeek released DeepSeek-V4 Pro and DeepSeek-V4 Flash, its first major architecture refresh since V3 and first clear two-tier lineup, with 1M-token context, hybrid reasoning/non-reasoning modes, an MIT license, and a technical report detailed enough that multiple researchers called it one of the most important or best-written model papers of the year. Across the reactions, the factual consensus is that V4 materially advances open-weight long-context and agentic coding performance while remaining somewhat behind the top closed frontier models overall. Independent benchmarkers place V4 Pro around the #2 open-weights tier, roughly near Kimi K2.6 / GLM-5.1 / strong Claude Sonnet-class to Opus-ish depending on benchmark and mode, with especially strong long-context and agentic performance; opinions diverge on how close it is to GPT-5.x / Opus 4.7 and on whether this is “democratizing” progress or an architecture so complex that few open labs can realistically reproduce it. Key sources include deep-dive commentary from @ArtificialAnlys, @scaling01, @nrehiew_, @ben_burtenshaw, @TheZachMueller, @ZhihuFrontier, and infra/vendor posts from @vllm_project, @NVIDIAAI, and @Togethercompute.
Core facts and technical details
The most concrete technical claims repeated across the discussion:
Two models
V4 Pro: 1.6T total parameters / 49B active
V4 Flash: 284B total / 13B active
Reported by @ArtificialAnlys, @teortaxesTex, @baseten, @NVIDIAAI
Context
1M tokens, up from 128K in V3.2 per @ArtificialAnlys
Multiple posters frame this as the headline achievement: “solid ultra-long context” @teortaxesTex
Training scale
32T–33T tokens cited repeatedly
@nrehiew_ notes 32T tokens over 1.6T parameters, i.e. roughly 20 tokens/parameter
@teortaxesTex cites 33T
@nrehiew_ estimates pretraining compute at ~1e25 FLOPs
Reasoning / modes
DeepSeek exposes three reasoning modes per @Togethercompute
Hybrid “thinking/non-thinking” positioning noted by @ArtificialAnlys
Long-context architecture
Several threads summarize a new hybrid attention system:
shared KV vectors
compressed KV streams
sparse attention over compressed tokens
local/sliding-window attention for nearby context
@ZhihuFrontier gives the most compact public summary:
2× KV reduction via shared key-value vectors
c4a ≈ 4× compression
c128a ≈ 128× compression
top-k sparse attention on compressed tokens
128-token sliding window
1M context KV cache = 9.62 GiB/sequence (bf16)
8.7× smaller than DeepSeek V3.2’s 83.9 GiB
FP4 index cache + FP8 attention cache gives another ~2× reduction
@ben_burtenshaw condenses this to “10× smaller KV cache”
@TheZachMueller and @TheZachMueller describe CSA + HCA layer patterns, with alternating layers and V4 Flash using sliding-window layers instead of HCA in some places
Quantization / checkpoint format
@LambdaAPI: checkpoint is mixed FP4 + FP8
MoE expert weights in FP4
attention / norm / router in FP8
claim: the full model fits on a single 8×B200 node
Inference hardware / serving
@NVIDIAAI: on Blackwell Ultra, V4 Pro can deliver 150+ TPS/user interactivity for agentic workflows
@NVIDIAAI: published day-0 V4 Pro performance pareto using vLLM
@SemiAnalysis_: day-0 support and benchmarking across H200, MI355, B200, B300, GB200/300
@Prince_Canuma: DeepSeek4-Flash on 256GB Mac
@Prince_Canuma: MLX quants published
@simonw asks about smaller-RAM Mac viability, implying community interest but incomplete support story
@QuixiAI reminds users that many local stacks still lack tensor parallel, relevant because V4-class models strongly stress inference infra
License / availability / pricing
MIT license per @ArtificialAnlys
first-party API plus rapid third-party availability via @Togethercompute, @baseten, @NousResearch, @Teknium
V4 Pro pricing: $1.74 / $3.48 per 1M input/output tokens
V4 Flash pricing: $0.14 / $0.28
cache-hit pricing also given by @ArtificialAnlys
@scaling01 views the pricing as a glimpse of future “Mythos-level” cheap coding models
Reuters-via-posted quote from @scaling01: DeepSeek said Pro pricing could fall sharply once Huawei Ascend 950 supernodes are deployed at scale in H2
Independent evaluations and where V4 lands
The most useful independent benchmark synthesis came from @ArtificialAnlys:
V4 Pro Max: 52 on Artificial Analysis Intelligence Index
up 10 points from V3.2 at 42
becomes #2 open weights reasoning model, behind Kimi K2.6 (54)
V4 Flash Max: 47
positioned around strong mid/high open models, “Claude Sonnet 4.6 max level intelligence”
GDPval-AA (agentic real-world work):
V4 Pro: 1554, leading open-weight models
ahead of Kimi K2.6 (1484), GLM-5.1 (1535), MiniMax-M2.7 (1514)
AA-Omniscience
V4 Pro: -10, an 11-point improvement over V3.2
but still paired with 94% hallucination rate
V4 Flash: 96% hallucination rate
Cost to run AA Index
V4 Pro: $1,071
V4 Flash: $113
Output tokens used on AA Index
V4 Pro: 190M
V4 Flash: 240M
This is a major caveat: cheap per-token pricing does not imply cheap total task cost if the model spills huge token volumes
Additional eval perspectives:
@arena:
#2 open in Text Arena overall at debut
category wins/placements:
#1 Medical & Healthcare
#15 Creative Writing
#18 Multi-Turn
thinking variant:
#8 Math
#9 Life/Physical/Social Science
@arena emphasizes the Pro vs Flash tradeoff:
Pro ranks ~30 places higher
costs 12× more
Flash is still competitive in Chinese, medicine, math
@scaling01:
“~Opus 4.5 estimate holds for now, at least on SimpleBench”
@scaling01:
V4 is “definitely better than GLM-5.1 but not quite Opus 4.7, GPT-5.4 or Gemini 3.1 Pro”
@scaling01 lists what scores would confirm <6 month gap:
ARC-AGI-1 ~75%
ARC-AGI-2 ~35%
GSO ~26%
METR 4.5–5 hours
WeirdML ~63%
@TheZachMueller:
on his evals, Flash@max ≈ Pro@high on reasoning
Pro focuses more on knowledge (SimpleQA)
@VictorTaelin:
after fixing benchmark bugs and letting long-running models run longer, DeepSeek and Kimi improved materially
@mbusigin:
a simple negative early impression with no detail
@petergostev:
on BullshitBench, not about capability but refusal/pushback behavior, GPT-5.5 underperformed; included here because many readers compare V4 in an eval-skeptical environment
Facts vs opinions
Facts / relatively well-supported claims
V4 Pro / Flash were released with the specs above, MIT-licensed, 1M context, and open technical documentation: @ArtificialAnlys, @TheZachMueller
The architecture introduces a new long-context attention system with dramatic KV-cache reduction: @ZhihuFrontier, @ben_burtenshaw
Independent benchmarkers broadly place V4 Pro near the very top of open weights but below the best proprietary models overall: @ArtificialAnlys, @arena, @scaling01
DeepSeek V4 is heavily token-intensive in some evaluations: @ArtificialAnlys
The checkpoint uses FP4/FP8 mixed precision and can fit on an 8×B200 node: @LambdaAPI
Rapid ecosystem support arrived via vLLM and other providers day 0: @vllm_project, @SemiAnalysis_
Opinions / interpretation
“V4 is ~4–5 months behind the frontier” from @scaling01, @scaling01, @scaling01 is an informed estimate, not a measured fact
“Top three open” vs “only open model close to frontier” debate from @teortaxesTex is partly about benchmark trust and framing
“Strongest pretrained model we have” from @teortaxesTex is an opinion hinging on scale + architecture, not direct benchmark supremacy
“Most significant AI paper of the year” from @Dorialexander is enthusiasm, not consensus
“This is what research should look like” from @scaling01 speaks to transparency/style rather than only capability
“Not exactly a democratizing technology” from @teortaxesTex is a strong architectural/political interpretation
Different opinions and fault lines
1) Is V4 near frontier, or clearly behind?
More favorable
@scaling01: puts it at roughly GPT-5.2 / Opus 4.5+ tier
@scaling01: SimpleBench supports ~Opus 4.5
@teortaxesTex: argues it is the strongest pretraining base among opens and implies people are underestimating what post-training can do
More skeptical
@scaling01: below Opus 4.7 / GPT-5.4 / Gemini 3.1 Pro
@scaling01: the gap may widen again because closed labs have bigger models, better science/law/medicine coverage, faster inference with GB200s
@mbusigin: early impressions “not great”
@teortaxesTex: says polished models like K2.6 and GLM 5.1 may still feel better in coding despite lower intrinsic capacity
2) Is V4’s real contribution model quality, or long-context systems design?
A big split in reactions is that many technical readers think the long-context architecture matters more than the raw benchmark position.
@teortaxesTex: “They’ve completed their quest: Solid Ultra-Long Context”
@ben_burtenshaw: first open model where long context and agentic post-training “meet”
@scaling01: expects other open labs to adopt pieces of the architecture
@Dorialexander: frames Huawei/sovereignty constraints as an opportunity to reshape hardware and memory/interconnect design
@jukan05: reads the paper as evidence that NVIDIA’s hardware roadmap is unusually well aligned to where MoE/long-context models are going
3) Is V4 “open democratization,” or too hard to copy?
This was one of the sharpest strategic disagreements.
@teortaxesTex: says V4 is “not exactly a democratizing technology” because the architecture is too difficult for most labs to replicate
@teortaxesTex: suggests even DeepSeek may not want to do this exact architecture again without refactoring
@stochasticchasm: notes the sheer hyperparameter complexity is daunting
Against that, @Prince_Canuma and @Prince_Canuma show that the ecosystem is already compressing and adapting Flash for localish Apple Silicon use, softening the “not democratizing” claim on the inference side if not the training side
4) Are people underrating Flash?
Several reactions suggest Flash may be more important than Pro for practical adoption.
@arena: Flash shifts the price/performance frontier
@TheZachMueller: Flash@max ≈ Pro@high on reasoning tasks
@teortaxesTex: benchmarks may underweight “legit 1M context for pennies”
@Prince_Canuma: Flash runs on 256GB Mac
@baseten and @Togethercompute emphasize long-document analysis and agentic use cases where Flash’s economics matter
China, chips, Huawei, and sovereignty context
DeepSeek V4 was not discussed as a pure model release; it was treated as evidence in the larger US–China compute and sovereignty debate.
@scaling01: Chinese labs are already in or near “takeoff” in the sense that their models help build better models, though still shifted 5+ months behind
@scaling01: thinks chip bans are likely to widen the gap in broad domains over time
@teortaxesTex, @teortaxesTex: disputes simplistic Huawei-dismissal and notes mixed Chinese sentiment toward Huawei
@ogawa_tter: points to analysis of Ascend 950 / A3 clusters and V4 deployment plans
@Dorialexander: argues the sovereignty play around Huawei may reshape hardware architecture
@scaling01: cites DeepSeek saying prices could drop sharply once Ascend 950 supernodes scale in H2
@jukan05: interprets V4 as validating NVIDIA’s Blackwell/Rubin/HBM/interconnect strategy
@NVIDIAAI, @NVIDIAAI: unsurprisingly highlight Blackwell day-0 performance, but this is vendor framing rather than independent proof of strategic superiority
There is also a more ideological thread:
@teortaxesTex, @teortaxesTex, @teortaxesTex argues that Western discourse often misreads Chinese labs as purely state proxies or distillation shops, and instead sees them as serious mission-driven actors. This is interpretive, but it helps explain why the release drew such emotionally charged geopolitical reactions.
Distillation, training data, and data quality
A recurring undercurrent: does V4 mainly reflect architectural innovation, or can critics dismiss it as “distillation”?
@yacineMTB speculates that some complaints about Chinese distillation may partly come from people discovering they’re outperformed
@cloneofsimo: “Very interesting... given they distilled claude 樂樂”
@kalomaze: jokes about DeepSeek training on DeepSeek reasoning traces
On the more substantive side, @teortaxesTex says DeepSeek’s writing quality, especially Chinese, reflects long-standing obsession with data cleanliness and cites job listings @teortaxesTex, @teortaxesTex
@nrehiew_ notes the report still lacks much detail on pretraining data beyond standard categories
Overall, factual public evidence in this tweet set supports “DeepSeek trains at large scale with strong data work,” but not any strong claim about the degree of external distillation beyond speculation
Architecture lineage and prior art
Several researchers pointed out that V4 did not emerge from nowhere.
@jaseweston: says DeepSeek uses hash routing from a 2021 ParlAI approach
@suchenzang: criticizes routing-induced outliers, with a jab at hashing
@teortaxesTex: notes Mixtral-style MoE was a reasonable earlier hack, but claims DSMoE changed things
@art_zucker broadly attacks MoEs as a dead end
@gabriberton counters that MoEs are provably effective despite inelegance
@stochasticchasm is even more positive: “MoEs are amazing”
This matters because V4 was read not just as a stronger checkpoint, but as a possible new design point for open long-context MoEs.
Why the technical report itself mattered
A striking amount of praise was directed not just at the model but at the paper/report quality.
@scaling01: “the technical paper is a big deal”
@Dorialexander: “most significant AI paper of the year”
@morqon: “one of the best I’ve ever read”
@scaling01: “this is what research should look like”
@TheZachMueller, @iamgrigorev, @nrehiew_: all signal unusually high effort to digest and test the report
For expert readers, this is important because many frontier releases now arrive with sparse technical disclosure. V4’s report appears to have reset expectations for what a serious open release can look like.
Practical limitations and caveats
Despite the enthusiasm, several caveats recur:
Still behind closed frontier in aggregate capability
especially sciences/law/medicine and broad “general domains” per @scaling01
Reasoning RL may be undercooked
@scaling01: reasoning efficiency not much changed vs V3.2 Speciale
Serving remains hard
@scaling01: many labs serve at only 20–30 tok/s and limited concurrency; running evals can take a day
@ClementDelangue: acknowledges concurrency bottlenecks on HF
High token usage
major practical caveat from @ArtificialAnlys
API controls
@stochasticchasm: notes DeepSeek API appears not to allow sampler control
Adoptability
@teortaxesTex: too complex for many labs to copy cleanly
Broader implications
Three implications stand out.
Open-weight long-context is no longer just marketing.
V4’s strongest contribution may be proving that 1M context can be made operationally credible in an open-weight model, with concrete KV-cache engineering and open inference support. This is why multiple posters focused less on benchmark deltas and more on systems design: @ben_burtenshaw, @ZhihuFrontier, @scaling01.
China’s top labs remain competitive in open models, even if not fully closing the closed-model gap.
The benchmark picture across @ArtificialAnlys, @arena, and @scaling01 suggests Chinese labs now dominate much of the open-weight top tier: Kimi, GLM, DeepSeek, and soon MiMo.
The bar for “open” is rising from checkpoint release to full-stack co-design.
V4 was instantly discussed alongside vLLM, Blackwell, MLX quants, Mac viability, Ascend clusters, and cache/memory architectures. In other words, “the model” is increasingly inseparable from the inference substrate.
Infrastructure, inference, and local/open ecosystem
Hugging Face launched ML Intern, an open-source CLI “AI intern” for ML work that can research papers, write code, run experiments, use HF datasets/jobs, search GitHub, and iterate up to 300 steps, per @MillieMarconnni. Related sentiment: HF’s $9 Pro tier is unusually strong value per @getpy.
Meta said it will add tens of millions of AWS Graviton cores to its compute portfolio to scale Meta AI and agentic systems for billions of users, per @AIatMeta.
Local/open coding stack momentum stayed strong:
@julien_c: Qwen3.6-27B via llama.cpp on a MacBook Pro feels close to latest Opus for many coding tasks
@p0: free CLI agent built with Pi + Ollama + Gemma 4 + Parallel web search MCP
@Prince_Canuma: DeepSeek V4 quants incoming
@QuixiAI: reminder that llama.cpp / Ollama / LM Studio do not support tensor parallel, pushing serious multi-GPU serving users toward vLLM
Nous/Hermes shipped heavily:
Hermes Agent v0.11.0 introduced a rewritten React TUI, dashboard plugin, theming, more inference providers, image backends, and QQBot support, per @WesRoth
Hermes got broad praise and rapid support for both DeepSeek V4 and GPT-5.5, via @mr_r0b0t, @Teknium
@JulianGoldieSEO and @LoicBerthelot compared Hermes favorably to OpenClaw on learning loops, memory, model support, deployment flexibility, and security
A native Linux sandbox backend for Deep Agents using bubblewrap + cgroups v2 was released by @nu_b_kh
Research papers and benchmarks
On-policy distillation token selection:
@TheTuringPost highlights a paper showing only some tokens carry most learning signal; using ~50% of tokens can match or beat full training and cut memory by ~47%, while even <10% focused on confident-wrong tokens nearly matches full training.
Google Res
関連記事
FlashMemory DeepSeek-V4 リトリーバー(GitHub リポジトリ)
FlashMemory は、DeepSeek-V4 の KV キャッシュのうち将来のトークンが参照する可能性が高い断片を予測し、GPU 上に最も関連性の高い断片のみを保持します。これにより、デバイスのメモリ使用量を約 10〜15% に抑えつつ、下流タスクのパフォーマンスを維持または向上させることが報告されています。
今日は何も起こらなかった
OpenAI が汎用推論モデルを用いてエルデシュの単位距離問題に反証を示し、数学者らによって検証された。一方、Cohere はオープンソースの「Command A+」をリリースした。
シャオミのMiMoとTileRTが汎用GPU上で1兆パラメータモデルを秒間1000トークン超で推論
シャオミのMiMoチームとTileRTシステムグループは、汎用GPU上で1兆パラメータ規模のモデルを秒間1000トークン超(最大約1200)で推論する新技術「MiMo-V2.5-Pro-UltraSpeed」を発表した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み