DeepSeek V4 ProおよびFlashモデル、Huawei Ascendチップで動作可能に

数ヶ月の遅延と多くの憶測を経て、DeepSeek はついに長年待ち望まれていた DSV4 をリリースしました。これは 2024 年 12 月の DSV3 や 2025 年 1 月の DSR1 に続く、最初の主要バージョンモデルです。これにより、DeepSeek シリーズは現在のオープンモデルリーダーである Kimi K2.6 や、2 日前にリリースされたやや知名度の低いシリーズである Xiaomi Mimo 2.5 と肩を並べるものとなりました。 ![image](https://substackcdn.com/image/fetch/$s_!2kgW!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa10f0270-c9c4-481b-962a-fcba50a2418b_1022x1104.png) DSV4 シリーズは、Gemini 3.1、GPT 5.4、Opus 4.6 レベルのモデルに相当し、最大 1.6T の MOE（Mixture of Experts：専門家混合モデル）を持ち、FP4 精度で 32T トークンを使用してトレーニングされています。1M（百万）トークンのコンテキストをサポートしており、これは新しい Compressed Sparse Attention（CSA：圧縮スパースアテンション）および Heavily Compressed Attention（HCA：高度圧縮アテンション）の技術によって可能になっています。さらに驚くべきことに、Base（ベースモデル）と Instruct（指示学習済みモデル）の両方をリリースしました。これにより、将来「DeepSeek R2」の可能性を示唆する基盤が整いましたが、このモデル自体にもすでに推論機能（reasoning effort）が含まれています。 ![image](https://substackcdn.com/image/fetch/$s_!IADX!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff028c03e-53a7-4615-af85-fc5e6e11dab0_1226x940.png) 技術レポートは、典型的に密度の濃い58ページからなり、1月に公開したManifold Constrained Hyper-Connections (mHC) 論文からのトレーニングおよび推論に関する洞察と改善、MoonshotのMuonの継続的な使用、そしてDeepSeek 3.2-Expのすでに印象的なSparse Attention（疎性Attention）におけるCSA/HCAの全体的な驚くべき効率向上を示しています。1Mトークンにおいて、DeepSeek-V3.2と比較してFLOPs（浮動小数点演算）が27%、KVキャッシュメモリが10%で済みます： ![image](https://substackcdn.com/image/fetch/$s_!ICSA!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff73baf75-34a0-46e8-8452-7cccd7481ba9_1156x730.png) Huawei CANN（Compute Architecture for Neural Networks）互換性の背後にある地政学的背景は、DeepSeekが輸出規制対象のNVIDIA/CUDAチップへの依存を脱却することです。Ascend（アセンダ）の供給量はH100の4分の1に過ぎませんが、これは中国の完全な自立にとって重要なマイルストーンです。 2026年4月23日〜4月24日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、および追加のDiscordサーバーを確認しました。AINewsのウェブサイトでは過去のすべての号を検索できます。 reminderとして、AINewsは現在Latent Spaceの一部です。メール配信頻度のオプトイン/オプトアウトが可能です！ AI Twitterレキャップ トップストーリー：DeepSeek V4 DeepSeekは、V3以降初となる主要なアーキテクチャ刷新であり、明確な2段階のラインアップであるDeepSeek-V4 ProとDeepSeek-V4 Flashをリリースしました。これらは100万トークンのコンテキスト、ハイブリッドな推論/非推論モード、MITライセンスを備えており、その技術レポートは詳細 enough で、複数の研究者から今年最重要または最も優れたモデル論文の一つと称されています。反応全体を通じ、事実に基づくコンセンサスは、V4がオープンウェイトのロングコンテキストおよびアジェンティックコーディングのパフォーマンスを大幅に向上させた一方で、総合的にはトップのクローズドなフロンティアモデルにはやや及ばないというものです。独立したベンチマーカーによれば、V4 Proはオープンウェイト層で第2位程度に位置し、Kimi K2.6 / GLM-5.1 / 強力なClaude SonnetクラスからOpus級にほぼ相当し（ベンチやモードによる）、特にロングコンテキストとアジェンティックパフォーマンスが顕著です。GPT-5.x / Opus 4.7にどの程度近づいているか、そしてこれが「民主化」への進展なのか、それともオープンラボが現実的に再現できるような複雑さを持つアーキテクチャなのかについては意見が分かれています。主要な情報源には、@ArtificialAnlys、@scaling01、@nrehiew_、@ben_burtenshaw、@TheZachMueller、@ZhihuFrontierからの詳細な解説や、@vllm_project、@NVIDIAAI、@Togethercomputeからのインフラ/ベンダー投稿が含まれます。 コアな事実と技術的詳細 議論全体で繰り返される最も具体的な技術的な主張は以下の通りです： 2つのモデル V4 Pro: 総パラメータ数1.6T / アクティブ49B V4 Flash: 総パラメータ数284B / アクティブ13B @ArtificialAnlys、@teortaxesTex、@baseten、@NVIDIAAIによって報告 @ArtificialAnlys 氏によると、V3.2 の 128K から増加し、100万トークンに到達。 複数の投稿者がこれを見どころとなる成果と位置づけている。「堅実な超長文コンテキスト」という評価が @teortaxesTex 氏から寄せられている。 トレーニング規模 32T〜33T トークンが繰り返し言及されている。 @nrehiew_ 氏は、1.6T パラメータに対して 32T トークン（つまり、パラメータあたり約 20 トークン）と指摘している。 @teortaxesTex 氏は 33T を引用している。 @nrehiew_ 氏は事前トレーニングの計算量を約 1e25 FLOPs と推定している。 推論 / モード @Togethercompute 氏によると、DeepSeek は 3 つの推論モードを提供している。 @ArtificialAnlys 氏は、「思考あり/なし」のハイブリッドな位置づけに言及している。 長文コンテキストアーキテクチャ 複数のスレッドで、新しいハイブリッド注意機構の要約がなされている： 共有 KV ベクトル 圧縮された KV ストリーム 圧縮トークンに対するスパース注意 近接コンテキストに対するローカル/スライディングウィンドウ注意 @ZhihuFrontier 氏は、最もコンパクトな公開要約を提供している： 共有キー・バリューベクトルによる KV 削減率 2 倍 c4a ≈ 4 倍圧縮 c128a ≈ 128 倍圧縮 圧縮トークンに対する top-k スパース注意 128 トークンのスライディングウィンドウ 1M コンテキストの KV キャッシュ = 9.62 GiB/シーケンス（bf16） DeepSeek V3.2 の 83.9 GiB よりも 8.7 倍小さい FP4 インデックスキャッシュと FP8 注意キャッシュを組み合わせることで、さらに約 2 倍の削減が可能 @ben_burtenshaw 氏はこれを「KV キャッシュが 10 倍小さい」と要約している。 @TheZachMueller 氏と @TheZachMueller 氏は、CSA（Combined Self-Attention）と HCA（Hybrid Cache Attention）のレイヤーパターンを記述しており、V4 Flash では一部の場所で HCA の代わりにスライディングウィンドウレイヤーを使用している。 量子化 / チェックポイント形式 @LambdaAPI 氏によると、チェックポイントは FP4 と FP8 の混合である。 MoE（Mixture of Experts）のエキスパート重みは FP4。 注意 / 正規化 / ルーターは FP8。 主張：フルモデルは単一の8×B200ノードに収まる 推論ハードウェア / サービング @NVIDIAAI：Blackwell Ultra上では、V4 Proはエージェントワークフローに対してユーザーあたりのインタラクティブ性として150+ TPS（トランザクション/秒）を提供可能 @NVIDIAAI：vLLMを用いたV4 Proのパフォーマンスパレート（効率性）をDay-0で公開 @SemiAnalysis_：H200、MI355、B200、B300、GB200/300 acrossでのDay-0サポートとベンチマーク @Prince_Canuma：256GB Mac上でのDeepSeek4-Flash @Prince_Canuma：MLX量子化（quantization）が公開済み @simonwは、より少ないRAMを持つMacの実用性について質問しており、コミュニティの関心を示唆しているが、サポート状況は完全ではない @QuixiAIは、多くのローカルスタックがまだテンソル並列（tensor parallel）を欠いていることをユーザーに思い出させ、V4クラスモデルが推論インフラストラクチャを強く負荷することに関連して指摘している ライセンス / 利用可能性 / 価格 @ArtificialAnlysによると、MITライセンス 公式APIに加え、@Togethercompute、@baseten、@NousResearch、@Teknium経由で第三者製APIが急速に利用可能 V4 Proの価格：入力/出力トークン100万個あたり$1.74 / $3.48 V4 Flashの価格：$0.14 / $0.28 @ArtificialAnlysにより、キャッシュヒット時の価格も提供済み @scaling01は、この価格を将来の「Mythosレベル」の安価なコーディングモデルの一瞥と見なしている Reuters経由で投稿された@scaling01の引用：DeepSeekは、H2にHuawei Ascend 950スーパーノードが大量展開されれば、Proの価格は大幅に下落する可能性があると言っている 独立した評価とV4の位置づけ 最も有用な独立ベンチマークの合成は@ArtificialAnlysからのものであった： V4 Pro Max：Artificial Analysis Intelligence Indexで52 V3.2の42から10ポイント上昇 Kimi K2.6（54）に次ぐ、オープンウェイトの推論モデルとして#2位となる V4 Flash Max：47 中堅～上位のオープンモデルに位置づけられ、「Claude Sonnet 4.6 max レベルの知能」 GDPval-AA（エージェント型実世界作業）： V4 Pro：1554、オープン重みモデルの中で首位 Kimi K2.6（1484）、GLM-5.1（1535）、MiniMax-M2.7（1514）を上回る AA-Omniscience V4 Pro：-10、V3.2 より 11 ポイント改善 ただし幻覚発生率は依然として 94% V4 Flash：幻覚発生率 96% AA インデックスの実行コスト V4 Pro：$1,071 V4 Flash：$113 AA インデックスで使用された出力トークン数 V4 Pro：190M V4 Flash：240M これは重要な注意点である：トークン単価が安くても、モデルが膨大な量のトークンを出力すれば、総タスクコストは安くなるとは限らない 追加の評価視点： @arena： デビュー時、Text Arena 全体でオープンモデル第2位 カテゴリ別勝利・順位： #1 医療・ヘルスケア #15 クリエイティブライティング #18 多ターン対話 思考型バリアント： #8 数学 #9 生命/物理/社会科学 @arena は Pro と Flash のトレードオフを強調している： Pro は約 30 位上回る コストは 12 倍高い Flash は中国語、医学、数学において依然として競争力がある @scaling01： 「SimpleBench においては、現在も Opus 4.5 の推定値が妥当である」 @scaling01： V4 は「GLM-5.1 より明らかに優れているが、Opus 4.7、GPT-5.4、Gemini 3.1 Pro にはまだ及ばない」 @scaling01 は、6 ヶ月以内のギャップを確認するためのスコアをリストアップしている： ARC-AGI-1 約 75% ARC-AGI-2 約 35% GSO 約 26% METR 4.5～5 時間 WeirdML 約 63% @TheZachMueller： 自身の評価において、Flash@max は Pro@high と推論能力が同等 Pro は知識（SimpleQA）により焦点を当てている @VictorTaelin： ベンチマークのバグを修正し、長時間実行されるモデルにより多くの処理時間を許容した結果、DeepSeekとKimiは大幅に改善された。 @mbusigin: 詳細のない単純な否定的な初期印象 @petergostev: BullshitBench（嘘つきベンチマーク）では、能力ではなく拒否や反発の行動に関するものであり、GPT-5.5は下回った結果となった。ここでは多くの読者がV4を評価に懐疑的な環境で比較するため、ここに含めている。 事実と意見 事実 / 比較的裏付けのある主張 V4 Pro / Flashは上記の仕様でリリースされ、MITライセンスの下、100万トークンのコンテキスト（context）、オープンな技術ドキュメントが提供された：@ArtificialAnlys、@TheZachMueller このアーキテクチャは、KVキャッシュ（Key-Value Cache）の劇的な削減を特徴とする新しい長期コンテキスト注意機構を導入した：@ZhihuFrontier、@ben_burtenshaw 独立したベンチマーク実施者は、V4 Proをオープンウェイト（重み公開モデル）の最高峰に近い位置に置いているが、総合的なベストなプロプライエタリ（独自開発）モデルには及ばないと見なしている：@ArtificialAnlys、@arena、@scaling01 DeepSeek V4は一部の評価でトークン使用量が非常に多い：@ArtificialAnlys チェックポイント（モデルの保存データ）はFP4/FP8混合精度を使用しており、8×B200ノードに収まる：@LambdaAPI vLLMやその他のプロバイダーを通じて、Day 0（リリース当日）から急速なエコシステムサポートがもたらされた：@vllm_project、@SemiAnalysis_ 意見 / 解釈 「V4はフロンティア（最先端）から約4〜5ヶ月遅れている」という@scaling01の見解は、情報に基づいた推定であり、測定された事実ではない @teortaxesTexによる「トップ3のオープンモデル」対「フロンティアに近い唯一のオープンモデル」という議論は、ベンチマークへの信頼性と枠組み設定に関する部分が大きい @teortaxesTex 氏による「我々が持つ中で最も強力な事前学習モデル」という見解は、直接のベンチマークでの優位性ではなく、スケールとアーキテクチャに依存するものである。 @Dorialexander 氏による「今年最も重要な AI 論文」という評価は、合意形成ではなく熱狂の表れである。 @scaling01 氏による「これが研究のあるべき姿だ」という発言は、能力のみならず透明性やスタイルにも言及している。 @teortaxesTex 氏による「必ずしも民主化を促進する技術ではない」という指摘は、強力なアーキテクチャ的・政治的な解釈を示している。 異なる意見と亀裂 1) V4 はフロンティアに近いのか、それとも明確に遅れているのか？ より楽観的な見方 @scaling01 氏：GPT-5.2 / Opus 4.5+ のティアに位置づけるとする @scaling01 氏：SimpleBench は約 Opus 4.5 をサポートする @teortaxesTex 氏：オープンソースの事前学習ベースの中で最強であると主張し、ポストトレーニングが何を行うかについて人々が過小評価していると示唆する より懐疑的な見方 @scaling01 氏：Opus 4.7 / GPT-5.4 / Gemini 3.1 Pro に劣るとする @scaling01 氏：クローズドラボにはより大きなモデル、優れた科学・法律・医療のカバレッジ、GB200 を用いた高速推論があるため、ギャップが再び拡大する可能性がある @mbusigin 氏：初期の印象は「それほど良くない」 @teortaxesTex 氏：K2.6 や GLM 5.1 のような磨き上げられたモデルは、内在する能力が低くともコーディングにおいてより良く感じられる場合があると述べる 2) V4 の真の貢献はモデル品質か、それともロングコンテキストシステムの設計か？ 多くの技術的な読者が、生のベンチマークの位置づけよりもロングコンテキストアーキテクチャの方が重要だと考えているという、反応における大きな分断がある。 @teortaxesTex 氏：「彼らはその探求を完了した：堅固な超ロングコンテキスト」 @ben_burtenshaw: 長期コンテキストとアジェンティック（自律型エージェント）のポストトレーニングが「出会う」最初のオープンモデル @scaling01: 他のオープンラボもアーキテクチャの一部を採用すると見込んでいる @Dorialexander: Huaweiや主権制約を、ハードウェアとメモリ/インターコネクト設計を再構築する機会として位置づけている @jukan05: 論文は、NVIDIAのハードウェアロードマップがMoE（Mixture of Experts）や長期コンテキストモデルの方向性と unusually（非常に）よく整合していることを示す証拠として読める 3) V4は「オープンな民主化」か、それとも複製が難しすぎるか？ これは最も鋭い戦略的意見の相違点の一つだった。 @teortaxesTex: V4は「厳密には民主化を促進する技術ではない」と述べる。その理由は、アーキテクチャがほとんどのラボにとって複製に難しすぎるからである。 @teortaxesTex: DeepSeek自身も、リファクタリングを行わない限り、この正確なアーキテクチャを再度採用したくないかもしれないと示唆する。 @stochasticchasm: 膨大なハイパーパラメータの複雑さが畏怖すべきものであることに言及する。 これに対し、@Prince_Canumaと@Prince_Canumaは、エコシステムがすでにFlashを圧縮し、ローカルに近いApple Siliconでの使用に適応させていることを示している。推論側においては「民主化していない」という主張を和らげる結果となっているが、学習（トレーニング）側ではそうではないかもしれない。 4) 人々はFlashを見下しすぎているか？ いくつかの反応は、実用的な採用においてFlashがProよりも重要かもしれないことを示唆している。 @arena: Flashは価格対性能のフロンティアをシフトさせる @TheZachMueller: 推論タスクにおいて、Flash@maxはPro@highと同等の性能を示す @teortaxesTex: ベンチマークは「 Penny（数セント）で1Mコンテキストを正当に利用可能」という点を過小評価している可能性がある @Prince_Canuma: Flashは256GBのMac上で動作する @baseten と @Togethercompute は、Flash の経済性が重要となる長文書分析やエージェント型ユースケースを強調している。 中国、チップ、Huawei、そして主権の文脈 DeepSeek V4 は純粋なモデルリリースとして議論されたのではなく、より大きな米中間の計算資源と主権をめぐる論争における証拠として扱われた。 @scaling01：中国のラボは、そのモデルがより良いモデルの構築に寄与するという意味で、「離脱（takeoff）」の状態にあるか、それに近づいている。ただし、依然として5ヶ月以上遅れている。 @scaling01：チップ輸出規制は、長期的には広範な分野における格差を拡大させる可能性が高いと考えている。 @teortaxesTex, @teortaxesTex：Huawei を単純に否定する見解に異議を唱え、Huawei に対する中国の世論は複雑であることを指摘している。 @ogawa_tter：Ascend 950 および A3 クラスターの分析、および V4 の展開計画について言及している。 @Dorialexander：Huawei に関連する主権をめぐる取り組みが、ハードウェアアーキテクチャを再形成しうる主張している。 @scaling01：DeepSeek が、第2四半期に Ascend 950 スーパーノードのスケールアウトが進めば、価格が急落する可能性があると言っていることを引用している。 @jukan05：V4 は NVIDIA の Blackwell/Rubin/HBM/インターコネクト戦略を検証するものだと解釈している。 @NVIDIAAI, @NVIDIAAI：Blackwell の初日パフォーマンスを強調するのは当然のことだが、これはベンダー側のフレームングであり、戦略的優位性の独立した証明ではない。 さらに、よりイデオロギー的なスレッドもある： @teortaxesTex氏は、西洋の議論は中国のラボを単なる国家の代理や蒸留（distillation）の工場と誤解しがちであるが、それらはむしろ明確なミッションを持つ真剣なアクターであると見なすべきだと主張している。この解釈は主観的ではあるが、今回のリリースがなぜそのような感情的に絡み合った地政学的な反応を招いたのかを理解する助けとなる。 蒸留、トレーニングデータ、そしてデータの質 繰り返し現れる暗流：V4は主にアーキテクチャの革新を反映しているのか、それとも批評家はそれを「蒸留」として一蹴できるのか。 @yacineMTB氏は、中国の蒸留に関する一部の不満は、自分が劣っていることに気づいた人々から来ているのかもしれると推測している。 @cloneofsimo氏：「非常に興味深い…彼らがClaudeを蒸留したことを考慮すれば」 @kalomaze氏：DeepSeekがDeepSeekの推論トレースでトレーニングするというジョーク より実質的な側面では、@teortaxesTex氏は、DeepSeekの、特に中国語における文章の質は、長年にわたるデータクリーンliness（清浄性・精製）への執着を反映しており、その根拠として求人情報などを引用している。 @nrehiew_氏は、このレポートが標準的なカテゴリ以外における事前トレーニングデータの詳細をまだ欠いていると指摘している。 全体として、このツイートセットにおける客観的な公的証拠は、「DeepSeekは大規模なスケールで強力なデータ処理を行いながらトレーニングしている」という主張を支持するものではあるが、推測の域を出ない外部蒸留の程度に関する強力な主張を支持するものではない。 アーキテクチャの系譜と先行技術 複数の研究者が、V4が nowhere から出現したわけではないことを指摘している。 @jaseweston氏：DeepSeekは2021年のParlAIのアプローチからハッシュルーティング（hash routing）を使用していると述べている @suchenzang: ルーティングに起因する外れ値を批判し、ハッシュ手法への皮肉を込めた @teortaxesTex: Mixtral 風の MoE（Mixture of Experts）は妥当な過去のハックだったと指摘しつつ、DSMoE が状況を変えたと主張 @art_zucker: MoE を全体的に「行き詰まり」として攻撃 @gabriberton: 不格好ではあるものの、MoE は効果的であることが証明されていると反論 @stochasticchasm: さらに前向きで、「MoE は素晴らしい」と述べる これは重要だ。なぜなら V4 は単なる強力なチェックポイントとしてだけでなく、オープンな長文コンテキスト対応 MoE のための新たな設計指針となり得ると見なされたからである。 なぜ技術レポート自体が重要だったのか モデルだけでなく、論文/レポートの品質に対しても驚くほど多くの称賛が向けられた。 @scaling01: 「技術論文は大きな意義を持つ」 @Dorialexander: 「今年最も重要な AI 論文」 @morqon: 「これまで読んだ中で最高クラスのものの一つ」 @scaling01: 「これが研究のあるべき姿だ」 @TheZachMueller、@iamgrigorev、@nrehiew_：全員が、このレポートを消化しテストするために非常に高い努力を払ったことを示唆 専門家読者にとって、これは重要だ。なぜなら、多くの最先端リリースは現在、技術的な開示が限られたものとして提供されているからである。V4 のレポートは、真摯なオープンリリースがどのようなものになるべきかという期待をリセットしたように見える。 実用的な制限と注意点 熱狂にもかかわらず、いくつかの注意点が繰り返されている： 総合的な能力では依然としてクローズドな最先端に及ばない 特に科学、法律、医療分野および @scaling01 による広範な「一般領域」において 推論 RL が十分に煮詰まっていない可能性 @scaling01: V3.2 Speciale と比較して推論効率に大きな変化なし サービング（提供）は依然として困難 @scaling01: 多くのラボは20〜30トークン/秒の速度と限られた同時実行数しか提供しておらず、評価（evals）の実行には1日かかることがあります @ClementDelangue: Hugging Face（HF）における同時実行数のボトルネックを認める 高いトークン使用量 @ArtificialAnlys からの主要な実用上の注意点 API制御 @stochasticchasm: DeepSeek APIはサンプリング制御を許可していないように見えると指摘 採用可能性 @teortaxesTex: 多くのラボがきれいにコピーするには複雑すぎる より広い影響 3つの重要な示唆があります。 オープンウェイトの長文コンテキストは、もはや単なるマーケティング用語ではありません。 V4の最も重要な貢献は、1Mコンテキストがオープンウェイトモデルにおいて運用上信頼できるものであり得ることを証明した点にあるかもしれません。これには、具体的なKVキャッシュのエンジニアリングとオープンな推論サポートが含まれます。これが複数の投稿者がベンチマークの差分よりもシステム設計に焦点を当てた理由です：@ben_burtenshaw、@ZhihuFrontier、@scaling01。 中国のトップラボは、クローズドモデルとの格差を完全に埋めていなくても、オープンモデルにおいて競争力を維持しています。 @ArtificialAnlys、@arena、@scaling01 全体のベンチマークの状況は、中国のラボがオープンウェイトのトップティアの多くを支配していることを示唆しています：Kimi、GLM、DeepSeek、そしてまもなく MiMo。 「オープン」の基準は、チェックポイントの公開からフルスタックのコデザインへと上昇しています。 V4 は vLLM、Blackwell、MLX 量子化（quants）、Mac の実用性、Ascend クラスタ、キャッシュ/メモリアーキテクチャとともに即座に議論されました。つまり、「モデル」は推論基盤と切り離せなくなっています。 インフラ、推論、ローカル/オープンエコシステム @MillieMarconnni 氏によると、Hugging Face は ML Intern をリリースしました。これは機械学習（ML）作業のためのオープンソースの CLI「AI インターン」で、論文のリサーチ、コードの記述、実験の実行、HF データセットやジョブの使用、GitHub の検索を行い、最大 300 ステップの反復処理が可能です。関連する反応として、@getpy 氏は HF の $9 Pro チアは非常に強力なコストパフォーマンスであると指摘しています。 @AIatMeta 氏によると、Meta は数十億人のユーザー向けに Meta AI およびエージェントシステムをスケーリングするため、計算リソースポートフォリオに数千万の AWS Graviton コアを追加すると発表しました。 ローカル/オープンなコーディングスタックの勢いは健闘しています： @julien_c 氏によると、MacBook Pro で llama.cpp を介して Qwen3.6-27B を実行すると、多くのコーディングタスクにおいて最新の Opus に迫る感覚があるとのことです。 @p0 氏は、Pi、Ollama、Gemma 4、Parallel web search MCP を組み合わせて構築された無料の CLI エージェントを紹介しました。 @Prince_Canuma 氏は、DeepSeek V4 の量子化モデル（quants）が近日中に登場すると述べています。 @QuixiAI 氏は、llama.cpp / Ollama / LM Studio がテンソル並列処理（tensor parallel）をサポートしていないため、本格的なマルチ GPU サービングユーザーは vLLM へ移行するよう促しています。 Nous/Hermes の出荷が活発です： @WesRoth 氏によると、Hermes Agent v0.11.0 では、書き直された React TUI（テキストユーザーインターフェース）、ダッシュボードプラグイン、テーマ設定、より多くの推論プロバイダー、画像バックエンド、QQBot サポートが導入されました。 @mr_r0b0t 氏および @Teknium 氏によると、Hermes は DeepSeek V4 と GPT-5.5 の両方に対して広範な称賛と迅速なサポートを受けました。 @JulianGoldieSEO 氏と @LoicBerthelot 氏は、Hermes を OpenClaw と比較し、学習ループ、メモリ、モデルサポート、デプロイの柔軟性、セキュリティにおいて有利であると評価しました。 @nu_b_kh 氏により、bubblewrap と cgroups v2 を使用した Deep Agents 用のネイティブ Linux サンドボックスバックエンドがリリースされました。 研究論文とベンチマーク オンポリシー蒸留（on-policy distillation）トークン選択： @TheTuringPost が、一部のトークンだけが大部分の学習信号を担っていることを示す論文を紹介しています。約50%のトークンを使用することで、完全な学習に匹敵する、あるいはそれを超える性能を実現し、メモリ使用量を約47%削減できます。さらに、自信のある誤り（confident-wrong）トークンに焦点を当てた10%未満のケースでも、ほぼ完全な学習結果に近い性能が得られます。 Google Res

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する

調べる

選ぶ

サイト