#deepseek のAIニュース
33件の記事
中国の AI 巨人 DeepSeek が投資家に対し「自社の人材を他社に引き抜くな」と通告
中国の AI 大手である DeepSeek は、投資家に対して同社の人材を競合他社へ引き抜かないよう要請したと報じられている。
Frontier のポストトレーニングレシピを Finbarr Timbers とレビュー
著者が RLHF やポストトレーニングの基礎をまとめるため、Finbarr Timbers をポッドキャストに招き、Olmo 型レシピを最先端レベルへ引き上げるための現状と必要な手順について議論した。
AI Gateway を介して DeepSeek モデルが Azure で利用可能に
Vercel は AI Gateway に Azure プロバイダーを追加し、DeepSeek V4 Pro および Flash モデルへのリクエストを Azure 経由でルーティング可能にした。コード変更なしでフォールオーバー経路として機能する。
トークン量争奪戦に DeepSeek が参入、支出支配は Anthropic が継続
Vercel の AI Gateway データによると、DeepSeek の利用シェアが単月で 1% から 17% に急増し、トークン量の争奪戦に本格参入した。一方、支出面では Anthropic が依然として支配的な地位を維持している。
脆弱なアプリを構築し、LLM がハッキングできるか 1,500 ドルかけて検証した結果(9 分読み)
開発者が脆弱な書籍レビューアプリを作成し、大規模言語モデルがユーザーの非公開レビューからフラグを取得する攻撃を実行できるかを検証しました。GPT-5.5 が最も成功し、10 回中 7 回で任務を達成しましたが、Claude Sonnet 4.6 はコスト高かつ成功率低でした。
オープンモデルはどれほど遅れているのか?(17 分読了)
TLDR AI は、オープンソースモデルが最高峰のクローズドモデルより約 4〜6 ヶ月遅れており、DeepSeek R1 の発表時には差が最小だったが、その後再び拡大していると分析している。
[AI ニュース] コグニションが 260 億ドルのシリーズ D で 10 億ドルを調達
コグニション社が 260 億ドルの評価額で 10 億ドルの資金調達を実施し、年間収益は年内に 10 億ドル超を見込む。これにより同社は AI エージェント分野で最大級の独立系ラボとなった。
[AI ニュース] すべてのモデルラボが今やエージェントラボへと変貌している
Greg は、来週の OpenAI の IPO 申請を前に、従来の「ビッグチーム」の立場から大きく転換し、モデル開発企業が製品としてエージェント構築に注力している現状を指摘した。
最新オープンアーティファクト(#21):Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 など。CAISI の V4 評価について
Interconnects は今月の主要なオープンモデル(Gemma 4 や DeepSeek V4 など)を紹介し、AI 標準化・イノベーションセンター(CAISI)がこれらのモデルを評価した結果、米国製最先端モデルとの格差が拡大していることを報告しました。
中国、DeepSeek に500億ドル評価額で投資へ
中国政府系ファンドが中国のAI企業「DeepSeek」に数10億ドル規模の資金を投入し、同社を500億ドルで評価する方針だ。これは米国の輸出規制への対抗策として国内トップクラスのAI企業を育成する戦略の一環である。
AI 開発の潮流変化と主要モデルの最新動向
Smol AI News は、5 月 4 日から 5 日のニュースで、モデル品質だけでなくハーンスやワークフローを含む総合的な製品開発への転換を指摘し、OpenAI Codex や Claude の新機能、DeepSeek の大幅値下げなどを報じた。
AI ニュース:本日は目立った動きなし、GPT-6 の噂と新モデル発表に注視
AINews チームは、本日は推論需要やマルチエージェントに関する小論文の執筆中だが、大きな出来事はないと報告。Nvidia や Alec Radford 氏らの新モデルが発表されたものの、長期的な価値は不明確。一方、GPT-6 を巡る噂が高まりつつある。
本日は特に目立った出来事なし
AIニュース配信「AINews」は、2026年4月27日から28日にかけて12のサブレッドと544件のツイートを調査したが、特筆すべき技術進展や業界動向は見られず、静かな一日であったと報告している。
DeepSeekの新型モデルはトースターでも動作するほど効率的…実際はファーウェイのNPU上で
中国のAI企業DeepSeekが、推論コストを大幅に削減しファーウェイのAscendアクセラレータをサポートする新大規模言語モデル「V4」をプレビュー公開した。
中国のDeepSeek、米国の競合を震撼させた新AIモデル「V4」をプレビュー
中国のAI企業DeepSeekは、米国のAnthropicやGoogle、OpenAIなどのクローズドソースシステムと競合する次世代オープンソースモデル「V4」のプレビューを公開した。特にコーディング能力において大幅な改善が見られる。
エージェント型AIの普及で競合が価格引き上げと利用制限を強める中、Deepseekはほぼ無料の十分品質モデルをリリース
中国のDeepseekは、最大1.6兆パラメータを持つV4-ProとV4-Flashをリリースした。競合より大幅に低価格で提供し、技術論文で学習データやハードウェアの詳細を公開した。
DeepSeek V4:最前線に近い性能、価格は数分の1
中国のAIラボDeepSeekは、100万トークンコンテキストとMoEアーキテクチャを採用したV4シリーズのプレビューモデル「DeepSeek-V4-Pro」と「DeepSeek-V4-Flash」を公開した。
DeepSeek v4 の発表と AI ニュースまとめ
AI ニュースレター「AINews」が、2026 年 4 月 23 日から 24 日にかけての期間に DeepSeek v4 という新しいモデルを発表したことを報じています。このニュースは Latent Space の一部として配信されています。
DeepSeek-V4 プレビュー版公開:百万コンテキストの民主化時代へ
深度求索(DeepSeek)は2026年4月、新モデル「DeepSeek-V4」プレビュー版を公開した。同モデルは百万文字のコンテキストに対応し、エージェント機能と推論性能で开源分野をリードする。
テンセントとアリババ、DeepSeekに200億ドル超のバリュエーションで出資へ
テンセントとアリババが、DeepSeekの第一回資金調達に参加する方向で交渉中。DeepSeekはテンセントが求める20%の株式比率に抵抗し、支配権を維持したい考え。評価額は数日で100億ドルから200億ドルへ急騰し、投資家の強い関心を示している。
Vercel AI GatewayでDeepSeek V4の利用が可能に
Vercel AI GatewayはDeepSeek V4(Pro/Flash)を提供開始した。両モデルは100万トークンコンテキストを標準搭載し、Proはエージェント型コーディングや数学推論に特化している。
【AIニュース】2026年4月版 主要ローカルモデル一覧
RedditのローカルLLMコミュニティを調査し、ベンチマーク結果ではなく実際のユーザー推薦に基づいたトップモデルを選定。Qwenなどを例示し、多様なサイズ帯のモデルを網羅したリストを提供している。
なぜ私たちはLLM記事に嫌悪感を抱くのか
著者は、大量のLLM(大規模言語モデル)記事が氾濫する状況に嫌悪感を抱き、自らの執筆経験を振り返りながら、AI技術の活用と人間の創造性のバランスについて考察している。
Google、OpenAI、AnthropicはDeepseekの次期大型リリースに備える
Deepseekが次世代AIモデルを開発中で、Google、OpenAI、Anthropicなどの大手企業が警戒している。
グローバルオープンソースAIエコシステムの未来:DeepSeekからAI+へ
DeepSeekなどの企業が、オープンソースAIモデルを基盤としたグローバルなAIエコシステム「AI+」の構築を目指している。
中国のオープンソースAIエコシステムにおけるアーキテクチャ選択:DeepSeekを超えた構築
中国の研究チームが、DeepSeekを超えるオープンソースAIエコシステムのアーキテクチャ選択について分析し、分散型開発とモデル最適化の戦略を提案した。
DeepSeek V3からV3.2へ:アーキテクチャ、スパースアテンション、RLアップデート
DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。
大規模言語モデル(LLM)アーキテクチャの比較
Sebastian Raschka氏は、DeepSeek V3とGLM-5を含む現代のLLMアーキテクチャを比較し、各モデルの設計特徴と技術的進化を解説している。
DeepSeek、次世代R2モデルを示唆しSPCTを用いた推論スケーリングの新手法を公開
DeepSeek AIは、一般報酬モデルの推論段階でのスケーラビリティを向上させる新技術「SPCT」に関する論文を発表した。同時に、次世代モデルR2の登場を示唆し、AI界隈で注目を集めている。
Substackへの移行
著者がブログを凍結し、Substackでの投稿を開始。執筆体験がより便利で、DeepSeek R-1の解説やTransformer LLMコースを紹介。
QwQ-32B:強化学習の力を活かす
QwenチームはQwQ-32Bにおいて強化学習の規模拡大を検証し、従来の学習段階を超えた推論性能の向上を目指す研究を発表した。
DeepSeek公式情報発信及びサービスチャネルに関する説明
DeepSeekは、偽アカウントや不正確な情報による混乱を防ぐため、公式アカウントがWeChat、X(Twitter)、小紅書のみであることを明らかにした。同社は、非公式アカウントの情報を信じないようユーザーに注意を促している。
推論LLMの理解
この記事は、推論モデルを構築する4つの主要なアプローチを説明し、LLMに推論能力を付与する方法を解説している。著者は2024年にLLM分野の専門化が進み、RAGからコードアシスタントまで多様な応用が登場したと指摘し、2025年にはこの傾向がさらに加速すると予測している。