AI ニュース:本日は目立った動きなし、GPT-6 の噂と新モデル発表に注視
Latent Space の AINews は、vLLM の最新アップデートによる推論効率化と DeepSeek V4 のハードウェア競合、および Poolside や NVIDIA からの新規モデル公開という技術的進展を伝えている。
キーポイント
vLLM v0.20 と推論インフラの進化
TurboQuant 2-bit KV キャッシュや FA4 の再有効化により、メモリ効率とレイテンシが大幅に改善され、DeepSeek V4 MegaMoE への対応が進んでいる。
DeepSeek V4 のハードウェア競合とアーキテクチャ
B300 が H200 より最大 8 倍高速という結果が示され、CUDA ロックインからの脱却や TileKernels を通じた異種アクセラレータへの対応が注目されている。
新規オープンモデルの相次ぐ公開
Poolside が単一 GPU で動作可能なコード特化型 MoE モデル「Laguna XS.2」を、NVIDIA はインフラネイティブな「Nemotron 3 Nano Omni」をそれぞれ公開した。
NVIDIA の多機能モデル「Nemotron 3 Nano Omni」の登場
テキスト、画像、動画、音声、ドキュメントに対応するオープンな 30B/A3B モデルが公開され、主要プラットフォームで即日利用可能となりました。
エージェント開発の生産環境向けシフトとローカル実行の進展
Mistral の Workflows や Hermes などのツールにより、エージェントの実行が耐久性や観測性を備えた本番システムへと移行しており、オフラインでの実用化も進んでいます。
画像から 3D アセット生成および世界モデルの新たな発見
Microsoft の TRELLIS.2 が高解像度の PBR テクスチャ付き 3D アセットを生成可能となり、既存の動画モデルが RL で 3D 構造を認識できる可能性が示されました。
GPT-5.5 Pro のベンチマーク成績と新記録
Epoch Capabilities Index で 159 を達成し、FrontierMath では Tier 4 に未解決だった問題を含む新たな高スコアを記録した。
影響分析・編集コメントを表示
影響分析
この記事は、AI 推論インフラがハードウェアの性能差に敏感になっている現状を浮き彫りにしており、特に DeepSeek V4 のパフォーマンスが業界標準の再定義を迫る可能性を示唆しています。また、CUDA エコシステムからの脱却やオープンソースモデルの実用化加速は、開発者の選択肢を広げ、競争環境を激化させる要因となります。
編集コメント
本日は目立った大規模発表こそないものの、推論インフラの微細な最適化とハードウェアベンチマークの動向が業界の次の方向性を示唆しており、開発者にとっては実装戦略を見直す重要な情報源となっています。
AINews を Substack へ移行した際、私たちは毎日マット・レヴィンスタイルの寄稿記事を掲載することを約束しましたが、中には特に大きな動きがない日もあり、その場合はそのままお伝えします。推論需要やマルチエージェントに関する小規模なエッセイを準備中ですが、今日はその日ではありません。
Nvidia Nemotron、Poolside、そして Alec Radford からの興味深いモデルリリースがありましたが、これらが時間の試練に耐えられるかどうかは不明です。GPT-6 への期待が高まり始めています。
2026 年 4 月 27 日〜28 日の AI ニュース。12 のサブレッド、544 件の Twitter投稿を確認し、Discord はさらに確認していません。AINews のウェブサイトでは過去のすべての号を検索できます。念のためお伝えしますが、AINews は現在 Latent Space の一部となっています。メールの配信頻度を選択・解除可能です!
AI Twitter レビュー
推論システム、vLLM 0.20、および DeepSeek V4 を巡るハードウェア/カーネル競争
vLLM の最新リリースは、メモリと MoE サービング効率に重点を置いています。vLLM v0.20.0 には、KV キャパシティを 4 倍にする TurboQuant 2 ビット KV キャッシュ(TurboQuant 2-bit KV cache)が搭載され、SM90+ 以上では MLA プリフェッチ(MLA prefill)のために FA4 が再有効化されました。また、新しい vLLM IR の基盤(vLLM IR foundation)、報告によるとエンドツーエンドのレイテンシを 2.1% 改善する融合 RMSNorm(fused RMSNorm)が追加され、Blackwell 上の DeepSeek V4 MegaMoE、Jetson Thor、ROCm、Intel XPU へのサポート更新、および GB200/Grace-Blackwell のセットアップ簡素化も含まれています。並行して、SemiAnalysis は B200/B300/H200/GB200 の分散設定における早期の DeepSeek V4 Pro サービング結果を強調し、このワークロードにおいて B300 が H200 より最大 8 倍高速であると主張しました。さらに、EP ディスパッチ(EP dispatch)と EP コンバイン(EP combine)、GEMMs、SwiGLU を単一のメガカーネルに融合する DeepGEMM MegaMoE との連携による vLLM 0.20 のベンチマークが近々行われる予定であることも指摘しています。
DeepSeek サポートに関する複数の投稿では、サービングにおけるトレードオフが焦点となりました。ジェレミー・ハワード(Jeremy Howard)は、プリフェッチ(prefill)をサポートする DeepSeek V4 が多くのプロバイダーが放棄した機能であると指摘しました。一方、マハリシ(Maharshi)は動的活性化量子化(dynamic activation quantization)のオーバーヘッドを指摘し、キャリブレーションコストがかかるものの、推論速度においては静的量子化(static quantization)の方が勝る場合が多いと主張しました。また、代替スタックの移植性に対する関心も高まっており、teortaxesTex は DeepSeek が TileKernels を通じて CUDA ロックインから構造的に離脱しつつあるとし、モデルベンダーが NVIDIA 単一のデプロイメントではなく、異種または国内アクセラレータ群に対して最適化を行うケースが増える可能性を示唆しています。
オープンモデルのリリース:Poolside Laguna XS.2、NVIDIA Nemotron 3 Nano Omni、TRELLIS.2
Poolside は、通常よりもデプロイに優しいオープンウェイトのコード生成モデルとして、初の公開モデルリリースを行いました。@poolsideai が Laguna XS.2 を発表しました。これは 33B(総パラメータ)/ 3B(アクティブパラメータ)の MoE(Mixture of Experts:専門家混合)型コーディングモデルで、社内だけで完全にトレーニングされ、Apache 2.0 ライセンスの下でリリースされています。単一の GPU で実行可能と謳われています。Poolside のより広範なリリースには Laguna M.1 とエージェントハネスも含まれており、同社が独自のデータ、トレーニングインフラ、強化学習(RL)、推論スタックからゼロからトレーニングを行ったことを強調しています。コミュニティの要約ではさらに詳細が加えられ、Aymeric Roucher は 2 つのコード生成モデル(225B/23B アクティブおよび 33B/3B アクティブ)について言及しました。これらはハイブリッドアテンションと FP8 KV キャッシュを採用し、Qwen-3.5 に近い性能を達成していると主張されています。Ollama は即座にこれを提供開始しました。
NVIDIA の Nemotron 3 Nano Omni は、当日の最大のインフラネイティブモデルリリースでした。@NVIDIAAI が Nemotron 3 Nano Omni を導入しました。これはテキスト、画像、動画、音声、ドキュメントにわたるエージェントワークロード向けに設計された、256K コンテキストを持つオープンな 30B / A3B のマルチモーダル MoE モデルです。配布はスタック全体で即座に行われました。OpenRouter、LM Studio、Ollama、Unsloth、fal、Fireworks、DeepInfra、Together、Baseten、Canonical など多くのプラットフォームが同日利用可能であることを発表しました。フォローアップ投稿では主要な仕様も明らかになりました。Piotr Żelasko はこれを NVIDIA の初のオムニリリースであり、Parakeet エンコーダーをバックボーンに持つ音声/オーディオ理解機能を備えていると説明しました。現在は英語のみ対応で、Open ASR リーダーボードでの WER(単語誤り率)は 5.95% です。いくつかのホストでは、同等のオープンなオムニモデルと比較して約 9 倍のスループットを引用しています。
その他の注目すべきモデル・論文発表:Microsoft の TRELLIS.2 は、ネイティブ 3D VAE(Variational Autoencoder)を基盤とし、空間圧縮率 16 倍を実現するオープンソースの 4B パラメータ画像から 3D への変換モデルで、最大 1536³ の PBR テクスチャ付きアセットを生成可能です。世界モデルの分野では、World-R1 は既存の動画モデルがすでに 3D 構造をエンコードしており、RL(強化学習)によって「目覚めさせる」ことができると主張しています。このアプローチにはアーキテクチャの変更や追加の動画学習データ、推論コストの増加は不要です。
エージェント、ローカルファーストツール、およびプロダクションオーケストレーション
エージェント構築者はデモから生産環境用の基盤へとシフトしています:Mistral は、エンタープライズ AI プロセスを永続的・観測可能で障害耐性のある生産システムに変換することを目的としたオーケストレーション層として「Workflows」を公開プレビューでリリースしました。関連する投稿も同様のテーマを強調しており、Sydney Runkle は長期実行型エージェントにとって永続的な実行が重要な要件であると位置づけ、threepointone は永続性、ストリーミング、再開機能を備えたサブエージェントやツールとしてのエージェントに関する作業について言及しています。
ローカル/オフラインエージェントが願望から信頼できるワークフローへ移行:Teknium は「完全にオフラインのエージェントは可能である」と主張し、Niels Rogge はデスクトップの整理に Pi とローカルモデルを組み合わせたデモを公開。また Google Gemma はローカルコーディングエージェントのためのチュートリアルを共有した。Hugging Face のローカル機能も採用数で確認されており、Clement Delangue によると、30 万人が Hub にハードウェア仕様を追加し、ローカルで何を実行できるかを確認しているという。これに補完する形で、Ammar は MLX を使用して Gemma 4 を完全にデバイス上で動作させる「バイブコーディング」アプリをオープンソース化し、Kimmonismus は Sigma を紹介した。Sigma はオープンモデルを使用したプライベートなブラウザベースのローカルエージェント概念である。
Hermes および関連するエージェントハネスが実世界での採用を進めている:複数の投稿で、Hermes が OpenClaw よりも指示従順性や実践的なワークフローにおいて優れていると報告されており、SecretArjun や somewheresy といった事例、Telegram を介した Hermes の展開、医療文献抽出への利用などが含まれる。研究用エージェントの分野では、Hugging Face の ML Intern が Spaces で注目され、後にネイティブなメトリクスロギング機能と Trackio 連携が追加され、トレーニングジョブをブラックボックス化せず観測可能となった。
注目に値するベンチマーク、評価、および研究結果
モデルベンチマークはまだ分断された状態ですが、いくつかの重要な信号が浮かび上がりました。Epoch によると、GPT-5.5 Pro は Epoch Capabilities Index で 159 を達成し、FrontierMath でも新記録を樹立しました。具体的には、Tier 1~3 で 52%、Tier 4 で 40% の正答率を記録し、そのうち Tier 4 の問題 2 つはこれまでどのモデルも解けなかったものです。一方、Greg Kamradt は GPT-5.5 と Opus 4.7 に対する ARC-AGI-3 テストが完了したと発表し、現在は失敗モードの分析が行われているとのことです。
いくつかの新規ベンチマークは、より現実的なエージェントおよびエンジニアリング行動を対象としています。Lysandre は Transformer をよりエージェントフレンドリーにするためのベンチマークを発表しました。また VibeBench は、1,000 名の資格を持つソフトウェアエンジニアによる主観的テストを提案し、モデルが実際の業務でどのように感じられるかを測定するものです。ドキュメントインテリジェンスの分野では、LlamaIndex の ParseBench が OCR ベンチマークは取り消し線や上付き文字といった意味論的な書式を見逃す可能性があり、これらはエージェントにとって意味を大きく変える要因であると強調しました。
具体的なエンジニアリング的示唆を持つ研究ノートも発表されました。Rosalinity は DeepSpeed および OpenRLHF に SFT パフォーマンスを低下させるバグが存在し、先行研究にも影響を与える可能性があると指摘しました。Arjun Kocher は DeepSeek-V4 論文に記載された Compressed Sparse Attention の忠実な実装を発表しました。che_shr_cat は、単一ブロックの Transformer が明示的なスクラッチパッドと逆方向ルーティング初期化を備えて初めて Extreme Sudoku を解けることを示し、それ以外の場合はパフォーマンスがゼロであると報告しました。最適化に関する研究では、Keller Jordan が Muon や AdamW などの手法を再現可能なスピードラン形式タスクで比較するために設計された軽量な Modded-NanoGPT オプティマイザーベンチマークを公開しました。
プラットフォーム経済、API 価格設定、およびクローズドモデルの信頼性に関する懸念
さらに詳しく読む
原文を表示
When we made the AINews → Substack move, we committed to having Matt Levine style op-eds every day, but some days there just isn’t much going on and we will just say so - we are working on small essays around inference demand and multiagents, but today is not that day.
Interesting model releases from Nvidia Nemotron, Poolside, and Alec Radford, but it’s unclear any of them will stand the test of time. GPT-6 hype is beginning.
AI News for 4/27/2026-4/28/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Inference Systems, vLLM 0.20, and the Hardware/Kernel Race Around DeepSeek V4
vLLM’s latest release is heavily about memory and MoE serving efficiency: vLLM v0.20.0 shipped with TurboQuant 2-bit KV cache for 4× KV capacity, FA4 re-enabled for MLA prefill on SM90+, a new vLLM IR foundation, fused RMSNorm for a reported 2.1% end-to-end latency improvement, plus support updates spanning DeepSeek V4 MegaMoE on Blackwell, Jetson Thor, ROCm, Intel XPU, and easier GB200/Grace-Blackwell setup. In parallel, SemiAnalysis highlighted early DeepSeek V4 Pro serving results on B200/B300/H200/GB200 disaggregated setups, claiming B300 can be up to 8× faster than H200 for this workload and pointing to upcoming vLLM 0.20 benchmarking with DeepGEMM MegaMoE, which fuses EP dispatch + EP combine + GEMMs + SwiGLU into a single mega-kernel.
DeepSeek support: several posts focused on serving tradeoffs: Jeremy Howard noted DeepSeek V4’s support for prefill as a capability many providers have dropped, while Maharshi pointed out the overheads of dynamic activation quantization, arguing that static quantization often wins on inference speed despite calibration cost. There was also growing interest in alternate stack portability: teortaxesTex argued DeepSeek is structurally moving away from CUDA lock-in via TileKernels, suggesting model vendors may increasingly optimize for heterogeneous or domestic accelerator fleets rather than NVIDIA-only deployment.
Open Model Releases: Poolside Laguna XS.2, NVIDIA Nemotron 3 Nano Omni, and TRELLIS.2
Poolside made its first public model release with an unusually deployment-friendly open-weight coder: @poolsideai announced Laguna XS.2, a 33B total / 3B active MoE coding model trained fully in-house, released under Apache 2.0, and advertised as able to run on a single GPU. Poolside’s broader release also included Laguna M.1 and an agent harness, emphasizing that the company trained from scratch on its own data, training infra, RL, and inference stack. Community summaries added more color: Aymeric Roucher described two coder models—225B/23B active and 33B/3B active—with hybrid attention, FP8 KV cache, and claimed performance near Qwen-3.5; Ollama shipped it immediately.
NVIDIA’s Nemotron 3 Nano Omni was the day’s biggest infra-native model launch: @NVIDIAAI introduced Nemotron 3 Nano Omni, an open 30B / A3B multimodal MoE with 256K context built for agentic workloads spanning text, image, video, audio, and documents. Distribution was immediate across the stack: OpenRouter, LM Studio, Ollama, Unsloth, fal, Fireworks, DeepInfra, Together, Baseten, Canonical, and others all announced same-day availability. Key specs surfaced in follow-on posts: Piotr Żelasko described it as NVIDIA’s first omni release with speech/audio understanding backed by a Parakeet encoder, English-only for now, and a 5.95% WER on the Open ASR leaderboard. Several hosts cited ~9× throughput versus comparable open omni models.
Other notable model/paper releases: Microsoft’s TRELLIS.2 is an open-source 4B image-to-3D model producing up to 1536³ PBR textured assets, built on native 3D VAEs with 16× spatial compression. On the world-model side, World-R1 claims existing video models already encode 3D structure and can be “woken up” with RL, requiring no architecture changes, no extra video training data, and no added inference cost.
Agents, Local-First Tooling, and Production Orchestration
Agent builders are shifting from demos to production primitives: Mistral launched Workflows in public preview as an orchestration layer aimed at turning enterprise AI processes into durable, observable, fault-tolerant production systems. Related posts echoed the same theme: Sydney Runkle framed durable execution as a key requirement for long-running agents, and threepointone described work on subagents / agents-as-tools with persistence, streaming, and resumption.
Local/offline agents moved from aspiration to credible workflow: Teknium asserted “totally offline agents are possible”, while Niels Rogge demoed Pi + local models for desktop cleanup and Google Gemma shared a tutorial for local coding agents. Hugging Face’s local push also showed up in adoption numbers: Clement Delangue said 300,000 users have added hardware specs to the Hub to discover what can run locally. Complementing this, Ammaar open-sourced a vibe-coding app running Gemma 4 fully on-device with MLX, and Kimmonismus highlighted Sigma, a private browser-based local-agent concept using open models.
Hermes and adjacent agent harnesses are gaining real-world traction: multiple posts reported Hermes outperforming OpenClaw in instruction-following or practical workflows, including SecretArjun, somewheresy, and users deploying Hermes through Telegram or for medical literature extraction. On the research-agent side, Hugging Face’s ML Intern was trending among Spaces, and later gained native metric logging + Trackio integration to make its training jobs observable rather than black-box.
Benchmarks, Evals, and Research Findings Worth Watching
Model benchmarking remains fragmented, but a few signals stood out: Epoch reported GPT-5.5 Pro reaching 159 on the Epoch Capabilities Index and new highs on FrontierMath—52% on Tiers 1–3 and 40% on Tier 4—including two Tier 4 problems not previously solved by any model. Separately, Greg Kamradt said ARC-AGI-3 testing for GPT-5.5 and Opus 4.7 had completed, with failure modes now under analysis.
Several new benchmarks target more realistic agent and engineering behavior: Lysandre announced a benchmark for making Transformers more agent-friendly, and VibeBench proposed subjective testing by 1,000 qualified software engineers to measure how models actually feel in real work. On document intelligence, LlamaIndex’s ParseBench emphasized that OCR benchmarks miss semantic formatting such as strikethroughs and superscripts, which materially alter meaning for agents.
Research notes with concrete engineering implications: Rosinality flagged bugs in DeepSpeed and OpenRLHF that reduce SFT performance, with implications for prior studies. Arjun Kocher published a faithful implementation of Compressed Sparse Attention from the DeepSeek-V4 paper. che_shr_cat showed single-block transformers can solve Extreme Sudoku only with an explicit scratchpad and inverted routing init, otherwise performance is zero. On optimization, Keller Jordan released a lightweight Modded-NanoGPT optimizer benchmark designed to compare methods like Muon and AdamW on a reproducible speedrun-style task.
Platform Economics, API Pricing, and Closed-Model Reliability Concerns
Read more
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み