AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Smol AI News·2026年4月29日 14:44·約16分

本日は特に目立った出来事なし

#Coding Agents#OpenAI Codex#VS Code#System Engineering#Enterprise AI
TL;DR

OpenAI が Codex を単なるコーディングツールから汎用的な作業環境へ進化させ、WebSocket による高速化や VS Code の機能強化など、エージェントワークフローの基盤整備が加速している。

AI深層分析2026年4月30日 10:04
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

Codex のプラットフォーム化と機能拡張

OpenAI は Codex をコード生成から研究合成、スプレッドシート管理などの汎用作業環境へ拡大し、チーム展開や永続的コンテキスト機能を強化した。

2

ビジネスモデルの転換と無料枠

Codex のビジネス/エンタープライズ向けに seat fee を撤廃する期間限定プランを公開し、Supabase や Figma などの新統合も発表された。

3

エージェントループのシステム工学へのシフト

モデルの遅延改善から、WebSocket モードによる状態維持と 40% の高速化など、エージェントワークフロー全体のシステム設計が重視されるようになった。

4

VS Code のハッチング機能強化

VS Code はワークスペース横断のセマンティックインデックスやクロスリポジトリ検索、プロンプト評価拡張機能など、開発者体験を向上させるアップデートを実装した。

影響分析・編集コメントを表示

影響分析

本ニュースは、AI エージェントが単発のツールから継続的な作業環境(ワークスペース)へと進化し始めていることを示す重要な転換点です。特に「モデル速度」から「システム設計」へ焦点が移ったことは、今後の AI アプリケーション開発のパラダイムシフトを意味しており、開発者はより高度なワークフロー管理と統合戦略を求められるようになります。

編集コメント

「何もない日」というタイトルとは裏腹に、AI エージェントの実用化に向けた基盤整備が劇的に加速している内容です。特にシステム設計の重要性が増した点は、開発者にとって今後の戦略を再考する必要がある重要な示唆です。

静かな一日。

2026年4月28日〜29日のAIニュース。12のサブレッド、544 の Twitter、および追加の Discord チャンネルを確認しました。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メール配信頻度のオプトイン・オプトアウトも可能です!

AI Twitter リキャップ

コーディングエージェントがプラットフォームへ:Codex、Cursor SDK、VS Code のハーンアップグレード**

  • OpenAI は Codex を単なるコーディングツールから一般的な作業スペースへと転換しています。今日の最も強力な製品シグナルは、使用への熱意だけでなく、永続的なコンテキスト(persistent context)、ツール、統合、チーム展開に関する機能の着実な拡大でした。OpenAI は、コードに加え、研究合成、スプレッドシート、意思決定追跡などのより広範な知識労働タスクのために Codex を強調し(OpenAI、フォローアップ、フォローアップ)、6 月末まで対象となる Business/Enterprise カスタマー向けに Codex 専用席を $0 の座席料金で提供開始しました(OpenAIDevs)。また、Supabase(coreyching)との統合や、実装計画を FigJam ボードに変換する Figma プラグインを追加しました(OpenAIDevs)。コミュニティの投稿では、アプリサーバーの使用やより豊かなエージェントワークフローも指摘されています(gdb, aiDotEngineer)。
  • パフォーマンスの取り組みは、モデルのレイテンシからエージェント・ループ・システムエンジニアリングへと移行しています:OpenAI は、Responses API 上で Codex スタイルのワークフローを WebSocket モードに移行することで、ツール呼び出し間でも状態をウォームに保ち、重複作業を削減し、エージェント型ワークフローを最大 40% 高速化できると述べています(OpenAIDevs, reach_vb, pierceboggan)。VS Code は並列スタックとしてハルネスの改善をリリースしました:ワークスペース横断的な意味インデックス、リポジトリ間検索、チャットセッションの洞察、スキルコンテキスト、Copilot CLI のリモートコントロール、およびプロンプト・スキル・指示の洗練を目指すプロンプト/エージェント評価拡張機能です(pierceboggan, pierceboggan, code)。共通する流れは、コーディング・エージェントの UX がもはや生モデル知能だけでなく、メモリ、検索、ハルネス品質、ツールオーケストレーションによって支配されているという点です。
  • Cursor は明確なプラットフォーム戦略を打ち出しています:新しい Cursor SDK は、Cursor を支えるランタイム、ハルネス、およびモデルを CI/CD、自動化、製品埋め込み型エージェント向けに公開します(cursor_ai, starter projects, customer examples)。これは、Cursor が席数ベースの IDE 製品からプログラム可能なエージェントインフラへとシフトする画期的な動きであり、@kimmonismus によってよく捉えられています。Codex アプリサーバーと VS Code のハルネス作業を合わせると、このカテゴリは明らかにヘッドレス型ランタイム+プログラム可能なハルネス+利用ベースの経済モデルへと収束していることがわかります。

エージェント・ハルネスエンジニアリング、LangGraph/Deep Agents、および本番環境向け AgentOps

  • ハーネスは、ファーストクラスの最適化レイヤーとして台頭しています:複数の投稿で、モデルの品質だけでは不十分であり、モデルを取り巻くハーネスが生産環境のパフォーマンスを決定づけるという考えに収束しました。最も明確な研究例は「Agentic Harness Engineering」で、これは回帰可能なコンポーネント、凝縮された実行証拠、反証可能な予測を通じてハーネスの進化を観測可能にするものです。報告された成果:Terminal-Bench 2 の pass@1 が 69.7% から 10 回のイテレーションで 77.0% に向上し、人間が設計した Codex-CLI ベースライン(71.9%)を上回りました。さらに、モデルファミリー間での転移が可能となり、SWE-bench Verified におけるトークン使用量を 12% 削減しました (omarsar0)。HALO に関する関連研究では、トレース分析を用いてハーネスの障害をパッチする再帰的自己改善型エージェントが記述されており、Sonnet 4.6 上での AppWorld のスコアが 73.7 から 89.5 に向上したと主張しています (samhogan)。
  • LangChain の Deep Agents プロダクトラインは、モデル固有のハーネスチューニングとデプロイ可能性に注力しています:新しい「Harness Profiles」により、チームはモデルごとにプロンプト、ツール、ミドルウェアをバージョン管理できるようになり、OpenAI、Anthropic、Google モデル用のビルトインプロファイルも用意されています (LangChain_OSS, LangChain, Vtrivedy10)。また、LangChain は DeepAgents Deploy を推進しており、これは少数の markdown/設定ファイルと LangSmith によるトレーシングを活用したローコードデプロイパスです (hwchase17)。LangChain スタッフからのより広範なメッセージは一貫していました:オープンなハーネス、オープンな評価、OSS フレンドリーなモデルミックスが重要であるという点です。なぜなら、クローズドなモデルは多くのエージェントワークロードにとってコストが高くなりすぎているからです (hwchase17, Vtrivedy10)。
  • Cloudflare は「エージェントをソフトウェアとして扱う」スタックの整備を進め、実行階層(execution ladders)のようなアイデアや、より具体的にはエージェントが Cloudflare の顧客となることを可能にする取り組み——アカウント作成、ドメイン登録、有料プランの開始、デプロイ用のトークン取得など——を実装しました(threepoint.one, Cloudflare)。これはベンダー側が、エージェントを受動的なコパイロットとして扱うのではなく、ビジネスワークフローを直接公開し始めたことを示す重要な兆候です。

モデルリリースとベンチマーク:Mistral Medium 3.5, Granite 4.1, Ling-2.6、およびオープンモデルの価格圧力

  • Mistral Medium 3.5 は当日最も議論を呼んだモデルリリースでした。初期の評価では、これを密集型(dense)の 128B モデルと位置づける声があり(scaling01)、Unsloth はこれを約 64GB の RAM でローカル実行可能なビジョン推論モデルとして説明し、GGUF やガイダンス(guidance)を公開しました(UnslothAI)。反応は明確に分かれました。一部からは 128K コンテキストやアーキテクチャの選択、そして大規模な中国製オープン MoE(Mixture of Experts)との価格比較に対して批判が寄せられましたが(eliebakouch, scaling01)、他方では Mistral は生来のベンチマークの華やかさを追うのではなく、意図的にエンタープライズ向けの信頼性と指示従順性の賭けを打っていると主張する声もありました(kimmonismus)。
  • IBM Granite 4.1 は、30B、8B、3B の 3 つの新しいオープンウェイト(Apache 2.0 ライセンス)非推論モデルを追加しました。これらは開放性とトークン効率性を強く重視しています(ArtificialAnlys)。注目すべき点は、Granite 4.1 8B が Artificial Analysis Intelligence Index で出力に使用したトークン数がわずか 4M であるのに対し、Qwen3.5 9B は 78M を要していることです。また、AA Openness Index では 61 のスコアを記録しました。知能面では強力な競合他社には劣りますが、このファミリーはリーダーボードでの順位よりもコストと透明性が重要となるエンタープライズ/エッジ展開に明確に狙いを定めているように見えます。
  • オープンウェイトにおける競争圧力はさらに激化しています:Ant OSS の Ling-2.6-flash は約 107B の MoE(Mixture of Experts)モデルとして、MIT ライセンスで SWE-bench Verified で 61.2 を達成し、数学スコアも高いと紹介されました(nathanhabib1011)。また、Ling-2.6-1T も day-0 の vLLM サポート付きで登場しました(vllm_project)。一方、Tencent Hunyuan は Hy-MT1.5-1.8B-1.25bit をオープンソース化しました。これは 440MB の完全オフライン対応翻訳モデルで、スマートフォン向けに 33 か国語、1,056 の翻訳方向をカバーします。積極的な 1.25 ビット量子化(quantization)により、標準的な機械翻訳(MT)ベンチマークにおいて商用 API や 235B スケールのモデルと同等の性能を達成すると主張しています(TencentHunyuan)。市場面では、有能力なオープンモデルの価格が急速に下落している点を強調する投稿が複数ありました。例えば、Qwen 3.5 Plus は出力トークンあたり 3 ドル(MatthewBerman)、MiMo-V2.5 Pro は Code Arena でパレートフロンティアをシフトし、M トークンあたり 1 ドル/3 ドルで提供されています(arena)。

推論、カーネル、および MoE システム:FlashQLA、Blackwell 上の vLLM、torch.compile、GLM-5 サービング

  • Qwen の FlashQLA は注目すべき長文コンテキストカーネルのリリースです:アリババは TileLang 上で高パフォーマンスな線形アテンションカーネルである FlashQLA を導入し、順方向計算で 2~3 倍、逆方向計算で 2 倍の速度向上を報告しました。これは特に小規模モデル、長文コンテキストワークロード、およびテンソル並列設定において顕著です。設計の中心は、ゲート駆動型自動カード内 CP(カーネルパラメータ)、代数式再構成、融合されたワープ特化型カーネルにあります (Alibaba_Qwen, ベンチマークスレッド)。これはパーソナルデバイス上のエージェント AI 向けに明確に位置づけられており、長文コンテキスト最適化がクラウド専用インフラからエッジ対応ランタイムへと移行する広範なトレンドに合致しています。
  • vLLM と Blackwell の共同設計により、実際のスループット向上が実現されています:vLLM は Artificial Analysis において DeepSeek V3.2 で出力速度 No.1(230 トークン/秒、TTFT 0.96 秒)を報告し、また NVIDIA HGX B300 上の DigitalOcean サーバーレス推論で Qwen 3.5 397B においても強力な結果を示しました。最適化には NVFP4 量子化、EAGLE3 + MTP による予測デコーディング、モデルごとのカーネル融合が含まれます (vllm_project)。SemiAnalysis は別途、GB200 上の DeepSeek v4 Pro における vLLM 0.20.0 と MegaMoE カーネルからの恩恵を強調しました (SemiAnalysis_)。これはハードウェア・ソフトウェア・モデルの共同設計が、公に確認可能なレイテンシ数値として結実した明確な事例の一つです。
  • より多くのエンジニアが、モデルと GPU の間の「中間層」の詳細を共有しています:torch.compile に関する有用なスレッドでは、Dynamo → pre-grad → AOT autograd → post-grad → Inductor の各段階が分解され、推論最適化のためにカスタム FX パスを注入すべき箇所も示されています(maharshii)。John Carmack は、GPU ライブラリのパフォーマンスがいまだに極めてパス依存性が高く、わずかな違いで性能が大きく変動することを警告しました。具体的には、torch.linalg.solve_ex において、511×511 から 512×512 にサイズを変更した際に約 10 倍の性能低下が発生し、これは CudaMalloc/Free の内部パスが異なることが原因であるとしています(ID_AA_Carmack、続報あり)。また、Zhipu AI は GLM-5 に関する優れたサービス事後分析を公開しました。そこでは KV キャッシュの競合条件や HiCache の同期バグ、LayerSplit について詳細が記されており、これらにより長文コンテキストを持つコーディングエージェントのサービスにおけるプリフィルスループットが最大 132% 向上したと報告されています(Zai_org)。

研究シグナル:知識プローブ、ウェブエージェントベンチマーク、マルチモーダル/科学インフラストラクチャ

  • Incompressible Knowledge Probes (IKP) は、最も挑発的な研究テーマの一つです**: @bojie_li 氏は、1,400 問の事実知識質問、188 のモデル、27 ベンダーにわたる精度データが、モデルサイズに対して強い対数線形信号(R² = 0.917)を示すと主張しています。これは、135M パラメータから 1.6T パラメータまでのオープンウェイトモデルを対象とした結果です。この論文は、事実知識の容量が、「推論が圧縮される」という一部の物語が示唆するようには時間とともに圧縮されないことを論じ、フィットされた曲線を用いてクローズドモデルのサイズを推定しています。その推定値を信じるかどうかにかかわらず、ブラックボックス評価でもアーキテクチャ規模に関する情報が漏洩しているという reminder として、この研究は価値があります。
  • Web-agent の評価は、単なる合格/不合格を超えて成熟しつつあります:新しい Odysseys ベンチマークでは、200 の長期ホライズンのライブインターネットタスクを導入し、二値的な成功ではなくルブリックベースの評価と、軌道効率指標を採用しています。最良モデルの成功率はわずか 44.5% と報告されており、効率は依然として 1.15% と極めて低い状態です(rsalakhu, dan_fried)。これは、短期間の合成タスクではなく、多段階のブラウジング、スプレッドシート操作、オーケストレーション作業をよりよく反映するエージェントベンチマークへの業界全体の取り組みと合致しています。
  • AI for science とマルチモーダルインフラストラクチャにおいて、意味のあるエコシステムの立ち上げが見られました:Hugging Face は「Hugging Science」を発表し、オープンサイエンスのデータセット・モデル・チャレンジのための厳選された拠点を提供しています。ここには 78GB のゲノムデータ、11TB の偏微分方程式(PDE)シミュレーション、1 億セルのプロファイル、9T の DNA ベースペアなど多数が含まれます (cgeorgiaw)。Anthropic は「BioMysteryBench」をリリースし、最近の Claude モデルが専門家を悩ませる難しい生物データ分析問題のおよそ 30% を解決したと報告しています (AnthropicAI)。マルチモーダル分野では、Vista4D が永続的な 4D シーン表現を用いて新しいカメラ軌道からの動画「再撮影」を導入し (micahgoldblum)、Sakana の KAME は低遅延フロントエンドモデルと非同期バックエンド LLM オラクル信号を組み合わせることで、音声対音声システム向けの tandem(連動)型「思考しながら話す」アーキテクチャを提案しました (SakanaAILabs)。

エンゲージメント上位ツイート

  • Cursor SDK の立ち上げ:CI、自動化、埋め込み製品向けにプログラム可能なエージェントランタイム・ハネス・モデルを提供 (cursor_ai)。
  • Codex の勢いとプラットフォーム拡大:OpenAI はコーディングを超えて広範な業務自動化へと Codex を推進し、チーム展開と統合を進めています (OpenAI, OpenAIDevs)。
  • Google の製品化シグナル:Gemini により、チャットから直接ダウンロード可能な Docs、Sheets、Slides、PDF などを作成できるようになりました (sundarpichai, GeminiApp)。
  • 第 1 四半期のビジネスシグナル:Google は Cloud が前年比 +63% の成長を報告し、Gemini の強い勢いと検索クエリが過去最高を更新したと発表しました。これは「AI モネタイゼーション」仮説にとって重要なデータポイントです (sundarpichai)。
  • 深層技術の長編記事:Dwarkesh が Reiner Pope と黒板セッションを行い、価格や方程式、システム制約からトレーニング/サービング戦略を推論する方法について議論しました (dwarkesh_sp)。

AI Reddit Recap

/r/LocalLlama + /r/localLLM Recap

1. Mistral Medium 3.5 モデルの発売と特徴

  • mistralai/Mistral-Medium-3.5-128B · Hugging Face (アクティビティ:921): Mistral Medium 3.5 は、指示従順性、推論、コーディングタスク向けに設計された、256k のコンテキストウィンドウを備えた密な 1280 億パラメータモデルです。構成可能な推論努力度、マルチモーダル入力機能、および各種ベンチマークでの優れたパフォーマンスを特徴とし、以前のモデルである Devstral を上回っています。このモデルは Modified MIT ライセンスの下でオープンソース化されており、複数の言語とシステムプロンプトをサポートしています。最適なパフォーマンスを得るには、推論に vLLM ライブラリを使用することが推奨されます。詳細はこちらをご覧ください。あるコメントでは、Strix Halo で q4 量子化(quantization)を適用してモデルをテストしており、トークン生成速度やモデルの密なアーキテクチャへの関心が報告されています。別のコメントでは、このモデルが密な 1280 億パラメータモデルというニッチポジションにあることを指摘し、Qwen 27B と比較しています。

IvGranite は、Strix Halo 環境において q4 量子化を適用した Mistral-Medium-3.5-128B モデルのパフォーマンス指標を共有しました。その結果、生成速度は秒間 46.70 トークン、プロンプト処理速度は秒間 3.26 トークンとなり、テストの 1 つでは合計 4.84 秒を要しました。これは、このサイズの密度モデル(dense model)としては比較的高いスループットを示しています。

Grumd と reto-wyss は密度モデルのニッチについて議論し、grumd は 1 の独自性に言及しました

原文を表示

a quiet day.

AI News for 4/28/2026-4/29/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!

AI Twitter Recap

Coding Agents Become Platforms: Codex, Cursor SDK, and VS Code Harness Upgrades

  • OpenAI is turning Codex from a coding tool into a general work surface: the strongest product signal today was not just usage enthusiasm, but the steady expansion of capabilities around persistent context, tools, integrations, and team rollout. OpenAI highlighted Codex for broader knowledge-work tasks like research synthesis, spreadsheets, and decision tracking in addition to code (OpenAI, follow-up, follow-up); launched Codex-only seats with $0 seat fee for eligible Business/Enterprise customers through end of June (OpenAIDevs); and added integrations like Supabase (coreyching) and a Figma plugin that turns implementation plans into FigJam boards (OpenAIDevs). Community posts also pointed to app-server usage, and richer agent workflows (gdb, aiDotEngineer).
  • Performance work is shifting from model latency to agent-loop systems engineering: OpenAI said moving Codex-style workflows to WebSocket mode on the Responses API keeps state warm across tool calls and cuts repeated work, yielding up to 40% faster agentic workflows (OpenAIDevs, reach_vb, pierceboggan). VS Code shipped a parallel stack of harness improvements: semantic indexing across workspaces, cross-repo search, chat session insights, skill context, remote control for Copilot CLI, and a prompt/agent evaluation extension aimed at refining prompts, skills, and instructions (pierceboggan, pierceboggan, code). The throughline is that coding-agent UX is now dominated by memory, retrieval, harness quality, and tool orchestration—not just raw model intelligence.
  • Cursor is making an explicit platform play: the new Cursor SDK exposes the same runtime, harness, and models that power Cursor for use in CI/CD, automations, and embedded agents inside products (cursor_ai, starter projects, customer examples). This is notable because it shifts Cursor from seat-based IDE product toward programmable agent infrastructure, a framing captured well by @kimmonismus. Taken together with Codex app-server and VS Code harness work, the category is clearly converging on headless agent runtimes + programmable harnesses + usage-based economics.

Agent Harness Engineering, LangGraph/Deep Agents, and Production AgentOps

  • Harnesses are emerging as a first-class optimization layer: multiple posts converged on the idea that model quality alone is insufficient; the harness around the model often determines production performance. The clearest research example was Agentic Harness Engineering, which makes harness evolution observable via revertible components, condensed execution evidence, and falsifiable predictions. Reported gains: Terminal-Bench 2 pass@1 from 69.7% to 77.0% in ten iterations, beating a human-designed Codex-CLI baseline at 71.9%, while also transferring across model families and reducing token use on SWE-bench Verified by 12% (omarsar0). Related work on HALO describes recursively self-improving agents using trace analysis to patch harness failures, claiming AppWorld improvement from 73.7 to 89.5 on Sonnet 4.6 (samhogan).
  • LangChain’s Deep Agents product line is leaning into model-specific harness tuning and deployability: new Harness Profiles let teams version per-model prompts, tools, and middleware, with built-in profiles for OpenAI, Anthropic, and Google models (LangChain_OSS, LangChain, Vtrivedy10). LangChain also pushed DeepAgents Deploy, a low-code deployment path using a small set of markdown/config files and LangSmith-backed tracing (hwchase17). The broader message from LangChain staff was consistent: open harnesses, open evals, and OSS-friendly model mixes matter because closed models are becoming too expensive for many agent workloads (hwchase17, Vtrivedy10).
  • Cloudflare continued to flesh out its “agents as software” stack with ideas like execution ladders and, more concretely, making agents able to become Cloudflare customers—create accounts, register domains, start paid plans, and get tokens for deployment (threepointone, Cloudflare). This is a meaningful sign that vendors are starting to expose business workflows directly to agents rather than treating them as passive copilots.

Model Releases and Benchmarks: Mistral Medium 3.5, Granite 4.1, Ling-2.6, and Open-Model Price Pressure

  • Mistral Medium 3.5 was the day’s most debated model release. Early commentary pegged it as a dense 128B model (scaling01), with Unsloth describing it as a vision reasoning model that can run locally on roughly 64GB RAM and publishing GGUFs/guidance (UnslothAI). Reaction split sharply: some criticized its 128K context, architecture choices, and pricing versus large Chinese open MoEs (eliebakouch, scaling01), while others argued Mistral is making a deliberate enterprise reliability/instruction-following bet rather than chasing raw benchmark spectacle (kimmonismus).
  • IBM Granite 4.1 added three new open-weight, Apache 2.0 non-reasoning models—30B, 8B, 3B—with a strong emphasis on openness and token efficiency (ArtificialAnlys). The standout claim is that Granite 4.1 8B used only 4M output tokens on the Artificial Analysis Intelligence Index, versus 78M for Qwen3.5 9B, while scoring 61 on the AA Openness Index. Intelligence lags stronger peers, but the family looks aimed squarely at enterprise/edge deployments where cost and transparency matter more than leaderboard position.
  • Open-weight competitive pressure continues to intensify: Ant OSS’s Ling-2.6-flash was cited as ~107B MoE, MIT-licensed, with 61.2 SWE-bench Verified and strong math scores (nathanhabib1011); Ling-2.6-1T also landed with day-0 vLLM support (vllm_project). Meanwhile, Tencent Hunyuan open-sourced Hy-MT1.5-1.8B-1.25bit, a 440MB, fully offline translation model for phones covering 33 languages, 1,056 translation directions, and claiming parity with commercial APIs / 235B-scale models on standard MT benchmarks via aggressive 1.25-bit quantization (TencentHunyuan). On the market side, multiple posts underscored how rapidly pricing is falling for capable open models, e.g. Qwen 3.5 Plus at $3/M output tokens (MatthewBerman) and MiMo-V2.5 Pro shifting the Pareto frontier in Code Arena at $1/$3 per M tokens (arena).

Inference, Kernels, and MoE Systems: FlashQLA, vLLM on Blackwell, torch.compile, and GLM-5 Serving

  • Qwen’s FlashQLA is a notable long-context kernel release: Alibaba introduced FlashQLA, high-performance linear attention kernels on TileLang, reporting 2–3× forward and 2× backward speedups, especially for small models, long-context workloads, and tensor-parallel setups. The design centers on gate-driven automatic intra-card CP, algebraic reformulation, and fused warp-specialized kernels (Alibaba_Qwen, benchmark thread). It is explicitly positioned for agentic AI on personal devices, which fits a broader trend of long-context optimization migrating from cloud-only infra to edge-friendly runtimes.
  • vLLM and Blackwell co-design is landing real throughput wins: vLLM reported #1 output speed on Artificial Analysis for DeepSeek V3.2 at 230 tok/s, 0.96s TTFT and also strong results on Qwen 3.5 397B using DigitalOcean serverless inference on NVIDIA HGX B300, with optimizations including NVFP4 quantization, EAGLE3 + MTP speculative decoding, and per-model kernel fusion (vllm_project). SemiAnalysis separately highlighted gains from vLLM 0.20.0 and MegaMoE kernels for DeepSeek v4 Pro on GB200 (SemiAnalysis_). This is one of the clearer examples of hardware/software/model co-design translating into publicly visible latency numbers.
  • More engineers are sharing the “middle layer” details between models and GPUs: a useful thread on torch.compile broke down Dynamo → pre-grad → AOT autograd → post-grad → Inductor, including where to inject custom FX passes for inference optimizations (maharshii). John Carmack posted a reminder that GPU library performance remains extremely path-dependent and notchy, noting a 10× regression in torch.linalg.solve_ex when going from 511×511 to 512×512, apparently due to a different internal path with CudaMalloc/Free (ID_AA_Carmack, follow-up). Zhipu AI also published a good serving postmortem on GLM-5, detailing KV cache race conditions, HiCache synchronization bugs, and LayerSplit, which reportedly improved prefill throughput by up to 132% for long-context coding-agent serving (Zai_org).

Research Signals: Knowledge Probes, Web-Agent Benchmarks, Multimodal/Science Infrastructure

  • Incompressible Knowledge Probes (IKP) is one of the more provocative research threads**: @bojie_li claims that factual knowledge accuracy over 1,400 questions / 188 models / 27 vendors gives a strong log-linear signal of model size (R² = 0.917 on open-weight models from 135M to 1.6T params). The paper argues factual capacity does not compress over time the way some “reasoning compresses” narratives suggest, and uses the fitted curve to estimate closed-model sizes. Whether one buys the estimates or not, the work is valuable as a reminder that black-box evals still leak architecture-scale information.
  • Web-agent evaluation is maturing beyond pass/fail: the new Odysseys benchmark introduces 200 long-horizon live-internet tasks, rubric-based evaluation instead of binary success, and a trajectory efficiency metric. Best model success is reported at only 44.5%, with efficiency still extremely low at 1.15% (rsalakhu, dan_fried). That fits the broader industry push toward agent benchmarks that better reflect multi-step browsing, spreadsheeting, and orchestration work rather than short synthetic tasks.
  • AI-for-science and multimodal infrastructure saw meaningful ecosystem launches: Hugging Face introduced Hugging Science, a curated home for open science datasets/models/challenges including 78GB genomics, 11TB PDE simulations, 100M cell profiles, 9T DNA base pairs, and more (cgeorgiaw). Anthropic released BioMysteryBench, reporting that recent Claude models solved about 30% of hard biological data-analysis problems that stumped experts (AnthropicAI). On the multimodal side, Vista4D introduced video “reshooting” from new camera trajectories using a persistent 4D scene representation (micahgoldblum), and Sakana’s KAME proposed a tandem “speak while thinking” architecture for speech-to-speech systems by combining a low-latency frontend model with asynchronous backend-LLM oracle signals (SakanaAILabs).

Top Tweets (by engagement)

  • Cursor SDK launch: programmable agent runtime/harness/models for CI, automations, and embedded products (cursor_ai).
  • Codex momentum / platform expansion: OpenAI pushing Codex beyond coding into broader work automation, plus team rollout and integrations (OpenAI, OpenAIDevs).
  • Google productization signal: Gemini can now generate downloadable Docs, Sheets, Slides, PDFs, and more directly from chat (sundarpichai, GeminiApp).
  • Q1 business signal: Google reported Cloud +63% YoY, strong Gemini momentum, and all-time-high Search queries, an important data point for the “AI monetization” thesis (sundarpichai).
  • Deep technical long-form: Dwarkesh’s chalkboard session with Reiner Pope on inferring training/serving strategies from prices, equations, and systems constraints (dwarkesh_sp).

AI Reddit Recap

/r/LocalLlama + /r/localLLM Recap

1. Mistral Medium 3.5 Model Launch and Features

  • mistralai/Mistral-Medium-3.5-128B · Hugging Face (Activity: 921): Mistral Medium 3.5 is a dense 128B parameter model with a 256k context window, designed for instruction-following, reasoning, and coding tasks. It features configurable reasoning effort, multimodal input capabilities, and strong performance across various benchmarks, surpassing previous models like Devstral. The model is open-sourced under a Modified MIT License and supports multiple languages and system prompts. For optimal performance, it is recommended to use the vLLM library for inference. More details can be found here. One commenter is testing the model on a Strix Halo with a q4 quantization, reporting token generation speeds and expressing interest in the model's dense architecture. Another comment highlights the model's niche as a dense 128B parameter model, comparing it to Qwen 27B.

IvGranite shared performance metrics for the Mistral-Medium-3.5-128B model using a q4 quantization on a Strix Halo setup. The results showed a generation speed of 46.70 tokens per second and a prompt processing speed of 3.26 tokens per second, with a total duration of 4.84 seconds for one of the tests. This indicates a relatively high throughput for a dense model of this size.

Grumd and reto-wyss discussed the niche of dense models, with grumd noting the uniqueness of a 1

この記事をシェア

関連記事

Smol AI News重要度42026年5月1日 14:44

本日は特に目立った出来事なし

Smol AI News重要度42026年4月30日 14:44

本日は特に目立った出来事なし

AWS Machine Learning Blog重要度42026年6月26日 02:55

再構築ではなく改修:レガシーエンタープライズサービスを変革するエージェント型オーバーレイ

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む