シリコンバレー、サービス事業に本腰:Anthropic と OpenAI が新会社を設立
Anthropic と OpenAI がそれぞれ巨大な資金調達と合弁会社設立を発表し、AI モデル開発から実装・運用支援へ事業モデルの転換を加速させている。
キーポイント
大手 AI ラボのサービス化戦略
Anthropic が Blackstone 等と 15 億ドル、OpenAI が TPG 等と 40 億ドルを調達し、それぞれ「Applied AI」や「The Deployment Company」というサービス会社を設立。
知識労働へのエージェント展開
コーディング領域を超え、IT システムの近代化やワークフロー変革など、企業現場での AI エージェント実装に伴う「最後の 1 マイル」の課題解決に注力。
私募ファンド(PE)との連携強化
資金調達先が Blackstone, Goldman Sachs, TPG, Bain Capital などの主要な私募ファンドであり、AI 技術の実用化と収益化を金融資本の力で加速させる動き。
GPT-5.5 Instant の展開と機能強化
OpenAI は GPT-5.5 Instant をチャットおよび API のデフォルトとして導入し、事実性や画像理解能力を大幅に向上させました。また、保存されたメモリや Gmail 連携などによるパーソナライゼーション機能を追加し、ユーザーは回答の根拠となるコンテキストを確認できるようになりました。
エージェント開発におけるハッシュとモデルの重要性
単なるモデル性能だけでなく、「モデル・ハッシュ・タスク」の適合性がエージェントのパフォーマンスを決定する主要な要因として浮上しています。製品化されたエージェントは、指示やツール、コンテキストの構成といったハッシュ側の設計に大きく依存していることが強調されました。
コーディングエージェント UX の競争と多様化
Droid、Hermes、Codex CLI など複数のコーディングアシスタント間で性能やコストにおいて明確な優劣が示されており、市場は特定の勝者を決めかねている状態です。特に Codex はダウンロード数で Claude Code を上回るなど、商用面での動向に注目が集まっています。
ProgramBench の厳格な評価基準
Meta が公開した ProgramBench は、ゼロから完全なリポジトリを生成する能力を問うベンチマークで、トップモデルの正確率は 0% に留まった。これは部分的な実装でも平均点を稼げるため、完全な動作が必須という厳格な評価基準による結果である。
影響分析・編集コメントを表示
影響分析
このニュースは、AI 業界が単なるモデル競争から、実社会での大規模展開と収益化フェーズへ移行したことを示す重要な転換点です。大手ラボがサービス会社を設立し私募ファンドと組むことで、技術の普及速度が加速すると同時に、システムインテグレーターやコンサルティング市場にも新たな機会と競合関係が生まれるでしょう。
編集コメント
AI ラボが「開発者」から「実装パートナー」へと役割を拡張する明確な兆候であり、今後は技術力だけでなく、顧客業務への統合能力が企業の存続を分ける鍵となるでしょう。
モデルラボが最終マイルの収益獲得と差別化されたデータ・マネタイズを追求するためにエージェントラボを追加する仕組み、コーディングエージェントがコンテナ制約を突破して今年残りの知識労働をどう追求するかについて個別に記事を書きました。この2つのテーマは今週、Anthropic と OpenAI が両社ともサービス会社を発表することで統合されました。
Blackstone、Hellman & Friedman、Goldman Sachs との Anthropic の未公開合弁企業は、主要参加者からそれぞれ3億ドルずつ拠出された15億ドルで資金調達されています。「典型的なエンゲージメントでは、小規模チームが顧客と密接に連携し、Claude が最大のインパクトを発揮できる領域を特定することから始まります。その後、同社のエンジニアが Anthropic の応用 AI スタッフと共に、各組織の運用に合わせてカスタマイズされた Claude 搭載システムを開発します。」
TPG、Brookfield Asset Management、Advent、Bain Capital など19件の投資家による支援を受けた OpenAI の「The Deployment Company」は、現在までに約40億ドルを調達し、事前評価額は100億ドルとなっています。「マイクロソフトの支援を受ける OpenAI は先月、最高経営責任者(COO)である Brad Lightcap が新しい役割に移り、特別プロジェクトを率いて CEO の Sam Altman に直接報告すると発表しました。Lightcap は、プライベート・エクイティ企業との合弁を通じて企業がソフトウェアを購入する OpenAI の取り組みを監督します。」
中心のサービスに注力していますが、両社とも長期間にわたり他の垂直分野向けサービスの推進を行っており、Anthropic は本日ニューヨークで金融サービスイベントを開催し、極めて豪華なゲストリストを披露しました。これにより、金融が Anthropic の収益部門において第 2 位であることを示しています。
今日システムインテグレーション(System Integration)のためのシリーズ A ラウンド資金調達を行った Tessera などの他のスタートアップも、より少額の資金で競争を試みるでしょう。
2026 年 5 月 4 日〜5 日の AI ニュース。12 のサブレッド、544 件の Twitter を確認し、Discord は追加情報なしでした。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space の一部となっています。メール配信頻度のオプトイン・オプトアウトが可能です!
AI Twitter リキャップ
OpenAI の GPT-5.5 Instant、パーソナライゼーションの展開、および音声/エージェント基盤に関するアップデート
GPT-5.5 Instant が ChatGPT の新しいデフォルトに:OpenAI は GPT-5.5 Instant を「gpt-5.5-chat-latest」として ChatGPT および API に展開し、事実性、ベースラインの知能、画像理解、トーンにおいて広範なアップグレードとして位置づけました。今回のリリースには、より強力なパーソナライズ機能も含まれており、ChatGPT は保存された記憶、過去のチャット、ファイル、接続された Gmail を利用できるようになりました。また、「記憶ソース」を公開することで、ユーザーがどの文脈が回答に影響したかを確認できるようにしています。詳細は @OpenAI のメインリリーススレッド、展開の詳細は @OpenAI、製品に関するコメントは @michpokrass、反応は @ericmitchellai および @sama を参照してください。
OpenAI はまた、リアルタイム製品に関するインフラの詳細も公開しました:@OpenAIDevs は、ChatGPT の音声および Realtime API(リアルタイム API)のために WebRTC スタックを再構築する際、レイテンシを削減し会話を発話速度で維持するために、薄いリレーとステートフルなトランスシーバを使用するという書き起こしを共有しました。これは、@kimmonismus および @sama によって指摘された、差し迫った音声刷新のより広範なシグナルに合致するものです。
開発者向けの OpenAI エージェントツールは拡大を続けています:@OpenAIDevs は TypeScript 用の Agents SDK(エージェント SDK)を発表し、サンドボックス型エージェントとオープンソースのハーンセスを含んでいます。一方、OpenAI は Codex UX および自動化の推進を続け、@reach_vb が注目したタスク進行 UI や、@reach_vb で低摩擦な承認を実現する Auto Review などが含まれます。コミュニティの反応では、5.5 モデルは @sama および @sama の指摘通り、トークン予算が大きいコーディングおよび非コーディングワークフローにおいて特に強力であるとの見方が示されています。
コーディングエージェント、ハーンセス設計、ベンチマーク圧力
品質の確保が第一級の差別化要因となりつつある:一日を通じて繰り返されたテーマは、モデルの質だけではエージェントのパフォーマンスを説明できなくなったという点である。@Vtrivedy10 は、ネイティブポストトレーニングハルネス、オープンハルネス、「AGI 的」なモデル汎化に関する互換性のない仮定が混在しているとし、実用的な教訓として、抽象的なベンチマークの物語よりも「モデル–ハルネス–タスク」の適合性が重要であると主張した。@Vtrivedy10 の補足投稿では、ベースモデルや最小限のラップを施したモデルに直接対話させることで、製品化されたエージェントが指示、ツール、コンテキストパッキング、測定ループにどれほど依存しているかが明確になると強調された。@sydneyrunkle は LangChain による長時間実行型ハルネスの「解剖学」に関する投稿を紹介し、@masondrxy は ACP スタイルの分離を提唱して、基盤となるハルネスを変更せずに CLI/TUI/GUI/IDE フロントエンドを交換できるようにするべきだと論じた。
エージェントコーディング UX が分断しており、勝者について実質的な対立がある:エージェントシェルやコーディングアシスタントに関する複数の事例比較があった。@0xSero は Droid を Pi、Amp、OpenCode、Codex CLI より上位と評価した。@teortaxesTex は、Hermes が現在、成功率、速度、コストの面で deepseek-tui や OpenCode に勝っており、フォローアップ比較でキャッシュヒットの詳細も追加したと述べた。商用側では、@kimmonismus が TickerTrends のデータを引用し、4 月下旬のリリース以降 Codex が Claude Code をダウンロード数で上回ったと主張したが、@TheEthanDing や @finbarrtimbers など複数の開発者が、Claude Code の有用性は昨秋と比較して相対的に横ばいであると感じていると報告した。
新しいコーディングベンチマーク:ProgramBench が示す「ゼロから全リポジトリ生成」の現状
Meta の研究者らが ProgramBench を発表しました。これは、SQLite、FFmpeg、PHP コンパイラといった大規模なソフトウェアアーティファクトを、実行可能仕様書のみから、初期コードやインターネット接続なしで生成することを求める 200 タスクからなるベンチマークです。@jyangballin はこれをエンドツーエンドのリポジトリ生成テストとして紹介し、@OfirPress は主要結果を率直に「最高精度は 0%」と要約しました。議論はすぐに、この主要指標が厳しすぎないかという点に集中しました。@scaling01 は、モデルはタスクごとに平均して 50% 以上のテストに合格できると指摘しましたが、@OfirPress は部分的な実装で平均合格率を操作できる可能性があるため、全テスト合格基準が必要だと反論しました。
実践的なコーディング自動化は継続的に CI(継続的インテグレーション)やセキュリティ領域へ拡大しています。@cursor_ai は GitHub を監視し、CI 失敗を自動的に修正するエージェントをリリースしました。また@cognition は Devin for Security を導入し、企業規模での脆弱性自動修復の実現を主張するとともに、公開前に @cognition の環境内で悪意のある axios リリースを検知した例を示しました。
推論、システム、および効率性:Gemma 4 ドラフター、SGLang/RadixArk、プロバイダー経済学
Gemma 4 がオープンスタック全体にマルチトークン予測ドラフターを導入:Google は Gemma 4 MTP ドラフターをリリースし、品質の低下なしで最大 3 倍の高速デコーディングを実現すると発表しました。この発表は @googlegemma、@googledevs、および @osanseviero、@mervenoyann、@_philschmid によるエコシステム投稿を通じて行われました。重要な技術的詳細は、これがスペキュレティブなスタイルのデコーディングをオープンツールリングに統合したものであり、Transformers、vLLM、MLX、SGLang、Ollama、AI Edge において Day-0 またはそれに準ずるサポートが提供されている点です。@vllm_project は特に、vLLM 上の Gemma 4 に対応した Docker イメージの準備完了を発表しました。
RadixArk が SGLang と Miles を軸に大規模なシードラウンドを調達:インフラ分野における大きな資金調達のひとつとして、SGLang インフェレンススタックと大規模 RL/ポストトレーニング用の Miles を基盤とした RadixArk の 1 億ドルのシードラウンドが挙げられます。@BanghuaZ は同社を、インフェレンス、トレーニング、RL、オーケストレーション、カーネル、マルチハードウェアシステムにまたがる企業として位置づけました。@Arpan_Shah_ と @GenAI_is_real は、先端的なインフラストラクチャをオープンかつ本番環境対応のものとし、各チームがスケジューリング、KV キャッシュ管理、ロールアウトシステムなどをゼロから再構築する必要がないようにすることを目指していると強調しました。コミュニティからの支持には @ibab と @multiply_matrix の名前が挙がっています。
推論経済は現在、プロバイダーごとに大きく異なります:@ArtificialAnlys は MiniMax-M2.7 を 6 つのプロバイダーで比較し、トークン/秒あたりの速度、キャッシュ割引率、およびブレンドコストに大きな差があることを発見しました。SambaNova が 435 トークン/秒の出力速度で生来のスピードをリードしましたが、Fireworks は多くのワークロードにおいて速度と価格のフロンティアでより強力な印象を与えました。一方、@teortaxesTex は、キャッシュヒット率が一部のエージェントワークロードにおけるコストを支配することを指摘し、キャッシュ最適化を「V4 におけるコスト削減の主要軸」と呼びました。
コールドスタートと分散トレーニングは依然としてシステム上のボトルネックとなっています:@kamilsindi は、モデルのコールドスタートを 60 倍短縮する(数分から数秒へ)システムの事例を紹介しました。これはクラウドストレージからではなく、既に重みを持つ GPU から重みを直接サーブすることで実現しています。トレーニング側では、@dl_weekly が Google DeepMind の Decoupled DiLoCo を紹介し、大規模スケールにおいて標準的なデータ並列処理の 27% に対し 88% のグッドプットを達成し、かつデータセンター間の帯域幅を約 240 倍削減したと報じられています。
エージェント、強化学習(RL)環境、観測可能性、および長期ホライズンの研究
RL インフラは「単一の生成+報酬」から、長時間実行されるアクションシステムへと移行しています:@adithya_s_k は LLM エラにおける RL 環境フレームワークを比較するガイドを発表し、数千の環境にスケーリングできる機能に焦点を当てました。@ZhihuFrontier による詳細な調査では、従来の RLVR とエージェント型 RL を対比させ、Forge、ROLL、Slime、Seer などのシステムを挙げるとともに、TITO 一貫性、ロールアウトレイテンシ、プレフィックスツリーマージ、グローバル KV キャッシュといった recurring な課題について言及しています。
長期ホライズンの失敗は、単なる容量の問題ではなく、ホライズン問題として捉えられることが増えています:@dair_ai は、目標のホライズン自体がトレーニングのボトルネックとなり得ると主張する Microsoft Research の論文を要約し、マクロアクションやホライズン削減がトレーニングの安定化と長期ホライズンの一般化の向上に寄与すると指摘しました。これは、現在のベンチマークや公開評価が真の長期ホライズンの行動を依然として過小評価しているという広範な不満とも響き合います。
観測可能性(Observability)は、フィードバック駆動型の改善ループへと成熟しています:@hwchase17 と @LangChain は、トレースだけでは不十分であり、直接・間接的または生成されたフィードバックを付与して観測可能性を学習システムとすることが重要だと主張しました。@benhylak は、悪意のあるエージェントの行動を発見・調査するための専用エージェントである Raindrop Triage を立ち上げました。@Vtrivedy10 は、この実践的なループを明確に提示しました:データの収集 → エラーのマイニング → どのコンポーネントが失敗したかの特定 → 修正の適用 → テスト → 繰り返し。
エンタープライズ向け垂直統合:金融、法務、およびプロアクティブなアシスタント
Anthropic と Perplexity はともに財務ワークフローに積極的に参入しました。Anthropic は、ピッチ作成、バリュエーションレビュー、KYC スクリーニング、月末クローズなどの業務向けに金融サービスエージェントテンプレートをリリースし、FactSet、S&P Global、Morningstar といったプロバイダーとの統合を @claudeai を通じて実現し、@kimmonismus が要約しました。Perplexity は、ライセンスされたデータと反復的な分析作業向けの 35 の専用ワークフローを導入した「Perplexity Computer for Professional Finance」を発表し、これは @perplexity_ai と @AravSrinivas によって発表されました。両社の発表は、汎用コパイロットからワークフローパッケージ化された垂直市場製品へと明確にシフトしていることを示しています。
Perplexity はまた、医療・専門的健康情報源への展開も拡大しました。@perplexity_ai は NEJM、BMJ、およびその他の医学雑誌やデータベースへのプレミアムアクセスを発表し、「信頼できる臨床情報源に基づく深遠かつ広範な研究」を可能にしました。@AravSrinivas はこれを、ヘルスケアグレードの情報検索のための製品として位置づけました。
能動的アシスタントの表示画面が新たな製品カテゴリとなっています。@kimmonismus は、Gmail、Slack、GitHub、カレンダー、Drive、Figma からのデータを明示的なプロンプトなしに統合する能動的アシスタント「Anthropic Orbit」に関するリーク情報を報告しました。また、@ManusAI によると、Manus も必要に応じて文脈に基づいて推奨コネクタを追加し、コンテキスト内で提案される機能を備えています。
エンゲージメント上位のツイート
Anthropic の財務テンプレート発表は過剰な注目を集めました:@claudeai は金融サービス向けにすぐに実行可能な Claude エージェントテンプレートを発表し、22.9K のエンゲージメントを記録しました。これは、技術的・AI 製品関連の投稿群の中で最も大きなものの一つです。
OpenAI の GPT-5.5 Instant の発売が議論を支配しました:@OpenAI による主要なロールアウトスレッドは 8.2K を超えるエンゲージメントを記録し、それに続くパーソナライゼーションの詳細についても強い反響がありました。
Gemma 4 の高速化は、主要なオープンモデルシステムアップデートとして着地しました:@googledevs が 3 倍高速化した Gemma 4 を発表し、@googlegemma も突破を果たしました。これは、品質を維持した推論(inference)の改善に対する強い関心を反映しています。
Perplexity の財務分野での発売も広く共感を呼びました:@perplexity_ai は 2.5K のエンゲージメントに達し、ライセンス済みデータワークフロー製品が、単なるニッチな企業向けパッケージではなく、戦略的に重要であると見なされるようになったことを示唆しています。
AI Reddit レビュー
/r/LocalLlama + /r/localLLM レビュー
- Gemma 4 MTP と llama.cpp の推測的デコーディング
Gemma 4 MTP リリース(活動:11/16): Google は、Gemma 4 のためのマルチトークン予測(MTP: Multi-Token Prediction)ドラフターチェックポイントをリリースしました。Hugging Face のモデルカードには、gemma-4-31B-it-assistant、gemma-4-26B-A4B-it-assistant、gemma-4-E4B-it-assistant、および gemma-4-E2B-it-assistant が含まれており、これらは Google のブログ記事で説明されています。MTP 設定では、推測的デコーディング(speculative decoding)のためにより小さく高速なドラフトモデルが追加され、複数のドラフトトークンが提案された後、ターゲットモデルによって並列に検証されます。これにより、標準的な生成と比較して出力品質を維持しつつ、「最大 2 倍」のデコーディング速度向上を実現すると主張されています。あるコメントでは、E2B ドラフターはわずか 78M パラメータであると指摘されています。また、技術系のコメント投稿者は、Gemma 4 の MTP/推測的デコーディングに関する更新された視覚的な解説を共有しました:Maarten Grootendorst のガイド。
あるコメント投稿者が、マルチトークン予測(MTP)と Gemma 4 を説明する技術的な視覚ガイドへのリンクを投稿しました。これには実装スニペットや図表が含まれており、Maarten Grootendorst のガイドです。これは、Gemma の MTP スタイルのデコーディング/ドラフティングがどのように機能するかを理解するための、このスレッドにおける主要な実質的なリソースです。
指摘された技術的な詳細の一つとして、E2B モデルには 78M のドラフトモデルが含まれており、推測的またはマルチトークンドラフティングに使用される比較的小さな補助モデルであることを示唆しています。このコメントは、ドラフトモデルのサイズが非常にコンパクトである点を強調しており、これは MTP スタイルの推論におけるレイテンシとスループットのトレードオフにおいて重要な要素です。
Llama.cpp の MTP サポートがベータ版に! (アクティビティ:1103): llama.cpp は PR #22673 を通じて、ベータ版の MTP(Multi-Token Prediction: 複数トークン予測)サポートを実装しました。当初は Qwen3.x の MTP モデルを対象としており、MTP コンポーネントを同じ GGUF ファイルから別モデルとして読み込みます。これは別の GGUF アーティファクトではなく、独自のコンテキスト/KV キャッシュを持つものです。この PR では、隠れ特徴量を ubatch 間で正しく伝播させるために post-ubatch MTP 消費が追加され、部分 seq_rm サポートに依存する小規模な推測デコーディングパスも実装されました。報告された Qwen3.6 27B / 35B-A3B のテストでは、ドラフトトークン 3 個で約 75% の定常状態での受容率を達成し、通常はベースラインに対してトークン生成スループットが 2 倍以上向上しました。コメント投稿者たちはこれを、おそらく llama.cpp 史上最大の性能改善の一つと捉えており、特に密結合モデルにおいて顕著です。また、テンソル並列処理とともに vLLM とのトークン生成速度の差を縮小できると期待されています。推測デコーディング手法(MTP、EAGLE-3、DFlash、DTree、n-gram)に関する技術比較への要望もあり、ドラフトモデルの要件、コンテキストの再利用性、およびモデルの適合性について網羅的な議論が求められています。
コメント投稿者たちは、MTP/複数トークン予測を、特に密結合モデルにおいて llama.cpp のスループット向上に大きく寄与する可能性があると位置づけつつ、MoE(Mixture of Experts: 専門家混合)アーキテクチャではその恩恵は限定的になると考えています。他の推測デコーディング手法(EAGLE-3、DFlash、DTree、ngram など)との比較に関心が高く、特に別個のドラフトモデルを必要とするかどうかや、既存のコンテキストをどの程度効果的に再利用できるかという点に焦点が当てられています。
あるテスターは、llama.cpp のベータ版における MTP サポートについて、ローカルでの迅速なテストでは「現在の ik_llama.cpp 実装よりもはるかに高速である」と報告しました。彼らは、am17an 氏の Q8_0 モデルから MTP レイヤーを抽出し、既存の Qwen 3.6 27B GGUF に注入する GGUF サージery スクリプトへのリンクを投稿しており、これは Bartowski 氏による Q6_K 量子化とも動作している reportedly です。
原文を表示
We’ve written separately about 1) how model labs will tack on an agent lab to pursue last mile revenue and differentiated data/monetization, 2) how coding agents breaking containment will pursue the rest of knowledge work this year, and both themes unite this week with both Anthropic and OpenAI announcing services companies:
Anthropic’s unnamed JV with Blackstone, Hellman & Friedman, and Goldman Sachs - funded with $1.5B ($300m each from main participants) “A typical engagement starts with a small team working closely with the customer to understand where Claude can have the biggest impact. From there, the company’s engineers—alongside Anthropic Applied AI staff—will develop Claude-powered systems tailored to each organization’s operations.”
OpenAI’s The Deployment Company, backed by 19 investors, including TPG, Brookfield Asset Management, Advent, and Bain Capital - raised about $4B so far at a $10B premoney valuation: “Microsoft-backed OpenAI last month said that its chief operating officer, Brad Lightcap, will shift into a new role and lead special projects while reporting directly to CEO Sam Altman. Lightcap would oversee OpenAI’s push to sell software to businesses through a joint venture with a private equity firm.”

As Aaron Levie says,
“As agents enter knowledge work beyond coding, there is very real work to upgrade IT systems, get agents the context they need, modernize the workflows to work with agents, figure out the human-agent relationship in the workflow, drive adoption and do change management, and much more.
While AI models have an incredible amount of capability packed into them, there’s no shortcut to getting that intelligence applied to a business process in a stable way. This is creating tons of opportunities across the market for new jobs and firms, and the labs are equally recognizing the criticality here.”
While these companies are likely more PE focused services, both companies have been pushing other vertical services initiatives for a while, and Anthropic held a Financial Services event in New York today with an extremely stacked guest list, noting that Finance is Anthropic’s second highest revenue segment:
Other startups, like Tessera raising a Series A for System Integration today, will try to compete, with a fraction of the funding.
AI News for 5/4/2026-5/5/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
OpenAI’s GPT-5.5 Instant, personalization rollout, and voice/agent infrastructure updates
GPT-5.5 Instant becomes ChatGPT’s new default: OpenAI rolled out GPT-5.5 Instant to ChatGPT and the API as gpt-5.5-chat-latest, positioning it as a broad upgrade in factuality, baseline intelligence, image understanding, and tone. The launch also bundled stronger personalization: ChatGPT can now use saved memories, past chats, files, and connected Gmail, while exposing “memory sources” so users can see what context influenced a reply. See the main launch thread from @OpenAI, rollout details from @OpenAI, product commentary from @michpokrass, and reactions from @ericmitchellai and @sama.
OpenAI also published more infra detail around real-time products: @OpenAIDevs shared a writeup on rebuilding the WebRTC stack for ChatGPT voice and the Realtime API using a thin relay plus a stateful transceiver to reduce latency and keep conversations at speech pace. This fits the broader signal around an imminent voice refresh, noted by @kimmonismus and @sama.
Developer-side OpenAI agent tooling keeps expanding: @OpenAIDevs announced the Agents SDK for TypeScript, including sandbox agents and an open-source harness. Separately, OpenAI continued pushing Codex UX and automation, including task progress UI highlighted by @reach_vb and Auto Review for lower-friction approvals in @reach_vb. Community sentiment suggests 5.5 is especially strong for high-token-budget coding and non-coding workflows, per @sama and @sama.
Coding agents, harness design, and benchmark pressure
Harness quality is becoming a first-class differentiator: A recurring theme across the day was that model quality alone no longer explains agent performance. @Vtrivedy10 argued the field is mixing incompatible assumptions about native post-trained harnesses, open harnesses, and “AGI-like” model generalization; the practical takeaway is that Model–Harness–Task fit matters more than abstract benchmark narratives. A complementary post from @Vtrivedy10 emphasized that talking to base or minimally wrapped models makes clear how much productized agents depend on instructions, tools, context packing, and measurement loops. @sydneyrunkle pointed to a LangChain post on the “anatomy” of long-running harnesses, while @masondrxy argued for ACP-style decoupling so teams can swap CLI/TUI/GUI/IDE frontends without changing the underlying harness.
Agent coding UX is fragmenting, with real disagreement on winners: There were multiple anecdotal comparisons of agent shells and coding assistants. @0xSero ranked Droid above Pi, Amp, OpenCode, and Codex CLI. @teortaxesTex said Hermes currently beats deepseek-tui and OpenCode on success rate, speed, and cost, adding cache-hit details in a follow-up comparison. On the commercial side, @kimmonismus cited TickerTrends data claiming Codex surpassed Claude Code in downloads after late-April releases, while several developers reported that Claude Code utility feels relatively flat versus last fall, e.g. @TheEthanDing and @finbarrtimbers.
New coding benchmark: ProgramBench shows how far “whole-repo from scratch” still is: Meta researchers introduced ProgramBench, a 200-task benchmark asking models to generate substantial software artifacts like SQLite, FFmpeg, and a PHP compiler from an executable spec and without starter code or internet access. @jyangballin presented it as an end-to-end repo generation test; @OfirPress summarized the headline result bluntly: top accuracy is 0%. Discussion quickly focused on whether the headline metric is too harsh: @scaling01 noted models can still pass >50% of tests per task on average, while @OfirPress defended the all-tests criterion as necessary because partial implementations can game average-pass metrics.
Practical coding automation keeps moving into CI/security: @cursor_ai launched agents that monitor GitHub and automatically fix CI failures. @cognition introduced Devin for Security, including claims of automated vuln remediation at enterprise scale and an example where Devin Review flagged a malicious axios release before public disclosure in @cognition.
Inference, systems, and efficiency: Gemma 4 drafters, SGLang/RadixArk, and provider economics
Gemma 4 gets multi-token prediction drafters across the open stack: Google released Gemma 4 MTP drafters, promising up to 3× faster decoding with no quality degradation. The launch came through @googlegemma, @googledevs, and ecosystem posts from @osanseviero, @mervenoyann, and @_philschmid. The key engineering detail is that this is speculative-style decoding integrated into open tooling, with day-0 or near-day-0 support in Transformers, vLLM, MLX, SGLang, Ollama, and AI Edge. @vllm_project specifically announced a ready Docker image for Gemma 4 on vLLM.
RadixArk raises a massive seed around SGLang + Miles: One of the bigger infra financings was RadixArk’s $100M seed, built around the SGLang inference stack and Miles for large-scale RL/post-training. @BanghuaZ framed the company as spanning inference, training, RL, orchestration, kernels, and multi-hardware systems; @Arpan_Shah_ and @GenAI_is_real emphasized the goal of making frontier-grade infrastructure open and production-grade, rather than forcing every team to rebuild scheduling, KV-cache management, and rollout systems from scratch. Community endorsements came from @ibab and @multiply_matrix.
Inference economics are now highly provider-specific: @ArtificialAnlys compared MiniMax-M2.7 across six providers and found major differences in tokens/sec, cache discounting, and blended cost. SambaNova led raw speed at 435 output tok/s, while Fireworks looked stronger on the speed/price frontier for many workloads. Separately, @teortaxesTex highlighted how cache-hit rates dominate cost on some agent workloads, calling cache optimization “the main axis of cost reduction with V4.”
Cold-start and distributed training remain active systems bottlenecks: @kamilsindi described a system that cut model cold starts 60×, from minutes to seconds, by serving weights from GPUs already holding them rather than cloud storage. On the training side, @dl_weekly highlighted Google DeepMind’s Decoupled DiLoCo, which reportedly achieved 88% goodput vs. 27% for standard data parallel at scale while using ~240× less inter-datacenter bandwidth.
Agents, RL environments, observability, and long-horizon research
RL infra is shifting from “single generation + reward” to long-running action systems: @adithya_s_k released a guide comparing RL environment frameworks for the LLM era, focusing on what scales to thousands of environments. A detailed survey by @ZhihuFrontier contrasted traditional RLVR with agentic RL, pointing to systems such as Forge, ROLL, Slime, and Seer and recurring concerns like TITO consistency, rollout latency, prefix-tree merging, and global KV caches.
Long-horizon failures are increasingly framed as horizon problems, not just capacity problems: @dair_ai summarized a Microsoft Research paper arguing that goal horizon alone can be the training bottleneck, with macro actions / horizon reduction stabilizing training and improving long-horizon generalization. This rhymes with broader frustration that current benchmarks and public evals still underweight true long-horizon behavior.
Observability is maturing into a feedback-driven improvement loop: @hwchase17 and @LangChain argued that traces alone are insufficient; the key is attaching direct, indirect, or generated feedback so observability becomes a learning system. @benhylak launched Raindrop Triage, an agent dedicated to finding and investigating bad agent behavior. @Vtrivedy10 laid out the practical loop explicitly: gather data → mine errors → localize which component failed → apply fix → test → repeat.
Enterprise verticalization: finance, legal, and proactive assistants
Anthropic and Perplexity both pushed hard into finance workflows: Anthropic launched financial-services agent templates for work such as pitch generation, valuation review, KYC screening, and month-end close, with integrations into providers like FactSet, S&P Global, and Morningstar, via @claudeai and summarized by @kimmonismus. Perplexity announced Perplexity Computer for Professional Finance, bringing in licensed data and 35 dedicated workflows for repeat analyst work, in @perplexity_ai and @AravSrinivas. Both launches reflect a clearer move from generic copilots to workflow-packaged vertical products.
Perplexity also expanded into medical/professional health sources: @perplexity_ai announced premium access to NEJM, BMJ, and additional medical journals/databases, enabling “deep and wide research” on trusted clinical sources; @AravSrinivas framed this as a product for healthcare-grade information retrieval.
Proactive assistant surfaces are becoming a product category: @kimmonismus reported a leak around Anthropic Orbit, described as a proactive assistant that synthesizes data from Gmail, Slack, GitHub, Calendar, Drive, and Figma without explicit prompting. Manus also added recommended connectors that are suggested in context when needed, per @ManusAI.
Top tweets (by engagement)
Anthropic’s finance template launch drew outsized attention: @claudeai announced ready-to-run Claude agent templates for financial services with 22.9K engagement, one of the biggest clearly technical/AI-product posts in the set.
OpenAI’s GPT-5.5 Instant launch dominated discussion: the main rollout thread from @OpenAI exceeded 8.2K engagement, with follow-on personalization details also performing strongly.
Gemma 4 speedups landed as a major open-model systems update: @googledevs on 3× faster Gemma 4 and @googlegemma both broke through, reflecting strong interest in inference improvements that preserve quality.
Perplexity’s finance launch also resonated broadly: @perplexity_ai reached 2.5K engagement, suggesting that licensed-data workflow products are now seen as strategically important, not just niche enterprise packaging.
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
- Gemma 4 MTP and llama.cpp Speculative Decoding
Gemma 4 MTP released (Activity: 1116): Google released Multi-Token Prediction (MTP) drafter checkpoints for Gemma 4, with Hugging Face model cards for gemma-4-31B-it-assistant, gemma-4-26B-A4B-it-assistant, gemma-4-E4B-it-assistant, and gemma-4-E2B-it-assistant, described in Google’s blog post. The MTP setup adds a smaller/faster draft model for speculative decoding, where several draft tokens are proposed and then verified in parallel by the target model, claiming “up to 2x” decoding speedups while preserving identical output quality versus standard generation; one commenter notes the E2B drafter is only 78M parameters. A technical commenter also shared an updated visual explainer of MTP/speculative decoding for Gemma 4: Maarten Grootendorst’s guide.
A commenter linked a technical visual guide explaining multi-token prediction (MTP) with Gemma 4, including implementation snippets and diagrams: Maarten Grootendorst’s guide. This is the main substantive resource in the thread for understanding how Gemma’s MTP-style decoding/drafting works.
One technical detail noted is that the E2B model includes a 78M draft model, implying a relatively small auxiliary model used for speculative or multi-token drafting. The comment highlights the draft model size as unusually compact, which is relevant for latency/throughput tradeoffs in MTP-style inference.
Llama.cpp MTP support now in beta! (Activity: 1103): llama.cpp has beta MTP (Multi-Token Prediction) support via PR #22673, initially targeting Qwen3.x MTP models and loading the MTP component as a separate model from the same GGUF, with its own context/KV cache rather than a separate GGUF artifact. The PR adds post-ubatch MTP consumption to propagate hidden features correctly across ubatches and a small speculative decoding path depending on partial seq_rm support; reported Qwen3.6 27B / 35B-A3B tests show ~75% steady-state acceptance with 3 draft tokens and usually >2× token-generation throughput over baseline. Commenters view this as potentially one of the largest llama.cpp performance improvements to date, especially for dense models, and expect it to narrow token-generation speed gaps with vLLM alongside tensor parallelism. There is demand for a technical comparison of speculative decoding methods—MTP, EAGLE-3, DFlash, DTree, n-gram—covering draft-model requirements, context reuse, and model suitability.
Commenters frame MTP / multi-token prediction as potentially a major llama.cpp throughput improvement, especially for dense models, while expecting less benefit for MoE architectures. There is interest in comparing it against other speculative decoding approaches such as EAGLE-3, DFlash, DTree, and ngram, particularly around whether they require separate draft models and how well they reuse existing context.
One tester reported llama.cpp’s beta MTP support is “way faster than ik_llama.cpp implementation currently” in quick local testing. They linked a GGUF surgery script that extracts the MTP layer from am17an’s Q8_0 model and injects it into an existing Qwen 3.6 27B GGUF: gist.github.com/buzz/1c439684d5e3f36492ae9f64ef7e3f67, reportedly working with Bartowski’s Q6_K quantization.
Read more
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み