AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Smol AI News·2026年5月4日 14:44·約14分

本日は特に目立った出来事なし

#LLM#OpenAI#GPT-5.5#エージェント#音声 AI
TL;DR

OpenAI が GPT-5.5 Instant を新デフォルトモデルとして導入し、パーソナライゼーション機能や音声インフラの刷新、そして TypeScript 用エージェント SDK の公開など、製品と開発者体験にわたる大規模なアップデートを発表した。

AI深層分析2026年5月6日 15:02
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

GPT-5.5 Instant の新デフォルト化と機能強化

OpenAI が GPT-5.5 Instant を ChatGPT と API の新デフォルトモデル(gpt-5.5-chat-latest)としてロールアウトし、事実性、基本知能、画像理解、トーンが大幅に向上した。

2

高度なパーソナライゼーションと記憶機能の統合

保存されたメモリ、過去のチャット、ファイル、Gmail 連携を活用し、回答に影響を与える「メモリのソース」をユーザーに提示する機能が実装された。

3

音声・リアルタイム API のインフラ刷新

WebRTC スタックの再構築により、スリムなリレーとステートフルトランスシーバを採用して遅延を削減し、会話速度に合わせたリアルタイム性を確保した。

4

開発者向けエージェント SDK とツールの拡充

TypeScript 向けの Agents SDK が公開され、サンドボックス環境やオープンソースハッチスが含まれ、Codex の UX や自動化機能も強化された。

影響分析・編集コメントを表示

影響分析

今回のアップデートは、AI モデルを単なる情報検索ツールから、ユーザーの履歴や文脈を深く理解する「パーソナル・アシスタント」へと進化させる転換点を示しています。特に音声インフラの刷新とエージェント SDK の公開は、開発者がより複雑で遅延の少ない自律型アプリケーションを構築できる基盤を整えたものであり、次世代 AI アプリケーションの開発スピードを加速させるでしょう。

編集コメント

「今日は何も起こらなかった」というタイトルとは裏腹に、モデルのデフォルト変更からインフラ基盤の刷新まで、OpenAI が生態系全体を再定義する重要な一歩を踏み出した内容です。特に「記憶ソース」の可視化は、ブラックボックス化しがちな AI の判断根拠に対する透明性向上の試みとして注目されます。

静かな一日。

2026年5月4日〜5日のAIニュース。12のサブレッド、544 の Twitter、およびさらに Discord は確認しました。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部です。メールの頻度を選択的に設定(購読または解除)することができます!

AI Twitter リキャップ

OpenAI の GPT-5.5 Instant、パーソナライゼーション展開、および音声/エージェント基盤の更新**

  • GPT-5.5 Instant が ChatGPT の新しいデフォルトに:OpenAI は GPT-5.5 Instant を ChatGPT および API に gpt-5.5-chat-latest として展開し、事実性、ベースライン知能、画像理解、トーンにおける広範なアップグレードとして位置づけました。今回のリリースにはより強力なパーソナライゼーションも含まれており、ChatGPT は保存されたメモ、過去のチャット、ファイル、接続された Gmail を使用できるようになりました。また、「メモリのソース」を公開することで、ユーザーがどの文脈が返信に影響したかを確認できるようにしています。@OpenAI による主要なリリーススレッド、@OpenAI による展開の詳細、@michpokrass による製品解説、そして @ericmitchellai と @sama からの反応をご覧ください。
  • OpenAI はまた、リアルタイム製品に関するインフラの詳細も公開しました:@OpenAIDevs は、ChatGPT の音声機能および Realtime API(リアルタイム API)の WebRTC スタックを再構築する際の書き起こしを共有しており、これはレイテンシを削減し会話を発話速度で維持するために、薄いリレーとステートフルなトランスシーバー(双方向通信器)を使用するものです。これは、@kimmonismus 氏および @sama 氏が指摘した、まもなく予定されている音声機能の刷新というより広範な兆候に合致しています。
  • デベロッパー向けの OpenAI エージェントツールも拡大を続けています:@OpenAIDevs は TypeScript 用の Agents SDK(エージェント SDK)を発表し、サンドボックス環境でのエージェントやオープンソースのハーンネス(枠組み・基盤)を含んでいます。一方、OpenAI は Codex UX(ユーザー体験)と自動化の推進を続け、@reach_vb 氏が注目したタスク進行状況を示す UI や、@reach_vb 氏による低摩擦な承認を実現する Auto Review(自動レビュー)などです。コミュニティの反応では、5.5 が特にトークン予算の高いコーディングおよび非コーディングワークフローにおいて非常に強力であるという見方が、@sama 氏らによって示されています。

コーディングエージェント、ハーンネス設計、ベンチマーク圧力

  • ハーネスの品質が第一級の差別化要因となりつつある:一日を通じて繰り返されたテーマは、モデルの質だけではエージェントのパフォーマンスを説明できなくなったという点です。@Vtrivedy10 は、ネイティブポストトレーニングハーネス、オープンハーネス、「AGI 的」なモデル汎化に関する互換性のない仮定が混在しているとし、実用的な教訓として、抽象的なベンチマークの物語よりも「モデル–ハーネス–タスク」の適合性が重要だと主張しました。@Vtrivedy10 の補足投稿では、ベースモデルや最小限のラッパーを施したモデルに直接話しかけることで、製品化されたエージェントが指示、ツール、コンテキストパッキング、測定ループにどれほど依存しているかが明確になると強調されました。@sydneyrunkle は LangChain による長時間実行型ハーネスの「解剖学」に関する投稿を紹介し、@masondrxy はチームが基盤となるハーネスを変更せずに CLI/TUI/GUI/IDE フロントエンドを交換できるようにするため、ACP スタイルのデカップリング(分離)を提唱しました。
  • エージェントコーディング UX が分断され、勝者について実質的な対立が生じている:エージェントシェルやコーディングアシスタントに関する複数の事例比較がありました。@0xSero は Droid を Pi、Amp、OpenCode、Codex CLI よりも上位と評価しました。@teortaxesTex は、Hermes が現在、成功率、速度、コストの面で deepseek-tui や OpenCode に勝っていると述べ、フォローアップ比較でキャッシュヒットの詳細を追加しました。商用側では、@kimmonismus が TickerTrends のデータを引用し、4 月下旬のリリース以降 Codex が Claude Code をダウンロード数で上回ったと主張しましたが、@TheEthanDing や @finbarrtimbers など複数の開発者が、Claude Code の有用性は昨秋と比較して相対的に横ばいだと報告しています。
  • 新しいコーディングベンチマーク:ProgramBench は「ゼロから全体リポジトリ」生成がいまだにどれほど遠い距離にあるかを示す。Meta の研究者らが ProgramBench を導入し、実行可能仕様のみを元に、初期コードやインターネットアクセスなしで SQLite、FFmpeg、PHP コンパイラといった大規模なソフトウェアアーティファクトを生成するようモデルに求める 200 タスクからなるベンチマークである。@jyangballin はこれをエンドツーエンドのリポジトリ生成テストとして紹介し、@OfirPress は主要結果を率直に要約して「最高精度は 0%」と述べた。議論はすぐにこの主要指標が厳しすぎないかという点に集中した:@scaling01 はモデルがタスクごとに平均して 50% 以上のテストに合格できる可能性があると指摘する一方、@OfirPress は部分的な実装で平均合格率を操作できるため、全テスト合格基準は必要だと反論した。
  • 実践的なコーディング自動化は CI/セキュリティ領域へ着実に進展している:@cursor_ai が GitHub を監視し CI 失敗を自動的に修正するエージェントを発表。@cognition は Devin for Security を導入し、企業規模での脆弱性自動修復の主張や、公開前に @cognition の環境内で悪意のある axios リリースを Devin Review が検出した事例を示した。

推論、システム、効率:Gemma 4 ドラフター、SGLang/RadixArk、プロバイダー経済学

  • Gemma 4 はオープンスタック全体にマルチトークン予測ドラフターを採用:Google が Gemma 4 MTP ドラフターをリリースし、品質の低下なしで最大 3 倍の高速なデコーディング(decoding)を実現すると発表しました。この発表は @googlegemma、@googledevs、および @osanseviero、@mervenoyann、@_philschmid によるエコシステム投稿を通じて行われました。重要な技術的詳細は、これがオープンツールリングに統合されたスペキュレーション型デコーディングであり、Transformers、vLLM、MLX、SGLang、Ollama、AI Edge において Day-0 またはそれに準ずるサポートが提供されている点です。@vllm_project は特に、Gemma 4 の vLLM 対応 Docker イメージの準備完了を発表しました。
  • RadixArk が SGLang と Miles を軸に大規模なシードラウンドを調達:RadixArk の 1 億ドル規模のシードラウンドは、SGLang インファレンススタックと大規模 RL(reinforcement learning)/ポストトレーニング用の Miles を中心とした、インフラ分野における大きな資金調達のひとつです。@BanghuaZ は同社を、インファレンス、トレーニング、RL、オーケストレーション、カーネル、マルチハードウェアシステムにまたがる企業として位置づけました。@Arpan_Shah_ と @GenAI_is_real は、先端的なインフラをオープンかつ本番環境対応のものとし、各チームがスケジューリング、KV キャッシュ管理、ロールアウトシステムなどをゼロから再構築する必要がないようにすることを目指していると強調しました。コミュニティからの支持には @ibab と @multiply_matrix の名前が挙がっています。
  • 推論経済性は現在、プロバイダーごとに大きく異なります:@ArtificialAnlys は MiniMax-M2.7 を 6 つのプロバイダーで比較し、トークン/秒あたりの速度、キャッシュ割引率、およびブレンドコストに大きな差があることを発見しました。SambaNova が 435 トークン/秒の出力速度で生速度をリードしましたが、Fireworks は多くのワークロードにおいて速度と価格のフロンティアでより強力な印象を与えました。一方、@teortaxesTex は、キャッシュヒット率が一部のエージェントワークロードにおけるコストを支配することを指摘し、キャッシュ最適化を「V4 におけるコスト削減の主要軸」と呼びました。
  • コールドスタートと分散トレーニングは依然としてシステム上のボトルネックとなっています:@kamilsindi は、モデルのコールドスタートを 60 倍短縮(数分から数秒へ)するシステムの事例を紹介しました。これはクラウドストレージからではなく、既に重みを持つ GPU から重みを直接サーブすることで実現しています。トレーニング側では、@dl_weekly が Google DeepMind の Decoupled DiLoCo を紹介し、大規模スケールにおいて標準的なデータ並列処理の 27% に対し 88% のグッドプットを達成し、かつデータセンター間の帯域幅を約 240 倍削減したと報じられています。

エージェント、強化学習環境、観測可能性、および長期ホライズンの研究

  • 強化学習インフラは「単一の生成+報酬」から、長時間実行されるアクションシステムへと移行しています:@adithya_s_k は LLM エラにおける RL 環境フレームワークを比較するガイドを発表し、数千の環境にスケーリングできる機能に焦点を当てました。@ZhihuFrontier による詳細な調査では、従来の RLVR とエージェント型 RL を対比させ、Forge、ROLL、Slime、Seer などのシステムを挙げるとともに、TITO 一貫性、ロールアウトレイテンシ、プレフィックスツリーマージ、グローバル KV キャッシュといった recurring な課題について言及しています。
  • Long-horizon failures are increasingly framed as horizon problems, not just capacity problems: @dair_ai summarized a Microsoft Research paper arguing that goal horizon alone can be the training bottleneck, with macro actions / horizon reduction stabilizing training and improving long-horizon generalization. This rhymes with broader frustration that current benchmarks and public evals still underweight true long-horizon behavior.
  • Observability is maturing into a feedback-driven improvement loop: @hwchase17 and @LangChain argued that traces alone are insufficient; the key is attaching direct, indirect, or generated feedback so observability becomes a learning system. @benhylak launched Raindrop Triage, an agent dedicated to finding and investigating bad agent behavior. @Vtrivedy10 laid out the practical loop explicitly: gather data → mine errors → localize which component failed → apply fix → test → repeat.

Enterprise verticalization: finance, legal, and proactive assistants

  • Anthropic と Perplexity はともに金融ワークフローに力を入れて展開しました。Anthropic は、ピッチ作成、バリュエーションレビュー、KYC スクリーニング、月末クローズなどの業務向けに金融サービスエージェントテンプレートをリリースし、FactSet、S&P Global、Morningstar といったプロバイダーとの統合を @claudeai を通じて実現し、@kimmonismus が要約しました。Perplexity は「Perplexity Computer for Professional Finance」を発表し、ライセンスされたデータと反復的なアナリスト業務向けの 35 の専用ワークフローを導入しました。これは @perplexity_ai と @AravSrinivas によって発表されました。両社の発表は、汎用コパイロットからワークフローパッケージ化された垂直市場製品へと明確にシフトしていることを示しています。
  • Perplexity はまた、医療・専門的健康情報源への展開も拡大しました。@perplexity_ai が NEJM、BMJ、およびその他の医学雑誌やデータベースへのプレミアムアクセスを発表し、「信頼できる臨床情報源に基づく深遠かつ広範な研究」を可能にしました。@AravSrinivas はこれを、ヘルスケアグレードの情報検索のための製品として位置づけました。
  • 能動的アシスタントの表示画面が新たな製品カテゴリとなっています。@kimmonismus は Anthropic Orbit に関するリーク情報を報告し、これは Gmail、Slack、GitHub、カレンダー、Drive、Figma からデータを明示的なプロンプトなしに統合する能動的アシスタントであると説明しました。また、Manus も @ManusAI によると、必要に応じて文脈に基づいて推奨コネクタを追加しました。

エンゲージメント上位のツイート

  • Anthropic の財務テンプレート発表は過剰な注目を集めました:@claudeai は金融サービス向けにすぐに実行可能な Claude エージェントテンプレートを発表し、22.9K のエンゲージメントを記録しました。これは、明確に技術的または AI プロダクト関連の投稿群の中で最も大きなものの一つです。
  • OpenAI の GPT-5.5 Instant 発表が議論を支配しました:@OpenAI による主要なロールアウトスレッドは 8.2K を超えるエンゲージメントを記録し、それに続くパーソナライゼーションの詳細に関する投稿も強く支持されました。
  • Gemma 4 の高速化は、主要なオープンモデルシステムアップデートとして着地しました:@googledevs が 3 倍速の Gemma 4 を、@googlegemma がそれぞれ発表し、品質を維持した推論(inference)改善への強い関心を反映しています。
  • Perplexity の財務分野での発表も広く共感を呼びました:@perplexity_ai は 2.5K のエンゲージメントを達成し、ライセンス済みデータを活用するワークフロー製品が、もはやニッチな企業向けパッケージングではなく戦略的に重要であると見なされていることを示唆しています。

AI Reddit Recap

/r/LocalLlama + /r/localLLM Recap

1. Gemma 4 MTP と llama.cpp の推測的デコーディング

  • Gemma 4 MTP リリース(活動:1116): Google は、Gemma 4 のための Multi-Token Prediction (MTP) ドラフターチェックポイントをリリースしました。Hugging Face のモデルカードには、gemma-4-31B-it-assistant、gemma-4-26B-A4B-it-assistant、gemma-4-E4B-it-assistant、および gemma-4-E2B-it-assistant が含まれており、これらは Google のブログ記事で説明されています。MTP 設定では、推測的デコーディングのためにより小さく高速なドラフトモデルが追加され、複数のドラフトトークンが提案された後、ターゲットモデルによって並列に検証されます。これにより、「最大 2 倍」のデコーディング速度向上を実現しつつ、標準的な生成と比較して同等の出力品質を維持できるとされています。あるコメントでは、E2B ドラフターはわずか 78M パラメータであると指摘されています。また、別の技術系のコメントでは、Gemma 4 の MTP/推測的デコーディングに関する更新された視覚的な解説が共有されました:Maarten Grootendorst のガイド。

あるコメント者が、Multi-Token Prediction (MTP) を Gemma 4 で説明する技術的なビジュアルガイドをリンクしました。これには実装スニペットや図表が含まれており、Maarten Grootendorst のガイドです。これは、Gemma の MTP スタイルのデコーディング/ドラフティングがどのように機能するかを理解するための、このスレッドにおける主要な実質的なリソースです。

  • 注目された技術的な詳細の一つとして、E2B モデルには 78M のドラフトモデルが含まれており、推測的またはマルチトークンドラフティングに使用される比較的小さな補助モデルであることが示唆されています。このコメントは、ドラフトモデルのサイズが非常にコンパクトであることを強調しており、これは MTP スタイルの推論におけるレイテンシとスループットのトレードオフにおいて重要な点です。

Llama.cpp の MTP サポートがベータ版に! (アクティビティ: 1103): llama.cpp は、PR #22673 を通じてベータ版の MTP(マルチトークン予測)サポートを提供しています。これは当初、Qwen3.x MTP モデルを対象としており、MTP コンポーネントを同じ GGUF ファイルから別モデルとして読み込みます。ただし、これは別の GGUF アーティファクトではなく、独自のコンテキスト/KV キャッシュを持つものです。この PR は、post-ubatch における MTP の消費を追加し、propaga

原文を表示

a quiet day.

AI News for 5/4/2026-5/5/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!

AI Twitter Recap

OpenAI’s GPT-5.5 Instant, personalization rollout, and voice/agent infrastructure updates

  • GPT-5.5 Instant becomes ChatGPT’s new default: OpenAI rolled out GPT-5.5 Instant to ChatGPT and the API as gpt-5.5-chat-latest, positioning it as a broad upgrade in factuality, baseline intelligence, image understanding, and tone. The launch also bundled stronger personalization: ChatGPT can now use saved memories, past chats, files, and connected Gmail, while exposing “memory sources” so users can see what context influenced a reply. See the main launch thread from @OpenAI, rollout details from @OpenAI, product commentary from @michpokrass, and reactions from @ericmitchellai and @sama.
  • OpenAI also published more infra detail around real-time products: @OpenAIDevs shared a writeup on rebuilding the WebRTC stack for ChatGPT voice and the Realtime API using a thin relay plus a stateful transceiver to reduce latency and keep conversations at speech pace. This fits the broader signal around an imminent voice refresh, noted by @kimmonismus and @sama.
  • Developer-side OpenAI agent tooling keeps expanding: @OpenAIDevs announced the Agents SDK for TypeScript, including sandbox agents and an open-source harness. Separately, OpenAI continued pushing Codex UX and automation, including task progress UI highlighted by @reach_vb and Auto Review for lower-friction approvals in @reach_vb. Community sentiment suggests 5.5 is especially strong for high-token-budget coding and non-coding workflows, per @sama and @sama.

Coding agents, harness design, and benchmark pressure

  • Harness quality is becoming a first-class differentiator: A recurring theme across the day was that model quality alone no longer explains agent performance. @Vtrivedy10 argued the field is mixing incompatible assumptions about native post-trained harnesses, open harnesses, and “AGI-like” model generalization; the practical takeaway is that Model–Harness–Task fit matters more than abstract benchmark narratives. A complementary post from @Vtrivedy10 emphasized that talking to base or minimally wrapped models makes clear how much productized agents depend on instructions, tools, context packing, and measurement loops. @sydneyrunkle pointed to a LangChain post on the “anatomy” of long-running harnesses, while @masondrxy argued for ACP-style decoupling so teams can swap CLI/TUI/GUI/IDE frontends without changing the underlying harness.
  • Agent coding UX is fragmenting, with real disagreement on winners: There were multiple anecdotal comparisons of agent shells and coding assistants. @0xSero ranked Droid above Pi, Amp, OpenCode, and Codex CLI. @teortaxesTex said Hermes currently beats deepseek-tui and OpenCode on success rate, speed, and cost, adding cache-hit details in a follow-up comparison. On the commercial side, @kimmonismus cited TickerTrends data claiming Codex surpassed Claude Code in downloads after late-April releases, while several developers reported that Claude Code utility feels relatively flat versus last fall, e.g. @TheEthanDing and @finbarrtimbers.
  • New coding benchmark: ProgramBench shows how far “whole-repo from scratch” still is: Meta researchers introduced ProgramBench, a 200-task benchmark asking models to generate substantial software artifacts like SQLite, FFmpeg, and a PHP compiler from an executable spec and without starter code or internet access. @jyangballin presented it as an end-to-end repo generation test; @OfirPress summarized the headline result bluntly: top accuracy is 0%. Discussion quickly focused on whether the headline metric is too harsh: @scaling01 noted models can still pass >50% of tests per task on average, while @OfirPress defended the all-tests criterion as necessary because partial implementations can game average-pass metrics.
  • Practical coding automation keeps moving into CI/security: @cursor_ai launched agents that monitor GitHub and automatically fix CI failures. @cognition introduced Devin for Security, including claims of automated vuln remediation at enterprise scale and an example where Devin Review flagged a malicious axios release before public disclosure in @cognition.

Inference, systems, and efficiency: Gemma 4 drafters, SGLang/RadixArk, and provider economics

  • Gemma 4 gets multi-token prediction drafters across the open stack: Google released Gemma 4 MTP drafters, promising up to 3× faster decoding with no quality degradation. The launch came through @googlegemma, @googledevs, and ecosystem posts from @osanseviero, @mervenoyann, and @_philschmid. The key engineering detail is that this is speculative-style decoding integrated into open tooling, with day-0 or near-day-0 support in Transformers, vLLM, MLX, SGLang, Ollama, and AI Edge. @vllm_project specifically announced a ready Docker image for Gemma 4 on vLLM.
  • RadixArk raises a massive seed around SGLang + Miles: One of the bigger infra financings was RadixArk’s $100M seed, built around the SGLang inference stack and Miles for large-scale RL/post-training. @BanghuaZ framed the company as spanning inference, training, RL, orchestration, kernels, and multi-hardware systems; @Arpan_Shah_ and @GenAI_is_real emphasized the goal of making frontier-grade infrastructure open and production-grade, rather than forcing every team to rebuild scheduling, KV-cache management, and rollout systems from scratch. Community endorsements came from @ibab and @multiply_matrix.
  • Inference economics are now highly provider-specific: @ArtificialAnlys compared MiniMax-M2.7 across six providers and found major differences in tokens/sec, cache discounting, and blended cost. SambaNova led raw speed at 435 output tok/s, while Fireworks looked stronger on the speed/price frontier for many workloads. Separately, @teortaxesTex highlighted how cache-hit rates dominate cost on some agent workloads, calling cache optimization “the main axis of cost reduction with V4.”
  • Cold-start and distributed training remain active systems bottlenecks: @kamilsindi described a system that cut model cold starts 60×, from minutes to seconds, by serving weights from GPUs already holding them rather than cloud storage. On the training side, @dl_weekly highlighted Google DeepMind’s Decoupled DiLoCo, which reportedly achieved 88% goodput vs. 27% for standard data parallel at scale while using ~240× less inter-datacenter bandwidth.

Agents, RL environments, observability, and long-horizon research

  • RL infra is shifting from “single generation + reward” to long-running action systems: @adithya_s_k released a guide comparing RL environment frameworks for the LLM era, focusing on what scales to thousands of environments. A detailed survey by @ZhihuFrontier contrasted traditional RLVR with agentic RL, pointing to systems such as Forge, ROLL, Slime, and Seer and recurring concerns like TITO consistency, rollout latency, prefix-tree merging, and global KV caches.
  • Long-horizon failures are increasingly framed as horizon problems, not just capacity problems: @dair_ai summarized a Microsoft Research paper arguing that goal horizon alone can be the training bottleneck, with macro actions / horizon reduction stabilizing training and improving long-horizon generalization. This rhymes with broader frustration that current benchmarks and public evals still underweight true long-horizon behavior.
  • Observability is maturing into a feedback-driven improvement loop: @hwchase17 and @LangChain argued that traces alone are insufficient; the key is attaching direct, indirect, or generated feedback so observability becomes a learning system. @benhylak launched Raindrop Triage, an agent dedicated to finding and investigating bad agent behavior. @Vtrivedy10 laid out the practical loop explicitly: gather data → mine errors → localize which component failed → apply fix → test → repeat.

Enterprise verticalization: finance, legal, and proactive assistants

  • Anthropic and Perplexity both pushed hard into finance workflows: Anthropic launched financial-services agent templates for work such as pitch generation, valuation review, KYC screening, and month-end close, with integrations into providers like FactSet, S&P Global, and Morningstar, via @claudeai and summarized by @kimmonismus. Perplexity announced Perplexity Computer for Professional Finance, bringing in licensed data and 35 dedicated workflows for repeat analyst work, in @perplexity_ai and @AravSrinivas. Both launches reflect a clearer move from generic copilots to workflow-packaged vertical products.
  • Perplexity also expanded into medical/professional health sources: @perplexity_ai announced premium access to NEJM, BMJ, and additional medical journals/databases, enabling “deep and wide research” on trusted clinical sources; @AravSrinivas framed this as a product for healthcare-grade information retrieval.
  • Proactive assistant surfaces are becoming a product category: @kimmonismus reported a leak around Anthropic Orbit, described as a proactive assistant that synthesizes data from Gmail, Slack, GitHub, Calendar, Drive, and Figma without explicit prompting. Manus also added recommended connectors that are suggested in context when needed, per @ManusAI.

Top tweets (by engagement)

  • Anthropic’s finance template launch drew outsized attention: @claudeai announced ready-to-run Claude agent templates for financial services with 22.9K engagement, one of the biggest clearly technical/AI-product posts in the set.
  • OpenAI’s GPT-5.5 Instant launch dominated discussion: the main rollout thread from @OpenAI exceeded 8.2K engagement, with follow-on personalization details also performing strongly.
  • Gemma 4 speedups landed as a major open-model systems update: @googledevs on 3× faster Gemma 4 and @googlegemma both broke through, reflecting strong interest in inference improvements that preserve quality.
  • Perplexity’s finance launch also resonated broadly: @perplexity_ai reached 2.5K engagement, suggesting that licensed-data workflow products are now seen as strategically important, not just niche enterprise packaging.

AI Reddit Recap

/r/LocalLlama + /r/localLLM Recap

1. Gemma 4 MTP and llama.cpp Speculative Decoding

  • Gemma 4 MTP released (Activity: 1116): Google released Multi-Token Prediction (MTP) drafter checkpoints for Gemma 4, with Hugging Face model cards for gemma-4-31B-it-assistant, gemma-4-26B-A4B-it-assistant, gemma-4-E4B-it-assistant, and gemma-4-E2B-it-assistant, described in Google’s blog post. The MTP setup adds a smaller/faster draft model for speculative decoding, where several draft tokens are proposed and then verified in parallel by the target model, claiming “up to 2x” decoding speedups while preserving identical output quality versus standard generation; one commenter notes the E2B drafter is only 78M parameters. A technical commenter also shared an updated visual explainer of MTP/speculative decoding for Gemma 4: Maarten Grootendorst’s guide.

A commenter linked a technical visual guide explaining multi-token prediction (MTP) with Gemma 4, including implementation snippets and diagrams: Maarten Grootendorst’s guide. This is the main substantive resource in the thread for understanding how Gemma’s MTP-style decoding/drafting works.

  • One technical detail noted is that the E2B model includes a 78M draft model, implying a relatively small auxiliary model used for speculative or multi-token drafting. The comment highlights the draft model size as unusually compact, which is relevant for latency/throughput tradeoffs in MTP-style inference.

Llama.cpp MTP support now in beta! (Activity: 1103): llama.cpp has beta MTP (Multi-Token Prediction) support via PR #22673, initially targeting Qwen3.x MTP models and loading the MTP component as a separate model from the same GGUF, with its own context/KV cache rather than a separate GGUF artifact. The PR adds post-ubatch MTP consumption to propaga

この記事をシェア

関連記事

The Zvi重要度42026年6月26日 23:51

ホワイトハウスが個別に GPT-5.6 のアクセス権をその場しのぎで決定する方針へ

TechCrunch AI重要度42026年6月26日 08:34

ホワイトハウス、安全性の懸念から OpenAI の新モデルリリースを徐々に行うよう要請

The Verge AI重要度42026年6月26日 06:57

トランプ政権の要請により OpenAI、GPT-5.6 の公開を延期へ

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む