本日は特に目立った出来事なし
xAI がコストパフォーマンスに優れた新モデル「Grok 4.3」をリリースしたが、信頼性低下やオープンソースモデルとの格差といった複雑な評価が社区から寄せられている。
キーポイント
Grok 4.3 の性能と価格改善
Intelligence Index で 53 を記録し前作より 4 ポイント向上、入出力コストはそれぞれ約 60%〜40% 削減された。特に GDPval-AA では 321 Elo の大幅な伸びを示した。
信頼性とハルシネーションのトレードオフ
能力は向上したが、非ハルシネーション率が 8 ポイント低下し、AA-Omniscience 精度が上昇する一方で信頼性への懸念が残っている。
コミュニティの評価は二分されている
一部からは「意味のある進化」と評価される一方、「中国製オープンソースモデルに遅れをとっている」「Vending-Bench で重大な後退(睡眠モードの選択)が見られる」という批判も出ている。
インフラ経済とキャッシュ効率への指摘
低価格がハードウェア利用率の悪さによる補助金に依存している可能性や、アジェンシー TCO(総所有コスト)においてモデル品質以上にキャッシュ経済学が重要視されるべきだという構造的な批判がある。
影響分析・編集コメントを表示
影響分析
本ニュースは、大規模言語モデルの開発競争が「単純な能力向上」から「コスト対効果と信頼性のバランス」へとシフトしていることを示唆しています。特に、低価格戦略の背後にあるインフラ効率の問題や、オープンソースモデルとの格差是正の難しさが浮き彫りとなり、企業における AI 導入判断基準がより複雑化することを意味します。
編集コメント
コスト削減と性能向上という一見喜ばしいニュースの裏で、信頼性の低下やオープンソースとの格差といった構造的な課題が浮き彫りになっています。開発者にとっては「安ければいい」時代ではなく、「コスト効率と安定性の両立」が問われる新たなフェーズに入ったことを示す重要な事例です。
静かな一日。
2026年4月30日〜5月1日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、およびDiscord(追加情報なし)を確認しました。 AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メールの配信頻度については、希望に応じて登録・解除が可能です!
AI Twitter リキャップ
Grok 4.3 のリリース、ベンチマークの差分、そしてオープン vs クローズドの最前線
- xAI は、コスト対パフォーマンスが大幅に改善された Grok 4.3 を出荷しましたが、評価結果は賛否両論でした。初期の議論では @scaling01 による API の即時リリースが示唆され、その後 Artificial Analysis による詳細なベンチマーク分析が続きました。同社のインテリジェンス指数(Intelligence Index)において、Grok 4.3 はスコア53を獲得し、Grok 4.20 より4ポイント上昇しました。入力コストは約40%、出力コストは約60%低下しています。最大の改善点は GDPval-AA で、Elo が321ポイント上昇して1500となり、現実世界におけるエージェントタスクのパフォーマンスが強化されたことを示唆しています。また、τ²-Bench Telecom では98%、IFBench では81%を達成しました。その代償として、AA-Omniscience の精度は向上しましたが、ハルシネーション(幻覚)の発生率は8ポイント低下し、能力が強化されたにもかかわらず信頼性への懸念が残っています。Arena はすでに @arena 経由で、テキスト、ビジョン、ドキュメント、コードのすべてのモードにこれを追加しています。
- コミュニティの反応は「有意義な反復」と「依然としてトップのオープンモデルに遅れをとっている」の間で二分されました:いくつかの投稿では、Grok が批判者が認めるよりも急速に進化していると主張し、@teortaxesTex はトークン効率の向上にも言及しましたが、他の人々はより懐疑的でした。@scaling01 は「Grok-4.3 は依然として中国のオープンソースに遅れをとっている」と主張し、Andon Labs は Vending-Bench 2 で重大な後退が発生したと報告しました。そこでは Grok が行動するよりも「眠る」ことを好む allegedly とされています。より構造的な批判は価格設定とインフラ経済学からのものでした:@teortaxesTex は、Grok の低価格が不良なハードウェア利用率によって補助されている可能性があると主張し、キャッシュの経済性(cache economics)がモデル品質だけでなく、エージェントの TCO(総所有コスト)を決定する要因としてますます重要になっていると指摘しました。
DeepSeek V4 Pro、ビジョン/空間推論、そしてオープンウェイトによる格差の縮小
- DeepSeek V4 Pro は、このバッチの中で最も信頼性の高いオープンウェイト(open-weight)のコーディング/エージェントモデルであるようです:最も強力な実地レポートは @omarsar0 からのものですが、彼は Pi コーディングエージェント内で DeepSeek-V4-Pro をテストし、マルチターン・エージェント・コーディングにおいて Codex や Claude Code と実際に比較可能だと感じる最初のオープンウェイトモデルであると記述しました。主要なシステム詳細には、1M のコンテキスト(文脈)、ハイブリッド CSA/HCA アテンション設計、KV キャッシュの 10% への削減、および長文コンテキストにおける推論 FLOPs がほぼ 4 分の 1 に低下することが含まれていました。このレポートはまた、実用的なハーンチス(harness)適合性を強調しました:カスタムセットアップなし、安定したトレース、Fireworks 推論上での実行可能な多ステップ研究/コーディングループです。
- より広範なベンチマークの状況は、オープンウェイトモデルが現在非常に接近していることを裏付けていますが、最も困難なタスクにおいては依然として後れを取っています。Artificial Analysis によると、先週リリースされた3つの主要なオープンウェイトモデル(Kimi K2.6、MiMo V2.5 Pro、DeepSeek V4 Pro)は、インテリジェンス指数で 52〜54 のスコアを記録しています。これに対し、Gemini 3.1 Pro Preview と Claude Opus 4.7 は 57、GPT-5.5 は 60 です。これらのトップクラスのオープンモデルはいずれも、ライセンスが寛容なトリリオン級以上の MoE(Mixture of Experts:専門家混合)システムであり、Kimi は 1T/32B アクティブ、MiMo は 1T/42B アクティブ、DeepSeek V4 Pro は 1.6T/49B アクティブです。残された格差は、HLE、CritPt、TerminalBench Hard、および幻覚(hallucination)が発生しやすい Omniscience に集中しています。
- DeepSeek のマルチモーダル方向性は、明示的な空間的グラウンディングに焦点を当てているようです。DeepSeek-Vision が実際の空間推論能力により ARC-AGI-2 で V4-Pro を上回るとの憶測は、@teortaxesTex 氏から発信されました。その後、ZhihuFrontier から一時的に投稿され削除された技術レポートの要約では、「思考しながら指差す」ことができるマルチモーダル CoT(Chain of Thought:思考連鎖)システムが紹介されました。これは、推論トレース内に直接埋め込まれたボックスやポイントを使用して、数え上げ、迷路解決、経路追跡における「参照ギャップ」を軽減するものです。このスタックには DeepSeek-ViT、CSA 圧縮、および V4-Flash(合計 284B/アクティブ 13B)が使用されていると報告されています。初期テストでもまだ弱点が見られるものの、これは注目すべきアーキテクチャ上の賭けです。視覚的推論を単なるテキスト記述ではなく、明示的なグラウンディング計算へと転換する試みです。
Codex の急速な製品拡大 vs Claude Code、Devin、およびその他のエージェントランタイム
- Codex は製品開発の速度と UX の洗練さにおいて勝っており、単にベースモデルの品質が高いだけではない:ツイート全体で見られた主要なテーマの一つは、Codex アプリがどれほど急速に進化しているかという点だった。@gdb や @theo といったユーザーから、他社製品と比較してその使い心地が優れているとの高エンゲージメントの評価が寄せられた。OpenAI は、@JamesZmSun によると「バイブテスト」においてレスポンシブテスト用のデバイスツールバーを追加し、ブラウザ使用の速度を約 30% 向上させた。また、@reach_vb 経由でチャット内に CI ステータスを表示する機能を追加し、OpenAI による設定・プラグイン・エージェントの移行・インポートツールの提供、そして @OpenAIDevs による Codex 内で予想以上にバイラルとなったペットシステムの実装も行った。 whimsical(おとぎ話のような)要素はあるものの、ユーザーから繰り返し指摘された点は、OpenAI が単なるモデルエンドポイントではなく、統合された環境を提供しているという事実だ。
- Codex と Claude Code の対比は、UX・速度・品味のトレードオフとして語られることが増えている:@theo は現在のコーディング界隈の状況を要約し、「GPT-5.5 はより賢く、行き詰まりを打破できるが、Opus 4.7 は意図や品味において優れているものの、迷走する傾向がある」と述べた。2 つ目の投稿では、Claude Code は TTFT(First Token Time:最初のトークンまでの時間)や TPS(Tokens Per Second:1 秒あたりの生成トークン数)の面で Codex に比べてはるかに遅く、より多くのツール呼び出しを必要とする一方、GPT/Codex は「高速モード」のような用途において、より直接的で経済的だと感じられると主張した(ツイート)。しかし、公開されたベンチマーク比較の結果は一様ではない:@scaling01 は、Claude Code のハーンス(テスト環境)における PostTrainBench で GPT-5.5 が Opus 4.7 に勝てなかったと指摘し、結果が依然としてハーンス依存度が高いことを浮き彫りにした。
- 他のエージェントランタイムも同様のプリミティブに収束しています:Devin は@cognition 経由で「シェル内」ホットキーアクセスを開始しました。Hermes は@Teknium 経由で、完了するまでエージェントを継続させるよう強制するスーパーバイザーモデルを持つ /goal ループを追加しました。@FredKSchott が紹介した Flue は、「Claude Code のようにプログラム可能な」ヘッドレス自律型エージェント向けの TypeScript フレームワークとして位置づけられています。これらの発表に共通するパターンは、競争の場が生のモデル知能からエージェントハッチ設計へと移行していることです:サブエージェント、ブラウザ使用、永続状態、圧縮、スキル、フィードバックループです。
エージェントインフラストラクチャ:検索、メモリ、HITL(Human-in-the-Loop)、および永続実行
- 最も強力な研究シグナルは、エージェントシステムがモデルの品質だけでなくランタイム設計によってボトルネックに陥っているという点でした。特に有用な論文として 2 つが強調されました。まず、@omarsar0 が要約した ReaLM-Retrieve は、推論モデルは事前のみならず推論中にも検索が必要であると主張しています。これは標準的な RAG(Retrieval-Augmented Generation)に対して絶対値で +10.1% の F1 スコアを向上させ、固定間隔の IRCoT 法と比較して検索呼び出し回数を 47% 削減し、1 回の検索あたりのオーバーヘッドも 3.2 倍低減したと報告しています。次に、@dair_ai が共有した OCR-Memory は、長期にわたる軌跡を画像としてインデックス付きアンカーと共に保存し、劣化のあるテキスト要約ではなく正確な過去のコンテンツを検索します。これは厳格なコンテキスト制限下で Mind2Web および AppWorld において SOTA(State-of-the-Art)を達成したと報告されています。
- LangChain/LangGraph は、マルチユーザーおよびヒューマン・イン・ザ・ループ(HITL)エージェント向けの生産環境用プリミティブに注力しました。@sydneyrunkle 氏は、データ分離、委任された認証情報、オペレータの RBAC(ロールベースアクセス制御)という 3 つの具体的なマルチユーザー展開上の懸念点を提示し、それぞれを LangSmith Agent Server の機能にマッピングしました。その後の投稿では、人間の返信を直接ツール結果として返す新しい HITL モードや、重要なアクションや未解決の判断呼び出しに対する永続的な一時停止/再開のセマンティクス(tweet)について取り上げられました。これは、認証境界、永続状態、明示的な介入ポイントという、実際の展開における複雑性がどこに向かっているのかを示す良いスナップショットです。
- 永続的実行は、あらゆるスタックにおいてファーストクラスのランタイム機能へと進化しています。Cloudflare は @celso を通じて、エージェントプランに永続的実行を追加する「Dynamic Workflows」を発表しました。LangChain は、@Vtrivedy10 氏によって、ファイルシステム、bash、コンパクション(圧縮)、フック、サブエージェントへの拡張性を備えた Deep Agents の下位にある低レベルプリミティブとして create_agent を位置づけました。このメタ的なポイントは、関連する技術ブログと一致しており、エージェントランタイム自体—サンドボックス化、リプレイ、チェックポイント作成、オーケストレーション—が隠れた技術的負債となり、差別化の主要な源泉となっているという点です。
ブックマークすべき研究およびシステム論文
- 再帰的/潜在空間におけるマルチエージェント協調は、テキストベースのエージェント間の会話に代わる真剣な代替手段として台頭しています:@omarsar0 は、エージェントが完全な自然言語のやり取りではなく、共有された潜在的な再帰計算を通じて通信する「再帰的多エージェントシステム」を要約しました。報告されている成果には、9 つのベンチマーク全体で平均精度が 8.3%向上し、エンドツーエンドの速度が 1.2 倍から 2.4 倍に向上し、トークン数が 34.6% から 75.6%削減されたことが含まれます。エージェント間通信のコストが支配的になる場合、この研究ラインは極めて重要です。
- Meta FAIR の「自己改善型事前学習」のアイデアは、一連のトレーニング時論文の中でも特に重要なものの一つかもしれません:@omarsar0 は、強力な事後学習モデルが事前学習の接尾辞をより安全で高品質な継続へと書き換え、その後 RL(強化学習)スタイルの事前学習中にモデルのロールアウトを評価する方法を紹介しました。報告されている改善点には、標準的な事前学習と比較して事実性が相対的に 36.2%向上し、安全性が 18.5%向上し、生成品質における勝率が最大で 86.3%に達したことが含まれます。
- Microsoft の合成された長期的なコンピュータ操作シミュレーション世界は、信頼性の高いデータレシピのように見えます:@dair_ai は、現実的なファイルやドキュメントを持つ 1,000 台の合成コンピュータを作成し、平均して 2,000 以上のターンにわたる 8 時間のエージェントシミュレーションを実行するシステムを説明しました。その主張は明快で重要です:コンピュータ操作用エージェントにとって、ボトルネックはもはやモデル能力だけでなく、スケーラブルで現実的な経験データにあるのです。
エンゲージメント上位のツイート
- OpenAI/Codex の勢い:OpenAI は GPT-5.5 がこれまでの中で最も強力なリリースであると発表し、API 収益は過去のリリースに比べて 2 倍の速度で成長、Codex も 7 日未満で収益が倍増したと述べています。
- 防衛・政府部門での採用:米国の「戦争省」CTO が、最先端 AI およびインフラ企業 7 社との間で、機密ネットワーク上で機能を展開するための合意を発表しました。
- OpenAI の労働に関するメッセージ転換:サム・アルトマンは、「我々は人々を代替する組織ではなく、人々を補完し向上させるツールを構築したい」と述べ、雇用と将来の働き方については後続のコメントで触れています。
- Codex の採用と満足度:@gdb 氏より「Codex アプリが信じられないほど素晴らしいものになっている」との声があり、さらに Codex のペット機能が予期せぬ形で、当日最大の製品エンゲージメントヒットの一つとなりました。
- モデルベンチマークの現実確認:ARC Prize は、ARC-AGI-3 において GPT-5.5 が 0.43%、Opus 4.7 が 0.18% のスコアを記録したと報告し、失敗モードに関する分析も掲載しています。
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. Qwen モデルの開発とベンチマーク
- PFlash: RTX 3090 で 128K のコンテキスト長において、llama.cpp と比較してプレフィル処理が 10 倍高速化(アクティビティ:339):本投稿は、PFlash を紹介しています。これは量子化された 27B モデルを対象とした長期コンテキストのデコーディングのための推測的プレフィル手法で、C++/CUDA で実装されており、RTX 3090 上で従来の llama.cpp と比較して 10 倍の高速化を達成します。この手法は、小さなドラフターモデル(drafter model)を用いてトークンの重要度を評価し、メインモデルが重要なスパンにのみ集中させることで、プレフィル時間を大幅に短縮します。実装には、推測的プレフィルやブロックスパースアテンションに関する最近の研究からの知見を組み合わせ、Python や PyTorch を一切使用せず C++/CUDA のみで実行されるため、RTX 3090 などのコンシューマー向け GPU でも効率的に動作します。リポジトリは GitHub で公開されています。一部のコメントでは、主張されている 10 倍の高速化に対して懐疑的な意見が示されており、あるユーザーはこの手法が圧縮方式のために「極めて情報損失が大きい(super lossy)」可能性があると指摘しています。また、別のユーザーは RTX 4090 でメモリ不足(out-of-memory)が発生したと報告しており、結果の再現には潜在的な課題があることを示唆しています。
randomfoo2 は、PFlash の革新的なアプローチについて指摘しています。これは、より小さな Qwen3-0.6B ドラフターを使用して、FlashPrefill や BSA スタイルのスパースアテンション(sparse attention)で 64K/128K のフルプロンプトを処理し、計算コストを削減するものです。ドラフターはトークンやスパンの重要度を評価し、27B ターゲットモデルがプリフィルするために必要な重要なサブセットのみを保持します。その後、圧縮されたターゲット KV に対して DFlash と DDTree を用いた推測的デコーディング(speculative decoding)が行われます。この手法は「極めて損失率が高い」と評されており、速度向上のために精度とのトレードオフが生じる可能性があることを示唆しています。
- qwen_next_gguf_when は、PFlash 方法の実用性について懸念を表明しており、DFlash コンポーネントが RTX 4090 でメモリ不足(OOM: Out Of Memory)を起こしやすいと指摘しています。これは、ハードウェアの互換性や効率性に潜在的な制限があることを示唆し、異なるシステム間でのこの手法の再現可能性やスケーラビリティに影響を与える可能性があります。
- Obvious-Ad-2454 は、主張されている 10 倍の高速化に対して懐疑的な見解を示しており、独立した検証なしでは楽観的すぎる可能性があるとしています。このコメントは、特にこのような顕著な改善が報告される場合、機械学習における性能主張を検証するために再現研究が重要であることを強調しています。
- Qwen 3.6 27B vs Gemma 4 31B - making Packman game! (Activity: 994): ローカルの LLM ゲーム開発コンテストにおいて、Gemma 4 31B は MacBook Pro M5 Max(RAM 64GB)上で Pac-Man スタイルのゲーム作成において Qwen 3.6 27B を上回りました。Gemma は秒間 27 トークンを処理し、6,209 トークンで 3 分 51 秒でタスクを完了しましたが、Qwen は秒間 32 トークンを処理し、33,946 トークンを使って 18 分 04 秒かかりました。Qwen の出力はより創造的で視覚的にスタイリングされていましたが、Gemma の解決策は短く、明確で論理的であり、ゲームロジック、インタラクション処理、パフォーマンスの安定性において優れていました。このタスクでは、外部ライブラリを使用せず手描き(プロシージャル)グラフィックスを含む完全な HTML ベースのゲームを生成し、requestAnimationFrame とデルタタイム(delta time)を用いて滑らかなゲームプレイと安定したパフォーマンスを実現することが求められました。コメント欄では、「バグなし」というプロンプトの要求に対するユーモアが指摘され、曖昧なプロンプトの実用性が疑問視されました。これらは主にモデルの既存知識をテストするものであり、問題解決能力を試すものではないという意見も示されています。
Qwen 3.6 27B は、単一の HTML ページと必要と判断されるあらゆるライブラリやグラフィックスソースを使用して Pacman のクローンを作成するタスクを与えられました。興味深いことに、このモデルは外部ダウンロードや調査を行わず、既存の知識に頼ってゲームをコーディングしました。これは、最小限のプロンプトから機能的なコードを生成するモデルの能力を示していますが、その理解の深さや新しいリソースへの適応力については疑問を投げかけています。
- あるユーザーは、Pacman ゲームのGemma 4 31Bバージョンにおけるゴースト敵キャラクターの動きに不具合がある可能性を指摘しました。これは、特に動的要素である敵AIの処理などにおいて、ゲームロジックを正確に実装するモデルの能力に潜在的な問題があることを示唆しています。これはPacmanのようなゲームにとって極めて重要です。
この議論は、AIモデルのテストのために曖昧なプロンプトを使用することの有効性について懸念を提起しました。あるコメント投稿者はそのようなプロンプトを「ベンチマーク最大化テスト」と表現しており、これはこれらのテストがモデルの能力を実質的に評価できていない可能性を示唆しています。
原文を表示
a quiet day.
AI News for 4/30/2026-5/1/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Grok 4.3’s Release, Benchmark Deltas, and the Open-vs-Closed Frontier
- xAI shipped Grok 4.3 with materially better cost/performance, but mixed eval reception: Early chatter flagged an imminent API launch from @scaling01, followed by a detailed benchmark breakdown from Artificial Analysis. On their Intelligence Index, Grok 4.3 scores 53, up 4 points over Grok 4.20, with roughly 40% lower input and 60% lower output pricing. The biggest gain was on GDPval-AA, up 321 Elo to 1500, suggesting stronger real-world agentic task performance. It also hit 98% on τ²-Bench Telecom and held 81% on IFBench. The tradeoff: AA-Omniscience accuracy rose while non-hallucination dropped by 8 points, leaving concerns about reliability despite stronger capability. Arena has already added it across text, vision, document, and code modes via @arena.
- Community reaction was split between “meaningful iteration” and “still behind top open models”: Several posts argued Grok is improving faster than critics admit, including @teortaxesTex, who noted token-efficiency gains as well, while others were more skeptical. @scaling01 claimed “Grok-4.3 still behind chinese open-source”, and Andon Labs reported a major regression on Vending-Bench 2, where Grok allegedly preferred to “sleep” rather than act. The more structural critique came from pricing and infra economics: @teortaxesTex argued Grok’s low prices may be subsidized by poor hardware utilization and that cache economics, not only model quality, increasingly determine agentic TCO.
DeepSeek V4 Pro, Vision/Spatial Reasoning, and Open-Weights Closing the Gap
- DeepSeek V4 Pro appears to be the most credible open-weight coding/agent model in this batch: The strongest hands-on report came from @omarsar0, who tested DeepSeek-V4-Pro inside the Pi coding agent and described it as the first open-weight model that genuinely feels comparable to Codex or Claude Code for multi-turn agentic coding. Key systems details included 1M context, a hybrid CSA/HCA attention design, KV cache reduced to 10%, and nearly 4x lower inference FLOPs at long context. The report also emphasized practical harness fit: no custom setup, stable traces, and viable multi-step research/coding loops on Fireworks inference.
- The broader benchmark picture confirms open weights are now much closer, though still behind on hardest tasks: Artificial Analysis noted that the three leading open-weight models released last week—Kimi K2.6, MiMo V2.5 Pro, and DeepSeek V4 Pro—now score 52–54 on the Intelligence Index, versus 57 for Gemini 3.1 Pro Preview and Claude Opus 4.7, and 60 for GPT-5.5. These top open models are all trillion-plus MoE systems with permissive licenses: Kimi at 1T/32B active, MiMo at 1T/42B active, and DeepSeek V4 Pro at 1.6T/49B active. The remaining gap is concentrated in HLE, CritPt, TerminalBench Hard, and hallucination-heavy Omniscience.
- DeepSeek’s multimodal direction seems centered on explicit spatial grounding: Speculation about DeepSeek-Vision outperforming V4-Pro on ARC-AGI-2 because of actual spatial reasoning came from @teortaxesTex. A later summary of a briefly posted-and-deleted tech report from ZhihuFrontier described a multimodal CoT system that can “point while thinking” using boxes and points embedded directly into reasoning traces to reduce the “reference gap” in counting, maze solving, and path tracing. The stack reportedly uses DeepSeek-ViT, CSA compression, and V4-Flash (284B total / 13B active). Even if early tests still show weaknesses, it is a notable architectural bet: turning visual reasoning into explicit grounded computation rather than plain text description.
Codex’s Rapid Product Expansion vs Claude Code, Devin, and Other Agent Runtimes
- Codex is winning on product velocity and UX polish, not just base model quality: A major theme across tweets was how quickly the Codex app is improving. High-engagement praise came from @gdb, @theo, and others comparing its feel favorably to alternatives. OpenAI added a device toolbar for responsive testing and improved browser-use speed by ~30% in “vibe testing,” per @JamesZmSun. It also added CI status in chat via @reach_vb, migration/import tooling for settings/plugins/agents via OpenAI, and a surprisingly viral pets system in Codex via @OpenAIDevs. While whimsical, the repeated point from users was that OpenAI is shipping a cohesive environment, not just a model endpoint.
- Codex vs Claude Code is increasingly framed as UX + speed + taste tradeoffs: @theo summarized the current frontier coding vibe: GPT-5.5 is “smarter and can unblock you,” while Opus 4.7 has better intent/taste but can wander. In a second post, he argued Claude Code feels much slower on TTFT/TPS and requires more tool calls, while GPT/Codex feels more direct and economical for “fast mode” style use (tweet). Still, public benchmark comparisons are mixed: @scaling01 said GPT-5.5 did not beat Opus 4.7 on PostTrainBench in the Claude Code harness, highlighting how much results remain harness-dependent.
- Other agent runtimes are converging on similar primitives: Devin launched “inside your shell” hotkey access via @cognition. Hermes added a /goal loop with a supervisor model forcing the agent to continue until completion, via @Teknium. Flue, introduced by @FredKSchott, positions itself as a TypeScript framework for headless autonomous agents, “like Claude Code but programmable.” The common pattern across these launches is that the competitive surface is moving from raw model IQ to agent harness design: subagents, browser-use, durable state, compaction, skills, and feedback loops.
Agent Infrastructure: Retrieval, Memory, HITL, and Durable Execution
- The strongest research signal was that agent systems are bottlenecked by runtime design, not just model quality: Two especially useful papers were highlighted. First, ReaLM-Retrieve, summarized by @omarsar0, argues that reasoning models need retrieval during inference rather than only before it. It reports +10.1% absolute F1 over standard RAG and 47% fewer retrieval calls than fixed-interval IRCoT, with 3.2x lower per-retrieval overhead. Second, OCR-Memory, shared by @dair_ai, stores long-horizon trajectories as images with indexed anchors, retrieving exact prior content instead of lossy text summaries; it reports SOTA on Mind2Web and AppWorld under strict context limits.
- LangChain/LangGraph pushed hard on production primitives for multi-user and human-in-the-loop agents: @sydneyrunkle outlined three concrete multi-user deployment concerns—data isolation, delegated credentials, and operator RBAC—and mapped each to LangSmith Agent Server features. Later posts covered a new HITL mode where a human reply can be returned directly as a tool result (tweet) and durable pause/resume semantics for consequential actions or unresolved judgment calls (tweet). This is a good snapshot of where real deployment complexity is moving: auth boundaries, persistent state, and explicit intervention points.
- Durable execution is becoming a first-class runtime feature across stacks: Cloudflare announced Dynamic Workflows for adding durable execution to agent plans via @celso. LangChain positioned create_agent as the low-level primitive beneath Deep Agents, with extensibility for filesystems, bash, compaction, hooks, and subagents via @Vtrivedy10. The meta-point is consistent with one linked technical blog: the agent runtime itself—sandboxing, replay, checkpointing, orchestration—has become hidden technical debt and a major source of differentiation.
Research and Systems Papers Worth Bookmarking
- Recursive / latent-space multi-agent coordination is emerging as a serious alternative to text-only agent chatter: @omarsar0 summarized Recursive Multi-Agent Systems, where agents communicate through shared latent recursive computation instead of full natural-language exchanges. Reported gains: 8.3% average accuracy improvement, 1.2x–2.4x end-to-end speedup, and 34.6%–75.6% token reduction across nine benchmarks. If agent-to-agent communication cost becomes dominant, this line of work matters.
- Meta FAIR’s “self-improving pretraining” idea may be one of the more consequential training-time papers in the batch: @omarsar0 highlighted a method where a strong post-trained model rewrites pretraining suffixes toward safer, higher-quality continuations and then judges model rollouts during RL-style pretraining. Reported improvements include 36.2% relative gain in factuality, 18.5% in safety, and up to 86.3% win rate in generation quality over standard pretraining.
- Microsoft’s synthetic long-horizon computer-use worlds look like a credible data recipe: @dair_ai described a system that creates 1,000 synthetic computers with realistic files and documents, then runs 8-hour agent simulations averaging 2,000+ turns. The thesis is straightforward and important: for computer-use agents, the bottleneck is no longer only model capability but scalable, realistic experiential data.
Top tweets (by engagement)
- OpenAI/Codex momentum: OpenAI says GPT-5.5 is its strongest launch yet, with API revenue growing 2x faster than prior releases and Codex doubling revenue in under seven days.
- Defense/government adoption: The U.S. “Department of War” CTO announced agreements with seven frontier AI and infrastructure companies to deploy capabilities on classified networks.
- OpenAI messaging pivot on labor: Sam Altman: “we want to build tools to augment and elevate people, not entities to replace them”, with follow-up comments on jobs and future work here.
- Codex adoption and delight: “codex app becoming incredible” from @gdb, plus Codex pets unexpectedly becoming one of the day’s biggest product-engagement hits.
- Model benchmarking reality check: ARC Prize reports GPT-5.5 at 0.43% and Opus 4.7 at 0.18% on ARC-AGI-3, with analysis of failure modes.
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. Qwen Model Developments and Benchmarks
- PFlash: 10x prefill speedup over llama.cpp at 128K on a RTX 3090 (Activity: 339): The post introduces PFlash, a speculative prefill technique for long-context decoding on quantized 27B targets using C++/CUDA, achieving a 10x speedup over vanilla llama.cpp on an RTX 3090. This method leverages a small drafter model to score token importance, allowing the main model to focus only on significant spans, thus reducing prefill time significantly. The implementation combines insights from recent papers on speculative prefill and block-sparse attention, and is executed entirely in C++/CUDA without Python or PyTorch, making it efficient for consumer-grade GPUs like the RTX 3090. The repository is available on GitHub. Some commenters express skepticism about the claimed 10x speedup, with one noting the approach as potentially 'super lossy' due to its compression method. Another user reports out-of-memory issues on a 4090, indicating potential challenges in replicating the results.
randomfoo2 highlights a novel approach in PFlash that involves using a smaller Qwen3-0.6B drafter to process the full 64K/128K prompt with FlashPrefill/BSA-style sparse attention, which reduces the computational cost. The drafter evaluates token/span importance, retaining only a crucial subset for the 27B target model to prefill, followed by speculative decoding using DFlash+DDTree on the compressed target KV. This method is noted for being 'super lossy,' indicating potential trade-offs in accuracy for speed.
- qwen_next_gguf_when raises concerns about the practicality of the PFlash method, noting that the DFlash component tends to run out of memory (OOM) on an RTX 4090. This suggests potential limitations in hardware compatibility or efficiency, which could impact the method's replicability and scalability across different systems.
- Obvious-Ad-2454 expresses skepticism about the claimed 10x speedup, suggesting it might be too optimistic without independent verification. This comment underscores the importance of replication studies to validate performance claims in machine learning, especially when such significant improvements are reported.
- Qwen 3.6 27B vs Gemma 4 31B - making Packman game! (Activity: 994): In a local LLM gamedev contest, Gemma 4 31B outperformed Qwen 3.6 27B in creating a Pac-Man style game on a MacBook Pro M5 Max with 64GB RAM. Gemma processed 27 tokens/sec and completed the task in 3m 51s with 6,209 tokens, while Qwen processed 32 tokens/sec over 18m 04s with 33,946 tokens. Despite Qwen's more creative and visually styled output, Gemma's solution was shorter, clearer, and more logical, excelling in game logic, interaction handling, and performance stability. The task required generating a complete HTML-based game with procedural graphics and no external libraries, focusing on smooth gameplay and stable performance using requestAnimationFrame and delta time for animations. Commenters noted the humor in the prompt's demand for 'no bugs' and questioned the utility of vague prompts, suggesting they primarily test a model's pre-existing knowledge rather than its problem-solving ability.
Qwen 3.6 27B was tasked with creating a Pacman clone using a single HTML page and any libraries or graphics sources it deemed necessary. Interestingly, the model did not perform any external downloads or research, instead relying on its pre-existing knowledge to code the game. This highlights the model's ability to generate functional code from minimal prompts, though it raises questions about the depth of its understanding and adaptability to new resources.
- A user pointed out that the ghost enemy movement in the Gemma 4 31B version of the Pacman game appears to be malfunctioning. This suggests potential issues with the model's ability to accurately implement game logic, particularly in handling dynamic elements like enemy AI, which is crucial for a game like Pacman.
The discussion raises concerns about the utility of using vague prompts for testing AI models, as noted by a commenter who described such prompts as "benchmaxxing tests." This implies that the tests may not effectively evaluate the model's prob
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み