本日は特に目立った出来事なし
OpenAI が Codex をモバイルアプリに統合しリモート実行を強化したほか、GitHub と VS Code もエージェント中心の UX へ移行する新機能を公開し、開発ワークフローにおける AI エージェントの実用化が加速している。
キーポイント
OpenAI Codex のモバイル統合とリモート制御
Codex が ChatGPT モバイルアプリに実装され、ユーザーは外出先からタスクの開始・承認・実行監視を可能にし、Remote SSH やフック機能も一般利用開始された。
GitHub Copilot App の登場とデスクトップ環境化
GitHub が並列ワークストリームやリポジトリ管理に特化した「Copilot App」の技術プレビューを発表し、IDE 外でのエージェント活用を推進している。
VS Code のマルチエージェント UX 刷新
VS Code に新機能「Agents window」が追加され、複数プロジェクトやブラウザ・モバイルからの多エージェント連携が可能となり、トークン効率も向上した。
影響分析・編集コメントを表示
影響分析
このニュースは、AI コーディングエージェントが実験段階から日常の生産性ツールとして定着する転換点を示しています。特にモバイル端末からの完全な制御権限と、IDE 内でのマルチエージェント連携機能の強化により、開発者のワークフローにおける AI の役割が「アシスタント」から「自律的な実行パートナー」へとシフトします。これにより、リモート環境や分散チームにおけるコード生成・デバッグの効率化が劇的に向上し、ソフトウェア開発のパラダイムそのものが再定義される可能性があります。
編集コメント
今週の主要な動きは、AI エージェントが「誰がどこで使うか」の制約をなくし、開発環境そのものを再構築している点にあります。特にモバイルからの完全制御機能は、開発者の行動様式を変える画期的なステップと言えるでしょう。
静かな一日。
2026年5月13日〜14日のAIニュース。12のサブレッド、544件のツイート、およびDiscord(追加情報なし)を確認しました。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メールの配信頻度については、希望に応じて登録・解除が可能です。
AI ツイートリキャップ
コーディングエージェントツールリング:Codex Mobile、GitHub の新アプリ、VS Code におけるマルチエージェント UX、および Hermes/Codex 間の相互運用性
- OpenAI は Codex を日常業務ワークフローにさらに深く統合しました。このセットで最大の製品発表は、ChatGPT モバイルアプリへの Codex の搭載です。これにより、ユーザーは Codex がラップトップ、Mac mini、または開発用ボックス(devbox)上で実行を続ける間、タスクの開始、出力の確認、コマンドの承認、および遠隔からの実行制御が可能になりました。また OpenAI は、管理されたリモート環境向けの「Remote SSH」が一般利用可能になったこと、および Codex ループに関するビジネス/エンタープライズ自動化のためにフック(hooks)とプログラムアクセストークンが追加されたことを発表しました(OpenAI、OpenAI の続報、モバイルワークフローに関する @OpenAIDevs、Remote SSH に関する @OpenAIDevs、フック/トークンに関する @OpenAIDevs)。別に OpenAI は、コーディングエージェントに対する利便性と制約されたマシンアクセスのトレードオフに焦点を当てた、Codex の Windows サンドボックスに関する技術的な解説記事を公開しました(OpenAI Devs、@gdb)。
- より広範な IDE/アプリケーションエコシステムは「エージェントファースト」UX に収束しています:GitHub は、並行するワークストリーム、リポジトリ/PR のライフサイクル管理、モデルの柔軟性を提供するデスクトップ環境として説明されている GitHub Copilot App の技術プレビューを発表しました(GitHub, @adrianmg, @OrenMe)。VS Code は、マルチエージェント・マルチプロジェクトワークフロー用の新しい「Agents」ウィンドウをリリースし、vscode.dev/agents を通じたブラウザ/モバイルサポート、BYOK(Bring Your Own Key)の改善、圧縮されたターミナル出力のようなトークン効率化機能を実装しました(VS Code, リモート/ブラウザサポート、BYOK 更新、ターミナル圧縮)。オープンソース側では、Nous/Hermes Agent が Codex ランタイム統合を追加し、OpenAI ベースのターンを Codex CLI/app サーバー経由でルーティングし、Hermes セッション内で ChatGPT サブスクリプションに紐づく実行を再利用するようになりました(Nous Research, @Teknium, @HermesAgentTips)。Kimi もまた、人間らしいウェブインタラクションを Kimi Code CLI、Claude Code、Cursor、Codex、Hermes などに公開するブラウザ拡張機能「Kimi Web Bridge」をリリースしました(Moonshot AI)。
エージェントインフラと自己改善ループ:LangSmith Engine、SmithDB、サンドボックス、継続的学習
- LangChain のローンチスタックは、最も実質的なエージェントインフラリリースのクラスターでした。SmithDB はエージェントのトレースデータ用に特別に設計されたデータベースであり、LangSmith Engine はトレースを消費し、障害をクラスタリングして、おそらくコード上の問題点を特定し、修正や評価案を提案します。これにより、観測可能性が受動的な検査から改善ループへと転換されます (@hwchase17, @caspar_br on Engine, @bentannyhill)。コミュニティのコメントでは、SmithDB のアーキテクチャがオブジェクトストレージへのシフトと、このワークロード形状に特化したカスタムストレージ/クエリパスへ向かっている点が強調されました (@caspar_br on SmithDB, @ngates_, Chinese summary)。
- LangChain はまた、エージェントの継続的学習を中心とした応用研究活動である「LangChain Labs」を発表しました。そのテーゼは、本番環境でのトレースが、長期にわたるトレーニングシグナル、評価指標、そして targeted な機能向上へと変換されるべきだというものです (LangChain, @jakebroekhuizen, @willccbb, Prime Intellect partnership)。
- エージェントの実行分離は着実に成熟しています。W&B/CoreWeave は「CoreWeave Sandboxes」を立ち上げ、強化学習 (RL)、ツール使用、評価ワークロードにおける隔離実行を実現しました。これは、rm -rf / といった破壊的コマンドを大規模にテストすることを明示的に含むものです (Weights & Biases)。同様の精神に基づき、エージェントのデバッグのためのオープンソース/ローカル開発ツール群が浮上しました。@benhylak は、トレースを Codex/Claude Code に公開し、自動化された評価作成を可能にする無料のローカルエージェントデバッグスタックを紹介しました。
Anthropic Claude Code の制限と開発者からの反発
- 最も鋭いエコシステムへの反応は、Anthropic が Claude Code の利用を制限・再構築したことに対するものでした。特にサードパーティ製のラッパーや高ボリュームのプログラムワークフローが対象となりました。Theo のスレッドが焦点となり、彼は公式にサポートされた経路を通じて統合していたにもかかわらず、T3 Code のユーザーが劇的なレート制限の引き下げを実質的に受けたと主張しました。その後、彼は自身のサブスクをキャンセルし、オープンソースへの寄付のために他のユーザーにもキャンセル画面のスクリーンショットを投稿するよう呼びかけました(@theo 初期スレッド、サブスクキャンセル、寄付スレッド、T3 Code の補足)。他の著名なビルダーも、Anthropic が実質的にオープンソースの開発者やアプリを遮断し、claude -p を中心に構築されたハーンチスを不安定化させたという苦情に同調しました(@theo, @andersonbcdefg)。
- さらに戦略的な反論もありました。一部のユーザーは、Anthropic がサードパーティ製アプリに対して開発者に大幅な補助付きの固定価格トークンを提供する義務はないと主張し、エコシステムはおそらくより明示的な API 経済モデルへ移行し、高価なモデルと安価なモデルの間でより賢いルーティングが行われるようになるだろうと指摘しました(Sentdex, @tadasayy)。それでも、目に見えるユーザーの離脱信号は無視できない規模であり、返信スレッドからのキャンセルだけで意味のある ARR(年間経常収益)の損失を推計するユーザーもいました(@thegenioo, Uncle Bob Martin, Theo 後日)。エージェントエンジニアにとっての実践的な教訓は明白です:サブスクに依存したハーンチスは安定したプラットフォームの基盤要素ではありません。プロバイダー/モデル抽象化と BYOK(Bring Your Own Key)パスがますます必須となっていくでしょう。
ロボティクスと実体化 AI:Figure の 24/7 ソーティングストリームと広範な自動化のシグナル
- Figure のライブストリームがロボティクス議論を支配しました。同社はまず、8 時間にわたる完全自律型かつ監督なしの作業を示し、その後 24/7 ライブストリームへと拡張し、最終的に小荷物ソートにおいて人間並みのスループットで 24 時間以上の連続自律動作(故障なし)を報告しました。これは Helix-02 がオンボードのみで実行され、OOC(Out-of-Distribution:分布外)ケースに対して自動リセットを行うものであり、テレポートレーション(遠隔操作)は一切行われていないと明確に主張しています(Figure CEO Brett Adcock の 24 時間更新、詳細な技術的解説、Day 2 ライブストリーム)。繰り返される「Bob, Frank, Gary」に関するアップデートは少し大げさでしたが、中核となるシグナルは生産環境のような稼働率での持続的な自律動作でした。
- 解釈は Figure 自体への懐疑論と、ロボティクス加速全体に対する確信の間で二分されました。一部のコメント投稿者は、批評家たちがこれらのデモンストレーションが近未来の労働代替に示唆するところを過小評価していると主張しましたが、一方で他の人々は懐疑の対象がロボットというカテゴリそのものではなく、Figure に向けられていると指摘しました(@cloneofsimo, @iScienceLuvr, @kimmonismus)。いずれにせよ、これは一連のデモンストレーションの中で最も明確な「連続稼働」デモの一つでした。
研究、ベンチマーク、オープンモデル:拡散言語モデル、時系列ファウンデーションモデル、機械的解釈可能性、および RL/検索
- 技術的に重要ないくつかのモデル・研究リリースが際立っていました:
Zyphra の ZAYA1-8B-Diffusion-Preview は、自己回帰生成と比較して 4.6–7.7 倍のデコード速度向上を達成し、品質の低下は限定的であると主張しています。これにより、拡散型言語モデルがより安価なロールアウトと豊かな生成モードを実現できるという一般的な見解が裏付けられます(Zyphra)。
Datadog の Toto 2.0 は、Apache 2.0 ライセンスの下で、4M パラメータから 2.5B パラメータまでの 5 つのオープンウェイト時系列予測モデルをリリースしました。BOOM、GIFT-Eval、TIME の各ベンチマークで第 1 位を獲得したと主張しており、何よりも重要なのは、時系列予測モデル(TSFMs)に対してスケーリング法則がようやく明確に成立する証拠を示している点です(Datadog, @atalwalkar, @ClementDelangue)。
Goodfire の解釈可能性に関する投稿では、Llama が算術処理において幾何学的な「形状回転計算機」/フーリエ特徴のようなメカニズムを使用していると主張しました。これは純粋な事後説明ではなく、ステアリングに基づく証拠によるものです(GoodfireAI, follow-up)。
- RL/検索およびオプティマイザ型進歩については、いくつかの注目すべきスレッドがありました。生成・フィルタリング・制御・再生成というロールアウト工学として LLM の RL を捉え直す調査(The Turing Post)、有用なロールアウトを能動的に見つけるために特権情報を用いる教育的 RL(Souradip Chakraborty, @lateinteraction)、そして nanoGPT スピードランベンチマークにおける Prime Intellect による自律型オプティマイザ探索です。Opus 4.7 は 2930 ステップ、GPT-5.5 は 2950 ステップを達成し、約 1 万回の試行/約 1 万 4 千時間の H200 使用後に 2990 ステップの人間ベースラインを上回りました(Prime Intellect, @eliebakouch)。また注目すべき点として、Kimi K2.6 が Finance Agent Benchmark V2 でオープンウェイトモデルとして第 1 位にランクインしたとの報告(Moonshot AI)、Ring-2.6-1T がオープンリリースとして vLLM の day-0 サポートを獲得したこと(vLLM)が挙げられます。
エンゲージメント上位ツイート
- OpenAI の Codex モバイル展開は、ChatGPT モバイルから実行中のコーディングエージェントセッションをリモートで制御・レビューできる点において、エンゲージメントと実用性の両面で最も明確な製品勝利となりました(OpenAI)。
- Theo による Claude Code への反発に関するスレッドは、プラットフォームリスクやサブスクリプションに支えられたエージェントワークフローを巡る開発者間の感情変化を最も強く捉えたものでした(@theo, @theo 寄付スレッド)。
- Figure の自律型ヒューマノイドによる仕分けのライブストリームは、オンボードポリシー実行の詳細な主張やテレオペレーションなしで 24 時間を超えたことで特に注目され、議論されたエンボディド AI デモの一つであり続けました(Brett Adcock)
- GitHub の Copilot アプリと LangChain の Engine/SmithDB/Labsは、このサイクルにおけるエージェントエンジニアにとって最も重要な非 OpenAI ツール起動でした(GitHub, LangChain, @hwchase17)。
- Prime Intellect の自律型オプティマイザーの検索結果は、コーディングエージェントがアプリ開発だけでなく、オープンエンドな機械学習最適化にループされることの具体的な例として注目する価値があります(Prime Intellect)。
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. Qwen 3.6 のローカル推論速度向上と量子化
- LLaMA.cpp と TurboQuant における Qwen 用のマルチトークン予測(Multi-Token Prediction: MTP)(アクティビティ:514):パッチ適用された llama.cpp のフォークが、Qwen 向けにマルチトークン予測(MTP)サポートと TurboQuant を追加し、MacBook Pro M5 Max 64GB で 21 トークン/秒から 34 トークン/秒への向上を報告しています。MTP 受容率は 90% と claimed されていますが、純粋な速度向上は約 62% であり、40% ではありません。コードは AtomicBot-ai/atomic-llama-cpp-turboquant に公開されており、Qwen 3.6 27B/35B の GGUF MTP 量子化データは AtomicChat/qwen-36-udt-mtp HF コレクションにあります。コメント投稿者たちは TurboQuant という枠組みに疑問を呈し、多くの場合 f16、q8、または q4 よりも遅いと主張しました。ある投稿者は、既存の Q4 KV 量子化回転サポートがほとんどの利点を既にカバーしているため、TurboQuant の PR が llama.cpp で却下されたことを指摘し、主な向上は品質劣化が懸念される Q3 で生じると述べています。他の人々は、推測的/MTP 受容率やトークン/秒数が高いだけでは出力の同等性が保証されないため、品質評価データの提供を求めています。
複数のコメント投稿者が、llama.cpp における TurboQuant は一般的に高速ではないと主張し、そのうち一人は f16、q8、または q4 よりも遅くなる場合があると指摘しました。llama.cpp への以前の TurboQuant プルリクエストは却下された reportedly で、llama.cpp はすでに Q4 KV キャッシュ量子化のための回転(rotations)を実装しており、標準的な Q4 の方が高速で大きな改善が見られなかったためです。TurboQuant はおそらく Q3 周辺でのみ役立ちますが、その場合でも品質の顕著な低下を伴います。
- ユーザーたちは速度、品質、およびコンテキストのトレードオフを区別しました:MTP を TurboQuant なしで使用する案が速度向上のために提案され、一方、より長いコンテキストや品質の維持には標準的な Q4_1 または Q4_0 量子化が推奨されました。ある投稿者は、TurboQuant に Mac 固有の利点があるのか疑問を呈し、その恩恵はハードウェアやワークロードに依存するものであり、広く有用なものではないと示唆しました。
- ある投稿者は、組み込みの MTP の代わりに dflash を使用することを推奨し、それが 30–40% 高速であると主張しました。また、これに関するプルリクエストが既に存在すると述べ、実装作業が以前の llama.cpp 統合努力を重複させる可能性があることを示唆しました。
- 私たちは本当に全員成功するのですよね?2x3090 のセットアップ。(アクティビティ:487): クラブ-3090 を実行しているデュアル RTX 3090(VRAM 合計 48GB、NVLink なし)のセットアップが、WSL2 での生成速度約 30 トークン/秒とプロンプト処理速度約 400 パーティクル/秒から、ネイティブ Ubuntu では約 113 トークン/秒と約 4000 パーティクル/秒へと劇的に改善したと報告されています。著者は、「sse-session drop bug」の最近の修正やツール呼び出し機能により、ローカルワークフローが実用可能になったとし、Qwen「3.6」27B が 262k のコンテキストでコーディング、モンキーパッチ、コードレビューにおいて「ソネットレベルにほぼ匹敵する」感覚だと述べています。これはコンシューマー向け GPU で実現可能です。コメント欄では、これがローカル AI がデモから実用的なコーディングワークロードへと移行した証拠と捉えられ、より高速なランタイム、インフラストラクチャ、小規模モデルの品質が寄与していると評価されています。ドメイン特化型のフロンティアクラスモデルが 1〜2 年以内にプロシューマー向けハードウェアに収まる可能性への慎重な楽観論があり、一方でデュアルブートを避け、専用 Ubuntu GPU サーバー/API ボックスを稼働させることを推奨するユーザーもいます。
コメント投稿者たちは、ローカル推論における主要な機能の飛躍に言及しました。コンシューマー向けのデュアル RTX 3090 セットアップは、単なる玩具的な 7B モデルによる要約デモではなく、ほぼ Claude-Sonnet レベルのコーディングワークフローに使用可能であると説明されるようになりました。この議論は、予想を上回るランタイム/ソフトウェア最適化の進展、小規模モデルの能力向上、ローカル推論インフラストラクチャへの寄与によるものとしており、ドメイン特化型のフロンティア品質モデルが 1〜2 年以内にプロシューマー向けハードウェアに収まる可能性についても言及されています。
あるユーザーは、2x R
原文を表示
a quiet day.
AI News for 5/13/2026-5/14/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Coding Agent Tooling: Codex Mobile, GitHub’s New App, VS Code Multi-Agent UX, and Hermes/Codex Interop
- OpenAI pushed Codex further into day-to-day workflows: the biggest product launch in this set was Codex in the ChatGPT mobile app, letting users start tasks, review outputs, approve commands, and steer execution remotely while Codex continues running on a laptop, Mac mini, or devbox. OpenAI also noted Remote SSH is now generally available for managed remote environments, and later added hooks plus programmatic access tokens for Business/Enterprise automation around the Codex loop (OpenAI, OpenAI follow-up, @OpenAIDevs on mobile workflow, @OpenAIDevs on Remote SSH, @OpenAIDevs on hooks/tokens). Separately, OpenAI published a technical writeup on the Windows sandbox for Codex, focused on the tradeoff between utility and constrained machine access for coding agents (OpenAI Devs, @gdb).
- The broader IDE/app ecosystem is converging on “agent-first” UX: GitHub announced a technical preview of the GitHub Copilot App, described as a desktop environment for parallel workstreams, repo/PR lifecycle management, and model flexibility (GitHub, @adrianmg, @OrenMe). VS Code shipped a new Agents window for multi-agent, multi-project workflows, browser/mobile support via vscode.dev/agents, BYOK improvements, and token-efficiency features like compressed terminal output (VS Code, remote/browser support, BYOK updates, terminal compression). On the open side, Nous/Hermes Agent added Codex runtime integration, effectively routing OpenAI-backed turns through Codex CLI/app-server and reusing ChatGPT subscription-backed execution in Hermes sessions (Nous Research, @Teknium, @HermesAgentTips). Kimi also shipped Kimi Web Bridge, a browser extension exposing human-like web interaction to Kimi Code CLI, Claude Code, Cursor, Codex, Hermes, and others (Moonshot AI).
Agent Infrastructure and Self-Improvement Loops: LangSmith Engine, SmithDB, Sandboxes, and Continual Learning
- LangChain’s launch stack was the most substantive agent-infra release cluster: SmithDB is a database purpose-built for agent trace data, while LangSmith Engine consumes traces, clusters failures, identifies likely code issues, and proposes fixes/evals—turning observability into an improvement loop rather than passive inspection (@hwchase17, @caspar_br on Engine, @bentannyhill). Community commentary emphasized SmithDB’s architectural shift toward object storage and a custom storage/query path for this workload shape (@caspar_br on SmithDB, @ngates_, Chinese summary).
- LangChain also announced LangChain Labs, an applied research effort around continual learning for agents, with the thesis that production traces should become training signal, evals, and targeted capability improvements over long horizons (LangChain, @jakebroekhuizen, @willccbb, Prime Intellect partnership).
- Execution isolation for agents continues to mature: W&B/CoreWeave launched CoreWeave Sandboxes for isolated execution in RL, tool use, and eval workloads, explicitly testing destructive commands like rm -rf / at scale (Weights & Biases). In a similar spirit, open-source/local dev tooling surfaced around agent debugging: @benhylak highlighted a free local agent debugging stack with traces exposed to Codex/Claude Code for automated eval authoring.
Anthropic Claude Code Restrictions and the Developer Backlash
- The sharpest ecosystem reaction was to Anthropic restricting/reshaping Claude Code usage, especially for third-party wrappers and high-volume programmatic workflows. Theo’s thread became the focal point: he argued users of T3 Code were effectively hit with dramatic rate-limit reductions despite integrating through the officially supported path, and he subsequently cancelled his subscription while encouraging others to post cancellation screenshots for open-source donations (@theo initial thread, subscription cancellation, donation thread, T3 Code clarification). Other prominent builders echoed the complaint that Anthropic had effectively cut off open-source devs/apps and destabilized harnesses built around claude -p (@theo, @andersonbcdefg).
- There was also a more strategic counterargument: some users argued Anthropic does not owe developers heavily subsidized flat-fee tokens for third-party apps, and that the ecosystem will likely shift toward more explicit API economics and smarter routing between expensive and cheap models (Sentdex, @tadasayy). Still, the visible churn signal was nontrivial, including users estimating meaningful ARR loss from reply-thread cancellations alone (@thegenioo, Uncle Bob Martin, Theo later). For agent engineers, the practical takeaway is straightforward: subscription-backed harnesses are not stable platform primitives; provider/model abstraction and BYOK paths look increasingly mandatory.
Robotics and Embodied AI: Figure’s 24/7 Sorting Stream and the Broader Automation Signal
- Figure’s livestream dominated robotics discussion. The company first showed 8 hours of fully autonomous, unsupervised work, then extended to a 24/7 livestream, eventually reporting 24+ hours of continuous autonomous operation without failure, around human-parity throughput on small package sorting, and operation by Helix-02 running entirely onboard with automatic resets for OOD cases—explicitly claiming no teleoperation (Figure CEO Brett Adcock, 24h update, detailed technical clarifications, Day 2 livestream). The repeated “Bob, Frank, and Gary” updates were fluffier, but the core signal was sustained autonomous operation at production-like uptime.
- Interpretation split between skepticism about Figure specifically and broader conviction about robotics acceleration. Some commenters argued that critics were underestimating what these demonstrations imply for near-term labor substitution, while others noted skepticism was directed more at Figure than at robotics as a category (@cloneofsimo, @iScienceLuvr, @kimmonismus). Either way, this was one of the clearest “continuous uptime” demos in the batch.
Research, Benchmarks, and Open Models: Diffusion LMs, Time-Series FMs, Mechanistic Interpretability, and RL/Search
- A few technically significant model/research releases stood out:
Zyphra’s ZAYA1-8B-Diffusion-Preview claims a 4.6–7.7x decoding speedup versus autoregressive generation with limited quality loss, making the usual case that diffusion LMs enable cheaper rollouts and richer generation modes (Zyphra).
- Datadog’s Toto 2.0 released 5 open-weights time-series forecasting models from 4M to 2.5B params under Apache 2.0, claiming #1 on BOOM, GIFT-Eval, and TIME and, more importantly, evidence that scaling laws may finally hold cleanly for TSFMs (Datadog, @atalwalkar, @ClementDelangue).
- Goodfire’s interpretability post argued that Llama uses a geometric “shape-rotating calculator” / Fourier-feature-like mechanism for arithmetic, with steering-based evidence rather than pure post-hoc description (GoodfireAI, follow-up).
- On RL/search and optimizer-style progress, several threads were notable: a survey framing LLM RL as rollout engineering across Generate / Filter / Control / Replay rather than just PPO-vs-GRPO (The Turing Post); Pedagogical RL using privileged information to actively find useful rollouts (Souradip Chakraborty, @lateinteraction); and Prime Intellect’s autonomous optimizer search on the nanoGPT speedrun benchmark, where Opus 4.7 reached 2930 steps and GPT-5.5 2950, beating the 2990 human baseline after ~10k runs / ~14k H200 hours (Prime Intellect, @eliebakouch). Also noteworthy: Kimi K2.6 was reported as #1 open-weight model on Finance Agent Benchmark V2 (Moonshot AI), and Ring-2.6-1T got day-0 vLLM support as an open release (vLLM).
Top Tweets (by engagement)
- OpenAI’s Codex mobile launch was the clearest product winner by engagement and practical relevance: remote control/review of running coding-agent sessions from ChatGPT mobile (OpenAI).
- Theo’s Claude Code backlash threads captured the strongest developer sentiment shift around platform risk and subscription-backed agent workflows (@theo, @theo donations thread).
- Figure’s autonomous humanoid sorting livestream remained one of the most discussed embodied-AI demos, especially once it crossed the 24-hour mark with detailed claims about onboard policy execution and no teleop (Brett Adcock).
- GitHub’s Copilot App and LangChain’s Engine/SmithDB/Labs were the most important non-OpenAI tooling launches for agent engineers this cycle (GitHub, LangChain, @hwchase17).
- Prime Intellect’s autonomous optimizer-search result is worth watching as a concrete example of coding agents being looped into open-ended ML optimization, not just app dev (Prime Intellect).
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. Qwen 3.6 Local Inference Speedups and Quantization
- Multi-Token Prediction (MTP) for Qwen on LLaMA.cpp + TurboQuant (Activity: 514): A patched llama.cpp fork adds Multi-Token Prediction (MTP) support for Qwen plus TurboQuant, reporting 21 tok/s → 34 tok/s on a MacBook Pro M5 Max 64GB, with a claimed 90% MTP acceptance rate; note the raw speedup is ~62%, not 40%. Code is published at AtomicBot-ai/atomic-llama-cpp-turboquant, with GGUF MTP quantizations for Qwen 3.6 27B/35B in the AtomicChat/qwen-36-udt-mtp HF collection. Commenters questioned the TurboQuant framing, arguing it is often slower than f16, q8, or q4; one noted a TurboQuant PR to llama.cpp was rejected because existing Q4 KV-quant rotation support already covered most benefits, with gains mainly at Q3 where quality degradation becomes a concern. Others asked for quality/eval data, since higher speculative/MTP acceptance and tokens/s do not alone establish output parity.
Several commenters argued that TurboQuant is not generally faster in llama.cpp, with one noting it can be slower than f16, q8, or q4. A prior TurboQuant PR to llama.cpp was reportedly rejected because llama.cpp already implements rotations for Q4 KV-cache quantization, where standard Q4 was faster and showed little gain; TurboQuant may only help around Q3, but with notable quality degradation.
- Users distinguished between speed, quality, and context tradeoffs: MTP without TurboQuant was suggested for speed, while standard Q4_1 or Q4_0 quantization was recommended for longer context/quality retention. One commenter questioned whether TurboQuant had any Mac-specific advantage, implying the benefit is hardware- or workload-dependent rather than broadly useful.
- A commenter recommended using dflash instead of built-in MTP, claiming it is 30–40% faster. They also mentioned that a pull request for this already existed, suggesting the implementation work may duplicate prior llama.cpp integration efforts.
- we really all are going to make it, aren't we? 2x3090 setup. (Activity: 487): A dual RTX 3090 (48 GB VRAM total, no NVLink) setup running club-3090 reportedly improved from WSL2 performance of ~30 tok/s generation and ~400 pp/s prompt processing to native Ubuntu at ~113 tok/s and ~4000 pp/s. The author says recent fixes for an “sse-session drop bug” and tool-calling made local workflows viable, with Qwen “3.6” 27B at 262k context feeling “almost-Sonnet level” for coding, monkey patches, and code review on consumer GPUs. Commenters frame this as evidence that local AI has crossed from demos into practical coding workloads, crediting faster runtimes, infrastructure, and small-model quality. There is cautious optimism that domain-specific frontier-class models may fit prosumer hardware within 1–2 years, while one user recommends avoiding dual boot and running a dedicated Ubuntu GPU server/API box instead.
Commenters noted a major capability jump in local inference: consumer dual-RTX 3090 setups are now being described as usable for near-Claude-Sonnet-level coding workflows, rather than just toy 7B summarization demos. The discussion attributes this to faster-than-expected gains in runtime/software optimization, smaller-model capability, and local inference infrastructure, with speculation that domain-specific frontier-quality models may fit on prosumer hardware within 1–2 years.
One user described running a 2x R
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み