今日は何も大きな出来事はありませんでした
Smol AI News は、コーディングエージェント評価が単なるコード生成からエンドツーエンドのフルスタック実装へ移行し、開発ワークフローにおけるボトルネックがコード生成能力から調整・可観測性へとシフトした現状を報告している。
キーポイント
フルスタック評価への移行
Code Arena が「Fullstack Code Arena」を立ち上げ、フロントエンドのモックアップからデータベースやデプロイを含む現実的なアプリの完全な実装まで評価範囲が拡大している。
コーディングエージェント用インフラの成熟
LangChain の LangSmith や LlamaIndex によるトレーシング、自動ドキュメント生成(OpenWiki)、およびエージェントネイティブなパース機能など、開発者ワークフローを支える基盤が急速に強化されている。
ボトルネックのシフト
モデルのコード生成能力が十分になった現在、主要な課題はルーティング、可観測性、コラボレーション、メモリ管理、そして「理解」へと移っており、UX 設計の焦点が変化している。
次世代エグゼクティブアシスタントへの展望
業界関係者は、永続的なメモリと委任されたアクションを持つ常時稼働型のエグゼクティブアシスタントを最終目標としており、認知負荷の軽減が重要な課題となっている。
影響分析・編集コメントを表示
影響分析
この記事は、AI コーディング分野が単なるプロトタイピング段階から、本格的なソフトウェア開発インフラへと成熟したことを示唆しています。企業や開発者は、モデルの性能向上よりも、エージェントをどう管理し、複雑なワークフローをどう統合するかにリソースを割く必要性に直面しており、開発ツールの市場構造が根本的に変化しつつあります。
編集コメント
「コードが書けるか」から「アプリを完成させられるか」という評価基準の変化は、AI エージェントの実用化における決定的な転換点です。開発現場では、今後はモデルの性能よりも、そのエージェントをどう制御し、信頼できるシステムとして運用するかが問われる時代へ突入しています。
静かな一日。
2026年7月1日〜7月2日のAIニュース。12のサブレッド、544 の Twitter、およびさらに Discord は確認しましたが、それ以上の情報はありませんでした。AINews のウェブサイトでは過去のすべての号を検索できます。念のためお知らせしますが、AINews は現在 Latent Space のセクションの一部となっています。メールの頻度を選択的に設定(購読または解除)することができます!
AI Twitter リキャップ
エージェント型コーディングシステム、ハルネス、および開発者ワークフローインフラストラクチャ
- フルスタック評価が玩具的なコーディングデモに取って代わっています:Code Arena はフルスタックコードアリーナを立ち上げ、評価の範囲をフロントエンドのモックアップから、データベース、API キー、デプロイメント、構造化されたツール使用を含むソフトウェアへと拡張しました。これは、「モデルはコンポーネントを書けるか?」という問いから、「エージェントは現実的なアプリをエンドツーエンドで提供できるか?」というより広範なシフトと一致しており、Aryan Vichare 氏や環境ベースの評価を静的プロンプトよりも重視する実践者たちによっても支持されています。
- コーディングエージェントを取り巻くエンジニアリングスタックは急速に厚みを増しています:LangChain は LangSmith において異種コーディングツール向けの統一トレーシングを推進し、このリリースでは自動生成されたリポジトリドキュメントおよび AGENTS.md の更新機能である OpenWiki も追加されました。一方、LlamaIndex は、パース処理が前処理ステップではなくエージェントネイティブな機能へと進化するという、小さくても有用なパターンを示しました。具体的には、LiteParse と flue、Resend、Turso を組み合わせたメールアシスタントによる実装です。同時に、Jerry Liu 氏ら複数の投稿者が、検索の複雑さが次第にエージェント層にエンコードされるようになり、単純なツールと賢いオーケストレーションが重要になっていると主張しています。
- 実際の UX における課題は現在、生みのコード生成ではなく調整にあります:ビルダーたちから繰り返し聞かれるテーマとして、最先端のコーディングパフォーマンスはすでに十分であり、ボトルネックがルーティング、観測性、コラボレーション、メモリ、そして理解へとシフトしたことが挙げられます。Simon Willison 氏は、「参加するために理解する」ことがコーディングエージェントによる認知負債に対する鍵となる対抗策であると強調しました。Will Depue 氏は、望まれる最終状態として、常時稼働し、永続的な記憶を持ち、委任されたアクション、メッセージ機能、そしてコンピュータ操作を備えたエグゼクティブアシスタントの姿を描きました。この同じ願望は PersonalOS にも表れており、個人データのエクスポートから構成される 30 万トークン規模のライフコンテキストパックが構築されています。
モデルの可用性、最先端のコーディングパフォーマンス、そしてオープン vs クローズドの立場
- アンソロピックの Fable ディスカースが支配的でしたが、最も具体的なニュースは運用面のものでした。アンソロピックは新しい重み(weights)を公開するのではなく、アクセスに関する信頼回復に注力しました。公式 API のレート制限が引き上げられ簡素化され、Trapit Bansal 氏は容量が許せば Fable がサブスクリプションに戻ると述べています。また、アンソロピックは Claude Code アーティファクトを Pro および Max プランに拡大し、長時間実行されるコーディングセッションの検査と共有を容易にしました。
- コミュニティからの信号は、ルーティングをめぐる論争にもかかわらず Fable が最前線クラスであることを示唆しています。いくつかのバイラル投稿ではアンソロピックの展開・ルーティング行動への不満が表明されましたが、批判者たちでさえそれをモデルの品質とは切り離して考えていました。Theo は Fable に関する不適切な見解がアンソロピックの実際の課題から目を逸らさせていると指摘し、Arena の初期の事前/事後比較では、テキスト、ドキュメント、ビジョン、コード全体に再展開した後でもスコアは概ね一貫しているように見えると述べています。Theo はまた、一部のベンチマークでの低下はベース能力の回帰よりもフォールバック行動を反映している可能性があると付け加えています。
- オープンモデルの経済性はコーディングにおいてますます信頼性が高まっています:Together 社が報告したところ、GLM 5.2 は Sonnet 5 のソフトウェアエンジニアリング能力のおよそ 80% に達し、価格は約 20% で済みます。また zRdianjiao が示したように、GLM-5.2 は Hugging Face Inference Providers を介して Claude Code で選択可能となり、オープンモデルがファーストクラスの開発ワークフローに組み込まれる方向への重要な一歩となりました。より広範な視点では、Clement Delangue 氏、Jason 氏、そして Bryan Catanzaro 氏が Matt Turck 氏のインタビューを通じて示したバリエーションある主張はすべて同じテーゼを推し進めるものでした:オープンモデルが企業や開発者にとっての主権層(ソブリンレイヤー)へと成長しつつあるという点です。
- Meta はアジェンシー(自律型エージェント)に関する議論への再参入を示唆しています:Alexandr Wang 氏は、次期 Muse Spark のアップデートがまもなくリリースされ、「コーディングとアジェンシー能力における大きな改善」を伴い、主要モデルとの競争力を高めるために Meta AI およびその API に展開されると投稿しました。
推論(Inference)、カーネル(Kernels)、サービング(Serving)、およびテスト時計算(Test-Time Compute)が新たなスケーリングの最前線となる
- カーネルレベルの自動化はもはや仮説の域を超えています:注目すべきシステム関連の投稿として、Elliot Arledge 氏の KernelBench-Mega の結果が挙げられます。Claude Fable 5 が Kimi-Linear デコードワークロード向けに、史上初の真の単一起動メガカーネル(megakernel)を作成したと報じられており、リファレンスに対して 18.7 倍の性能を達成し、以前のマルチカーネルエントリーを上回りました。その説明はシステムエンジニアにとって重要な詳細を含んでおり、レジスタ内 int4 デクアンタイズ(int4 dequant)、融合アテンション/ルーター/MoE/ノーマライゼーション/KV アペンド、明示的なバリア削減などが含まれ、さらにモデルがベンチマークを実行し、回帰を元に戻し、ロフライン(roofline)に向かって最適化する意志を示していることが実証されています。
- 推測と推論デコーディングは、依然として活発な最適化の領域です:teortaxesTex は「推論器のスケーリング」を推論の加速およびしたがって RL スループット向上のための新たな次元として指摘しました。一方、mgoin_ は GB300 NVL72 における具体的な DSpark + Mooncake + vLLM のセットアップについて共有し、事前処理トークン速度が 125k tok/s、オンライントレーニングのステップ速度が 1.5 steps/s に達していることを示しました。また、vLLM チームは DeepSeek V4 において 1 ヶ月でトークンコストを 5 分の 1 に削減した点を強調し、Qwen3-Omni のリアルタイム音声パイプラインに関する特に有用なサービス内訳も公開しました。ここではステージ固有の複製により、最初の音声出力までの時間が約 6 秒から約 0.6 秒に短縮され、スループットは 5.4 倍向上しています。
- テスト時の計算リソース予算の変化がベンチマーク解釈を変えています:英国 AISI の大規模な計算リソース予算に関する投稿が広く共有されました。scaling01、Tomek Korbak、Noam Brown/polynoamial、David Rein、そして Toby Ord は皆、同じ点を強調しています。「十分なトークンを割り当てなければ、最前線のエージェントを体系的に過小評価することになる」という点です。主要な数値は以下の通りです:最前線のホライズン推定値は、2.5M トークンでは約 2 時間ですが、50M トークンでは約 14 時間に上昇します。
学習、記憶、世界モデル、および継続的適応に関するベンチマークと研究
- 継続的/オンザフライ学習は、より鋭い測定ツールを獲得しつつありますが、結果はまだ混在しています:Epoch は EBR-bench を導入し、モデルが Earthborne Rangers を繰り返しプレイして失敗から学習を試みる環境を提供しました。現在の最先端システムでは、専用の強化学習(RL)がない限り明確な改善は見られません。一方、ByteDance Seed の新しい EdgeBench は、134 の実世界環境にわたる 1 日単位の時間軸を研究したことで強い注目を集め、学習速度は約 3 ヶ月ごとに倍増し、その向上は反復サンプリングだけでは説明できないと主張しています。このベンチマークはすぐに METR スタイルの時間軸研究に対する重要な補完として扱われるようになっています。
- メモリはサポートモジュールから訓練可能な能力へと格上げされています:Stanford AutoMem 論文は、Omar Sanseviero の要約を通じて注目を集めました。ここではメモリ管理がスキルとして扱われ、モデルが何を保存し、検索し、再編成するかを決定します。メモリ最適化のみで Crafter、MiniHack、NetHack において 2 倍から 4 倍の向上が得られると報告されています。この考え方は、永続的な個人用および研究用メモリシステムへのより実用的なトレンドとも響き合っており、PaperWiki、PersonalOS、OpenWiki はすべて、メモリが製品表面の一部となりつつあることを示しています。
- ワールドモデルは静的資産から適応型オンラインコンポーネントへとシフトしています:Reka は WorldModelGym をリリースし、100 以上のトラックにわたる意思決定ベースの忠実度を中心に評価を位置づけました。askalphaxiv の AdaJEPA に関する要約では、より強力な主張がなされました。すなわち、事前学習済みワールドモデルはデプロイ時にも継続的に適応すべきであり、MPC(モデル予測制御)サイクルごとに 1 つの勾配ステップを行うことで、視覚的および動的変化の下での堅牢性が向上するというものです。
エンゲージメント上位ツイート
- Anthropic のアクセス/キャパシティに関する更新:Trapit Bansal は、キャパシティが許す限り Fable がサブスクリプションに戻ることを明言しました。これは現在の不足が恒久的なパッケージングの決定ではなく、キャパシティの問題であることを示す最も明確なシグナルです。
- 即座に運用に影響を与える API/プラットフォームの変更:Claude API のレート制限が引き上げられ、ティア構成が簡素化されました。
- コーディングにおけるモデルスタックの構成:Mitchell Hashimoto が Fable xhigh → GPT-5.5 xhigh → Fable xhigh を用いたプランナー/コーダー/ジャッジのワークフローを提案。計画と評価にかかるコストは数ドル程度であり、非常に高価なエンドツーエンドループと比較して大幅に低コストです。
- 最先端プロンプティングを上回る専門的なポストトレーニング:Aakash Gupta は Bridgewater と Thinking Machines の取り組みについて言及し、ファインチューニングされた Qwen3-235B が文書フィルタリングにおいて 84.7% を達成し、推論コストが約 1/14 であるにもかかわらず最先端プロンプトモデルを上回る結果を示しました。
- 低レベル最適化における自律システムの性能:Elliot Arledge が Fable で記述した megakernel の成果は、このセット内で最も技術的に実質的なコーディングエージェントの事例と言えるでしょう。
- Video generation leadership change: Design Arena は、Gemini Omni Flash が Video Arena で 1404 の Elo を記録し、Seedance 2.0 Mini よりも 101 ポイント差をつけてトップにランクインしたと報告しました。これは同リーダーボードで観測された大きなジャンプの一つです。
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. llama.cpp Long-Context and Qwen 3.6 Optimization
- llamacpp patch - DeepSeek V4 Flash running with full 1M token context locally on RTX 5090 (Activity: 374): llama.cpp のパッチにより、DeepSeek V4 Flash の DSA(Dynamic Sparse Attention)/lightning indexer がモデルグラフに組み込まれ、CUDA カーネルが追加されました。これにより、DeepSeek-V4-Flash GGUF を約 256 GiB の計算用バッファ VRAM を必要とせず、RTX 5090 で最大 1M トークンのコンテキスト(文脈)でローカル実行可能になりました。報告された結果によると、256K コンテキストでの計算用バッファは約 67 GiB/OOM から 3.2 GiB に低下し、prefill(事前処理)速度は 56 t/s から約 263 t/s に向上しました。decode(生成)速度は約 14 t/s で維持されています。検証済みのプリセットでは、256K/512K/1M コンテキストでのピーク VRAM はそれぞれ約 29/28/31 GiB であり、ubatch の削減により 1M の prefill は約 159 t/s に達します。著者は、この成果の詳細とブランチのソース・ビルドノートについて、upstream PR ggml-org/llama.cpp#24231 をリンクしており、100K、512K、1M で基本的な needle-in-haystack(干し草の山の中の針)タスクの正答性を確認したと報告しています。コメントは主に、単一の RTX 5090 で DS4 Flash を実行する実現可能性について肯定的でしたが、技術的なフォローアップとして TTFT(Time To First Token:最初のトークンまでの時間)および/またはエンドツーエンドのトークン生成タイミング(tg-end2end)に関する質問がありました。
あるコメント投稿者は、RTX 5090 1 枚でのローカル DeepSeek V4 Flash の実行に関する主張の妥当性を検証するため、広告されている最大 1M トークンコンテキストにおける実用性を評価する具体的なレイテンシ指標(TTFT: Time To First Token, tg-end2end: token generation end-to-end)を求めています。
- もう一つの技術的な懸念として、「結果が良すぎて真実とは思えない」という指摘があり、upstream llama.cpp へのパッチとして提出してレビューを受けるべきであり、信頼する前に実装の正確性やパフォーマンスに関する検証が必要であるとの示唆が含まれています。
- あるコメント投稿者は、現在進行中の llama.cpp の lightning indexer(高速インデクサ)の修正を参照し、これを Metal へ移植することを提案しました。これは、現在のパッチが CUDA に焦点を当てており、Apple GPU サポートにはバックエンド固有の適応が必要であることを示唆しています。
- qwen3.6 27b q6 + 5090 maximum llamacpp optimization: 100-233tok/s, average 140 (Activity: 201): あるユーザーが、最新の llama.cpp ビルド(86b9470)を使用して、RTX 5090 32GB / Ryzen 9800X3D / 64GB RAM のシステム上で Qwen 3.6 27B Q6_K + MTP(Multi-Token Prediction: 複数トークン予測)推論を最適化し、約 20 時間のエージェントワークロードにおいて 100〜233 トークン/秒の処理速度を達成しました。平均は 140.7 トークン/秒、中央値は 134.9 トークン/秒です。ここで主に解決された技術的課題は、Qwen のハイブリッドアテンション(hybrid attention)およびスライディングウィンドウアテンション(sliding-window attention: スライド窓型注意機構)の挙動に対する llama.cpp のプロンプトキャッシュ無効化の問題です。ログには「キャッシュデータ不足のため完全なプロンプト再処理を強制」というメッセージが表示されており、これは llama.cpp の PR 議論に関連するものです。ユーザーはこれに対し、2 つのローカルパッチで対応しました。1 つ目はハイブリッド/反復モデル向けのチェックポイント検索修正、2 つ目はアップストリーム PR #24785 に基づく最小限の recurrent_shrink/expand プロンプトキャッシュ API パッチです(Dockerfile, diff)。起動設定では、Q8 KV キャッシュ、192k コンテキスト、約 32GB の RAM キャッシュを使用し、MTP 推測デコーディングには draft=10 および spec-draft-p-min=0.5 を指定しています。また、VRAM 使用量を約 32036/32768 MB に収めるためにバッチサイズとサブバッチサイズを 512 に設定しており、メモリに余裕があれば 5090 では 2048 が望ましいとしています(起動コマンド)。
2. Gemma 4 Open Model Experiments and Benchmarks
- Gemma4-31B を 44B(88 レイヤー)に拡張しました — Google は 31B より大きなモデルを提供しないためです(アクティビティ:1287)。この画像はミームではなく技術的なインフォグラフィックで、Gemma4-31B から層の拡大を通じて ExtGemma4-44B へのアーキテクチャ経路を図解しています。具体的には、アイデンティティ初期化された挿入を用いて 60 → 80 レイヤーとし、その後 8 レイヤーブロックの複製・挿入により 80 → 88 レイヤーへと拡張するものです。これは著者の Hugging Face 上の記述および画像と一致しており、その主な技術的意義は、初期動作を維持するためにアイデンティティ初期化と Gemma 固有のレイヤースカラー(layer_scalar)= 1.0 の修正を使用している点にあります。著者は、韓国語の法務・STEM データでのファインチューニング後、追加されたフルアテンション層がスライディングウィンドウ層よりも多くの訓練寄与と効果をもたらしたと主張しています。コメントは概ね支持するものですが慎重なものであり、あるコメントでは RYS("repeat yourself")やレイヤー複製をベースラインとしてベンチマークすることの提案がありました。また、他のコメントでは実行に必要なハードウェアが不足していることや、ロールプレイファインチューニングへの需要に関する冗談が述べられました。
あるコメントでは、44B/88 レイヤー拡張版を RYS("repeat yourself")ベースラインと比較するよう提案しました。これは連続した層を複製してより大きなモデルを作成する方法です。著者は RYS を、既存のモデルを「より大きく、かつより良く」するための簡易的な手法として位置づけ、投稿者の層拡張戦略が単純な層複製を超えた実質的な向上をもたらしているかを評価するための有用なコントロール(対照群)であると説明しています。
- コミュニティビルドが利用可能になった時点で、下流の量子化実験への関心が高まる見込みですが、コメント投稿者はフルモデルを実行するためのハードウェアを保有していないと指摘しました。別の投稿者はこのアプローチを、Llama 2 / Llama 3 時代の早期に登場した「フランケンシュタイン」型の拡張モデルへと結びつけ、ステッチ処理やトランスフォーマーアーキテクチャの拡大に関する先行するコミュニティの実験を示唆しています。
Gemma 4 31B と対話! (アクティビティ: 1006): Andi
原文を表示
a quiet day.
AI News for 7/01/2026-7/02/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Agentic Coding Systems, Harnesses, and Developer Workflow Infrastructure
- Full-stack evals are replacing toy coding demos: Code Arena launched Fullstack Code Arena, extending evaluation from frontend mockups to software that includes databases, API keys, deployments, and structured tool use. That aligns with a broader shift from “can the model write a component?” to “can the agent ship a realistic app end-to-end?”, echoed by Aryan Vichare and by practitioners emphasizing environment-based evals over static prompts.
- The engineering stack around coding agents is thickening fast: LangChain pushed unified tracing for heterogeneous coding tools in LangSmith, plus OpenWiki for auto-generated repo docs and AGENTS.md updates in this release. LlamaIndex showed a small but useful pattern where parsing becomes an agent-native capability rather than a preprocessing step via a LiteParse + flue + Resend + Turso email assistant. Meanwhile, multiple posts from Jerry Liu and others argued that retrieval complexity is increasingly encoded at the agent layer, with simpler tools and smarter orchestration.
- The practical UX problem is now coordination, not raw codegen: A recurring theme from builders is that frontier coding performance is good enough that bottlenecks have shifted to routing, observability, collaboration, memory, and understanding. Simon Willison highlighted “understand to participate” as the key antidote to cognitive debt with coding agents; Will Depue sketched the desired end-state: an always-on executive assistant with persistent memory, delegated actions, messaging, and computer use. That same desire shows up in PersonalOS, where a 300k-token life context pack is assembled from personal data exports.
Model Availability, Frontier Coding Performance, and Open vs Closed Positioning
- Anthropic’s Fable discourse dominated, but the most concrete news was operational: Anthropic restored confidence around access rather than releasing new weights: official API rate limits were raised and simplified, and Trapit Bansal said Fable is expected to return to subscriptions once capacity allows. Anthropic also expanded Claude Code artifacts to Pro and Max plans, making long-running coding sessions easier to inspect and share.
- Community signal suggests Fable remains frontier-class despite rerouting controversy: Several viral posts complained about Anthropic’s deployment/routing behavior, but even critics were separating that from model quality. Theo argued that bad takes on Fable were distracting from Anthropic’s actual issues, while Arena’s early before/after comparison said scores looked mostly consistent after redeployment across text, document, vision, and code. Theo also noted that some benchmark drops may reflect fallback behavior more than a base capability regression.
- Open-model economics are increasingly credible in coding: Together reported that GLM 5.2 reaches roughly 80% of Sonnet 5 software-engineering capability at ~20% of the price, and zRdianjiao showed that GLM-5.2 is now selectable in Claude Code via Hugging Face Inference Providers, a notable step toward open models inhabiting first-class dev workflows. More broadly, Clement Delangue, Jason, and Bryan Catanzaro via Matt Turck’s interview all pushed variants of the same thesis: open models are becoming the sovereignty layer for enterprises and developers.
- Meta appears to be re-entering the agentic conversation: Alexandr Wang posted that the next Muse Spark update is coming soon with “big improvements in coding and agentic capabilities” to be competitive with leading models, rolling out to Meta AI and its API.
Inference, Kernels, Serving, and Test-Time Compute as the New Scaling Frontier
- Kernel-level automation is no longer hypothetical: The standout systems post was Elliot Arledge’s KernelBench-Mega result: Claude Fable 5 reportedly wrote the first authentic single-launch megakernel for a Kimi-Linear decode workload, achieving 18.7x over reference and beating prior multi-kernel entries. The description is detailed enough to matter to systems folks: in-register int4 dequant, fused attention/router/MoE/norm/KV append, explicit barrier shaving, and a demonstrated willingness by the model to benchmark, revert regressions, and optimize toward a roofline.
- Speculation and speculative decoding remain active optimization surfaces: teortaxesTex pointed to “scaling the speculator” as a new dimension for accelerating inference and therefore RL throughput, while mgoin_ shared a concrete DSpark + Mooncake + vLLM setup on GB300 NVL72, with 125k prefill tok/s and 1.5 steps/s for online training. The vLLM team also highlighted 5x lower token costs on DeepSeek V4 in one month and published a particularly useful serving breakdown for Qwen3-Omni’s real-time speech pipeline, where stage-specific replication yields ~0.6s first audio instead of ~6s and 5.4x throughput.
- Test-time compute budgets are changing benchmark interpretation: The UK AISI post on larger compute budgets propagated widely. scaling01, Tomek Korbak, Noam Brown/polynoamial, David Rein, and Toby Ord all emphasized the same point: if you don’t allocate enough tokens, you systematically underestimate frontier agents. The headline number: frontier horizon estimates rise from roughly 2 hours at 2.5M tokens to around 14 hours at 50M tokens.
Benchmarks and Research on Learning, Memory, World Models, and Continual Adaptation
- Continual/on-the-fly learning is getting sharper measurement tools, but results remain mixed: Epoch introduced EBR-bench, where models repeatedly play Earthborne Rangers and attempt to learn from failure; current frontier systems show no clear improvement absent dedicated RL. In parallel, ByteDance Seed’s new EdgeBench drew strong attention for studying day-long horizons across 134 real-world environments, claiming that learning speed doubles every ~3 months and that gains are not explained by repeated sampling alone. This benchmark is quickly being treated as a serious complement to METR-style horizon work.
- Memory is being elevated from support module to trainable competence: The Stanford AutoMem paper got attention via Omar Sanseviero’s summary: memory management is treated as a skill, with models deciding what to store, retrieve, and reorganize; optimizing memory alone reportedly yields 2x–4x gains on Crafter, MiniHack, and NetHack. That idea rhymes with a more applied trend toward persistent personal and research memory systems: PaperWiki, PersonalOS, and OpenWiki all point to memory becoming part of the product surface.
- World models are shifting from static assets to adaptive online components: Reka released WorldModelGym, framing evaluation around decision-based fidelity across 100+ tracks. askalphaxiv’s summary of AdaJEPA pushed the stronger claim: pretrained world models should keep adapting at deployment time, with one gradient step per MPC cycle improving robustness under visual and dynamics shift.
Top tweets (by engagement)
- Anthropic access/capacity update: Trapit Bansal on Fable returning to subscriptions when capacity allows — the clearest signal that current scarcity is a capacity problem, not a permanent packaging decision.
- API/platform change with immediate operational impact: Claude API rate limits raised and tiers simplified.
- Model stack composition for coding: Mitchell Hashimoto’s planner/coder/judge workflow using Fable xhigh → GPT-5.5 xhigh → Fable xhigh, with planning/judging costing only a few dollars versus much pricier end-to-end loops.
- Specialized post-training beating frontier prompting: Aakash Gupta on Bridgewater + Thinking Machines, where a fine-tuned Qwen3-235B reached 84.7%, outperforming frontier prompted models on document filtering at ~1/14th the inference cost.
- Autonomous systems performance on low-level optimization: Elliot Arledge’s Fable-written megakernel result, arguably the most technically substantive coding-agent anecdote in the set.
- Video generation leadership change: Design Arena reported Gemini Omni Flash at #1 on Video Arena with 1404 Elo, a 101-point gap over Seedance 2.0 Mini and one of the larger observed jumps on that leaderboard.
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. llama.cpp Long-Context and Qwen 3.6 Optimization
- llamacpp patch - DeepSeek V4 Flash running with full 1M token context locally on RTX 5090 (Activity: 374): A llama.cpp patch wires DeepSeek V4 Flash’s DSA/lightning indexer into the model graph and adds a CUDA kernel, enabling DeepSeek-V4-Flash GGUF to run locally with up to 1M context on an RTX 5090 instead of requiring ~256 GiB compute buffer VRAM. Reported results: at 256K context compute buffer drops from ~67 GiB/OOM to 3.2 GiB, prefill rises from 56 t/s to ~263 t/s, decode remains ~14 t/s; validated presets show 256K/512K/1M contexts at ~29/28/31 GiB peak VRAM, with 1M prefill ~159 t/s due to reduced ubatch. The author links source/build notes in the writeup and branch, based on upstream PR ggml-org/llama.cpp#24231, and reports basic needle-in-haystack correctness at 100K, 512K, and 1M. Comments were mostly positive about the feasibility of running DS4 Flash on a single RTX 5090; one technical follow-up asked for TTFT and/or end-to-end token generation timing (tg-end2end).
A commenter requested concrete latency metrics for the claimed local DeepSeek V4 Flash run on a single RTX 5090, specifically TTFT and tg-end2end, to validate usability at the advertised full 1M token context.
- Another technical concern was that the result "looks too good to be true" and should be submitted as patches to upstream llama.cpp for review, suggesting the implementation may need validation around correctness/performance before being trusted.
- One commenter referenced an ongoing llama.cpp lightning indexer fix and suggested porting it to Metal, implying the patch may currently be CUDA-focused and that Apple GPU support would require backend-specific adaptation.
- qwen3.6 27b q6 + 5090 maximum llamacpp optimization: 100-233tok/s, average 140 (Activity: 201): A user reports optimized Qwen 3.6 27B Q6_K + MTP inference on a RTX 5090 32GB / Ryzen 9800X3D / 64GB RAM system using a recent llama.cpp build (86b9470), achieving 100–233 tok/s over ~20h of agentic workloads with mean 140.7 tok/s and median 134.9 tok/s. The main technical issue addressed is llama.cpp prompt-cache invalidation for Qwen’s hybrid attention / sliding-window attention behavior—logs show “forcing full prompt re-processing due to lack of cache data” tied to llama.cpp PR discussion—which the user mitigates via two local patches: checkpoint-search fixes for hybrid/recurrent models and a minimal recurrent_shrink/expand prompt-cache API patch based on upstream PR #24785 (Dockerfile, diff). Their launch config uses Q8 KV cache, 192k context, ~32GB RAM cache, MTP speculative decoding with draft=10 and spec-draft-p-min=0.5, plus batch/ubatch=512 to fit within ~32036/32768 MB VRAM, noting 2048 would be preferable on a 5090 if memory allowed (launch command).
2. Gemma 4 Open Model Experiments and Benchmarks
- I extended Gemma4-31B to 44B (88 layers) — since Google won't give us anything bigger than 31B (Activity: 1287): The image is a technical infographic, not a meme: it diagrams the claimed architecture path from Gemma4-31B to ExtGemma4-44B via layer expansion—60 → 80 layers using identity-initialized insertions, then 80 → 88 layers by duplicating/inserting an 8-layer block—matching the author’s writeup on Hugging Face and the image. Its main technical significance is the use of identity initialization and a Gemma-specific layer_scalar = 1.0 fix to preserve initial behavior, with the author claiming the added full-attention layer trained and contributed more than sliding-window layers after fine-tuning on Korean legal/STEM data. Comments were mostly supportive but cautious: one commenter suggested benchmarking against RYS / “repeat yourself” layer duplication as a baseline, while others noted they lacked hardware to run it or joked about roleplay fine-tuning demand.
One commenter suggested benchmarking the 44B/88-layer extension against an RYS (“repeat yourself”) baseline, where sequential layers are duplicated to create a larger model. They framed RYS as a quick-and-dirty method to make an existing model “both bigger and better,” making it a useful control for evaluating whether the poster’s layer-extension strategy provides real gains beyond naive layer duplication.
- There was interest in downstream quantization experiments once community builds are available, though the commenter noted they lacked hardware to run the full model. Another commenter connected the approach to earlier “Frankenstein” enlarged models from the Llama 2 / Llama 3 era, implying prior community experimentation with stitched or expanded transformer architectures.
Talking with Gemma 4 31B! (Activity: 1006): Andi
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み