今日は何も大きな出来事はありませんでした
Smol AI News は、コーディングエージェントの進化が単なるコード生成からフルスタック評価や複雑なオーケストレーションへと移行し、実用化におけるボトルネックが「理解と協調」にあると分析した。
キーポイント
フルスタック評価へのシフト
Code Arena が「Fullstack Code Arena」を立ち上げ、フロントエンドのモックアップからデータベースやデプロイを含む実際のアプリ開発まで評価範囲が拡大した。
エンジニアリングスタックの厚み増加
LangChain や LlamaIndex などがトレーシング、自動ドキュメント生成、エージェントネイティブなパース機能を提供し、ツール統合とオーケストレーションが強化されている。
ボトルネックの変化と UX の重要性
モデルのコード生成能力が十分になった現在、課題はルーティング、観測可能性、メモリ管理、そして「参加するための理解」などの協調プロセスにある。
影響分析・編集コメントを表示
影響分析
このニュースは、AI コーディング分野が実験段階から実社会での本格的な運用フェーズへ移行したことを示唆しています。開発者は単にコードを書く能力だけでなく、複雑な環境下でエージェントを管理・協調させるためのインフラストラクチャと UX デザインに注力する必要が出てきます。これにより、AI エージェントの導入コストが下がり、より大規模な業務自動化が可能になる可能性があります。
編集コメント
コーディングエージェントの成熟度が上がり、現場での実装課題が「生成」から「運用・協調」へとシフトしている重要な転換点です。開発者はツール選定だけでなく、エージェントの挙動を管理するインフラ設計への注力が必要となるでしょう。
静かな一日。
2026年7月1日〜7月2日のAIニュース。12のサブレッド、544 の Twitter、および追加の Discord は確認されませんでした。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メール配信頻度のオプトイン・オプトアウトが可能です!
AI Twitter リキャップ
エージェント型コーディングシステム、ハルネス、および開発者ワークフローインフラストラクチャ
- フルスタック評価が玩具的なコーディングデモに取って代わっています:Code Arena は「Fullstack Code Arena」を立ち上げ、評価の範囲をフロントエンドのモックアップから、データベース、API キー、デプロイメント、構造化されたツール使用を含むソフトウェアへと拡張しました。これは、「モデルはコンポーネントを書けるか?」という問いから、「エージェントは現実的なアプリをエンドツーエンドで提供できるか?」というより広範な転換と一致しており、Aryan Vichare 氏や環境ベースの評価を静的プロンプトよりも重視する実践者たちによっても支持されています。
- コーディングエージェントを取り巻くエンジニアリングスタックは急速に厚みを増しています:LangChain は LangSmith において異種コーディングツール向けの統一トレーシングを推進し、本リリースでは自動生成されたリポジトリドキュメントおよび AGENTS.md の更新機能である OpenWiki も追加されました。一方、LlamaIndex は、パース処理が前処理ステップではなくエージェントネイティブな機能へと進化するという、小さくても有用なパターンを示しました。具体的には、LiteParse と flue、Resend、Tursto を組み合わせたメールアシスタントによる実装です。同時に、Jerry Liu 氏ら複数の投稿者が、検索の複雑さが次第にエージェント層にエンコードされるようになり、単純なツールと賢いオーケストレーションが重要になっていると主張しています。
- 実際の UX 上の課題は現在、生みのコード生成ではなく調整にあります:ビルダーたちから繰り返し聞かれるテーマとして、最先端のコーディングパフォーマンスはすでに十分であり、ボトルネックがルーティング、観測性、コラボレーション、メモリ、そして理解へとシフトしたことが挙げられます。Simon Willison 氏は、「参加するために理解する」ことがコーディングエージェントによる認知負債に対する鍵となる対抗策であると強調しました。Will Depue 氏は、望まれる最終状態として、常時稼働し、永続的な記憶を持ち、委任されたアクション、メッセージ機能、そしてコンピュータ操作を備えたエグゼクティブアシスタントの姿を描きました。この同じ願望は PersonalOS にも表れており、個人データのエクスポートから構成される 30 万トークン規模のライフコンテキストパックが構築されています。
モデルの可用性、最先端のコーディングパフォーマンス、そしてオープン vs クローズドの立場
- アンソロピックの Fable ディスカースが支配的でしたが、最も具体的なニュースは運用面のものでした。アンソロピックは新しい重み(weights)を公開するのではなく、アクセスに関する信頼回復に注力しました。公式 API のレート制限が引き上げられ簡素化され、Trapit Bansal 氏は容量が許せば Fable がサブスクリプションに戻ると述べています。また、アンソロピックは Claude Code アーティファクトを Pro および Max プランに拡大し、長時間実行されるコーディングセッションの検査と共有を容易にしました。
- コミュニティからの信号は、ルーティングをめぐる論争にもかかわらず Fable が最前線クラスであることを示唆しています。いくつかのバイラル投稿ではアンソロピックの展開・ルーティング行動への不満が表明されましたが、批判者たちでさえそれをモデルの品質とは切り離して考えていました。Theo は Fable に関する不適切な見解がアンソロピックの実際の課題から目を逸らさせていると指摘し、Arena の初期の事前/事後比較では、テキスト、ドキュメント、ビジョン、コード全体に再展開された後でもスコアは概ね一貫しているように見えると述べています。Theo はまた、一部のベンチマークでの低下はベース能力の回帰よりもフォールバック行動を反映している可能性があると付け加えています。
- オープンモデルの経済性はコーディングにおいてますます信頼性が高まっています:Together 社が報告したところ、GLM 5.2 は Sonnet 5 のソフトウェアエンジニアリング能力のおよそ 80% に達し、価格は約 20% で済みます。また zRdianjiao が示したように、GLM-5.2 は Hugging Face Inference Providers を介して Claude Code で選択可能となり、オープンモデルがファーストクラスの開発ワークフローに組み込まれる方向への重要な一歩となりました。より広範な視点では、Clement Delangue 氏、Jason 氏、そして Bryan Catanzaro 氏が Matt Turck 氏のインタビューを通じて示したバリエーションある主張はすべて同じテーゼを推し進めるものでした:オープンモデルが企業や開発者にとっての主権層(ソブリンティ・レイヤー)へと成長しつつあるという点です。
- Meta はアジェンシー(自律型エージェント)に関する議論への再参入を示唆しています:Alexandr Wang 氏は、次期 Muse Spark のアップデートがまもなくリリースされ、「コーディングとアジェンシー能力において大きな改善」が見られ、主要モデルとの競争力を高めるために Meta AI およびその API に展開されると投稿しました。
推論(Inference)、カーネル(Kernels)、サービング(Serving)、およびテスト時計算(Test-Time Compute)が新たなスケーリングの最前線となる
- カーネルレベルの自動化はもはや仮説の域を超えています:注目すべきシステム関連の投稿として、Elliot Arledge 氏の KernelBench-Mega の結果が挙げられます。Claude Fable 5 が Kimi-Linear デコードワークロード向けに、史上初めて本格的なシングルランチ・メガカーネルを記述したと報じられており、リファレンスに対して 18.7 倍の性能向上を達成し、従来のマルチカーネルエントリーを上回りました。その説明はシステムエンジニアにとって重要な詳細を含んでおり、レジスタ内での int4 デクアンタイズ(dequant)、融合アテンション/ルーター/MoE/ノーマライゼーション/KV アップエンド、明示的なバリアの削減などが含まれ、さらにモデルがベンチマークを実行し、回帰を元に戻し、ロフライン(roofline)に向かって最適化する意志を示していることが実証されています。
- 推測と推測デコーディングは、依然として活発な最適化の領域です:teortaxesTex は「推論器のスケーリング」を推論の加速およびしたがって RL スループット向上のための新たな次元として指摘しました。一方、mgoin_ は GB300 NVL72 における具体的な DSpark + Mooncake + vLLM のセットアップを共有し、事前処理トークン速度で 125k tok/s、オンライントレーニングで 1.5 steps/s を達成したと報告しています。また、vLLM チームは DeepSeek V4 において 1 ヶ月間でトークンコストが 5 分の 1 に低下したことを強調し、Qwen3-Omni のリアルタイム音声パイプラインに関する特に有用なサービス内訳も公開しました。ここではステージごとの複製により、最初の音声出力までの時間が約 6 秒から約 0.6 秒に短縮され、スループットは 5.4 倍向上しています。
- テスト時の計算リソース予算の変化がベンチマーク解釈を変えています:英国 AISI の大規模な計算リソース予算に関する投稿が広く共有されました。scaling01、Tomek Korbak、Noam Brown/polynoamial、David Rein、そして Toby Ord は皆、同じ点を強調しています。「十分なトークンを割り当てなければ、最先端のエージェントを体系的に過小評価することになる」という点です。主要な数値は、最先端のホライズン推定が 250 万トークンでは約 2 時間であるものが、5,000 万トークンでは約 14 時間に上昇するというものです。
学習、記憶、世界モデル、および継続的適応に関するベンチマークと研究
- 継続的/オンザフライ学習は、より鋭い測定ツールを獲得しつつありますが、結果はまだ混在しています:Epoch は EBR-bench を導入し、モデルが Earthborne Rangers を繰り返しプレイして失敗から学習を試みる環境を提供しました。現在の最先端システムでは、専用の RL(強化学習)がない限り明確な改善は見られません。並行して、ByteDance Seed の新しい EdgeBench は、134 の実世界環境にわたる 1 日単位のホライズンを研究したことで強い注目を集め、学習速度は約 3 ヶ月ごとに倍増し、その向上は反復サンプリングだけでは説明できないと主張しています。このベンチマークはすぐに METR スタイルのホライズン研究に対する真剣な補完として扱われるようになっています。
- メモリはサポートモジュールから訓練可能な能力へと格上げされています:Stanford AutoMem 論文は、Omar Sanseviero の要約を通じて注目を集めました。ここではメモリ管理がスキルとして扱われ、モデルが何を保存し、検索し、再編成するかを決定します。メモリ最適化のみで Crafter、MiniHack、NetHack において 2 倍から 4 倍の向上が得られると報告されています。この考え方は、永続的な個人用および研究用メモリシステムへのより実用的なトレンドとも響き合っており、PaperWiki、PersonalOS、OpenWiki はすべて、メモリが製品表面の一部となりつつあることを示しています。
- World models are shifting from static assets to adaptive online components: Reka released WorldModelGym, framing evaluation around decision-based fidelity across 100+ tracks. askalphaxiv's summary of AdaJEPA pushed the stronger claim: pretrained world models should keep adapting at deployment time, with one gradient step per MPC cycle improving robustness under visual and dynamics shift.
Top tweets (by engagement)
- Anthropic access/capacity update: Trapit Bansal on Fable returning to subscriptions when capacity allows — the clearest signal that current scarcity is a capacity problem, not a permanent packaging decision.
- API/platform change with immediate operational impact: Claude API rate limits raised and tiers simplified.
- Model stack composition for coding: Mitchell Hashimoto's planner/coder/judge workflow using Fable xhigh → GPT-5.5 xhigh → Fable xhigh, with planning/judging costing only a few dollars versus much pricier end-to-end loops.
- Specialized post-training beating frontier prompting: Aakash Gupta on Bridgewater + Thinking Machines, where a fine-tuned Qwen3-235B reached 84.7%, outperforming frontier prompted models on document filtering at ~1/14th the inference cost.
- Autonomous systems performance on low-level optimization: Elliot Arledge's Fable-written megakernel result, arguably the most technically substantive coding-agent anecdote in the set.
- Video generation leadership change: Design Arena は、Gemini Omni Flash が Video Arena で 1404 の Elo を記録し、Seedance 2.0 Mini よりも 101 ポイント差をつけてトップに位置していることを報告しました。これは同リーダーボードで観測された大きなジャンプの一つです。
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. llama.cpp Long-Context and Qwen 3.6 Optimization
- llamacpp patch - DeepSeek V4 Flash running with full 1M token context locally on RTX 5090 (Activity: 374): llama.cpp のパッチにより、DeepSeek V4 Flash の DSA(Dynamic Sparse Attention)/lightning indexer がモデルグラフに組み込まれ、CUDA カーネルが追加されました。これにより、DeepSeek-V4-Flash GGUF を約 256 GiB の計算用バッファ VRAM を必要とせず、RTX 5090 で最大 1M トークンのコンテキスト(文脈)でローカル実行可能になりました。報告された結果によると、256K コンテキストでの計算用バッファは約 67 GiB/OOM から 3.2 GiB に低下し、prefill(事前処理)速度は 56 t/s から約 263 t/s に向上しました。decode(生成)速度は約 14 t/s で維持されています。検証済みのプリセットでは、256K/512K/1M コンテキストにおけるピーク VRAM はそれぞれ約 29/28/31 GiB で、ubatch の削減により 1M prefill は約 159 t/s に達しました。著者は、ソースコードとビルドに関する注釈を記事およびブランチでリンクしており、upstream PR ggml-org/llama.cpp#24231 を基に、100K、512K、1M の各コンテキストにおいて「needle-in-haystack(干し草の山の中の針)」タスクの基本的な正答性を検証しました。コメントは主に、単一の RTX 5090 で DS4 Flash を実行する実現可能性について肯定的でした。一方、技術的なフォローアップとして、TTFT(Time To First Token:最初のトークンまでの時間)および/またはエンドツーエンドのトークン生成タイミング(tg-end2end)に関する問い合わせがありました。
あるコメント投稿者は、RTX 5090 1 台でのローカル DeepSeek V4 Flash の実行に関する主張の妥当性を検証するため、広告されている最大 1M トークンコンテキストにおける実用性を評価するための具体的なレイテンシ指標(TTFT および tg-end2end)を求めています。
- もう一つの技術的な懸念として、「結果が良すぎて真実とは思えない」という指摘があり、upstream llama.cpp へのパッチとして提出してレビューを受けるべきであり、信頼する前に実装の正確性やパフォーマンスに関する検証が必要であるとの示唆が含まれています。
- あるコメント投稿者は、現在進行中の llama.cpp の lightning indexer の修正を参照し、それを Metal へ移植することを提案しました。これは、現在のパッチが CUDA に焦点を当てており、Apple GPU サポートにはバックエンド固有の適応が必要であることを暗示しています。
- qwen3.6 27b q6 + 5090 maximum llamacpp optimization: 100-233tok/s, average 140 (Activity: 201): あるユーザーが、最新の llama.cpp ビルド(86b9470)を使用した RTX 5090 32GB / Ryzen 9800X3D / 64GB RAM システム上で、最適化された Qwen 3.6 27B Q6_K + MTP 推論を実行し、約 20 時間のエージェントワークロードにおいて 100–233 トークン/秒(平均 140.7 トークン/秒、中央値 134.9 トークン/秒)を達成したと報告しています。ここで主に解決された技術的課題は、Qwen のハイブリッドアテンションおよびスライディングウィンドウアテンションの挙動に対する llama.cpp のプロンプトキャッシュ無効化の問題です。ログには「キャッシュデータ不足のため完全なプロンプト再処理を強制」というメッセージが表示されており、これは llama.cpp の PR 議論に関連するものです。ユーザーはこれに対し、2 つのローカルパッチで対応しています。1 つ目はハイブリッド/反復モデル向けのチェックポイント検索修正、2 つ目はアップストリーム PR #24785 に基づく最小限の recurrent_shrink/expand プロンプトキャッシュ API パッチです(Dockerfile、diff)。起動設定では、Q8 KV キャッシュ、192k コンテキスト、約 32GB の RAM キャッシュを使用し、MTP スペキュレーティブデコーディングには draft=10 および spec-draft-p-min=0.5 を指定しています。また、VRAM 使用量を約 32036/32768 MB に収めるために batch/ubatch=512 を設定しており、メモリに余裕があれば 5090 では 2048 が望ましいと注記されています(起動コマンド)。
2. Gemma 4 Open Model Experiments and Benchmarks
- Gemma4-31B を 44B(88 レイヤー)に拡張しました — Google は 31B より大きなモデルを提供しないためです(アクティビティ:1287): この画像はミームではなく技術的なインフォグラフィックであり、Gemma4-31B から層の拡大を通じて ExtGemma4-44B へのアーキテクチャ経路を図解しています。具体的には、アイデンティティ初期化を用いた挿入により 60 → 80 レイヤーとし、その後 8 レイヤーブロックの複製・挿入によって 80 → 88 レイヤーへと拡張するものです。これは著者の Hugging Face 上の記述および画像と一致しており、その主な技術的意義は、初期動作を維持するためにアイデンティティ初期化と Gemma 固有のレイヤースカラー(layer_scalar)= 1.0 の修正を使用している点にあります。著者は、韓国語の法務・STEM データでのファインチューニング後、追加されたフルアテンション層がスライディングウィンドウ層よりも多くの訓練寄与と効果をもたらしたと主張しています。コメントは概ね支持するものですが慎重なものであり、あるコメントでは RYS("repeat yourself")やレイヤー複製をベースラインとしてベンチマークすることの提案がありました。また、他のコメントでは実行に必要なハードウェアが不足していることや、ロールプレイファインチューニングへの需要に関する冗談が述べられました。
あるコメントでは、44B/88 レイヤー拡張版を RYS("repeat yourself")ベースラインと比較するよう提案しました。これは連続した層を複製してより大きなモデルを作成する方法です。著者は RYS を、既存のモデルを「より大きく、かつより良く」するための簡易的な手法として位置づけ、投稿者の層拡張戦略が単純な層複製を超えた実質的な向上をもたらしているかを評価するための有用な対照群(コントロール)であると説明しています。
- コミュニティビルドが利用可能になった際に、下流の量子化実験への関心が高まる見込みですが、コメント投稿者はフルモデルを実行するためのハードウェアを保有していないと指摘しました。別の投稿者はこのアプローチを、Llama 2 / Llama 3 時代の早期に登場した「フランケンシュタイン」型の拡張モデルへと結びつけ、ステッチ処理やトランスフォーマーアーキテクチャの拡大に関する先行するコミュニティの実験を示唆しています。
Gemma 4 31B と対話! (アクティビティ: 1006): Andi
原文を表示
a quiet day.
AI News for 7/01/2026-7/02/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Agentic Coding Systems, Harnesses, and Developer Workflow Infrastructure
- Full-stack evals are replacing toy coding demos: Code Arena launched Fullstack Code Arena, extending evaluation from frontend mockups to software that includes databases, API keys, deployments, and structured tool use. That aligns with a broader shift from “can the model write a component?” to “can the agent ship a realistic app end-to-end?”, echoed by Aryan Vichare and by practitioners emphasizing environment-based evals over static prompts.
- The engineering stack around coding agents is thickening fast: LangChain pushed unified tracing for heterogeneous coding tools in LangSmith, plus OpenWiki for auto-generated repo docs and AGENTS.md updates in this release. LlamaIndex showed a small but useful pattern where parsing becomes an agent-native capability rather than a preprocessing step via a LiteParse + flue + Resend + Turso email assistant. Meanwhile, multiple posts from Jerry Liu and others argued that retrieval complexity is increasingly encoded at the agent layer, with simpler tools and smarter orchestration.
- The practical UX problem is now coordination, not raw codegen: A recurring theme from builders is that frontier coding performance is good enough that bottlenecks have shifted to routing, observability, collaboration, memory, and understanding. Simon Willison highlighted “understand to participate” as the key antidote to cognitive debt with coding agents; Will Depue sketched the desired end-state: an always-on executive assistant with persistent memory, delegated actions, messaging, and computer use. That same desire shows up in PersonalOS, where a 300k-token life context pack is assembled from personal data exports.
Model Availability, Frontier Coding Performance, and Open vs Closed Positioning
- Anthropic’s Fable discourse dominated, but the most concrete news was operational: Anthropic restored confidence around access rather than releasing new weights: official API rate limits were raised and simplified, and Trapit Bansal said Fable is expected to return to subscriptions once capacity allows. Anthropic also expanded Claude Code artifacts to Pro and Max plans, making long-running coding sessions easier to inspect and share.
- Community signal suggests Fable remains frontier-class despite rerouting controversy: Several viral posts complained about Anthropic’s deployment/routing behavior, but even critics were separating that from model quality. Theo argued that bad takes on Fable were distracting from Anthropic’s actual issues, while Arena’s early before/after comparison said scores looked mostly consistent after redeployment across text, document, vision, and code. Theo also noted that some benchmark drops may reflect fallback behavior more than a base capability regression.
- Open-model economics are increasingly credible in coding: Together reported that GLM 5.2 reaches roughly 80% of Sonnet 5 software-engineering capability at ~20% of the price, and zRdianjiao showed that GLM-5.2 is now selectable in Claude Code via Hugging Face Inference Providers, a notable step toward open models inhabiting first-class dev workflows. More broadly, Clement Delangue, Jason, and Bryan Catanzaro via Matt Turck’s interview all pushed variants of the same thesis: open models are becoming the sovereignty layer for enterprises and developers.
- Meta appears to be re-entering the agentic conversation: Alexandr Wang posted that the next Muse Spark update is coming soon with “big improvements in coding and agentic capabilities” to be competitive with leading models, rolling out to Meta AI and its API.
Inference, Kernels, Serving, and Test-Time Compute as the New Scaling Frontier
- Kernel-level automation is no longer hypothetical: The standout systems post was Elliot Arledge’s KernelBench-Mega result: Claude Fable 5 reportedly wrote the first authentic single-launch megakernel for a Kimi-Linear decode workload, achieving 18.7x over reference and beating prior multi-kernel entries. The description is detailed enough to matter to systems folks: in-register int4 dequant, fused attention/router/MoE/norm/KV append, explicit barrier shaving, and a demonstrated willingness by the model to benchmark, revert regressions, and optimize toward a roofline.
- Speculation and speculative decoding remain active optimization surfaces: teortaxesTex pointed to “scaling the speculator” as a new dimension for accelerating inference and therefore RL throughput, while mgoin_ shared a concrete DSpark + Mooncake + vLLM setup on GB300 NVL72, with 125k prefill tok/s and 1.5 steps/s for online training. The vLLM team also highlighted 5x lower token costs on DeepSeek V4 in one month and published a particularly useful serving breakdown for Qwen3-Omni’s real-time speech pipeline, where stage-specific replication yields ~0.6s first audio instead of ~6s and 5.4x throughput.
- Test-time compute budgets are changing benchmark interpretation: The UK AISI post on larger compute budgets propagated widely. scaling01, Tomek Korbak, Noam Brown/polynoamial, David Rein, and Toby Ord all emphasized the same point: if you don’t allocate enough tokens, you systematically underestimate frontier agents. The headline number: frontier horizon estimates rise from roughly 2 hours at 2.5M tokens to around 14 hours at 50M tokens.
Benchmarks and Research on Learning, Memory, World Models, and Continual Adaptation
- Continual/on-the-fly learning is getting sharper measurement tools, but results remain mixed: Epoch introduced EBR-bench, where models repeatedly play Earthborne Rangers and attempt to learn from failure; current frontier systems show no clear improvement absent dedicated RL. In parallel, ByteDance Seed’s new EdgeBench drew strong attention for studying day-long horizons across 134 real-world environments, claiming that learning speed doubles every ~3 months and that gains are not explained by repeated sampling alone. This benchmark is quickly being treated as a serious complement to METR-style horizon work.
- Memory is being elevated from support module to trainable competence: The Stanford AutoMem paper got attention via Omar Sanseviero’s summary: memory management is treated as a skill, with models deciding what to store, retrieve, and reorganize; optimizing memory alone reportedly yields 2x–4x gains on Crafter, MiniHack, and NetHack. That idea rhymes with a more applied trend toward persistent personal and research memory systems: PaperWiki, PersonalOS, and OpenWiki all point to memory becoming part of the product surface.
- World models are shifting from static assets to adaptive online components: Reka released WorldModelGym, framing evaluation around decision-based fidelity across 100+ tracks. askalphaxiv’s summary of AdaJEPA pushed the stronger claim: pretrained world models should keep adapting at deployment time, with one gradient step per MPC cycle improving robustness under visual and dynamics shift.
Top tweets (by engagement)
- Anthropic access/capacity update: Trapit Bansal on Fable returning to subscriptions when capacity allows — the clearest signal that current scarcity is a capacity problem, not a permanent packaging decision.
- API/platform change with immediate operational impact: Claude API rate limits raised and tiers simplified.
- Model stack composition for coding: Mitchell Hashimoto’s planner/coder/judge workflow using Fable xhigh → GPT-5.5 xhigh → Fable xhigh, with planning/judging costing only a few dollars versus much pricier end-to-end loops.
- Specialized post-training beating frontier prompting: Aakash Gupta on Bridgewater + Thinking Machines, where a fine-tuned Qwen3-235B reached 84.7%, outperforming frontier prompted models on document filtering at ~1/14th the inference cost.
- Autonomous systems performance on low-level optimization: Elliot Arledge’s Fable-written megakernel result, arguably the most technically substantive coding-agent anecdote in the set.
- Video generation leadership change: Design Arena reported Gemini Omni Flash at #1 on Video Arena with 1404 Elo, a 101-point gap over Seedance 2.0 Mini and one of the larger observed jumps on that leaderboard.
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. llama.cpp Long-Context and Qwen 3.6 Optimization
- llamacpp patch - DeepSeek V4 Flash running with full 1M token context locally on RTX 5090 (Activity: 374): A llama.cpp patch wires DeepSeek V4 Flash’s DSA/lightning indexer into the model graph and adds a CUDA kernel, enabling DeepSeek-V4-Flash GGUF to run locally with up to 1M context on an RTX 5090 instead of requiring ~256 GiB compute buffer VRAM. Reported results: at 256K context compute buffer drops from ~67 GiB/OOM to 3.2 GiB, prefill rises from 56 t/s to ~263 t/s, decode remains ~14 t/s; validated presets show 256K/512K/1M contexts at ~29/28/31 GiB peak VRAM, with 1M prefill ~159 t/s due to reduced ubatch. The author links source/build notes in the writeup and branch, based on upstream PR ggml-org/llama.cpp#24231, and reports basic needle-in-haystack correctness at 100K, 512K, and 1M. Comments were mostly positive about the feasibility of running DS4 Flash on a single RTX 5090; one technical follow-up asked for TTFT and/or end-to-end token generation timing (tg-end2end).
A commenter requested concrete latency metrics for the claimed local DeepSeek V4 Flash run on a single RTX 5090, specifically TTFT and tg-end2end, to validate usability at the advertised full 1M token context.
- Another technical concern was that the result "looks too good to be true" and should be submitted as patches to upstream llama.cpp for review, suggesting the implementation may need validation around correctness/performance before being trusted.
- One commenter referenced an ongoing llama.cpp lightning indexer fix and suggested porting it to Metal, implying the patch may currently be CUDA-focused and that Apple GPU support would require backend-specific adaptation.
- qwen3.6 27b q6 + 5090 maximum llamacpp optimization: 100-233tok/s, average 140 (Activity: 201): A user reports optimized Qwen 3.6 27B Q6_K + MTP inference on a RTX 5090 32GB / Ryzen 9800X3D / 64GB RAM system using a recent llama.cpp build (86b9470), achieving 100–233 tok/s over ~20h of agentic workloads with mean 140.7 tok/s and median 134.9 tok/s. The main technical issue addressed is llama.cpp prompt-cache invalidation for Qwen’s hybrid attention / sliding-window attention behavior—logs show “forcing full prompt re-processing due to lack of cache data” tied to llama.cpp PR discussion—which the user mitigates via two local patches: checkpoint-search fixes for hybrid/recurrent models and a minimal recurrent_shrink/expand prompt-cache API patch based on upstream PR #24785 (Dockerfile, diff). Their launch config uses Q8 KV cache, 192k context, ~32GB RAM cache, MTP speculative decoding with draft=10 and spec-draft-p-min=0.5, plus batch/ubatch=512 to fit within ~32036/32768 MB VRAM, noting 2048 would be preferable on a 5090 if memory allowed (launch command).
2. Gemma 4 Open Model Experiments and Benchmarks
- I extended Gemma4-31B to 44B (88 layers) — since Google won't give us anything bigger than 31B (Activity: 1287): The image is a technical infographic, not a meme: it diagrams the claimed architecture path from Gemma4-31B to ExtGemma4-44B via layer expansion—60 → 80 layers using identity-initialized insertions, then 80 → 88 layers by duplicating/inserting an 8-layer block—matching the author’s writeup on Hugging Face and the image. Its main technical significance is the use of identity initialization and a Gemma-specific layer_scalar = 1.0 fix to preserve initial behavior, with the author claiming the added full-attention layer trained and contributed more than sliding-window layers after fine-tuning on Korean legal/STEM data. Comments were mostly supportive but cautious: one commenter suggested benchmarking against RYS / “repeat yourself” layer duplication as a baseline, while others noted they lacked hardware to run it or joked about roleplay fine-tuning demand.
One commenter suggested benchmarking the 44B/88-layer extension against an RYS (“repeat yourself”) baseline, where sequential layers are duplicated to create a larger model. They framed RYS as a quick-and-dirty method to make an existing model “both bigger and better,” making it a useful control for evaluating whether the poster’s layer-extension strategy provides real gains beyond naive layer duplication.
- There was interest in downstream quantization experiments once community builds are available, though the commenter noted they lacked hardware to run the full model. Another commenter connected the approach to earlier “Frankenstein” enlarged models from the Llama 2 / Llama 3 era, implying prior community experimentation with stitched or expanded transformer architectures.
Talking with Gemma 4 31B! (Activity: 1006): Andi
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み