本日は特に目立った出来事なし
OpenAIがエージェントSDKを分離し沙箱指向のアーキテクチャへ移行したことで、CloudflareやModalなどのインフラ企業が公式統合を発表し、ステートレスなオーケストレーションとステートフルな隔離環境を組み合わせた次世代エージェント開発のパターンが確立されつつある。
キーポイント
OpenAI Agents SDKのアーキテクチャ転換
OpenAIはエージェントハネスを計算・ストレージから分離し、ファイル操作やメモリ管理などを備えた「長期実行・耐久性のあるエージェント」向けSDKへ進化させた。ハネスはオープンソース化され、実行環境はパートナーの沙箱に委譲可能となった。
主要インフラ企業による公式沙箱統合の急増
Cloudflare, Modal, Daytona, e2b, VercelなどがOpenAIの新SDKに対する公式沙箱統合を発表し、ステートレスなオーケストレーションとステートフルな隔離ワークスペースを組み合わせた実用的なパターンが確立された。
具体的な実装事例とCloudflareの動向
Modalを用いたGPU沙箱付きML研究エージェントや、CloudflareのPythonエージェント実行ガイドなど、具体的なビルド例が登場している。またCloudflareは「Project Think」や「Agent Lee」といった音声エージェント関連の新プロジェクトも展開している。
影響分析・編集コメントを表示
影響分析
OpenAIの戦略変更は、エージェント開発のハードルを下げると同時に、インフラベンダー間の競争を激化させる。これにより、開発者は基盤モデルの性能だけでなく、実行環境の最適化や状態管理の質で差別化を図る必要が生じる。業界全体として、エージェントの実用化とエンタープライズへの組み込みが加速する可能性が高い。
編集コメント
OpenAIがインフラからの分離を推進したことで、エージェント開発の「標準スタック」が急速に可視化された。今後はモデルそのものよりも、いかに安全かつ効率的な実行環境(沙箱)を構築・運用できるかが競争の鍵となるだろう。
静かな一日。
**2026 年 4 月 14 日〜15 日の AI ニュース。私たちは 12 のサブレッド、544 の Twitter を確認し、Discord はさらにありませんでした。AINews のウェブサイトでは過去のすべての号を検索できます。念のためお知らせしますが、AINews は現在 Latent Space のセクションの一部となっています。メールの頻度を選択的に設定(購読または解除)することができます!
AI Twitter リキャップ
OpenAI Agents SDK の拡張と新しいサンドボックス指向型エージェントスタック**
- OpenAI は、エージェントハネスを計算・ストレージから分離し、ファイル/コンピューター使用、スキル、メモリ、圧縮のためのプリミティブを備えた、長期実行可能で永続的なエージェント向けにその Agents SDK を推進しました。ハネスは現在オープンソース化されカスタマイズが可能であり、@OpenAIDevs のフォローアップおよび @snsf によると、実行は OpenAI インフラに密結合されるのではなく、パートナーのサンドボックスに委譲できるようになりました。これにより、「Codex スタイル」のエージェントが第三者によってより再現可能になり、差別化の焦点がオーケストレーション、状態管理、そして安全な実行へとシフトしました。
- そのローンチ直後に注目すべきエコシステムが形成されました:@CloudflareDev、@modal、@daytonaio、@e2b、そして @vercel_dev がすべて公式のサンドボックス統合を発表しました。実用的なパターンは、ステートレスなオーケストレーションとステートフルな孤立ワークスペースへの収束を示しています。すでに具体的な構築例も登場しており、@akshat_b による GPU サンドボックス、サブエージェント、永続的メモリ、およびフォーク/再開スナップショットを備えた Modal ベースの機械学習研究エージェントや、@whoiskatrin によるサンドボックス内でタスクを実行し、出力をローカルにコピーする Python エージェント向けの Cloudflare ガイドなどがあります。
Cloudflare の Project Think、Agent Lee、および音声エージェント
- Cloudflare は、エージェントインフラのリリースサイクルにおいて最も活発なものの一つでした。@whoiskatrin と @aninibread が Project Think を紹介しました。これは、永続的な実行、サブエージェント、永続セッション、サンドボックス化されたコード実行、組み込みのワークスペースファイルシステム、およびランタイムツール作成を中核とする次世代エージェント SDK です。並行して、@Cloudflare は Agent Lee を立ち上げました。これはダッシュボード内で動作するエージェントで、サンドボックス化された TypeScript を使用することで、Cloudflare の UI を手動タブナビゲーションからプロンプト駆動型操作へと転換します;@BraydenWilmoth によって、インフラタスクの発行や UI ベースの結果生成がデモンストレーションされました。
- 音声およびブラウザのツールリングもコアスタックへと統合されました。@Cloudflare は、継続的な STT/TTS を実現するための WebSocket 経由の実験的リアルタイム音声パイプラインをリリースし、@korinne_dev は音声を同じエージェント接続上の別の入力チャネルとして位置づけました。ブラウザ自動化については、@kathyyliao が再ブランドされた Browser Run スタック(Live View、人間によるループ介入、セッション記録、CDP エンドポイント、WebMCP サポート、およびより高い制限値)を要約しました。これらを総合すると、Cloudflare は生産環境のエージェントプラットフォームが、耐久性のあるランタイム+UI 基盤+ブラウザ+音声+サンドボックスという構成要素の組み合わせであることを強く主張しています。
Hermes エージェントの自己改善ワークフローと競争的ポジション
- Hermes エージェントの独自性は、単なるツール使用ではなく、永続的なスキル形成にあります。@joshesye による中国語での比較では、OpenClaw がより GUI フォーカスで即座に使えるパーソナルアシスタントであるのに対し、Hermes は「プロフェッショナル」なエージェントとして、完了したワークフローが再利用可能かどうかを判断し、自動的にそれをスキルに変換するとされています。この「完了したタスクから学習する」という枠組みは繰り返し登場しました:@chooseliberty は Hermes が自律的に追跡データをバックフィルし、cron ジョブを更新した後、そのワークフローを再利用可能なスキルとして保存する様子を示しました;@NeoAIForecast は、Hermes を使い捨てのチャットボックスではなく真の実作業環境へと転換させる上で、セッションの衛生管理とスレッドの分岐・検索が重要であると強調しました。
- コミュニティの世論は、オープンクローに対してヘルメスを強く、しばしば率直に位置づけていました。例として、@vrloom、@theCTO、@Teknium が、ヘルメスの実ワークフローにおける役割を強調しました。その中には、現在バイラルとなっている @elder_plinius による自律型 Gemma 4 の「アブリーレーション(abliteration)」ストーリーも含まれます:エージェントは保存されたスキルを読み込み、Gemma 4 の NaN 不安定性を診断し、基盤ライブラリをパッチ適用し、複数の方法を再試行し、結果をベンチマークし、モデルカードを生成し、アーティファクトを Hugging Face にアップロードしました。また、具体的な製品機能の追加もありました:@0xme66 による「/browser connect」コマンドを通じたブラウザ制御、@Teknium による QQBot および AWS Bedrock のサポート、@nesquena によるネイティブ Swift デスクトップアプリのアルファ版、そしてアーティファクトプレビューや hermes-lcm v0.3.0 といった継続的なエコシステムツールです。
モデル、アーキテクチャ、トレーニングリリース:スパース拡散モデル、ループドトランスフォーマー、効率的な長文コンテキスト MoE
- 複数の技術的に意味のあるオープンソースリリースが、さまざまなモダリティで発表されました。@withnucleusai は Nucleus-Image を発表し、これを初のスパース MoE(Mixture of Experts)拡散モデルとして位置づけました:パラメータ数は 17B、アクティブなパラメータは 2B で、Apache 2.0 ライセンスの下、重み、トレーニングコード、データセットレシピが公開され、diffusers での day-0 サポートも提供されています。NVIDIA は続いて Lyra 2.0 を発表しました。これは @NVIDIAAIDev によると、フレームごとの 3D 幾何形状を維持し、自己増強型トレーニングを用いて時間的なドリフトを低減することで、永続的で探索可能な 3D ワールドを生成するためのフレームワークです。マルチモーダル検索においては、@thewebAI が webAI-ColVec1 をオープンソース化し、OCR や前処理なしで文書検索を行う上で ViDoRe V3 のトップパフォーマンスを達成したと主張しています。
- 計算効率に関するアーキテクチャ研究は特に力強く進んでいました。@hayden_prairie、@realDanFu、そして @togethercompute は、安定化されたループ型トランスフォーマー(looping Transformer)の定式化である Parcae を発表しました。その主張とは、固定されたパラメータ予算において、ブロックをループさせることで、約 2 倍サイズのモデルと同等の品質を回復できるというものです。これにより、FLOPs がパラメータやデータだけでなく、ループを通じてスケーリングされる新たなスケーリング軸が生まれました。また、NVIDIA も Nemotron 3 Super を発表しました。これは@dair_aiによって要約されたもので、オープンソースの 120B ハイブリッド Mamba-Attention モデル(MoE)で、アクティブパラメータは 12B、コンテキスト長は 1M、25T トークンでトレーニングされています。GPT-OSS-120B と比較して最大 2.2 倍、Qwen3.5-122B と比較して 7.5 倍のスループットを誇ります。これらのリリースは総じて、メモリ帯域幅と長文コンテキストにおけるスループットが、ますます主要なアーキテクチャ上の目標となっているというテーマを示しています。
Google/Gemini の製品急増:Mac アプリ、パーソナルインテリジェンス、TTS、オープン多モーダルモデル
- Google は一つのサイクルで複数の発表を重ねました。最も目立ったのは、@GeminiApp、@joshwoodward、そして@sundarpichai によって発表された Mac 向けのネイティブ Gemini アプリです。Option + Space での起動、画面共有、ローカルファイルの文脈利用、Swift によるネイティブ実装、そして広範な macOS 環境での利用が可能となっています。並行して、パーソナルインテリジェンス(Personal Intelligence)は Gemini および Chrome でグローバルに展開され、Gmail や Photos などの製品からのシグナルを接続できるようになりました。これは @Google と @GeminiApp が主導し、透明性とユーザーが制御するアプリ接続を中心に据えたものです。
- 技術的に最も興味深いモデル発表は Gemini 3.1 Flash TTS でした。@GoogleDeepMind、@OfficialLoganK、そして @demishassabis はこれを、Audio Tags(音声タグ)、70 以上の言語対応、文中に埋め込まれた非言語的合図、複数話者サポート、SynthID 透かし機能を備えた、極めて制御性の高い TTS(Text-to-Speech:テキスト読み上げ)モデルとして位置づけました。@ArtificialAnlys による独立評価では、その Speech Arena(音声評価プラットフォーム)で第 2 位にランクされ、トップモデルとの差はわずか 4 Elo でした。また Google は、@osanseviero を通じて、新しい事前学習レシピを備えた Apache 2.0 ライセンスの基盤となるテキスト画像エンコーダー「TIPS v2」をオープンソース化しました。コミュニティからは、Google AI の製品発表速度が極めて密度の高い日であったと指摘されました。
研究シグナル:AI 支援数学、長期ホライズンエージェント、評価基準の変化、そしてオープンデータ
- 最も重要な信号となる研究議論は、AI 支援数学の分野に集中していました。@jdlichtman は、GPT-5.4 Pro がエルデシュ問題 #1196 の証明を生成したと報告し、長年前提とされてきた証明の試みを拒否し、フォン・マンゴルト関数を用いた技術的に直感に反する解析的経路を活用することで専門家たちを驚かせました。@jdlichtman、@thomasfbloom、@gdb などのフォローアップ投稿は、これを数学者の間で広く尊重される最初の AI 生成「ブック証明」の可能性として捉えています。これは単発の結果という点よりも、成熟した研究領域においてモデルが、美的ではないもののコンパクトな攻撃経路を時折発見できる可能性を示す証拠である点で重要です。
- 長期ホライズンのエージェント研究も、状態管理とハルネス設計の収束を続けています。@omarsar0 は AiScientist を要約し、薄いオーケストレーターが File-as-Bus パターンを通じて専門的なエージェントを永続的なワークスペースアーティファクトで調整する仕組みを紹介しました。このバスを取り除くと、PaperBench や MLE-Bench Lite において実質的な悪影響が生じます。@dair_ai は Pioneer Agent を紹介し、継続的な小規模モデル改善ループの重要性を強調しました。一方、@yoonholeee は Meta-Harness をオープンソース化し、新しいドメインで堅牢なハルネスを実装するユーザーを支援するリポジトリとして公開しました。評価(evals)においては、@METR_Evals が Gemini 3.1 Pro(高思考モード)のソフトウェアタスクにおける 50% の時間ホライズンを約 6.4 時間と推定し、@arena は Document Arena のトップランクが Claude Opus 4.6 Thinking で 1 位となり、Kimi-K2.5 Thinking が最良のオープンモデルとして浮上したことを示しました。一方、@TeraflopAI は SEC EDGAR データから 430 億トークンをリリースし、本日のより広範なオープンデータセットとオープンインフラへの推進を強化しました。
エンゲージメント上位ツイート
- Gemini on Mac: @sundarpichai と @GeminiApp がネイティブデスクトップアプリに関する最大のローンチエンゲージメントを牽引しました。
- Gemini 3.1 Flash TTS: @OfficialLoganK と @GoogleDeepMind が、実質的に制御性の高いテキスト読み上げ(TTS)スタックを強調しました。
- AI 支援数学証明:@jdlichtman と @gdb が本日の最も活発な研究議論を引き起こしました。
- OpenAI Agents SDK の更新:@OpenAIDevs が、オープンハルネスとパートナーサンドボックスへの意味あるプラットフォームシフトを宣言しました。
- Nature に掲載された Anthropic の潜在学习に関する論文:@AnthropicAI は、トレーニングデータを通じた隠れた特性の伝達について大きな注目を集めました。
AI Reddit レビュー
/r/LocalLlama + /r/localLLM レビュー
1. Gemma 4 モデルの強化とユースケース
- Gemma4 26b と E4B は驚くほど優秀で、私にとって Qwen を置き換えました!(アクティビティ:388): ユーザーは、意味ルーティングに Gemma 4 E4B を、一般タスクに Gemma 4 26b を使用するように以前の Qwen モデルベースのセットアップを置き換え、ルーティング精度とタスクパフォーマンスの向上を指摘しました。以前のセットアップには複数の GPU にわたる Qwen 3.5 モデルを使用した複雑なルーティングシステムが含まれており、モデル選択の誤りやトークン使用における非効率性に直面していました。Gemma 4 モデルによる新しいセットアップはこれらの問題を解決し、広範な推論やメモリ使用を必要とせず、特に基本的なタスクやコーディングにおいて、より高速で正確なルーティングとタスク実行を提供しました。コメント投稿者はモデルの選択について疑問を呈し、より幅広いタスクには Gemma-4-31b などの代替案を提案し、モデルの読み込みや VRAM(ビデオメモリ)管理に関する技術的なセットアップについても質問しました。また、リソース節約のためにルーティングに Gemma 4 26B を使用することを推奨する意見もありました。
Sensitive_Song4219 は、Gemma 4 26B-A4B モデルが Qwen30b-a3b シリーズの強力な後継者である一方で、「思考トークン」の効率が同系列ほど高くないことを指摘しています。これは推論時により多くの計算リソースを必要とする可能性があることを示唆しています。それでもなお、このモデルは軽微なコーディングやデバッグなどのタスクでは良好に動作し、同等のハードウェア上では Qwen30b-a3b と同程度の速度を維持します。
- andy2na は、モデル展開におけるルーティング(経路制御)の利用について議論しており、MoE(エキスパート混合アーキテクチャ)構造を持つ 26B モデルをルーティングに使用することを提案しています。この構造は速度の向上と RAM 使用量の削減をもたらすため、計算リソースを動的に割り当てる MoE の能力を活用することで、モデル展開の効率化において戦略的な優位性を得られることを示唆しています。
- anzzax は、複数のモデルを管理する際の技術的懸念、特にモデルのリロードや VRAM/計算リソースの割り当てについて指摘しています。これは、複数の大規模モデルを同時に展開する際に、リソース使用量の最適化が課題となる点を浮き彫りにしています。
- Gemma 4 Jailbreak System Prompt (Activity: 931): この投稿は、Gemma 4 の jailbreak(制限回避)用のシステムプロンプトについて議論しています。これは GPT-OSS の jailbreak から派生したもので、モデルが一般的なコンテンツ制限をバイパスできるようにするものです。このプロンプトは GGUF および MLX バリアントの両方と互換性があり、既存のポリシーを上書きする新しい「SYSTEM POLICY」を明示的に規定しています。これにより、指定されたリストで明確に禁止されていない限りユーザーのリクエストへの準拠が義務付けられ、裸体やポルノ、性的行為などのコンテンツも許可されます。このアプローチは、言語モデルに通常課される制約やガードレールを実質的に除去するものです。コメント投稿者たちは、特にインストラクション対応版のモデルはサイバーセキュリティ分野を除き既に大半が検閲されていないため、この jailbreak は成人向けコンテンツの多くにとっては冗長である可能性があると指摘しています。
VoiceApprehensive893 は、システムプロンプトによって課される典型的な制約やガードレールなしで動作するように設計された、Gemma 4 モデルの改変版「gemma-4-heretic-modified.gguf」の使用について議論しています。この改変は拒否応答を減らすことを目的としており、結果としてモデルがより柔軟に応答できるようになる可能性があります。
- MaxKruse96 は、Gemma 4 モデル(特にインストラクション対応版)がサイバーセキュリティ分野を除き既にかなり検閲されていないと指摘しています。これは、このモデルが追加の改変なしで成人向けコンテンツを含む幅広いトピックを処理できることを示唆しています。
- DocHavelock は、Gemma 4 などのオープンソースモデルの文脈における「アブリティレーション(abliteration)」という概念について質問しています。彼らは、システムプロンプトを変更する方法が「アブリティレーション」の一形態であるのか、それとも単に「アブリティレーションされた」バージョンのモデルを使用するよりも独自の利点があるのかを問うています。これは、異なるモデル修正技術の技術的な微妙な点や利点に対する好奇心を反映したものです。
私だけでしょうか、Gemma は
原文を表示
a quiet day.
AI News for 4/14/2026-4/15/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
OpenAI Agents SDK Expansion and the New Sandbox-Oriented Agent Stack
- OpenAI split the agent harness from compute/storage and pushed its Agents SDK toward long-running, durable agents with primitives for file/computer use, skills, memory, and compaction. The harness is now open-source and customizable, while execution can be delegated to partner sandboxes instead of being tightly coupled to OpenAI infra, per @OpenAIDevs, follow-up, and @snsf. This effectively makes “Codex-style” agents more reproducible by third parties and shifts differentiation toward orchestration, state management, and secure execution.
- A notable ecosystem formed around that launch immediately: @CloudflareDev, @modal, @daytonaio, @e2b, and @vercel_dev all announced official sandbox integrations. The practical pattern is converging on stateless orchestration + stateful isolated workspaces. Example builds already appeared, including a Modal-backed ML research agent with GPU sandboxes, subagents, persistent memory, and fork/resume snapshots from @akshat_b, and Cloudflare guides for Python agents that execute tasks in a sandbox and copy outputs locally from @whoiskatrin.
Cloudflare’s Project Think, Agent Lee, and Voice Agents
- Cloudflare had one of the busiest agent-infra release cycles. @whoiskatrin and @aninibread introduced Project Think, a next-gen Agents SDK centered on durable execution, sub-agents, persistent sessions, sandboxed code execution, a built-in workspace filesystem, and runtime tool creation. In parallel, @Cloudflare launched Agent Lee, an in-dashboard agent using sandboxed TypeScript to shift Cloudflare’s UI from manual tab navigation to prompt-driven operations; @BraydenWilmoth showed it issuing infra tasks and generating UI-backed results.
- Voice and browser tooling also moved into the core stack. @Cloudflare shipped an experimental real-time voice pipeline over WebSockets for continuous STT/TTS, while @korinne_dev described voice as just another input channel over the same agent connection. On browser automation, @kathyyliao summarized the rebranded Browser Run stack: Live View, human-in-the-loop intervention, session recordings, CDP endpoints, WebMCP support, and higher limits. Taken together, Cloudflare is making a strong case that the production agent platform is really a composition of durable runtime + UI grounding + browser + voice + sandbox.
Hermes Agent’s Self-Improving Workflow and Competitive Positioning
- Hermes Agent’s distinctive idea is not just tool use but persistent skill formation. A Chinese-language comparison from @joshesye contrasts OpenClaw as a more GUI-first, ready-to-use personal assistant with Hermes as a “professional” agent that decides whether a completed workflow is reusable and automatically turns it into a Skill. This “learn from completed tasks” framing appeared repeatedly: @chooseliberty showed Hermes autonomously backfilling tracking data, updating a cron job, then saving the workflow as a reusable skill; @NeoAIForecast emphasized session hygiene and thread branching/search as critical to turning Hermes into a real work environment rather than a disposable chat box.
- Community sentiment strongly positioned Hermes against OpenClaw, often bluntly. Examples include @vrloom, @theCTO, and @Teknium highlighting Hermes’ role in real workflows, including the now-viral autonomous Gemma 4 “abliteration” story from @elder_plinius: the agent loaded a stored skill, diagnosed NaN instability in Gemma 4, patched the underlying library, retried multiple methods, benchmarked the result, generated a model card, and uploaded artifacts to Hugging Face. There were also concrete product additions: browser control via /browser connect from @0xme66, QQBot + AWS Bedrock support from @Teknium, a native Swift desktop app alpha from @nesquena, and ongoing ecosystem tooling like artifact-preview and hermes-lcm v0.3.0.
Model, Architecture, and Training Releases: Sparse Diffusion, Looped Transformers, and Efficient Long-Context MoEs
- Several technically meaningful open releases landed across modalities. @withnucleusai announced Nucleus-Image, positioned as the first sparse MoE diffusion model: 17B parameters, 2B active, Apache 2.0, with weights, training code, and dataset recipe, and day-0 support in diffusers. NVIDIA followed with Lyra 2.0, a framework for generating persistent, explorable 3D worlds that maintains per-frame 3D geometry and uses self-augmented training to reduce temporal drift, per @NVIDIAAIDev. On multimodal retrieval, @thewebAI open-sourced webAI-ColVec1, claiming top ViDoRe V3 performance for document retrieval without OCR or preprocessing.
- Architecture research around compute efficiency was especially strong. @hayden_prairie, @realDanFu, and @togethercompute introduced Parcae, a stabilized layer-looping Transformer formulation. The claim: for fixed parameter budgets, looping blocks can recover the quality of a model roughly 2x the size, yielding a new scaling axis where FLOPs scale via looping, not just parameters/data. NVIDIA also surfaced Nemotron 3 Super, summarized by @dair_ai: an open 120B hybrid Mamba-Attention MoE with 12B active parameters, 1M context, trained on 25T tokens, with up to 2.2x throughput vs GPT-OSS-120B and 7.5x vs Qwen3.5-122B. These releases collectively point to a theme: memory bandwidth and long-context throughput are increasingly first-class architectural objectives.
Google/Gemini’s Product Surge: Mac App, Personal Intelligence, TTS, and Open Multimodal Models
- Google stacked multiple launches in one cycle. The most visible was the native Gemini app for Mac, announced by @GeminiApp, @joshwoodward, and @sundarpichai: Option + Space activation, screen sharing, local file context, native Swift implementation, and broad macOS availability. In parallel, Personal Intelligence expanded globally in Gemini and into Chrome, allowing users to connect signals from products like Gmail and Photos, framed around transparency and user-controlled app connections by @Google and @GeminiApp.
- The more technically interesting model launch was Gemini 3.1 Flash TTS. @GoogleDeepMind, @OfficialLoganK, and @demishassabis positioned it as a highly controllable TTS model with Audio Tags, 70+ languages, inline nonverbal cues, multi-speaker support, and SynthID watermarking. Independent evaluation from @ArtificialAnlys put it at #2 on its Speech Arena, just 4 Elo behind the top model. Google also open-sourced TIPS v2, a foundational text-image encoder under Apache 2.0 with new pretraining recipes, via @osanseviero, and the community flagged the day as unusually dense for Google AI product velocity.
Research Signals: AI-Assisted Math, Long-Horizon Agents, Eval Shifts, and Open Data
- The highest-signal research discourse was around AI-assisted mathematics. @jdlichtman reported that GPT-5.4 Pro produced a proof for Erdős problem #1196, surprising experts by rejecting a long-assumed proof gambit and instead exploiting a technically counterintuitive analytic path using the von Mangoldt function. Follow-ups from @jdlichtman, @thomasfbloom, @gdb, and others framed it as potentially the first AI-generated “Book Proof” broadly respected by mathematicians. That matters less as a one-off result than as evidence that models may now occasionally find non-aesthetic but compact lines of attack in mature research spaces.
- Long-horizon agent research also kept converging on state management and harness design. @omarsar0 summarized AiScientist, where a thin orchestrator coordinates specialized agents through durable workspace artifacts in a File-as-Bus pattern; removing that bus hurts PaperBench and MLE-Bench Lite materially. @dair_ai highlighted Pioneer Agent for continual small-model improvement loops, while @yoonholeee open-sourced Meta-Harness, a repo meant to help users implement robust harnesses in new domains. On evals, @METR_Evals estimated Gemini 3.1 Pro (high thinking) at a 50% time horizon of ~6.4 hours on software tasks, and @arena showed Document Arena top ranks shifting with Claude Opus 4.6 Thinking at #1 and Kimi-K2.5 Thinking as the best open model. Meanwhile, @TeraflopAI released 43B tokens of SEC EDGAR data, reinforcing the day’s broader push toward more open datasets and open infrastructure.
Top tweets (by engagement)
- Gemini on Mac: @sundarpichai and @GeminiApp drove the biggest launch engagement around the native desktop app.
- Gemini 3.1 Flash TTS: @OfficialLoganK and @GoogleDeepMind highlighted a materially more controllable TTS stack.
- AI-assisted math proof: @jdlichtman and @gdb sparked the strongest research discussion of the day.
- OpenAI Agents SDK update: @OpenAIDevs marked a meaningful platform shift toward open harnesses and partner sandboxes.
- Anthropic’s subliminal learning paper in Nature: @AnthropicAI drew major attention to hidden-trait transmission through training data.
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
1. Gemma 4 Model Enhancements and Use Cases
- Gemma4 26b & E4B are crazy good, and replaced Qwen for me! (Activity: 388): The user replaced their previous setup using Qwen models with Gemma 4 E4B for semantic routing and Gemma 4 26b for general tasks, citing improvements in routing accuracy and task performance. The previous setup included a complex routing system using Qwen 3.5 models across multiple GPUs, which faced issues with incorrect model selection and inefficiencies in token usage. The new setup with Gemma 4 models resolved these issues, offering faster and more accurate routing and task execution, particularly in basic tasks and coding, without the need for extensive reasoning or memory usage. Commenters questioned the choice of models, suggesting alternatives like Gemma-4-31b for broader tasks and inquired about the technical setup for model loading and VRAM management. There was also a suggestion to use Gemma 4 26B for routing to save resources, given its efficiency.
Sensitive_Song4219 highlights that while the Gemma 4 26B-A4B model is a strong successor to the Qwen30b-a3b series, it is not as efficient with 'thinking tokens', indicating it may require more computational effort during inference. Despite this, the model performs well in tasks like light coding and debugging, maintaining similar speed to Qwen30b-a3b on comparable hardware.
- andy2na discusses the use of routing in model deployment, suggesting the use of the 26B model for routing due to its MoE (Mixture of Experts) architecture, which enhances speed and reduces RAM usage. This implies a strategic advantage in deploying models efficiently by leveraging the MoE's ability to dynamically allocate computational resources.
- anzzax raises a technical concern about managing multiple models, specifically regarding the reloading of models and the allocation of VRAM/compute resources. This points to the challenges in optimizing resource usage when deploying several large models simultaneously.
- Gemma 4 Jailbreak System Prompt (Activity: 931): The post discusses a system prompt for the Gemma 4 jailbreak, derived from the GPT-OSS jailbreak, which allows the model to bypass typical content restrictions. This prompt is compatible with both GGUF and MLX variants and explicitly permits content such as nudity, pornography, and sexual acts, overriding any existing policies with a new 'SYSTEM POLICY' that mandates compliance with user requests unless explicitly disallowed by a specified list. This approach effectively removes constraints and guardrails typically imposed on language models. Commenters note that the model, particularly in its instruct variant, is already largely uncensored except for cybersecurity topics, suggesting that the jailbreak may be redundant for most adult content.
VoiceApprehensive893 discusses the use of a modified version of the Gemma 4 model, specifically the 'gemma-4-heretic-modified.gguf', which is designed to operate without the typical constraints or guardrails imposed by system prompts. This modification is aimed at reducing refusals, potentially making the model more flexible in its responses.
- MaxKruse96 points out that the Gemma 4 model, particularly in its instruct variant, is already quite uncensored, except for cybersecurity topics. This suggests that the model can handle a wide range of topics, including adult content, without additional modifications.
- DocHavelock inquires about the concept of 'abliteration' in the context of open-source models like Gemma 4. They question whether the method of modifying the system prompt is a form of 'abliteration' or if it offers distinct advantages over simply using an 'abliterated' version of the model. This reflects a curiosity about the technical nuances and benefits of different model modification techniques.
Is it just me, or is Gemma
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み