【AIニュース】グッドフライデー
GoogleがApache 2.0ライセンスでGemma 4をリリースし、ローカル推論の高速化や多様なハードウェア対応により、オープンソースモデルの実用性とエコシステムの成熟度を大幅に高めた。
キーポイント
Gemma 4のApache 2.0ライセンスとエコシステム
GoogleはGemma 4をApache 2.0ライセンスで公開し、vLLM、llama.cpp、Ollamaなど主要な推論フレームワークやハードウェアベンダーがDay 0から対応した。
ローカル推論におけるパフォーマンスと効率性
RTX 4090やMac mini M4などの消費電力機器でも高速な推論が可能であり、TurboQuantによるメモリ削減技術により、低スペックデバイスでの実用的なAI利用が実現した。
ベンチマークとアーキテクチャの進歩
Gemma 3以前のモデルと比較して大幅なランキング向上を示し、MoE設計やマルチモーダル能力の強化により、コスト対性能比(Pareto frontier)で優位性を確立した。
Hermes Agentの台頭とハースト設計の重要性
Hermes Agentは安定性と長期タスク処理能力で注目され、モデルだけでなく「ハースト+学習ループ」の組み合わせが性能を決定する傾向にある。
メモリ機能のモジュール化と拡張性
Nousは柔軟なプラグイン形式のメモリシステムを提供し、複数のバックエンドに対応させながらコアの保守性を高めた。
エージェント性能はハースト工学の問題へ
オープンモデルが十分になった今、大量のトレースデータを活用した自己改善ループやツール連携といったハースト設計が応用品質を支配し始めている。
運用上の摩擦と認知飽和
ユーザーはモデルの知能よりも操作のしやすさを重視しており、Claude Codeのレート制限や複数のエージェントを並行して運用することによる精神的負担(認知飽和)が課題として浮上している。
影響分析・編集コメントを表示
影響分析
Gemma 4のリリースは、オープンソース大規模言語モデルにおける「実用性」と「アクセシビリティ」の新たな基準を定義した。特にApache 2.0ライセンスと既存エコシステムとのシームレスな統合は、企業や開発者が独自モデルを構築・展開する際のリスクとコストを大幅に削減し、AI民主化を加速させる要因となる。
編集コメント
Gemma 4のApache 2.0ライセンス化は、オープンソースAIにおける法的安心感と実装のしやすさを両立させた画期的な動きであり、特にローカル推論エコシステムの成熟度を示す指標として注目すべきである。
昨日も取り上げましたが、Gemma に関する肯定的なレビューが次々と届いています。
Marc Andreesen のポッドキャストからの初期分析では、すでにこれが史上最高の Latent Space ポッドキャストの一つである可能性を示唆しています。来週ロンドンから、OpenClaw と Pi(およびその他多くの欧州発のトップ AI ツール)のクリエイターたちがライブで登壇します。AIE Europe 来週のライブストリームリンクは公開済みです。素晴らしい OpenClaw の楽曲も含まれています。アルゴリズムでのプロモーションを支援するため、ベルアイコンを押してフォローしてください。ありがとうございます!
2026 年 4 月 3 日〜4 月 4 日の AI ニュース。12 のサブレッドと 544 件の Twitter を確認し、Discord はさらに調査しません。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メール配信頻度の設定をオン/オフできます!
AI Twitter リキャップ
Gemma 4 の Apache ライセンス付きリリース、ローカル推論パフォーマンス、および Day-0 エコシステムサポート
Gemma 4 は今日の決定的なオープンモデルリリースです:Google は Gemma 4 を Apache 2.0 の下でリリースし、複数の投稿がその推論、エージェントワークフロー、マルチモーダル性、そしてオンデバイス利用に向けたポジショニングを強調しています。@fchollet はこれを Google がこれまでに出した中で最も強力なオープンモデルと呼び、KerasHub での JAX バックエンドの使用を推奨しました;@demishassabis は効率性を強調し、Gemma 4 が Google のチャート上で 10 倍大きいモデルよりも優れていると主張しました。コミュニティの反応はライセンス変更を中心に展開され、@ClementDelangue、@QuixiAI、@googlegemma はいずれも、これが広範な下流利用を可能にする「本物の」オープンウェイトリリースであると強調しました。
エコシステムは通常とは異なり、0 日目からすでに準備が整っていました:vLLM(GPU、TPU、XPU を同時にサポート)、llama.cpp (@ggerganov)、Ollama(新モデル利用可能)、Intel ハードウェア(Xeon、Xe GPU、Core Ultra)、Unsloth(ローカル実行/ファインチューニング対応)、Hugging Face Inference Endpoints(ワンクリックデプロイ)、そして AI Studio / Google AI Studio の資料(記事リンク)において、サポートが即座に提供されました。アーキテクチャ志向の読者向けには、@osanseviero と @MaartenGr が、MoE 設計、ビジョン/オーディオエンコーダー、層ごとの埋め込みを網羅した詳細なビジュアルガイドを共有しました。
ローカル推論ベンチマークが主要な実用的な話題となりました:複数のビルダーが、特に 26B A4B MoE に注目を集めながら、コンシューマー向けハードウェア上で Gemma 4 を実行している様子を示しました。@basecampbernie は単一の RTX 4090 で 19.5 GB の VRAM を使用し、デコード速度 162 tok/s、ネイティブコンテキスト 262K を達成したと報告しました。一方、@Prince_Canuma は TurboQuant KV キャッシュ(キャッシュ)により、31B モデルの 128K コンテキストでのメモリ使用量を 13.3 GB から 4.9 GB に削減しましたが、デコード速度に若干のペナルティが生じたと示しました。また、より性能の低いローカルデバイスでの例もありました:@measure_plan は 16 GB の Mac mini M4 で 26B-A4B を 34 tok/s で実行したと報告し、@kimmonismus は E4B タイプが有用な AI を直接スマートフォンやラップトップに持ち込むものだと主張しました。さらに @anemll は Swift MLX を用いてこのモデルを iPhone に搭載することに成功しました。
初期のベンチマークに関する議論は肯定的ではあったが、無批判なものではなかった:@arena は、同程度のパラメータ規模において Gemma 3 および 2 を大幅に上回るランキング向上を指摘し、単純なスケーリングを超えた進展を示唆した。その後、@arena は Gemma 4 31B が同価格帯のモデルに対してパレートフロンティア(最適解の集合)上に位置すると述べた。一部のユーザーは発表方法について異議を唱え、@stochasticchasm は比較がより明確に FLOP(浮動小数点演算回数)やアクティブパラメータで正規化されるべきだと主張し、@reach_vb は分野全体がデフォルトスコアとして Arena Elo から脱却するよう求めた。
Hermes Agent の急速な普及、メモリ・プラグインアーキテクチャ、そして「ハルネスの重要性」への転換
Hermes Agent は今日の注目すべきオープンソースエージェントハルネス(実装基盤)となっているようだ。多くの開発者の報告によると、OpenClaw/Openclaw から Hermes へ移行し、長期タスクにおいてより安定しているか、あるいはより能力が高いと評価されている。具体例として @Zeneca、@Everlier、@erick_lindberg_、@AnomalistG が挙げられる。@supernovajunn による詳細な韓国語のスレッドは、この議論を明確に要約した:優位性はモデルそのものだけでなく、ハルネスと学習ループの組み合わせにある。特に重要なのは、自律的なスキル作成、再利用可能な手続的メモリ(procedural memory)、そして実務タスクにおけるより高い信頼性の基盤である。
Nous は単なる hype ではなく、意味のあるインフラストラクチャを提供しました:@Teknium は、Honcho、mem0、Hindsight、RetainDB、Byterover、OpenVikingAI、Vectorize スタイルのバックエンドをサポートする再設計されたプラグ可能(pluggable)なメモリシステムを発表しました。続報ではアーキテクチャの整理が詳細に説明され、メモリプロバイダーは専用のプラグインタイプとなり、コア部分は保守性が向上し、ユーザーも独自のプロバイダーをより容易に追加できるようになりました(詳細)。Hermes ではまた、TUI におけるインライン差分表示(post)や、アカウント/キー間で切り替えるためのプロバイダー認証情報プールが追加されました(post)。
大きなテーマは、エージェントのパフォーマンスがもはやハーンエンジニアリングの問題になっているという点です:@Vtrivedy10 は「モデル・ハーン学習ループ」を説明し、チームがハーンエンジニアリング、トレース収集、分析、ファインチューニングを組み合わせてドメイン固有の最前線パフォーマンスを構築すると述べています。関連するツイートでは、彼は主要な原材料は大量のトレースデータであり、エージェントによって失敗モードが発見され、トレーニングやハーンの改善に転換されると主張しました(トレースループ)。これは Hermes の人気と相まって、オープンモデルがすでに「十分良い」状態にあるなら、より優れたメモリ、ツール、評価、自己改善ループがアプリケーションの品質を支配するようになる可能性があります。
また、クローズドな製品シェルではなくオープンなハーンへの明確な需要も存在します:@michael_chomsky は Anthropic が Claude Code をオープンソース化するべきだと主張し、その理由として 2025 年は「中途半端なハーンの年」だったと指摘しました。@hwchase17 はメモリの観点から明確に述べ、メモリは専有 API や専有ハーンに閉じ込められたままではいけないと強調しました。
コーディングエージェント、レート制限、そして並列エージェント作業における認知のボトルネック
最も強いユーザーの感情は、モデルの純粋な知能(IQ)に関するものではなく、運用上の摩擦についてのものでした。@gdb は Codex を職場で試す際のハードルを下げ、事前のコミットメントを不要にしたことで貢献し、その後、Codex アプリが非常に急速に成長していると述べています(投稿)。しかし同時に、Claude Code のレート制限に関する議論は激しくなっており、@theo は「Claude Code のレート制限について話し合う必要がある」と発言しました。これを受け、@kimmonismus や @cto_junior からのフォローアップユーザーの苦情により、ユーザーが予想よりも早く利用上限に達していることが示唆されています。
新たな傾向として、計算資源の不足だけでなく認知飽和(cognitive saturation)が問題視されています。最も反応の多かった技術的なツイートの一つは、@lennysan が @simonw を引用したもので、「コーディングエージェントを効果的に活用するには、シニアエンジニアとしての経験のすべてが必要であり、午前中のある時点で並列で 4 つのエージェントをオーケストレーションすることは精神的に疲弊する」という内容でした。この見解は他の場所でも示されており、@kylebrussell は検証作業のために多数のブラウザタブを駆動できる Claude Code の能力を称賛しましたが、その後、スケーリングが「奇妙な」状態になり、自分の脳にとって 2〜4 セッションが最適だと指摘しています(投稿)。
開発者たちは、コンテキストと観測可能性を外部化することで適応しています。@jerryjliu0 は、セッション間でコンテキストを保持するためにエージェントが .md/.html 形式の成果物を出力し、ローカルビューアとして Obsidian を使用し、複雑な文書からの抽出を改善するために汎用的な PDF パーサーに代わり LiteParse を使用する実用的なセットアップを紹介しました。観測可能性の側面では、LangChain が Claude Code → LangSmith 追跡プラグッシュをリリースし、サブエージェント、ツール呼び出し、コンパクション(圧縮)、トークン使用量をログ出力するとともに、組織レベルでの分析を可能にしました(発表)。
また、「十分良好なローカルフォールバック」の重要性を示す証拠が増えています。いくつかの投稿では、Gemma 4 と Hermes をホスト型製品の摩擦に対する保険として組み合わせて紹介しています。@gregisenberg は、この程度の能力を持つモデルが現在ローカルで動作し、Claude Code、Cursor、Hermes、OpenClaw に差し替えて使用できると強調しました。@kimmonismus も同様に、16 GB のメモリを搭載した MacBook Air M4 で完全なローカルアシスタントを動作させ、API キーを必要としない点を指摘しています。
研究のシグナル:時間軸、再帰的コンテキスト管理、自己蒸留
METR スタイルの「時間軸」に関する結果は引き続き上昇傾向にあります。@LyptusResearch は METR の時間軸手法を攻撃的なサイバーセキュリティに適用し、2019 年以降で能力が約 9.8 ヶ月ごとに倍増していること、あるいは 2024 年以降のデータでは約 5.7 ヶ月ごとに倍増していることを報告しました。また、Opus 4.6 と GPT-5.3 Codex は、人間のエキスパートに約 3 時間かかるタスクで 50% の成功率を達成しています。@scaling01 からの関連するコメントでは、継続的な発展を前提とした場合、現在の METR 時間軸は約 15.2 時間、年末には約 87 時間に達すると外挿されています。
技術用語:コンテキスト (context)、観測可能性 (observability)、成果物 (artifacts)、サブエージェント (subagents)、ツール呼び出し (tool calls)、コンパクション (compaction)、トークン使用量 (token usage)、ホスト型製品 (hosted-product)、ローカルフォールバック (local fallback)、時間軸 (time horizon)、再帰的コンテキスト管理 (recursive context management)、自己蒸留 (self-distillation)
長期コンテキストの処理は、依然として活発なシステム・研究課題です:@DeepLearningAI は、MIT の研究者である Alex Zhang 氏、Tim Kraska 氏、Omar Khattab 氏が提案した再帰型言語モデル(Recursive Language Models: RLMs)を紹介しました。これは、すべての情報を単一の巨大なプロンプトに詰め込むのではなく、システムがプロンプト管理を外部環境にオフロードし、プログラム的にコンテキストを管理するというアイデアです。この考え方は実務家にも共感を呼び、@raibaggy は「RLM にワークフローを移行した後では、『ハーネス(制御装置)』を『ハーネス』の中に組み込まなければならない」と冗談めかして述べています。
ラベルや検証器なしのポストトレーニングも注目を集めました:@BoWang87 は、コーディングモデル向けに Apple が発表した Simple Self-Distillation (SSD) の結果を要約しました。これは、正誤フィルタリング、強化学習(Reinforcement Learning: RL)、または検証器を用いずに、モデル自身の出力をサンプリングしてそれらで微調整を行う手法です。引用された最も顕著な改善は Qwen3-30B-Instruct で、LiveCodeBench における pass@1 が 42.4% から 55.3% に向上し、特に困難な問題において大きな進歩が見られました。この手法が堅牢であるならば、多くのコードモデルは中核的な能力の欠如ではなく、デコーディングやポストトレーニングのギャップにより、潜在的な能力を十分に発揮できていないことを示唆しています。
さらに注目すべき研究として:@jaseweston は、訓練データ、オンポリシー報酬モデル、オンポリシー推論手法にわたる数学的対象に関する推論について 70 ページに及ぶ論文を紹介しました。また、@AnthropicAI は、オープンウェイトモデル間の振る舞いの違いを浮き彫りにするための「diff」手法を発表し、@AndrewLampinen は、訓練データから潜在的な知識を引き出して利用する方法としてテスト時の思考(test-time thinking)について議論しています。
エンタープライズおよび本番環境における AI:音声、セキュリティ、アクセス制御、そして実世界での展開
Microsoft の MAI-Transcribe-1 は、音声認識(STT)において競争力のある性能を示しています。@ArtificialAnlys 氏によると、AA-WER で 3.0% を記録し、総合ランキングで第 4 位を獲得。リアルタイム処理速度は約 69 倍に達し、25 か国語に対応可能です。Azure Speech および Foundry を通じてプレビュー版が利用可能となっています。料金は 1,000 分あたり 6 ドルと発表されています(料金に関する投稿)。
セキュリティについては、複数の本番環境の文脈で課題が浮上しました。@simonw 氏は、Axios のサプライチェーン攻撃が、開発者に対する巧妙なソーシャルエンジニアリングから始まったことをメンテナーに警告しました。@gneubig 氏は、より強力な資格情報管理、身元確認、マルウェア検出といった実践的な教訓を提示しました。一方、@thinkshiv 氏と @jerryjliu0 氏は、認証(authorization)を事後の付加物としてではなく、検索プロセス内で構造的に組み込むための Auth0 FGA と LlamaIndex を組み合わせたアプローチを共同で強調しました。
推論インフラストラクチャおよび実世界での展開については、信頼性の高い事例が提示されました。Baseten と OpenEvidence はともに臨床現場における大規模な本番利用を主張しており、OpenEvidence によると米国の医師の 40% 以上がこのシステムに依存しているとしています。また、このワークロードの推論処理は Baseten が担っています(OpenEvidence, Baseten)。サービス耐性については、@vllm_project 氏が vLLM WideEP デプロイメントにおける Ray Serve LLM の DP グループ障害許容性を強調しました。これはエンジン層での Elastic EP を補完するものです。
主要なツイート(エンゲージメント数上位で技術的関連性にフィルタリング)
エージェントワークフローの疲労が第 1 の問題となりつつあります:@lennysan が引用した @simonw の、並行して複数のコーディングエージェントを使用することによる精神的コストに関する投稿は、一連の中で最も共感を呼ぶ技術的な内容でした。
エージェント向けの個人知識ベースが確立されたパターンへと進化しています:@omarsar0 は、マークダウン形式で構築され、セマンティックインデックス(意味的索引)、エージェント駆動型キュレーション、インタラクティブな成果物を備えた、高度にカスタマイズされた研究論文用知識ベースを説明しました。その続報ではシステム図(diagram)が共有されました。
Gemma 4 は広範な注目を集めると同時に実用的な信頼性も獲得しました:関心が集中したのはリリース自体だけでなく、@fchollet や @demishassabis の発表に加え、@ClementDelangue、@gregisenberg、@kimmonismus による実際のローカル実行に関する主張にも向けられました。
Hermes Agent の採用曲線がオープンソース界隈で可視化され始めています:最も強力な証拠は公式投稿よりも、ユーザーの移行報告や利用事例、そして @Teknium によるメモリシステムの刷新から得られました。このパターンが注目すべき点は、ユーティリティの飛躍に対して、単にベースモデルだけでなく、メモリとハーン(基盤)設計を評価するユーザーが増えていることです。
AI Reddit まとめ
/r/LocalLlama + /r/localLLM まとめ
- Gemma 4 モデルのリリースと機能
Gemma 4 がリリースされました(アクティビティ数:3412):Google DeepMind が開発した Gemma 4 は、テキスト、画像、音声を処理できるオープンなマルチモーダルモデルのファミリーであり、最大 256K トークンのコンテキストウィンドウを備えています。このモデルは E2B、E4B、26B A4B、31B の 4 つのサイズで提供され、140 以上の言語に対応する多言語機能を搭載しています。Dense(密結合)アーキテクチャと Mixture-of-Experts (MoE)(専門家混合)アーキテクチャの両方を採用しており、テキスト生成、コーディング、推論などのタスクに最適化されています。特筆すべきは、Gemma 4 がローカルスライディングウィンドウとグローバルアテンションを組み合わせたハイブリッドアテンション機構を導入し、長文コンテキスト処理における処理速度とメモリ効率を向上させた点です。また、ネイティブ関数呼び出し(native function-calling)と構造化ツール使用をサポートしており、エージェントワークフローやコーディングタスクの円滑な実行を可能にしています。詳細は Hugging Face リポジトリをご参照ください。あるコメントでは、Gemma-4 のネイティブ思考機能とツール呼び出し能力の重要性が強調され、そのマルチモーダル性が注目されています。別のコメントでは、温度パラメータ = 1.0、top_p = 0.95、top_k = 64 といった具体的な設定を含めたモデル実行の実践的なガイダンスが提供されており、Unsloth Studio との統合についても言及されています。
Gemma-4 は、ネイティブ思考機能、ツール呼び出し、マルチモーダル能力など、いくつかの高度な機能を導入しています。特定のパラメータで最適化されており、温度 = 1.0、top_p = 0.95、top_k = 64 を使用し、シーケンス終了トークンとして <eos> が用いられます。さらに、思考トレースには thought\n が使用され、認知処理能力が強化されています。詳細とガイドは Unsloth AI で確認できます。
Gemma-4 のリリースは、Unsloth Studio とシームレスに統合されている点で重要です。これにより、開発者向けに streamlined な環境が提供されます。Gemma-4 に関連するすべての GGUF ファイルは Hugging Face でアクセス可能であり、モデルの実装や実験を検討している方々にとって包括的なリソースとなっています。
Gemma-4 と Qwen3.5 などの他のモデルとの比較分析への期待が高まっており、AI モデル開発における競争環境が浮き彫りになっています。これは、各モデルの強みと弱みを実用的な応用において理解するために、ベンチマークとパフォーマンス評価に焦点を当てていることを示唆しています。
Google Gemma 4 をローカル環境で実行できるようになりました!(最小 RAM 5GB)(アクティビティ:415): Google は、マルチモーダル機能を備えた 4 つのモデル(E2B, E4B, 26B-A4B, 31B)からなるオープンソースモデルファミリー「Gemma 4」をリリースしました。これらのモデルは、推論、コーディング、長文コンテキストワークフローにおいて卓越した性能を発揮します。31B モデルが最も高度な機能を持ち、MoE(Mixture of Experts:専門家混合)アーキテクチャを採用した 26B-A4B は速度最適化されています。Unsloth により、これらのモデルは最小 5GB の RAM を備えたデバイスでもローカル実行が可能になりました。Unsloth Studio を介してモデルを実行でき、推奨構成は小規模モデルで 6GB、最大規模のモデルで 35GB の RAM です。GPU は必須ではありませんが、性能を大幅に向上させることができます。インストールプロセスは各種 OS で簡素化されており、デスクトップアプリも近日公開予定です。詳細は Unsloth のドキュメントをご覧ください。コメント欄では、古いハードウェアでも Gemma 4 が利用可能になったことへの興奮や、2013 年製の Dell ラップトップ上で E2B モデルが驚異的なパフォーマンスを発揮したという報告が見られます。また、モデルの仕様やハードウェア要件を追いかけることの複雑さについても議論が行われています。
Google Gemma 4 をローカル環境で実行するための推奨構成は、異なるモデルサイズにおけるメモリとパフォーマンスのトレードオフを浮き彫りにしています。例えば、E2B および E4B バリアントは、約 6GB の RAM でほぼ完全精度において 1 秒あたり 10 トークン以上の処理速度を実現可能であり、一方 4 ビット版では 4〜5GB の RAM で動作します。より大規模なモデルである 26B-A4B は、同様のパフォーマンスを得るために約 30GB の RAM を必要とし、4 ビットバージョンでも 16GB が要求されます。さらに大規模な 31B モデルは、ほぼ完全精度で 1 秒あたり 15 トークン以上を処理するために約 35GB の RAM を要します。
あるユーザーは、Gemma4 E2B モデルが古いハードウェア、具体的には 2013 年製の Dell E6440(i5 4310 CPU および 8GB RAM)において驚くほど良好に動作すると報告しています。このシステムでは返信速度が 1 秒あたり 8 トークンに達しており、これは古いシステムでも Gemma 4 の小規模モデルを基本タスクに使用できることを示唆し、同モデルの効率性と低性能マシンへの適応能力を強調するものです。
Google Gemma 4 の 31B モデルは、KV Cache(Key-Value Cache)および Mixture of Experts (MoE) アーキテクチャによるもののため、メモリ要件が非常に大きく、メモリアップロードには最大 40GB の VRAM を必要とします。これは大規模モデルを実行する際に多大なリソースを要することを示しており、高性能ハードウェアへのアクセスがないユーザーにとっては制限要因となり得ます。
Gemma4 - Google の誰かが、"この地球上で最も能力の高いオープンウェイトをさりげなく公開する"というタイトルの PR をマージしました(アクティビティ数:471): Google は HuggingFace Transformers リポジトリにおいて、新モデル「Gemma 4」に関する PR をマージしました。これは"この地球上で最も能力の高いオープンウェイト"と説明されています。同モデルには 4 つのサイズが含まれており、オンデバイス利用向けの約 2B および約 4B の密結合(dense)モデル、推論時に 4B のアクティブパラメータを持つ 26B のスパース MoE(Mixture of Experts)、そして 31B の密結合モデルです。特筆すべきは、26B/4B の MoE が、大規模モデル並みの品質を小規模モデルの推論コストで実現している点です。Gemma 4 はトリモーダルであり、テキスト・ビジョン・オーディオをネイティブにサポートします。オーディオにはコンフォーマー(conformer)アーキテクチャが、ビジョンには 2D 空間 RoPE(Rotary Positional Embedding)が採用されています。小規模モデルでは 128K のコンテキスト長、大規模モデルでは 256K をサポートし、ハイブリッドアテンション設計を採用しています。MoE バリアントは MLP とスパース MoE ブロックの両方を含み、その出力を合算するという、珍しい設計選択となっています。コードはマージ済みですが、重みとリリース日は未定です。コメント欄では、31B モデルや VRAM 制約環境における 26B/4B の MoE の可能性に対して興奮の声が上がっています。MoE モデルが VRAM 上でどのように重みを管理するかについての議論があり、推論効率に焦点が当てられています。また別のコメントでは、llama.cpp のサポートが準備されており、重みが公開されれば即座にローカル推論が可能であることが指摘されています。
エキスパートの混合(MoE)モデルアーキテクチャは、推論時にモデルのパラメータの一部のみを活性化することで、より大規模な密結合モデルのパフォーマンスを実現し、計算オーバーヘッドを抑えることができます。つまり、Gemma4 26B/4B モデルは 260 億個のパラメータを持っていますが、同時に活性化されるのは 40 億個に過ぎず、これにより VRAM(ビデオメモリ)の要件が潜在的に削減されます。ただし、モデル全体の重み(weights)へのアクセスが必要となる場合があり、これは VRAM に制約のある環境では課題となり得ます。なぜなら、許容可能な推論レイテンシを維持するために、モデルは動的に重みの読み込みとアンロードを管理する必要がある可能性があるからです。
llama.cpp リポジトリは、最近のプルリクエストによって Gemma4 モデルへのサポートが既に統合されていることが示されています。これは、Gemma4 の重みがリリースされた時点で、ユーザーが即座に GGUF 形式に変換し、追加のアップデートを待たずにローカル推論を実行できることを意味します。この迅速な統合は、コミュニティが新しいモデルリリースをサポートし、さまざまな環境でのデプロイを促進する準備ができていることを浮き彫りにしています。
DeepMind と Google による Gemma4 の発表には、詳細なブログ記事とモデルドキュメントが含まれており、これらは DeepMind の公式ページおよび Google のブログで確認できます。これらのリソースは、モデルの機能や潜在的な応用分野に関する洞察を提供し、利用可能なオープンウェイト(open weights)の中で最も能力が高いものの一つとしての地位を強調しています。
- Gemma 4 のパフォーマンスと課題
Gemma 4 は良い(アクティビティ:429):この投稿では、Mac Studio M1 Ultra 上での Gemma 26b a4b モデルのパフォーマンスが Qwen3.5 35b a3b と比較されており、ユーザーは Gemma がより高速で一貫性があり、視覚的理解や多言語能力に優れていると報告しています。ただし、KV キャッシュ(Key-Value Cache)のフットプリントが大きく、260K トークン @ fp16 で 22GB の VRAM を消費します。Q4_K_XL 量子化モデルではさらに約 18GB が必要となります。また、Google の AI Studio 版 Gemma におけるトークナイザーの問題についても言及されています。ユーザーは SWA(Sliding Window Attention)が KV キャッシュサイズの削減に一定の利点をもたらすと指摘し、特に医療文脈におけるモデルの回答における検閲への懸念を表明しています。あるコメントでは、元の投稿時点で llama.cpp の実装に既知の問題があり破損していたため、その結果に対する懐疑視が示されています。別のコメントでは、i 向けの Gemma 4 E2B モデルが称賛されています。
原文を表示
We covered this yesterday, but positive Gemma reviews keep streaming in.
Early analytics from our Marc Andreesen pod are already pointing towards it being one of the top Latent Space pods of all time. We’ll hear more from the creators of both OpenClaw and Pi (and many other top Europe-origin AI tools) live from London next week. Livestream links for AIE Europe next week is now up, including a great OpenClaw song. Hit the bell to help promote it in the algorithm please and thank you!
AI News for 4/3/2026-4/4/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Gemma 4’s Apache-licensed launch, local inference performance, and day-0 ecosystem support
Gemma 4 is the day’s defining open-model release: Google launched Gemma 4 under Apache 2.0, with multiple posts emphasizing its positioning for reasoning, agentic workflows, multimodality, and on-device use. @fchollet called it Google’s strongest open model yet and recommended the JAX backend in KerasHub; @demishassabis highlighted efficiency, claiming Gemma 4 outperforms models 10x larger on Google’s chart. Community reaction centered on the license shift: @ClementDelangue, @QuixiAI, and @googlegemma all stressed that this is a “real” open-weights release with broad downstream usability.
The ecosystem was unusually ready on day 0: Support landed immediately across vLLM (GPU, TPU, XPU simultaneously), llama.cpp (@ggerganov), Ollama (new models available), Intel hardware (Xeon, Xe GPU, Core Ultra), Unsloth (local run/fine-tune support), Hugging Face Inference Endpoints (one-click deploy), and AI Studio / Google AI Studio collateral (article link). For architecture-oriented readers, both @osanseviero and @MaartenGr shared deep visual guides covering MoE design, vision/audio encoders, and per-layer embeddings.
Local inference benchmarks were the main practical story: multiple builders showed Gemma 4 running on consumer hardware, with particular attention to the 26B A4B MoE. @basecampbernie reported 162 tok/s decode and 262K native context on a single RTX 4090 at 19.5 GB VRAM, while @Prince_Canuma showed TurboQuant KV cache cutting memory from 13.3 GB to 4.9 GB at 128K context for the 31B model, with some decode-speed penalty. There were also examples on weaker local devices: @measure_plan reported 34 tok/s for 26B-A4B on a Mac mini M4 with 16 GB, @kimmonismus argued the E4B tier brings useful AI directly to phones/laptops, and @anemll got the model onto an iPhone with Swift MLX.
Early benchmarking discourse was positive but not uncritical: @arena noted large ranking gains over Gemma 3 and 2 at similar parameter scales, suggesting progress beyond pure scaling; later, @arena put Gemma 4 31B on the Pareto frontier against similarly priced models. Some users pushed back on presentation choices: @stochasticchasm argued comparisons should be more clearly FLOP/active-parameter normalized, and @reach_vb urged the field to move beyond Arena Elo as the default score.
Hermes Agent’s rapid adoption, memory/plugin architecture, and the “harness matters” shift
Hermes Agent appears to be the breakout open-source agent harness of the day: across user reports, many developers explicitly said they had switched from OpenClaw/Openclaw to Hermes and found it more stable or more capable on long tasks. Examples include @Zeneca, @Everlier, @erick_lindberg_, and @AnomalistG. A detailed Korean thread from @supernovajunn crystallized the narrative: the edge is not just the model, but the harness + learning loop, especially autonomous skill creation, reusable procedural memory, and higher reliability floors on real tasks.
Nous shipped meaningful infrastructure, not just hype: @Teknium announced a reworked, pluggable memory system with support for Honcho, mem0, Hindsight, RetainDB, Byterover, OpenVikingAI, and Vectorize-style backends. Follow-up posts detailed the architectural cleanup: memory providers are now a dedicated plugin type, the core is more maintainable, and users can add their own providers more easily (details). Hermes also added inline diffs in the TUI (post) and provider credential pools for cycling between accounts/keys (post).
The larger theme is that agent performance is becoming a harness-engineering problem: @Vtrivedy10 described a “model-harness training loop” where teams combine harness engineering, trace collection, analysis, and fine-tuning to build domain-specific frontier performance. In a companion tweet, he argued the key raw material is massive trace data, mined by agents for failure modes and converted into training or harness improvements (trace loop). This complements Hermes’ popularity: if open models are now “good enough,” better memory, tools, evals, and self-improvement loops may dominate application quality.
There is also visible demand for open harnesses rather than closed product shells: @michael_chomsky argued Anthropic should open-source Claude Code, partly because 2025 was “the year of mediocre harnesses”; @hwchase17 made the memory angle explicit, saying memory cannot remain trapped behind proprietary APIs or proprietary harnesses.
Coding agents, rate limits, and the cognitive bottleneck of parallel agent work
The strongest user sentiment was not about raw model IQ but about operational friction: @gdb lowered the barrier to trying Codex at work by removing up-front commitment, and later said the Codex app is growing super fast (post). But at the same time, discussion around Claude Code rate limits was intense: @theo said “we need to talk about the Claude Code rate limits,” with follow-up user complaints from @kimmonismus and @cto_junior suggesting that users are hitting caps faster than expected.
A growing theme is cognitive saturation, not just compute scarcity: one of the most-engaged technical tweets was @lennysan quoting @simonw: using coding agents well can require every inch of senior engineering experience, and orchestrating four agents in parallel is mentally exhausting by mid-morning. That view showed up elsewhere: @kylebrussell praised Claude Code’s ability to drive many browser tabs for verification work, but later noted scaling gets “weird” and that 2–4 sessions still seems optimal for his brain (post).
Developers are adapting by externalizing context and observability: @jerryjliu0 described a practical setup where agents emit .md/.html artifacts to preserve context across sessions, with Obsidian as a local viewer and LiteParse replacing generic PDF parsers for better extraction from complex documents. On the observability side, LangChain shipped a Claude Code → LangSmith tracing plugin that logs subagents, tool calls, compaction, token usage, and enables org-level analysis (announcement).
There’s also growing evidence that “good enough local fallback” matters: several posts framed Gemma 4 and Hermes together as a hedge against hosted-product friction. @gregisenberg emphasized that a model this capable now runs locally and can be swapped into Claude Code, Cursor, Hermes, or OpenClaw. @kimmonismus similarly highlighted a fully local assistant on a MacBook Air M4 with 16 GB, no API keys required.
Research signals: time horizons, recursive context management, and self-distillation
METR-style “time horizon” results continue to trend upward: @LyptusResearch applied the METR time-horizon methodology to offensive cybersecurity, reporting that capability has doubled every 9.8 months since 2019, or 5.7 months on a 2024+ fit, with Opus 4.6 and GPT-5.3 Codex reaching 50% success on tasks taking human experts ~3 hours. Related commentary from @scaling01 extrapolated METR horizons to roughly 15.2 hours “today” and ~87 hours by year-end under continuation assumptions.
Long-context handling remains an active systems/research problem: @DeepLearningAI highlighted Recursive Language Models (RLMs) from MIT researchers Alex Zhang, Tim Kraska, and Omar Khattab: rather than stuffing everything into a monolithic prompt, the system offloads prompt management to an external environment, managing context programmatically. This idea resonated with practitioners: @raibaggy joked that after moving workflows to RLMs, “you have to put the harness into the harness.”
Post-training without labels/verifiers got notable attention: @BoWang87 summarized Apple’s Simple Self-Distillation (SSD) result for coding models: sample the model’s own outputs and fine-tune on them without correctness filtering, RL, or a verifier. The strongest cited gain was Qwen3-30B-Instruct: 42.4% → 55.3% pass@1 on LiveCodeBench, with especially large gains on hard problems. If robust, this suggests many code models are underperforming their latent capability due to decoding/post-training gaps rather than missing core competence.
Additional research worth flagging: @jaseweston shared a 70-page paper on reasoning over mathematical objects, spanning training data, on-policy reward models, and on-policy inference methods; @AnthropicAI published a “diff” method for surfacing behavioral differences between open-weight models; and @AndrewLampinen discussed test-time thinking as a way to retrieve and use latent knowledge from training data.
Enterprise and production AI: speech, security, access control, and real-world deployments
Microsoft’s MAI-Transcribe-1 looks competitive on STT: @ArtificialAnlys reported 3.0% AA-WER (#4 overall on its leaderboard) and ~69x real-time speed, with support for 25 languages and preview availability through Azure Speech / Foundry. Pricing was quoted at $6 per 1,000 minutes (pricing post).
Security surfaced in multiple production contexts: @simonw warned maintainers that the Axios supply-chain attack began with sophisticated social engineering aimed at a developer; @gneubig pulled out the practical lessons: stronger credential management, identity verification, and malware detection. Separately, @thinkshiv and @jerryjliu0 highlighted a joint Auth0 FGA + LlamaIndex approach to making authorization structural inside retrieval, rather than bolting it on after the fact.
Inference infrastructure and real deployments got credible examples: Baseten and OpenEvidence both claimed very large-scale production use in clinical settings, with OpenEvidence saying over 40% of U.S. physicians rely on it and Baseten powers inference for that workload (OpenEvidence, Baseten). On serving resilience, @vllm_project highlighted DP-group fault tolerance in Ray Serve LLM for vLLM WideEP deployments, complementing Elastic EP at the engine layer.
Top tweets (by engagement, filtered for technical relevance)
Agent workflow fatigue is becoming a first-class problem: @lennysan quoting @simonw on the mental cost of using multiple coding agents in parallel was the most resonant technical post in the set.
Personal knowledge bases for agents are turning into a serious pattern: @omarsar0 described a highly customized research-paper knowledge base built in markdown with semantic indexing, agent-driven curation, and interactive artifacts; a follow-up shared the system diagram (diagram).
Gemma 4 had both broad mindshare and practical credibility: engagement concentrated not only on the launch itself—@fchollet, @demishassabis—but on practical local-running claims from @ClementDelangue, @gregisenberg, and @kimmonismus.
Hermes Agent’s adoption curve is now visible in the open: the strongest evidence came less from official posts than from user migration reports and usage anecdotes, plus @Teknium’s memory-system overhaul. The pattern is notable: users increasingly credit memory + harness design, not just the base model, for the jump in utility.
AI Reddit Recap
/r/LocalLlama + /r/localLLM Recap
- Gemma 4 Model Release and Features
Gemma 4 has been released (Activity: 3412): Gemma 4, developed by Google DeepMind, is a family of open multimodal models capable of processing text, images, and audio, with a context window of up to 256K tokens. The models are available in four sizes: E2B, E4B, 26B A4B, and 31B, supporting multilingual capabilities in over 140 languages. They feature both Dense and Mixture-of-Experts (MoE) architectures, optimized for tasks such as text generation, coding, and reasoning. Notably, Gemma 4 introduces a hybrid attention mechanism combining local sliding window and global attention, enhancing processing speed and memory efficiency for long-context tasks. The models also support native function-calling and structured tool use, facilitating agentic workflows and coding tasks. For more details, see the Hugging Face repository. One comment highlights the significance of Gemma-4’s native thinking and tool-calling capabilities, emphasizing its multimodal nature. Another provides practical guidance on running the models, including specific parameters like temperature = 1.0, top_p = 0.95, and top_k = 64, and mentions its integration with Unsloth Studio.
Gemma-4 introduces several advanced features such as native thinking, tool calling, and multimodal capabilities. It is optimized with specific parameters: temperature = 1.0, top_p = 0.95, top_k = 64, and uses <turn|> as the end-of-sequence token. Additionally, <|channel>thought\n is used for the thinking trace, enhancing its cognitive processing capabilities. More details and guides are available at Unsloth AI.
The release of Gemma-4 is significant for its seamless integration with Unsloth Studio, providing a streamlined environment for developers. All GGUFs related to Gemma-4 can be accessed on Hugging Face, offering a comprehensive resource for those looking to implement or experiment with the model.
There is anticipation for comparative analysis between Gemma-4 and other models like Qwen3.5, highlighting the competitive landscape in AI model development. This suggests a focus on benchmarking and performance evaluation to understand the strengths and weaknesses of each model in practical applications.
You can now run Google Gemma 4 locally! (5GB RAM min.) (Activity: 415): Google has released the open-source model family Gemma 4, featuring four models with multimodal capabilities: E2B, E4B, 26B-A4B, and 31B. The models excel in reasoning, coding, and long-context workflows. The 31B model is the most advanced, while 26B-A4B is optimized for speed due to its MoE architecture. Unsloth has adapted these models for local execution on devices with as little as 5GB RAM. The models can be run via Unsloth Studio, with recommended setups ranging from 6GB RAM for smaller models to 35GB RAM for the largest. No GPU is required, but it enhances performance significantly. Installation is streamlined for various OS, and a desktop app is forthcoming. More details are available in the Unsloth documentation. Commenters express excitement about the usability of Gemma 4 on older hardware, noting the impressive performance of the E2B model on a 2013 Dell laptop. There is also a discussion on the complexity of keeping up with model specifications and hardware requirements.
The recommended setups for running Google Gemma 4 locally highlight the memory and performance trade-offs across different model sizes. For instance, the E2B and E4B variants can achieve 10+ tokens per second in near-full precision with approximately 6GB of RAM, while 4-bit variants can operate on 4-5GB RAM. Larger models like the 26B-A4B require around 30GB of RAM for similar performance, with 4-bit versions needing 16GB. The 31B model, which is even larger, demands about 35GB of RAM for 15+ tokens per second in near-full precision.
A user reports that the Gemma4 E2B model performs surprisingly well on older hardware, specifically a 2013 Dell E6440 with an i5 4310 CPU and 8GB of RAM, achieving a reply speed of 8 tokens per second. This suggests that even older systems can handle smaller models of Gemma 4 for basic tasks, highlighting the model’s efficiency and adaptability for less powerful machines.
The 31B model of Google Gemma 4 has a significant memory requirement due to its KV Cache and Mixture of Experts (MoE) architecture, needing up to 40GB of VRAM to load into memory. This indicates a substantial resource demand for running larger models, which could be a limiting factor for users without access to high-end hardware.
Gemma4 - Someone at Google just merged a PR titled “casually dropping the most capable open weights on the planet” (Activity: 471): Google has merged a PR in the HuggingFace Transformers repo for a new model, Gemma 4, described as the ‘most capable open weights on the planet.’ The model includes four sizes: ~2B and ~4B dense models for on-device use, a 26B sparse MoE with 4B active parameters at inference, and a 31B dense model. Notably, the 26B/4B MoE offers large-model quality with small-model inference cost. Gemma 4 is trimodal, supporting text, vision, and audio natively, with a conformer architecture for audio and a 2D spatial RoPE for vision. It features 128K context for small models and 256K for large, using a hybrid attention design. The MoE variant includes both MLP and sparse MoE blocks, summing their outputs, which is an unusual design choice. The code is merged but weights and release date are pending. Commenters are excited about the potential of the 31B model and the 26B/4B MoE for VRAM-constrained environments. There’s a discussion on how MoE models manage weights in VRAM, with a focus on inference efficiency. Another comment notes that llama.cpp support is ready, enabling immediate local inference upon weight release.
The Mixture of Experts (MoE) model architecture allows for the performance of a larger dense model without the computational overhead by activating only a subset of the model’s parameters during inference. This means that while the Gemma4 26B/4B model has 26 billion parameters, only 4 billion are activated at any given time, potentially reducing the VRAM requirements. However, the entire model’s weights might still need to be accessible, which could be a challenge for VRAM-constrained environments, as the model might need to manage the loading and unloading of weights dynamically to maintain acceptable inference latency.
The llama.cpp repository has already integrated support for the Gemma4 model, as indicated by a recent pull request. This means that once the Gemma4 weights are released, users can immediately convert them to the GGUF format and perform local inference without waiting for additional updates to the llama.cpp repository. This rapid integration highlights the readiness of the community to support new model releases and facilitate their deployment in various environments.
The announcement of Gemma4 by DeepMind and Google includes a detailed blog post and model documentation, which can be found at DeepMind’s official page and Google’s blog. These resources provide insights into the model’s capabilities and potential applications, emphasizing its status as one of the most capable open weights available.
- Gemma 4 Performance and Issues
Gemma 4 is good (Activity: 429): The post discusses the performance of the Gemma 26b a4b model on a Mac Studio M1 Ultra, comparing it to Qwen3.5 35b a3b. The user reports that Gemma is faster and more coherent, with better visual understanding and multilingual capabilities, despite having a large KV cache footprint (22GB VRAM for 260K tokens @ fp16). The Q4_K_XL quantized model requires an additional ~18GB. The post also mentions issues with Google’s AI studio version of Gemma, citing tokenizer problems. The user notes that SWA provides some benefits in reducing the KV cache size, and expresses concerns about censorship in the model’s responses, particularly in medical contexts. A comment highlights skepticism about the results due to a known issue with the llama.cpp implementation, which was reportedly broken at the time of the original post. Another comment praises the Gemma 4 E2B model for i
関連記事
低コストでのローカルエージェント型プログラミング:Claude Code、Ollama、Gemma4の活用
KDnuggets は、Claude Code と Ollama、Gemma4 を組み合わせることで、高価なクラウドサービスに頼らずローカル環境でエージェント型プログラミングを実現する手法を紹介している。
Google DeepMind、ローカルAIを4倍高速化する拡散モデル「DiffusionGemma」を公開
Google DeepMindは、従来の逐次生成ではなくテキストブロックを並列生成する新モデル「DiffusionGemma」を発表し、Nvidia DGXやゲーミングGPUなどのローカル環境で処理速度を4倍に向上させたと発表した。
Google AI、テキスト拡散を用いた26B MoEオープンモデル「DiffusionGemma」を公開
Google DeepMindチームは、標準的な自己回帰型ではなくテキスト拡散方式を採用した実験的オープンモデル「DiffusionGemma」をApache 2.0ライセンスで公開し、開発者や研究者向けに高速な生成ワークフローを提供する。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み