Google DeepMind、Gemma 4シリーズをApache 2.0ライセンスで公開
Google DeepMindは、最大256Kトークンのコンテキスト長とマルチモーダル対応を備えたオープンウェイトモデル「Gemma 4」シリーズ(31B、MoE、エッジ向け)をApache 2.0ライセンスで公開し、ローカル推論エコシステムへの即日対応と高いベンチマーク性能を示した。
キーポイント
Gemma 4シリーズの公開と仕様
Google DeepMindは、31B Dense、26B MoE (A4B)、およびエッジ最適化モデル(E4B、E2B)を含むGemma 4ファミリーを公開し、最大256Kトークンのコンテキスト長とマルチモーダル(テキスト・ビジョン・オーディオ)対応を実現した。
高いベンチマーク性能とアーキテクチャ革新
Gemma-4-31Bはオープンモデルの中で3位を記録し、科学推論において85.7%のGPQA Diamondスコアを示した。標準的なトランスフォーマーとは異なり、ハイブリッド注意機構とMoE層を採用した独自のアーキテクチャを採用している。
ローカル推論エコシステムとの即時統合
llama.cpp、Ollama、vLLM、LM Studioなど主要なローカル推論ツールがDay-0でサポートされており、M2 UltraやRTX 4090などのハードウェア上で高いローカル推論パフォーマンスを実現している。
影響分析・編集コメントを表示
影響分析
Gemma 4の公開は、高品質なマルチモーダルモデルをApache 2.0ライセンスで提供するという点で、オープンソースAIエコシステムに大きな影響を与える。特にローカル推論ツールとの緊密な統合は、データプライバシーが重視される企業現場やリソース制約のある環境でのAI導入を加速させる可能性がある。
編集コメント
Gemma 4は、そのオープンライセンスとローカル推論エコシステムとの即時互換性により、企業向けAIソリューションの選択肢を大幅に広げる可能性がある。特にプライバシー要件の高い環境でのローカルデプロイにおいて、強力な競合候補となるだろう。
Google DeepMind は、Apache 2.0 ライセンスの下で最大256K トークンの長文脈サポートを備えたオープンウェイト多言語モデルファミリーであるGemma 4を発表しました。これは、主要な機能とライセンス方針の大きな転換点を示すものです。ラインナップには、ローカルおよびエッジ環境での展開に最適化されたネイティブ多言語サポート(テキスト、ビジョン、オーディオ)を備えた31B デンシモデル、26B MoE (A4B) モデル、そしてE4BとE2Bの 2 つのエッジモデルが含まれています。初期ベンチマークでは、Gemma-4-31Bがオープンモデルの中で第 3 位にランクし、85.7% GPQA Diamondという高い科学推論性能を示しています。Day-0 エコシステムサポートにはllama.cpp、Ollama、vLLM、LM Studioが含まれており、M2 UltraやRTX 4090などのハードウェア上で顕著なローカル推論パフォーマンスを発揮します。アーキテクチャは標準的なトランスフォーマーとは異なり、ハイブリッドアテンションと MoE レイヤーリングを採用しています。コミュニティおよび開発者の関与は高く、急速な採用とツールチェーンの統合が進んでいます。
原文を表示
Google DeepMind released Gemma 4, a family of open-weight, multimodal models with long-context support up to 256K tokens under an Apache 2.0 license, marking a major capability and licensing shift. The lineup includes 31B dense, 26B MoE (A4B), and two edge models (E4B, E2B) optimized for local and edge deployment with native multimodal support (text, vision, audio). Early benchmarks show Gemma-4-31B ranking #3 among open models and strong scientific reasoning performance with 85.7% GPQA Diamond. Day-0 ecosystem support includes llama.cpp, Ollama, vLLM, and LM Studio, with notable local inference performance on hardware like M2 Ultra and RTX 4090. The architecture features hybrid attention and MoE layering, diverging from standard transformers. Community and developer engagement is high, with rapid adoption and tooling integration.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み