Ars Technica AI·2026年5月7日 00:44·約2分

Google の Gemma 4 公開 AI モデルが「推測デコーディング」により最大 3 倍高速化

#Gemma #LLM #Speculative Decoding #Open Source #Edge AI

TL;DR

Google は Gemma 4 オープンモデルに対して、推論速度を最大 3 倍に向上させる実験的な「Multi-Token Prediction (MTP)」ドラフターを実装し、ローカル AI の実用性を大幅に高めた。

AI深層分析2026年5月7日 01:03

重要/ 5段階

深度40%

キーポイント

推論速度の劇的向上

Google は Gemma 4 モデル向けに「Multi-Token Prediction (MTP)」ドラフターをリリースし、スペキュラティブ・ディコーディング技術を用いて生成トークンを予測することで、処理速度を最大 3 倍に引き上げることに成功した。

エッジ AI とローカル実行の強化

Gemma は Google の最先端 Gemini 技術に基づきつつ、TPU クラスターや高性能アクセラレーターだけでなく、量子化されたコンシューマー GPU でも動作するように最適化されており、データプライバシーを確保したローカル利用が可能。

ライセンスの大幅な緩和

Google は Gemma 4 のライセンスを以前の独自ライセンスから Apache 2.0 に変更し、開発者や企業がより自由にモデルを改変・商用利用できる環境を整備した。

影響分析・編集コメントを表示

影響分析

このニュースは、大規模言語モデルの推論コストと速度という最大の課題に対する実用的な解決策を示しており、特にローカル実行やエッジデバイスでの AI 活用を現実的なものにする重要な転換点です。Apache 2.0 ライセンスとの相乗効果により、企業や個人開発者が高性能 AI をより自由に組み込む環境が整い、AI エコシステムの民主化が加速すると予想されます。

編集コメント

ローカル AI の性能ボトルネックを解消する技術的突破であり、Apache 2.0 ライセンスとの組み合わせは開発者にとって極めて歓迎すべき朗報です。

Google は今春、Gemma 4 のオープンモデルを発表し、ローカル AI に対して新たなレベルのパワーとパフォーマンスを提供すると約束しました。しかし、Gemma 向けの Multi-Token Prediction (MTP) ドラフターがリリースされたことで、エッジ AI における Google の取り組みはすでにさらに高速化される可能性があります。Google によると、これらの実験的モデルは推測型デコーディングの一種を活用して未来のトークンを予測し、これによりモデルが独自にトークンを生成する従来の方式と比較して、生成速度を向上させることができます。

最新の Gemma モデルは、Google の最先端 Gemini AI を支える同じ基盤技術の上に構築されていますが、ローカルでの実行に合わせて調整されています。Gemini は Google 独自の TPU チップ上で動作するように最適化されており、これらのチップは超高速な相互接続とメモリを備えた巨大なクラスターで稼働しています。1 つの高性能 AI アクセラレーターであれば、最大の Gemma 4 モデルを完全精度で実行できますが、量子化（quantizing）を行うことで、消費者向けの GPU でも動作可能になります。

Gemma を利用すれば、ユーザーは Google や他社からのクラウド AI システムにすべてのデータを共有することなく、自社のハードウェア上で AI の実験や調整を行うことができます。また、Google は Gemma 4 のライセンスを Apache 2.0 に変更しました。これは、以前のリリースで採用されていた独自の Gemma ライセンスと比較して、はるかに寛容なライセンスです。ただし、ローカル AI モデルを実行する際に多くの人が利用しているハードウェアには本質的な制限が存在します。そこで登場するのが MTP です。

記事全文を読む

原文を表示

Google launched its Gemma 4 open models this spring, promising a new level of power and performance for local AI. Google's take on edge AI could be getting even faster already with the release of Multi-Token Prediction (MTP) drafters for Gemma. Google says these experimental models leverage a form of speculative decoding to take a guess at future tokens, which can speed up generation compared to the way models generate tokens on their own.

The latest Gemma models are built on the same underlying technology that powers Google's frontier Gemini AI, but they're tuned to run locally. Gemini is optimized to run on Google's custom TPU chips, which operate in enormous clusters with super-fast interconnects and memory. A single high-power AI accelerator can run the largest Gemma 4 model at full precision, and quantizing will let it run on a consumer GPU.

Gemma allows users to tinker with AI on their hardware rather than sharing all their data with a cloud AI system from Google or someone else. Google also changed the license for Gemma 4 to Apache 2.0, which is much more permissive than the custom Gemma license Google employed for previous releases. However, there are inherent limitations in the hardware most people have to run local AI models. That's where MTP comes in.

Read full article

Comments

この記事をシェア

Latent Space重要度42026年6月25日 11:14

[AINews] メタハーネスの夏が到来

Simon Willison Blog2026年6月25日 08:59

ブラウザ互換性データベースをSQLite化

KDnuggets重要度42026年6月27日 00:00

Apple Silicon で MLX を用いた言語モデルのファインチューニング

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む