Google DeepMind releases DiffusionGemma, a model that runs local AI 4x faster｜Google DeepMind、ローカルAIを4倍高速化する拡散モデル「DiffusionGemma」を公開 | AIニュース最前線

また一日、Google から新たな AI モデルが登場しました。今回は Google DeepMind が Gemma 4 オープンモデルファミリーの新しいメンバーをリリースしましたが、これは他のラインナップとは根本的に異なります。DiffusionGemma は、ほとんどの AI モデルのように出力を逐次的に生成するのではなく、テキストのブロック全体を並列で生成することができます。Google によれば、Nvidia DGX や一般的なゲーミング GPU といったローカルハードウェア上で実行する際、これにより高速化と効率化が実現されます。 ほとんどの AI モデルは自己回帰型（autoregressive）として設計されており、左から右へ一トークンずつテキストを生成します。一方、DiffusionGemma は画像生成モデルに近く、最初は静的な状態から始めてノイズを除去し、目的のコンテンツを作成するアプローチを採用しています。このモデルはキャンバス上で複数の回数をかけてプレースホルダートークンのフィールドを走らせ、確率の高いトークンを生成して他のトークンの推定値を改善します。プロセスの最終段階で、モデルは一括してトークン出力を確定させます——これが「ノイズ除去された」テキストキャンバスです。 DiffusionGemma は Google のオープンモデルの領域においてかなり大規模なモデルです。これは Mixture of Experts (MoE) モデルであり、パラメータ総数は 260 億ですが、推論時に活性化されるのは 38 億のみです。つまり、ハイエンド GPU の 18GB RAM アロケーションに収まるはずです。RTX 5090 でテストしたところ、DiffusionGemma は秒間約 700 トークンを生成します。単一の Nvidia H100 AI アクセラレーターを使用すれば、秒間 1,000 トークン以上を生成可能です。これは同サイズの自己回帰型 Gemma モデルの出力のおよそ 4 倍に相当します。 記事全文を読む コメント

Google DeepMind、ローカルAIを4倍高速化する拡散モデル「DiffusionGemma」を公開

背景や根拠まで確認しますか？

関連記事