AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Ars Technica AI·2026年6月11日 04:29·約2分で読める

Google DeepMind、ローカルAIを4倍高速化する拡散モデル「DiffusionGemma」を公開

#LLM#Diffusion Model#ローカル AI#Google DeepMind#Gemma
TL;DR

Google DeepMind は、従来の自己回帰型とは異なり並列生成を実現する「DiffusionGemma」を発表し、ローカル環境での推論速度を約 4 倍に向上させることに成功した。

AI深層分析2026年6月11日 06:11
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

非自己回帰型のアーキテクチャ採用

DiffusionGemma はテキストを左から右へ順次生成する従来の方式ではなく、画像生成モデルのようにノイズ除去(denoising)プロセスを経てブロック単位で並列にテキストを生成する。

2

ローカルハードウェアでの高速化

RTX 5090 や Nvidia H100 などの環境でテストされ、同規模の自己回帰モデルと比較して推論速度が約 4 倍(700〜1,000 トークン/秒)に達することが確認された。

3

高効率な MoE モデル構成

総パラメータ数は 260 億だが、推論時に活性化されるのは 38 億のみであり、18GB の VRAM を持つハイエンド GPU でも動作可能な設計となっている。

影響分析・編集コメントを表示

影響分析

この発表は、大規模言語モデルがクラウド依存からローカル環境へ移行する際の最大の障壁であった「推論速度」と「リソース要件」の両方を同時に解決する画期的な技術です。特に、画像生成領域で確立された拡散アプローチをテキスト生成に適用した点は、アーキテクチャの多様性を示す重要な転換点であり、エッジ AI や個人開発者向けの高性能ツール市場に大きなインパクトを与えるでしょう。

編集コメント

自己回帰型モデルの支配的な地位に挑戦する拡散型 LLM の実用化は、業界の技術的パラダイムシフトを示唆しています。特にローカル環境での速度向上は、プライバシー重視やコスト削減を求める現場にとって待望の進展と言えるでしょう。

また一日、Google から新たな AI モデルが登場しました。今回は Google DeepMind が Gemma 4 オープンモデルファミリーの新しいメンバーをリリースしましたが、これは他のラインナップとは根本的に異なります。DiffusionGemma は、ほとんどの AI モデルのように出力を逐次的に生成するのではなく、テキストのブロック全体を並列で生成することができます。Google によれば、Nvidia DGX や一般的なゲーミング GPU といったローカルハードウェア上で実行する際、これにより高速化と効率化が実現されます。

ほとんどの AI モデルは自己回帰型(autoregressive)として設計されており、左から右へ一トークンずつテキストを生成します。一方、DiffusionGemma は画像生成モデルに近く、最初は静的な状態から始めてノイズを除去し、目的のコンテンツを作成するアプローチを採用しています。このモデルはキャンバス上で複数の回数をかけてプレースホルダートークンのフィールドを走らせ、確率の高いトークンを生成して他のトークンの推定値を改善します。プロセスの最終段階で、モデルは一括してトークン出力を確定させます——これが「ノイズ除去された」テキストキャンバスです。

DiffusionGemma は Google のオープンモデルの領域においてかなり大規模なモデルです。これは Mixture of Experts (MoE) モデルであり、パラメータ総数は 260 億ですが、推論時に活性化されるのは 38 億のみです。つまり、ハイエンド GPU の 18GB RAM アロケーションに収まるはずです。RTX 5090 でテストしたところ、DiffusionGemma は秒間約 700 トークンを生成します。単一の Nvidia H100 AI アクセラレーターを使用すれば、秒間 1,000 トークン以上を生成可能です。これは同サイズの自己回帰型 Gemma モデルの出力のおよそ 4 倍に相当します。

記事全文を読む

コメント

原文を表示

Another day, another AI model from Google. This time, Google DeepMind has released a new member of the Gemma 4 open model family, but it's fundamentally different from the rest of the lineup. DiffusionGemma doesn't generate outputs linearly like most AI models. Instead, it can produce an entire block of text in parallel. Google says this makes it faster and more efficient when running on local hardware like an Nvidia DGX or a humble gaming GPU.

Most AI models are designed to be autoregressive—they generate text left to right one token at a time. DiffusionGemma has more in common with image generation models, which start with static and then denoise it to create the desired content. This model takes a field of placeholder tokens running over the canvas multiple times to generate likely tokens and using those to improve estimation of others. At the end of the process, the model finalizes its token outputs in one large block—the "denoised" text canvas.

DiffusionGemma is fairly large in the realm of Google's open models. It's a Mixture of Experts (MoE) model with a total of 26 billion parameters, but only 3.8 billion are activated during inference. That means it should fit in the 18GB RAM allotment of a high-end GPU. In testing with an RTX 5090, DiffusionGemma spits out around 700 tokens per second. With a single Nvidia H100 AI accelerator, DiffusionGemma can produce 1,000+ tokens per second. That's about four times the output of the similarly sized autoregressive Gemma models.

Read full article

Comments

この記事をシェア

関連記事

MarkTechPost★42026年6月11日 03:50

Google AI、テキスト拡散を用いた26B MoEオープンモデル「DiffusionGemma」を公開

Google DeepMindチームは、標準的な自己回帰型ではなくテキスト拡散方式を採用した実験的オープンモデル「DiffusionGemma」をApache 2.0ライセンスで公開し、開発者や研究者向けに高速な生成ワークフローを提供する。

Google DeepMind★42026年6月11日 01:24

DiffusionGemma:テキスト生成が4倍高速化

Google DeepMind は、新しい手法「DiffusionGemma」を発表し、テキスト生成の速度を従来の4倍に向上させることに成功しました。

Simon Willison Blog★42026年6月11日 05:00

DiffusionGemma:Google の高速テキスト生成モデルが再登場

Google は昨年実験的に公開した Gemini Diffusion モデルの研究を再開し、DiffusionGemma として再発表しました。このモデルは以前 1 秒間に 857 トークンの生成速度を記録しており、テキスト生成の高速化に寄与する技術です。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む