DiffusionGemma:テキスト生成が4倍高速化
Google DeepMind は、テキスト生成を従来の 4 倍高速化する「DiffusionGemma」という実験的オープンモデルを発表し、ローカル環境での対話型ワークフローの実現可能性を示した。
キーポイント
推論速度の劇的な向上
専用 GPU において従来の手法と比較して最大 4 倍の高速な推論を実現し、遅延が課題だったリアルタイム処理を可能にする。
拡散モデルによる生成アプローチ
従来の自己回帰(autoregressive)方式とは異なる「Diffusion」技術をテキスト生成に応用することで、並列処理による速度向上を実現している。
ローカルワークフローへの展開
クラウド依存を減らし、プライバシーやコストの観点から重要度の高いローカル環境での高速対話型アプリケーション開発の道を開く。
DiffusionGemma の概要
テキスト拡散アプローチを採用した実験的オープンモデルで、従来の自己回帰型LLMの逐次処理ではなく、テキストブロックを同時に生成します。
性能とアーキテクチャ
26BパラメータのMoE(Mixture of Experts)モデルであり、GPU上では最大4倍の高速なテキスト生成を実現しています。
高速な推論性能
DiffusionGemma はデコードのボトルネックをメモリ帯域幅から計算処理へシフトさせることで、専用 GPU で最大 4 倍のトークン生成速度を実現します。
特定のユースケースへの最適化
このモデルはリアルタイムな対話型ローカルワークフロー(インライン編集や非線形テキスト構造の生成など)を探索する研究者や開発者向けに設計されています。
影響分析・編集コメントを表示
影響分析
本発表は、LLM の推論速度というボトルネックを解消する新たな技術的アプローチ(Diffusion)を実証した点で業界に大きな影響を与える。特に「オープン」かつ「実験的」として公開されることで、開発者コミュニティがローカル環境での高速 AI アプリケーションを迅速に実装・検証できる土壌を整える。これにより、クラウド依存の解消やエッジコンピューティングにおける AI の普及加速が期待される。
編集コメント
従来の自己回帰方式に代わる拡散モデルのテキスト生成への応用は、推論速度の壁を破る画期的な試みです。特に「オープン」かつ「実験的」として公開されることで、ローカル環境での高速 AI アプリケーション開発が加速する可能性があります。
2026 年 6 月 10 日
約 6 分間の読了時間
当社の最新オープン実験モデルは、専用 GPU において最大 4 倍の高速推論を実現し、速度が重要な対話型ローカルワークフローの探索への扉を開きます。
B
ブレンダン・オドノヒュー
研究科学者
S
セバスチャン・フレンナーハグ
研究科学者

お使いのブラウザは音声再生要素をサポートしていません。
記事の聴読
このコンテンツは Google AI によって生成されています。生成 AI は実験的な技術です。
[[duration]] 分
本日、テキスト拡散という極めて高速なテキスト生成アプローチを探求する実験的オープンモデル「DiffusionGemma」をご紹介いたします。Apache 2.0 ライセンスの下でリリースされるこの 26B Mixture of Experts (MoE) モデルは、一般的な自己回帰型大規模言語モデル(LLM)が持つ逐次的なトークンごとの処理の枠を超え、GPU 上では最大 4 倍の高速なテキスト生成を実現するために、テキストブロック全体を同時に生成するアプローチを採用しています。
業界をリードするパラメータあたりの知能性能を持つ当社の「Gemma 4」ファミリーと最先端の Gemini Diffusion research に基づいて構築された DiffusionGemma は、生成速度を最大化するために設計された新規の拡散ヘッド(diffusion head)を統合しています。高品質な生産向け出力においては自己回帰型の Gemma 4 モデルが依然として標準ですが、DiffusionGemma は、インライン編集、迅速な反復、非線形テキスト構造の生成など、速度が重要な対話型ローカルワークフローを探求する研究者や開発者向けに設計されています。
開発者にとって新たな価値を開く
リアルタイムで対話的な AI アプリケーションを構築する開発者は、ローカル推論におけるレイテンシ(遅延)のボトルネックに直面することが多くあります。DiffusionGemma はこれらの課題に直接取り組む一方で、いくつかの重要なトレードオフも伴います:
- ブレイジング・ファスト推論:DiffusionGemma は、デコードのボトルネックをメモリ帯域幅から計算処理へシフトすることで、専用 GPU 上で最大 4 倍高速なトークン出力を実現します(単一の NVIDIA H100 で 1 秒あたり 1000 トークン以上、NVIDIA GeForce RTX 5090 で 700 トークン以上)。
1
- アクセシブルなハードウェアフットプリント:DiffusionGemma は、推論時に 38 億パラメータのみを活性化させる総パラメータ数 260 億の Mixture of Experts (MoE) モデルとして動作し、量子化すればハイエンドの専用コンシューマー GPU の 18GB VRAM リミット内に収まります。
- 双方向アテンション:各フォワードパスで 256 トークンを並列生成することで、すべてのトークンが他のすべてのトークンにアテンションを向けられます。これにより、インライン編集、コードの埋め込み、アミノ酸配列、数学的グラフといった非線形ドメインにおいて大きな利点を提供します。
- インテリジェントな自己修正:モデルは自身の出力を反復的に精緻化し、一度に全文ブロックを評価してリアルタイムでミスを修正できます。
- 実験段階とプロダクション推奨事項:DiffusionGemma は速度と並列レイアウト生成を優先するため、標準的な Gemma 4 に比べて全体的な出力品質は低くなります。最大限の品質が求められる用途には、標準的な Gemma 4 のデプロイをお勧めします。
DiffusionGemma の特定タスクにおけるパフォーマンスは、ファインチューニングを通じて向上させることができます。以下の例では、Unsloth が DiffusionGemma をファインチューニングして数独をプレイできるようにしました。これは自己回帰モデルが苦手とするタスクです。なぜなら、各トークンが未来のトークンに依存するためです。一方、DiffusionGemma の双方向アテンションにより、この課題ははるかに容易になります。
ファインチューニングされた DiffusionGemma による数独の解決例。
なぜテキスト生成に拡散モデルなのか?
AI 研究コミュニティでは長年にわたり、拡散ベースのテキスト生成が探索されてきましたが、大規模モデルへの適用は依然として課題でした。DiffusionGemma は、モデルがハードウェアを利用する方法を転換することで、この状況を打破します。
従来のモデルとのトレードオフ
ほとんどの言語モデルはタイプライターのように動作し、左から右へ一度に一つのトークンを生成します。クラウド環境では、サーバーが数千のユーザーリクエストをバッチ処理してハードウェア負荷を共有できるため、これは効率的です。しかし、単一のユーザー向けにローカルで実行する場合、この単語ごとのプロセスにより、専用の GPU や TPU が十分に活用されません。つまり、次の「キー入力」を待つために時間の大部分が浪費されてしまうのです。
DiffusionGemma はこの非効率性を逆転させます。単語を順次予測するのではなく、256 トークンの段落全体を同時に下書きします。コンピュータのプロセッサに一度により大きな作業塊を与えることで、DiffusionGemma はハードウェアの潜在能力を最大限に活用します。これは、モデル推論を単一の逐次的なタイプライターから、テキストブロック全体を同時に捺印する大規模な印刷機へとアップグレードするものです。
Hugging Face による DiffusionGemma テキストから 3D SVG デモ。ステップごとの生成。
この意味は、DiffusionGemma の高速化がローカル環境および低同時実行推論のために設計されていることを示しています。高 QPS(1 秒間のクエリ数)のクラウドサービスでは、自己回帰モデルをデプロイして計算資源を効率的に飽和させることができるため、DiffusionGemma の並列デコーディングは漸減するリターンしかもたらしえず、むしろサービスコストが高くなる可能性があります。スループットの優位性は、単一のアクセラレータ上で低〜中程度のバッチサイズにおいて最も顕著です。
テキスト拡散の仕組み
画像生成 AI が 視覚的なノイズから始め、それを反復的に精緻化して明確な画像へと仕上げる のと同様に、DiffusionGemma もこれをテキストに適用します:
- キャンバス:モデルはランダムなプレースホルダートークンで構成されたキャンバスから開始します。
- 反復的精密化:モデルは複数のパスを実行し、正しいトークンを確定させ、それらを文脈の手がかりとして残りの部分を精緻化します。
- 最終的な仕上げ:テキストは高品質な出力へと収束します。
モデルは生成中に段落全体を処理できるため、複雑なマークダウンフォーマットを完璧に閉じたり、コードをほぼリアルタイムで生成・レンダリングしたりするといった、新たなモデルの動作パターンが可能になります。
Get started today
- Download the weights: Access the experimental model weights (released under a permissive Apache 2.0 license) right now on Hugging Face.
- Integrate & learn: Learn more in our DiffusionGemma developer guide. Or deep dive into A Visual Guide to DiffusionGemma to understand the mechanics under the hood.
- Use your favorite development tools: Serve the model efficiently using MLX, vLLM (with integration supported by Red Hat), and Hugging Face Transformers. For rapid experimentation, we are releasing a fine-tuning tutorial using Hackable Diffusion, a modular JAX toolbox designed for composability. You can also explore fine-tuning with Unsloth and NVIDIA NeMo. Additionally, official support for llama.cpp is arriving soon.
- Experience optimized performance: We worked with NVIDIA to optimize across their hardware stack, ensuring compatibility with consumer setups (quantized for GeForce RTX 5090 and 4090 GPUs) alongside high performance on enterprise systems (Hopper and Blackwell using advanced NVFP4 kernels), including NVIDIA DGX Spark and DGX Station for local deskside deployment, and RTX PRO for AI professionals. Native support for NVFP4 (4-bit floating-point) accelerates compute throughput, allowing the model to run at faster speeds with near-lossless accuracy.
- Try your way: Run on your desktop dedicated GPU or in the cloud through Gemini Enterprise Agent Platform Model Garden or NVIDIA NIM.
原文を表示
Jun 10, 2026
6 min read
Our newest open experimental model delivers up to 4x faster inference on dedicated GPUs and opens the door to exploring speed-critical, interactive local workflows.
B
Brendan O'Donoghue
Research Scientist
S
Sebastian Flennerhag
Research Scientist

Your browser does not support the audio element.
Listen to article
This content is generated by Google AI. Generative AI is experimental
[[duration]] minutes
Today, we’re introducing DiffusionGemma, an experimental open model that explores text diffusion, an exceptionally fast approach to text generation. Released under an Apache 2.0 license, this 26B Mixture of Experts (MoE) model moves beyond the sequential token-by-token processing of typical autoregressive Large Language Models (LLMs). Instead, it generates entire blocks of text simultaneously, delivering up to 4x faster text generation on GPUs.
Built upon the industry-leading intelligence-per-parameter of our Gemma 4 family and cutting-edge Gemini Diffusion research, DiffusionGemma integrates a novel diffusion head designed to maximize generation speed. While autoregressive Gemma 4 models remain the standard for high-quality production outputs, DiffusionGemma is designed for researchers and developers exploring speed-critical, interactive local workflows such as in-line editing, rapid iteration, and generating non-linear text structures.
Unlocking new value for developers
Developers building real-time interactive AI applications often struggle with the latency bottlenecks of local inference. DiffusionGemma addresses these challenges directly, with some key trade-offs:
- Blazing fast inference: By shifting the decode bottleneck from memory-bandwidth to compute, DiffusionGemma generates up to 4x faster token output on dedicated GPUs. (1000+ tokens per second on a single NVIDIA H100, 700+ tokens per second on NVIDIA GeForce RTX 5090).
1
- Accessible hardware footprint: Operating as a 26B total Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, DiffusionGemma fits comfortably within 18GB VRAM limits of high-end dedicated consumer GPUs when quantized.
- Bi-directional attention: Generating 256 tokens in parallel with each forward pass allows every token to attend to all others. This provides significant advantages for non-linear domains such as in-line editing, code infilling, amino acid sequences or mathematical graphs.
- Intelligent self-correction: The model iteratively refines its own output, allowing it to evaluate the entire text block at once to fix mistakes in real-time.
- Experimental status & production recommendations: Because it prioritizes speed and parallel layout generation, DiffusionGemma’s overall output quality is lower than standard Gemma 4. For applications that demand maximum quality, we recommend deploying standard Gemma 4.
You can improve DiffusionGemma's performance on specific tasks through fine-tuning. In the example below, Unsloth fine-tuned DiffusionGemma to play Sudoku — a task autoregressive models struggle with because each token depends on future tokens. DiffusionGemma's bi-directional attention makes this much easier.
Fine-tuned DiffusionGemma solving Sudoku.
Why diffusion for text?
While the AI research community has explored diffusion-based text generation for years, applying it to large models has remained a challenge. DiffusionGemma changes this by shifting how models use hardware.
The trade-off with traditional models
Most language models act like a typewriter, generating one token at a time from left to right. In the cloud, this is efficient because servers can batch thousands of user requests together to share the hardware load. But when run locally for a single user, this word-by-word process leaves your dedicated GPU or TPU underutilized — it spends most of its time simply waiting for the next "keystroke."
DiffusionGemma reverses this inefficiency. Instead of predicting words sequentially, it drafts an entire 256-token paragraph simultaneously. By giving the computer's processor a larger chunk of work at once, DiffusionGemma utilizes your hardware to its full potential. It upgrades your model inference from a single, sequential typewriter to a massive printing press that stamps the entire block of text simultaneously.
DiffusionGemma text-to-3D SVG demo by Hugging Face. Step-by-step generation.
This means DiffusionGemma's speedup is designed for local and low-concurrency inference. In high-QPS cloud serving, autoregressive models can be deployed to saturate compute efficiently, so DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs. The throughput advantage is strongest at low-to-medium batch sizes on a single accelerator.
How text diffusion works
Similar to AI image generators that start with visual static and iteratively refine it into a clear picture, DiffusionGemma applies this to text:
- The canvas: The model starts with a canvas of random placeholder tokens.
- Iterative refinement: The model makes multiple passes, locking in correct tokens and using them as context clues to refine the rest.
- Final polish: The text converges into high-quality output.
Because the model can process the whole paragraph while generating, it unlocks new patterns of model behavior, like perfectly closing complex markdown formatting or generating and rendering code in near real-time.
Get started today
- Download the weights: Access the experimental model weights (released under a permissive Apache 2.0 license) right now on Hugging Face.
- Integrate & learn: Learn more in our DiffusionGemma developer guide. Or deep dive into A Visual Guide to DiffusionGemma to understand the mechanics under the hood.
- Use your favorite development tools: Serve the model efficiently using MLX, vLLM (with integration supported by Red Hat), and Hugging Face Transformers. For rapid experimentation, we are releasing a fine-tuning tutorial using Hackable Diffusion, a modular JAX toolbox designed for composability. You can also explore fine-tuning with Unsloth and NVIDIA NeMo. Additionally, official support for llama.cpp is arriving soon.
- Experience optimized performance: We worked with NVIDIA to optimize across their hardware stack, ensuring compatibility with consumer setups (quantized for GeForce RTX 5090 and 4090 GPUs) alongside high performance on enterprise systems (Hopper and Blackwell using advanced NVFP4 kernels), including NVIDIA DGX Spark and DGX Station for local deskside deployment, and RTX PRO for AI professionals. Native support for NVFP4 (4-bit floating-point) accelerates compute throughput, allowing the model to run at faster speeds with near-lossless accuracy.
- Try your way: Run on your desktop dedicated GPU or in the cloud through Gemini Enterprise Agent Platform Model Garden or NVIDIA NIM.
関連記事
DiffusionGemma:Google の高速テキスト生成モデルが再登場
Google は昨年実験的に公開した Gemini Diffusion モデルの研究を再開し、DiffusionGemma として再発表しました。このモデルは以前 1 秒間に 857 トークンの生成速度を記録しており、テキスト生成の高速化に寄与する技術です。
Google DeepMind、ローカルAIを4倍高速化する拡散モデル「DiffusionGemma」を公開
Google DeepMindは、従来の逐次生成ではなくテキストブロックを並列生成する新モデル「DiffusionGemma」を発表し、Nvidia DGXやゲーミングGPUなどのローカル環境で処理速度を4倍に向上させたと発表した。
Cohere が開発者向けコード生成モデル「North Mini Code」を発表:30B パラメータの MoE アーキテクチャで 3B アクティブ
Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家(MoE)アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み