DiffusionGemma:テキスト生成が4倍高速化(5分読了)
Google が公開した実験的オープンモデル「DiffusionGemma」は、従来の自己回帰型処理に代わりテキスト拡散アプローチを採用し、専用 GPU 上で最大 4 倍の高速な推論を実現する。
キーポイント
非自己回帰型のテキスト生成アーキテクチャ
DiffusionGemma は従来のトークン逐次処理(autoregressive)ではなく、テキスト拡散(text diffusion)技術を用いて複数のトークンを同時に生成する。
推論速度の劇的な向上
専用 GPU 環境において最大 4 倍の高速化を達成し、対話型ローカルワークフローなど速度がクリティカルな用途への適用が可能になった。
大規模 MoE モデルとしての構成
260 億パラメータ(26B)の Mixture of Experts (MoE) アーキテクチャを採用し、Apache 2.0 ライセンスで実験的オープンモデルとして公開された。
生成速度の劇的向上
DiffusionGemma はデコードボトルネックをメモリ帯域から計算処理へシフトさせることで、専用 GPU で最大 4 倍(NVIDIA H100 で秒間 1000 トークン以上)の高速なトークン生成を実現します。
リアルタイム・インタラクティブ用途への最適化
このモデルは、インライン編集や迅速な反復、非線形テキスト構造の生成など、速度が重要なローカルワークフローを探索する研究者や開発者向けに設計されています。
Gemma 4 と Diffusion 技術の統合
業界最高クラスの知能を持つ Gemma 4 ファミリーと最先端の Gemini Diffusion 研究に基づき、生成速度を最大化する独自の拡散ヘッドを搭載しています。
アクセシブルなハードウェア要件
推論時に38億パラメータのみを活性化させる260億総パラメータのMoEモデルであり、量子化すれば高価なコンシューマー向けGPU(18GB VRAM)で動作可能。
影響分析・編集コメントを表示
影響分析
この記事は、LLM の主流である自己回帰方式に対する強力な代替案(拡散モデル)の実用化を示唆しており、推論速度の壁を突破する技術的転換点となり得ます。特にローカル環境やエッジデバイスでの高速処理ニーズに応えることで、AI アプリケーションの開発パラダイムに新たな選択肢をもたらす可能性があります。
編集コメント
従来の LLM のボトルネックである逐次生成の限界を打破する画期的なアプローチであり、今後のローカル AI やリアルタイム応用分野における技術動向を注視する必要があります。
2026 年 6 月 10 日
6 分間の読了時間
最新のオープン実験モデルは、専用 GPU において最大 4 倍の高速推論を実現し、速度が重要な対話型ローカルワークフローの探索への扉を開きます。
B
ブレンダン・オドノヒュー
研究科学者
S
セバスチャン・フレンナーハグ
研究科学者

本日、テキスト拡散(text diffusion)という極めて高速なテキスト生成アプローチを探求する実験的オープンモデル「DiffusionGemma」を発表します。Apache 2.0 ライセンスの下でリリースされるこの 26B のエキスパート混合(Mixture of Experts: MoE)モデルは、一般的な自己回帰型大規模言語モデル(LLMs)が持つ逐次的なトークンごとの処理を超えたものです。代わりに、テキストのブロック全体を同時に生成することで、GPU 上において最大 4 倍の高速なテキスト生成を実現します。
業界をリードするパラメータあたりの知能を持つGemma 4ファミリーと、最先端のGemini Diffusion研究に基づいて構築されたDiffusionGemmaは、生成速度を最大化するために設計された新規な拡散ヘッド(diffusion head)を統合しています。 autoregressive(自己回帰型)のGemma 4モデルが高品質な生産出力の標準であり続ける一方で、DiffusionGemmaは、インライン編集、迅速な反復、非線形テキスト構造の生成など、速度が重要な対話型ローカルワークフローを探求する研究者や開発者向けに設計されています。
開発者にとって新たな価値を開く
リアルタイムで対話的なAIアプリケーションを構築する開発者は、しばしばローカル推論におけるレイテンシ(遅延)のボトルネックに直面します。DiffusionGemmaはこれらの課題に直接取り組む一方で、いくつかの重要なトレードオフがあります:
- 驚異的な高速推論:デコード(復号化)のボトルネックをメモリ帯域幅から計算処理へ移行することで、DiffusionGemmaは専用GPU上で最大4倍速いトークン出力を生成します。(単一のNVIDIA H100で1秒あたり1000トークン以上、NVIDIA GeForce RTX 5090で700トークン以上)
- アクセシブルなハードウェアフットプリント:推論時に38億パラメータのみを活性化させる260億総パラメータのMixture of Experts (MoE) モデルとして動作するため、DiffusionGemma は量子化された場合でも、ハイエンドの専用コンシューマー GPU の 18GB VRAM リミット内に収まるように設計されています。
- 双方向アテンション:各フォワードパスで256トークンを並列生成することで、すべてのトークンが他のすべてのトークンにアテンションを向けることが可能になります。これにより、インライン編集、コードの埋め込み、アミノ酸配列、数学的グラフといった非線形ドメインにおいて大きな利点を提供します。
- インテリジェントな自己修正:モデルは自身の出力を反復的に精緻化し、一度にテキストブロック全体を評価してリアルタイムでミスを修正することができます。
- 実験段階とプロダクションへの推奨事項:速度と並列レイアウト生成を優先しているため、DiffusionGemma の全体的な出力品質は標準的な Gemma 4 よりも低くなります。最大限の品質が求められるアプリケーションには、標準的な Gemma 4 のデプロイを推奨します。
DiffusionGemma の特定タスクにおけるパフォーマンスは、ファインチューニングを通じて向上させることができます。以下の例では、Unsloth が DiffusionGemma をファインチューニングして数独 (Sudoku) をプレイできるようにしました。これは各トークンが未来のトークンに依存するため、自己回帰モデルが苦手とするタスクです。DiffusionGemma の双方向アテンションにより、このタスクははるかに容易になります。
ファインチューニングされた DiffusionGemma による数独 (Sudoku) 解決例。
なぜテキストに拡散モデルを使うのか
AI 研究コミュニティは長年にわたり、拡散ベースのテキスト生成を探索してきましたが、大規模モデルへの適用は依然として課題でした。DiffusionGemma は、モデルがハードウェアを利用する方法を変えることで、この状況を打破します。
従来のモデルとのトレードオフ
ほとんどの言語モデルはタイプライターのように動作し、左から右へ一語ずつトークンを生成します。クラウド環境では、サーバーが数千のユーザーリクエストをバッチ処理してハードウェア負荷を共有できるため、このアプローチは効率的です。しかし、単一のユーザー向けにローカルで実行する場合、この単語ごとのプロセスにより、専用 GPU や TPU が十分に活用されません。つまり、次の「キー入力」を待つために時間の大部分が浪費されてしまうのです。
DiffusionGemma はこの非効率性を逆転させます。単語を逐次的に予測するのではなく、256 トークン分の段落全体を同時にドラフトします。コンピュータのプロセッサに一度により大きな作業塊を与えることで、DiffusionGemma はハードウェアの潜在能力を最大限に引き出します。これは、モデル推論を単一の逐次タイプライターから、テキストブロック全体を同時に押印する大規模な印刷機へとアップグレードするものです。
Hugging Face による DiffusionGemma テキストから 3D への SVG デモ。段階的な生成プロセス。
これは、DiffusionGemma の高速化がローカル環境および低同時実行推論を想定して設計されていることを意味します。高 QPS(1 秒間のクエリ数)のクラウドサービスにおいては、自己回帰モデルを展開して計算資源を効率的に飽和させることができるため、DiffusionGemma の並列デコーディングは漸減するリターンしかもたらず、むしろサービスコストが高くなる可能性があります。スループットにおける優位性は、単一のアクセラレータ上で低〜中程度のバッチサイズにおいて最も顕著です。
テキスト拡散の仕組み
画像生成 AI が 視覚的なノイズから始め、それを反復的に精緻化して明確な画像へと仕上げる のと同様に、DiffusionGemma はこのアプローチをテキストに応用しています。
- キャンバス:モデルはランダムなプレースホルダートークンで構成されたキャンバスから開始します。
- 反復的精密化:モデルは複数のパスを実行し、正しいトークンを確定させ、それらを文脈の手がかりとして残りの部分を精緻化します。
- 最終的な仕上げ:テキストは高品質な出力へと収束していきます。
モデルが生成中に段落全体を処理できるため、複雑なマークダウンフォーマットを完璧に閉じたり、コードをほぼリアルタイムで生成・レンダリングしたりするといった、新たなモデル挙動のパターンが可能になります。
今日から始めよう
- ウェイトをダウンロード:実験用モデルのウェイト(寛容な Apache 2.0 ライセンスの下で公開されています)を、今すぐ Hugging Face で入手できます。
- 統合して学ぶ:DiffusionGemma の開発者ガイドで詳しく学ぶか、あるいは「DiffusionGemma への視覚的ガイド」を深く読み込み、内部のメカニズムを理解してください。
- お気に入りの開発ツールを使用する:MLX、vLLM(Red Hat がサポートする統合機能付き)、Hugging Face Transformers を使用してモデルを効率的に提供します。迅速な実験のために、合成性を目的として設計されたモジュラー JAX ツールボックスである Hackable Diffusion を用いたファインチューニングチュートリアルを公開しています。Unsloth や NVIDIA NeMo を用いたファインチューニングも探索できます。また、llama.cpp に対する公式サポートもまもなく提供開始されます。
- 最適化されたパフォーマンスを体験:NVIDIA と協力して、そのハードウェアスタック全体で最適化を行い、コンシューマー向けセットアップ(GeForce RTX 5090 および 4090 GPU 向けに量子化済み)との互換性を確保するとともに、エンタープライズシステム(Hopper および Blackwell を用いた高度な NVFP4 カーネルによるもの)でも高性能を発揮します。これには、ローカルのデスクサイド展開用の NVIDIA DGX Spark や DGX Station、AI プロフェッショナル向けの RTX PRO も含まれます。NVFP4(4 ビット浮動小数点)のネイティブサポートにより計算スループットが加速され、モデルはほぼ損失のない精度でより高速に実行できます。
- 自分に合った方法で試す:専用 GPU を備えたデスクトップ上で実行するか、Gemini Enterprise Agent Platform Model Garden または NVIDIA NIM を通じてクラウド上で実行してください。
原文を表示
Jun 10, 2026
6 min read
Our newest open experimental model delivers up to 4x faster inference on dedicated GPUs and opens the door to exploring speed-critical, interactive local workflows.
B
Brendan O'Donoghue
Research Scientist
S
Sebastian Flennerhag
Research Scientist

Today, we’re introducing DiffusionGemma, an experimental open model that explores text diffusion, an exceptionally fast approach to text generation. Released under an Apache 2.0 license, this 26B Mixture of Experts (MoE) model moves beyond the sequential token-by-token processing of typical autoregressive Large Language Models (LLMs). Instead, it generates entire blocks of text simultaneously, delivering up to 4x faster text generation on GPUs.
Built upon the industry-leading intelligence-per-parameter of our Gemma 4 family and cutting-edge Gemini Diffusion research, DiffusionGemma integrates a novel diffusion head designed to maximize generation speed. While autoregressive Gemma 4 models remain the standard for high-quality production outputs, DiffusionGemma is designed for researchers and developers exploring speed-critical, interactive local workflows such as in-line editing, rapid iteration, and generating non-linear text structures.
Unlocking new value for developers
Developers building real-time interactive AI applications often struggle with the latency bottlenecks of local inference. DiffusionGemma addresses these challenges directly, with some key trade-offs:
- Blazing fast inference: By shifting the decode bottleneck from memory-bandwidth to compute, DiffusionGemma generates up to 4x faster token output on dedicated GPUs. (1000+ tokens per second on a single NVIDIA H100, 700+ tokens per second on NVIDIA GeForce RTX 5090).
1
- Accessible hardware footprint: Operating as a 26B total Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, DiffusionGemma fits comfortably within 18GB VRAM limits of high-end dedicated consumer GPUs when quantized.
- Bi-directional attention: Generating 256 tokens in parallel with each forward pass allows every token to attend to all others. This provides significant advantages for non-linear domains such as in-line editing, code infilling, amino acid sequences or mathematical graphs.
- Intelligent self-correction: The model iteratively refines its own output, allowing it to evaluate the entire text block at once to fix mistakes in real-time.
- Experimental status & production recommendations: Because it prioritizes speed and parallel layout generation, DiffusionGemma’s overall output quality is lower than standard Gemma 4. For applications that demand maximum quality, we recommend deploying standard Gemma 4.
You can improve DiffusionGemma's performance on specific tasks through fine-tuning. In the example below, Unsloth fine-tuned DiffusionGemma to play Sudoku — a task autoregressive models struggle with because each token depends on future tokens. DiffusionGemma's bi-directional attention makes this much easier.
Fine-tuned DiffusionGemma solving Sudoku.
Why diffusion for text?
While the AI research community has explored diffusion-based text generation for years, applying it to large models has remained a challenge. DiffusionGemma changes this by shifting how models use hardware.
The trade-off with traditional models
Most language models act like a typewriter, generating one token at a time from left to right. In the cloud, this is efficient because servers can batch thousands of user requests together to share the hardware load. But when run locally for a single user, this word-by-word process leaves your dedicated GPU or TPU underutilized — it spends most of its time simply waiting for the next "keystroke."
DiffusionGemma reverses this inefficiency. Instead of predicting words sequentially, it drafts an entire 256-token paragraph simultaneously. By giving the computer's processor a larger chunk of work at once, DiffusionGemma utilizes your hardware to its full potential. It upgrades your model inference from a single, sequential typewriter to a massive printing press that stamps the entire block of text simultaneously.
DiffusionGemma text-to-3D SVG demo by Hugging Face. Step-by-step generation.
This means DiffusionGemma's speedup is designed for local and low-concurrency inference. In high-QPS cloud serving, autoregressive models can be deployed to saturate compute efficiently, so DiffusionGemma's parallel decoding offers diminishing returns and can result in higher serving costs. The throughput advantage is strongest at low-to-medium batch sizes on a single accelerator.
How text diffusion works
Similar to AI image generators that start with visual static and iteratively refine it into a clear picture, DiffusionGemma applies this to text:
- The canvas: The model starts with a canvas of random placeholder tokens.
- Iterative refinement: The model makes multiple passes, locking in correct tokens and using them as context clues to refine the rest.
- Final polish: The text converges into high-quality output.
Because the model can process the whole paragraph while generating, it unlocks new patterns of model behavior, like perfectly closing complex markdown formatting or generating and rendering code in near real-time.
Get started today
- Download the weights: Access the experimental model weights (released under a permissive Apache 2.0 license) right now on Hugging Face.
- Integrate & learn: Learn more in our DiffusionGemma developer guide. Or deep dive into A Visual Guide to DiffusionGemma to understand the mechanics under the hood.
- Use your favorite development tools: Serve the model efficiently using MLX, vLLM (with integration supported by Red Hat), and Hugging Face Transformers. For rapid experimentation, we are releasing a fine-tuning tutorial using Hackable Diffusion, a modular JAX toolbox designed for composability. You can also explore fine-tuning with Unsloth and NVIDIA NeMo. Additionally, official support for llama.cpp is arriving soon.
- Experience optimized performance: We worked with NVIDIA to optimize across their hardware stack, ensuring compatibility with consumer setups (quantized for GeForce RTX 5090 and 4090 GPUs) alongside high performance on enterprise systems (Hopper and Blackwell using advanced NVFP4 kernels), including NVIDIA DGX Spark and DGX Station for local deskside deployment, and RTX PRO for AI professionals. Native support for NVFP4 (4-bit floating-point) accelerates compute throughput, allowing the model to run at faster speeds with near-lossless accuracy.
- Try your way: Run on your desktop dedicated GPU or in the cloud through Gemini Enterprise Agent Platform Model Garden or NVIDIA NIM.
関連記事
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
社内データ分析エージェントの構築方法について
GitHub は、大規模なデータ組織が直面する自己完結型のデータアクセスと洞察提供の課題に対し、AI を活用した信頼性の高い解決策として、社内でデータ分析エージェントを構築したことを発表した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み