DiffusionGemma: 4x faster text generation｜DiffusionGemma：テキスト生成が4倍高速化 | AIニュース最前線

2026 年 6 月 10 日 約 6 分間の読了時間 当社の最新オープン実験モデルは、専用 GPU において最大 4 倍の高速推論を実現し、速度が重要な対話型ローカルワークフローの探索への扉を開きます。 B ブレンダン・オドノヒュー 研究科学者 S セバスチャン・フレンナーハグ 研究科学者 ![image](https://storage.googleapis.com/gweb-uniblog-publish-prod/images/HeroVisual.width-200.format-webp.webp) お使いのブラウザは音声再生要素をサポートしていません。 記事の聴読 このコンテンツは Google AI によって生成されています。生成 AI は実験的な技術です。 [[duration]] 分 本日、テキスト拡散という極めて高速なテキスト生成アプローチを探求する実験的オープンモデル「DiffusionGemma」をご紹介いたします。Apache 2.0 ライセンスの下でリリースされるこの 26B Mixture of Experts (MoE) モデルは、一般的な自己回帰型大規模言語モデル（LLM）が持つ逐次的なトークンごとの処理の枠を超え、GPU 上では最大 4 倍の高速なテキスト生成を実現するために、テキストブロック全体を同時に生成するアプローチを採用しています。 業界をリードするパラメータあたりの知能性能を持つ当社の「Gemma 4」ファミリーと最先端の [Gemini Diffusion research](https://deepmind.google/models/gemini-diffusion/) に基づいて構築された DiffusionGemma は、生成速度を最大化するために設計された新規の拡散ヘッド（diffusion head）を統合しています。高品質な生産向け出力においては自己回帰型の Gemma 4 モデルが依然として標準ですが、DiffusionGemma は、インライン編集、迅速な反復、非線形テキスト構造の生成など、速度が重要な対話型ローカルワークフローを探求する研究者や開発者向けに設計されています。 ## 開発者にとって新たな価値を開く リアルタイムで対話的な AI アプリケーションを構築する開発者は、ローカル推論におけるレイテンシ（遅延）のボトルネックに直面することが多くあります。DiffusionGemma はこれらの課題に直接取り組む一方で、いくつかの重要なトレードオフも伴います： - ブレイジング・ファスト推論：DiffusionGemma は、デコードのボトルネックをメモリ帯域幅から計算処理へシフトすることで、専用 GPU 上で最大 4 倍高速なトークン出力を実現します（単一の NVIDIA H100 で 1 秒あたり 1000 トークン以上、NVIDIA GeForce RTX 5090 で 700 トークン以上）。 1 - アクセシブルなハードウェアフットプリント：DiffusionGemma は、推論時に 38 億パラメータのみを活性化させる総パラメータ数 260 億の Mixture of Experts (MoE) モデルとして動作し、量子化すればハイエンドの専用コンシューマー GPU の 18GB VRAM リミット内に収まります。 - 双方向アテンション：各フォワードパスで 256 トークンを並列生成することで、すべてのトークンが他のすべてのトークンにアテンションを向けられます。これにより、インライン編集、コードの埋め込み、アミノ酸配列、数学的グラフといった非線形ドメインにおいて大きな利点を提供します。 - インテリジェントな自己修正：モデルは自身の出力を反復的に精緻化し、一度に全文ブロックを評価してリアルタイムでミスを修正できます。 - 実験段階とプロダクション推奨事項：DiffusionGemma は速度と並列レイアウト生成を優先するため、標準的な Gemma 4 に比べて全体的な出力品質は低くなります。最大限の品質が求められる用途には、標準的な Gemma 4 のデプロイをお勧めします。 DiffusionGemma の特定タスクにおけるパフォーマンスは、ファインチューニングを通じて向上させることができます。以下の例では、[Unsloth](https://unsloth.ai/docs/models/diffusiongemma) が DiffusionGemma をファインチューニングして数独をプレイできるようにしました。これは自己回帰モデルが苦手とするタスクです。なぜなら、各トークンが未来のトークンに依存するためです。一方、DiffusionGemma の双方向アテンションにより、この課題ははるかに容易になります。 ファインチューニングされた DiffusionGemma による数独の解決例。 ## なぜテキスト生成に拡散モデルなのか？ AI 研究コミュニティでは長年にわたり、拡散ベースのテキスト生成が探索されてきましたが、大規模モデルへの適用は依然として課題でした。DiffusionGemma は、モデルがハードウェアを利用する方法を転換することで、この状況を打破します。 ## 従来のモデルとのトレードオフ ほとんどの言語モデルはタイプライターのように動作し、左から右へ一度に一つのトークンを生成します。クラウド環境では、サーバーが数千のユーザーリクエストをバッチ処理してハードウェア負荷を共有できるため、これは効率的です。しかし、単一のユーザー向けにローカルで実行する場合、この単語ごとのプロセスにより、専用の GPU や TPU が十分に活用されません。つまり、次の「キー入力」を待つために時間の大部分が浪費されてしまうのです。 DiffusionGemma はこの非効率性を逆転させます。単語を順次予測するのではなく、256 トークンの段落全体を同時に下書きします。コンピュータのプロセッサに一度により大きな作業塊を与えることで、DiffusionGemma はハードウェアの潜在能力を最大限に活用します。これは、モデル推論を単一の逐次的なタイプライターから、テキストブロック全体を同時に捺印する大規模な印刷機へとアップグレードするものです。 Hugging Face による DiffusionGemma テキストから 3D SVG デモ。ステップごとの生成。 この意味は、DiffusionGemma の高速化がローカル環境および低同時実行推論のために設計されていることを示しています。高 QPS（1 秒間のクエリ数）のクラウドサービスでは、自己回帰モデルをデプロイして計算資源を効率的に飽和させることができるため、DiffusionGemma の並列デコーディングは漸減するリターンしかもたらしえず、むしろサービスコストが高くなる可能性があります。スループットの優位性は、単一のアクセラレータ上で低〜中程度のバッチサイズにおいて最も顕著です。 ## テキスト拡散の仕組み 画像生成 AI が [視覚的なノイズから始め、それを反復的に精緻化して明確な画像へと仕上げる](https://research.google/blog/on-device-diffusion-plugins-for-conditioned-text-to-image-generation/) のと同様に、DiffusionGemma もこれをテキストに適用します: - キャンバス：モデルはランダムなプレースホルダートークンで構成されたキャンバスから開始します。 - 反復的精密化：モデルは複数のパスを実行し、正しいトークンを確定させ、それらを文脈の手がかりとして残りの部分を精緻化します。 - 最終的な仕上げ：テキストは高品質な出力へと収束します。 モデルは生成中に段落全体を処理できるため、複雑なマークダウンフォーマットを完璧に閉じたり、コードをほぼリアルタイムで生成・レンダリングしたりするといった、新たなモデルの動作パターンが可能になります。 ## Get started today - Download the weights: Access the experimental model weights (released under a permissive Apache 2.0 license) right now on Hugging Face. - Integrate & learn: Learn more in our DiffusionGemma developer guide. Or deep dive into A Visual Guide to DiffusionGemma to understand the mechanics under the hood. - Use your favorite development tools: Serve the model efficiently using MLX, vLLM (with integration supported by Red Hat), and Hugging Face Transformers. For rapid experimentation, we are releasing a fine-tuning tutorial using Hackable Diffusion, a modular JAX toolbox designed for composability. You can also explore fine-tuning with Unsloth and NVIDIA NeMo. Additionally, official support for llama.cpp is arriving soon. - Experience optimized performance: We worked with NVIDIA to optimize across their hardware stack, ensuring compatibility with consumer setups (quantized for GeForce RTX 5090 and 4090 GPUs) alongside high performance on enterprise systems (Hopper and Blackwell using advanced NVFP4 kernels), including NVIDIA DGX Spark and DGX Station for local deskside deployment, and RTX PRO for AI professionals. Native support for NVFP4 (4-bit floating-point) accelerates compute throughput, allowing the model to run at faster speeds with near-lossless accuracy. - Try your way: Run on your desktop dedicated GPU or in the cloud through Gemini Enterprise Agent Platform Model Garden or NVIDIA NIM.

DiffusionGemma：テキスト生成が4倍高速化

背景や根拠まで確認しますか？

関連記事