AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年6月11日 01:16·約6分で読める

開発者向け高スループットテキスト生成のために NVIDIA で DiffusionGemma を実行する

#Diffusion Models#LLM#NVIDIA H100#Token Generation#Google DeepMind
TL;DR

Google DeepMind が開発し NVIDIA で最適化された DiffusionGemma は、従来の逐次生成ではなく並列トークン生成を実現し、H100 GPU で秒間最大 1,000 トークンの高速推論を可能にする画期的な技術である。

AI深層分析2026年6月11日 10:06
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

並列トークン生成による劇的な速度向上

DiffusionGemma は拡散ベースのデノイジング手法を用いて、1 ステップで最大 256 トークンを並列生成するため、H100 GPU で秒間 1,000 トークンのスループットを達成し、リアルタイム AI アプリケーションの応答性を飛躍的に向上させる。

2

Gemma 4 26B A4B モデルアーキテクチャ

このモデルは 252 億パラメータ(アクティブ 38 億)の MoE 構造を採用し、BF16 や NVFP4 などの高精度フォーマットに対応しながら、低遅延かつメモリ制約のある推論環境に最適化されている。

3

多様な NVIDIA ハードウェアでの最適化

データセンターの H100 から、ローカル開発用の DGX Spark や DGX Station まで幅広く対応しており、特に DGX Spark では 1 PFLOP の FP4 AI 計算能力を活用して完全なローカルワークフローを実現する。

4

エンタープライズへのコストと品質の両立

生成速度の向上によりサーバーコストが削減され、同時接続数が増加してもモデルの品質を犠牲にすることなく、より応答性の高いユーザー体験を提供できる。

5

DiffusionGemma のプラットフォーム別最適化

NVIDIA DGX Spark、DGX Station、および RTX/RTX PRO システムそれぞれに合わせたローカルデプロイオプションが用意されており、用途に応じて最適なハードウェアを選択できる。

6

vLLM を活用した高スループット推論

単一のテストやプロトタイピングには Hugging Face Transformers が推奨される一方、DGX Spark、Station、RTX PRO における並行マルチユーザー対応や高スループットな推論には vLLM のプレイブックを利用する必要がある。

7

迅速な導入と学習リソースの提供

各プラットフォーム向けに vLLM や Unsloth に関するプレイブック、展開ガイド、および NeMo Automodel を用いたファインチューニングガイドが公式ドキュメントとして用意されている。

影響分析・編集コメントを表示

影響分析

この技術は、リアルタイム性が求められるチャットボットやエージェントワークフローにおけるボトルネックを解消し、AI アプリケーションの設計パラダイムを「速度とコスト」から「応答性とスケーラビリティ」へとシフトさせる可能性を秘めています。特にローカル環境での高性能化は、データプライバシーが重視される企業現場や、エッジデバイスでの AI 展開に大きな影響を与えるでしょう。

編集コメント

逐次生成の限界を打破する並列トークン生成技術の実用化は、AI インフラ業界にとって極めて重要な転換点です。特に NVIDIA ハードウェアとの緊密な最適化により、研究段階から実運用までスムーズに移行できる点は注目に値します。

リアルタイム AI(チャットアシスタント、コパイロット、エージェントワークフローなど)を構築する開発者は、しばしばトークンごとの生成速度に制約されています。これにより応答性が制限され、サービングコストが増加し、滑らかで対話的な体験を実現することが困難になります。

Google DeepMind によって作成され、NVIDIA プラットフォーム上で効率的に実行するように最適化された DiffusionGemma は、テキスト生成における新しいアプローチを導入しました。これは一度に一つではなく、トークンを並列に生成することで、より高速でスループットの高い AI アプリケーションを可能にします。このモデルは拡散ベースのノイズ除去を用いて 1 ステップあたり 256 トークンを並列に生成し、単一の NVIDIA H100 Tensor Core GPU で最大 1,000 トークン/秒、NVIDIA DGX Spark では最大 150 トークン/秒、そして NVIDIA DGX Station で最も高速なローカルパフォーマンスを実現します。

企業向け開発者にとって、この速度はモデルの品質を犠牲にすることなく、サービングコストの低下、高い同時実行性の確保、より応答性の高いユーザー体験をもたらします。DiffusionGemma は Gemma 4 26B A4B MoE アーキテクチャに基づいて構築され、低レイテンシかつメモリバウンドな推論のために最適化されています。

モデル名 DiffusionGemma

サポートされるモダリティ テキスト、画像

総パラメータ数 25.2B

アクティブパラメータ数 3.8B

コンテキスト長 最大 256K トークン

精度形式 BF16, NVFP4

*Table 1. DiffusionGemma の概要:モダリティ、パラメータサイズ、およびサポートされるコンテキスト長の要約*

NVIDIA データセンター GPU 以外にも、開発者はさまざまなクライアント GPU やシステム上で最適なパフォーマンスを楽しむことができます。

プラットフォーム最適用途主な特徴始め方

NVIDIA DGX Sparkローカル AI 開発、自律型エージェント、AI 研究、プロトタイピングのためのパーソナル AI スーパーコンピュータ。NVIDIA GB10 Grace Blackwell Superchip、128 GB の統合メモリ、FP4 AI 計算能力 1 PFLOP、および完全なローカル OpenClaw ワークフロー向けの事前インストール済み NVIDIA AI ソフトウェアスタックを備えています。DGX Spark プレイブック(vLLM および Unsloth 用)、デプロイメントガイド、NVIDIA NeMo Automodel ファインチューニングガイド、DGX Spark 上の vLLM ガイド

NVIDIA DGX Stationデスクサイド AI スーパーコンピュータ。AI ワークロードの構築、実行、スケーリング向け。NVIDIA GB300 Grace Blackwell Ultra Superchip、NVIDIA AI ソフトウェアスタック、748 GB のコヒーレントメモリ、FP4 計算能力最大 20 PFLOPS、および最大 1T パラメータのモデルをサポート。デスクで Frontier AI の開発、推論、エージェントを実現。DGX Station プレイブック、DGX Station 上の vLLM ガイド

NVIDIA RTX + NVIDIA RTX PRO

デスクトップ AI アプリ、Windows 開発、およびローカル推論

クリエイターやプロフェッショナル向けに、デスクトップおよびワークステーション環境全体で最適化されたローカル推論パフォーマンス RTX blog; vLLM on RTX guide

*表 2.* *NVIDIA プラットフォーム全体におけるローカル展開オプションの比較。DGX Spark、DGX Station、および RTX + RTX PRO システム向けの主要ユースケース、主要機能、および推奨される入門リソースを強調表示*

NVIDIA での構築とプロトタイピング

初期テストや NVIDIA GeForce RTX 5090 または DGX Spark 上でのプロトタイピングには、Hugging Face Transformers を通じて DiffusionGemma にアクセスしてください。DGX Spark、DGX Station、および RTX PRO 上でより高いスループットまたは同時多ユーザーサービングを行う場合は、表 2 のプレイブックに従って vLLM を使用してください。

ローカルプロトタイピングから本番環境への展開に至るまで NVIDIA ハードウェアとソフトウェア全体で Day 0 サポートを提供しているため、開発者は実験から実世界アプリケーションへ迅速に移行できます。

NVIDIA GPU アクセラレーションされたエンドポイント

NVIDIA Developer Program の一部として、build.nvidia.com 上の GPU アクセラレーションされたエンドポイントでプロトタイピング用の無料アクセスを開始し、DiffusionGemma の構築を始めてください。ブラウザ体験はカスタムデータソースにも接続可能です。

BF16 および NVFP4

本モデルは、BF16 チェックポイント付きで今日から Hugging Face で利用可能です。また、NVIDIA Model Optimizer を使用して、DiffusionGemma の NVFP4 量子化チェックポイントも利用可能です。

NVIDIA NIM を用いたエンタープライズ向けデプロイメント

NVIDIA NIM を使用すれば、開発から本番環境への DiffusionGemma のデプロイが容易になります。NIM は、モデルを最適化されたコンテナ化推論マイクロサービスとしてパッケージ化します。これにはパフォーマンスチューニング機能、標準化された API、そしてオンプレミス、クラウド、またはハイブリッド環境で柔軟に実行できる機能が含まれています。NIM は、サーバーへの推論リクエストを送信するための標準的な OpenAI 互換 API を公開しています。

  • コンテナをダウンロードします。
  • NIM サーバーを開始します。

$ export NIM_IMAGE_PATH = "nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest"

$ docker run --gpus=all \

-e NGC_API_KEY=$NGC_API_KEY \

-v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \

-p 8000:8000 \

${NIM_IMAGE_PATH}

  • テストリクエストを実行し、完全な NIM ドキュメントを読み込みます。

from openai import OpenAI

client = OpenAI(

api_key="not-required"

)

response = client.chat.completions.create(

model="google/diffusiongemma-26b-a4b-it",

messages=[

{"role": "user", "content": "Write a poem about text diffusion"}

],

max_tokens=256

)

print(response.choices[0].message.content)

NVIDIA NeMo AutoModel を用いた Day 0 ファインチューニング

ファインチューニングのガイドやレシピは、特定のタスクやドメイン向けにモデルを適応させたい開発者向けの NVIDIA NeMo Framework の一部である NVIDIA NeMo AutoModel ライブラリを通じて利用可能です。NeMo AutoModel を用いると、変換を行うことなく HuggingFace チェックポイントの上に直接モデル(LLM、VLM および DiffusionLM)をファインチューニングできるため、ユーザーは最新のフロンティアモデルに対して迅速な実験を開始できます。

NVIDIA はオープンソースエコシステムへの積極的な貢献者であり、数百の プロジェクトをオープンソースライセンスの下で公開 しています。NVIDIA は、AI の透明性を促進し、ユーザーが AI の安全性と回復性に関する成果を共有できるようにする DiffusionGemma などのオープンモデルにコミットしています。

Hugging Face で DiffusionGemma をご覧いただくか、build.nvidia.com で NVIDIA API を使用して無料でテストしてください。

著者について

原文を表示

Developers building real-time AI—such as chat assistants, copilots, and agentic workflows—are often constrained by token-by-token generation speed. This limits responsiveness, increases serving costs, and makes fluid, interactive experiences difficult to achieve.

DiffusionGemma, created by Google DeepMind and optimized to run efficiently across NVIDIA platforms, introduces a new approach to text generation, producing tokens in parallel rather than one at a time, enabling faster, higher-throughput AI applications. The model uses diffusion-based denoising to generate 256 tokens in parallel per step, delivering up to 1,000 tokens/sec on a single NVIDIA H100 Tensor Core GPU, up to 150 tokens/sec on NVIDIA DGX Spark, and the fastest local performance on NVIDIA DGX Station.

For enterprise developers, this speed translates into lower serving costs, higher concurrency, and more responsive user experiences without sacrificing model quality. DiffusionGemma is built on the Gemma 4 26B A4B MoE architecture and optimized for low-latency, memory-bound inference.

In addition to NVIDIA data center GPUs, developers can enjoy optimal performance on a variety of client GPUs and systems.

Build and prototype on NVIDIA

Access DiffusionGemma through Hugging Face Transformers for initial testing and prototyping on NVIDIA GeForce RTX 5090 or DGX Spark. For higher throughput or concurrent multi-user serving on DGX Spark, DGX Station, and RTX PRO, use vLLM by following our playbooks in Table 2.

With Day 0 support across NVIDIA hardware and software—from local prototyping to production deployment—developers can quickly move from experimentation to real-world applications.

NVIDIA GPU-accelerated endpoints

Start building with DiffusionGemma with free access for prototyping to GPU-accelerated endpoints on build.nvidia.com as part of the NVIDIA Developer Program. The browser experience can also be connected to custom data sources.

BF16 and NVFP4

The model is available today on Hugging Face with BF16 checkpoints, and an NVFP4 quantized checkpoint for DiffusionGemma is also available using NVIDIA Model Optimizer.

Enterprise deployments with NVIDIA NIM

NVIDIA NIM makes it simple to deploy DiffusionGemma from development into production. NIM packages the model as an optimized, containerized inference microservice — with performance tuning, standardized APIs, and the flexibility to run on-premises, in the cloud, or across hybrid environments. NIM exposes a standard OpenAI-compatible API for sending inference requests to the server.

  • Download the container.
  • Start the NIM server.

$ export NIM_IMAGE_PATH = “nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest”

$ docker run --gpus=all \

-e NGC_API_KEY=$NGC_API_KEY \

-v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \

-p 8000:8000 \

${NIM_IMAGE_PATH}

  • Make a test request and read the full NIM documentation.

from openai import OpenAI

client = OpenAI(

api_key="not-required"

)

response = client.chat.completions.create(

model="google/diffusiongemma-26b-a4b-it”,

messages=[

{"role": "user", "content": "Write a poem about text diffusion"}

],

max_tokens=256

)

print(response.choices[0].message.content)

Day 0 finetune with NVIDIA NeMo AutoModel

Fine-tuning guides and recipes are available through the NVIDIA NeMo AutoModel library, part of the NVIDIA NeMo Framework, for developers looking to adapt the model to specific tasks or domains. NeMo AutoModel enables users to fine-tune models (LLMs, VLMs and DiffusionLMs) directly on top of HuggingFace checkpoints without conversion, so users can start rapid experimentation on the latest frontier models.

NVIDIA is an active contributor to the open-source ecosystem and has released several hundred projects under open-source licenses. NVIDIA is committed to open models such as DiffusionGemma that promote AI transparency and enable users to share their work in AI safety and resilience.

Check out DiffusionGemma on Hugging Face or test for free using NVIDIA APIs at build.nvidia.com.

About the Authors

この記事をシェア

関連記事

Ars Technica AI★42026年6月11日 04:29

Google DeepMind、ローカルAIを4倍高速化する拡散モデル「DiffusionGemma」を公開

Google DeepMindは、従来の逐次生成ではなくテキストブロックを並列生成する新モデル「DiffusionGemma」を発表し、Nvidia DGXやゲーミングGPUなどのローカル環境で処理速度を4倍に向上させたと発表した。

MarkTechPost★42026年6月11日 03:50

Google AI、テキスト拡散を用いた26B MoEオープンモデル「DiffusionGemma」を公開

Google DeepMindチームは、標準的な自己回帰型ではなくテキスト拡散方式を採用した実験的オープンモデル「DiffusionGemma」をApache 2.0ライセンスで公開し、開発者や研究者向けに高速な生成ワークフローを提供する。

Google DeepMind★42026年6月11日 01:24

DiffusionGemma:テキスト生成が4倍高速化

Google DeepMind は、新しい手法「DiffusionGemma」を発表し、テキスト生成の速度を従来の4倍に向上させることに成功しました。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む