開発者向け高スループットテキスト生成のために NVIDIA で DiffusionGemma を実行する

リアルタイム AI（チャットアシスタント、コパイロット、エージェントワークフローなど）を構築する開発者は、しばしばトークンごとの生成速度に制約されています。これにより応答性が制限され、サービングコストが増加し、滑らかで対話的な体験を実現することが困難になります。 Google DeepMind によって作成され、NVIDIA プラットフォーム上で効率的に実行するように最適化された DiffusionGemma は、テキスト生成における新しいアプローチを導入しました。これは一度に一つではなく、トークンを並列に生成することで、より高速でスループットの高い AI アプリケーションを可能にします。このモデルは拡散ベースのノイズ除去を用いて 1 ステップあたり 256 トークンを並列に生成し、単一の NVIDIA H100 Tensor Core GPU で最大 1,000 トークン/秒、[NVIDIA DGX Spark](https://www.nvidia.com/en-us/products/workstations/dgx-spark/) では最大 150 トークン/秒、そして [NVIDIA DGX Station](https://www.nvidia.com/en-us/products/workstations/dgx-station/) で最も高速なローカルパフォーマンスを実現します。 企業向け開発者にとって、この速度はモデルの品質を犠牲にすることなく、サービングコストの低下、高い同時実行性の確保、より応答性の高いユーザー体験をもたらします。DiffusionGemma は Gemma 4 26B A4B MoE アーキテクチャに基づいて構築され、低レイテンシかつメモリバウンドな推論のために最適化されています。 **モデル名** **DiffusionGemma** サポートされるモダリティ テキスト、画像 総パラメータ数 25.2B アクティブパラメータ数 3.8B コンテキスト長 最大 256K トークン 精度形式 BF16, NVFP4 *Table 1. DiffusionGemma の概要：モダリティ、パラメータサイズ、およびサポートされるコンテキスト長の要約* NVIDIA データセンター GPU 以外にも、開発者はさまざまなクライアント GPU やシステム上で最適なパフォーマンスを楽しむことができます。 **プラットフォーム****最適用途****主な特徴****始め方** **NVIDIA DGX Spark**ローカル AI 開発、自律型エージェント、AI 研究、プロトタイピングのためのパーソナル AI スーパーコンピュータ。NVIDIA GB10 Grace Blackwell Superchip、128 GB の統合メモリ、FP4 AI 計算能力 1 PFLOP、および完全なローカル OpenClaw ワークフロー向けの事前インストール済み NVIDIA AI ソフトウェアスタックを備えています。[DGX Spark プレイブック](https://build.nvidia.com/spark)（vLLM および Unsloth 用）、デプロイメントガイド、NVIDIA NeMo Automodel ファインチューニングガイド、[DGX Spark 上の vLLM ガイド](https://build.nvidia.com/spark/vllm) **NVIDIA DGX Station**デスクサイド AI スーパーコンピュータ。AI ワークロードの構築、実行、スケーリング向け。NVIDIA GB300 Grace Blackwell Ultra Superchip、NVIDIA AI ソフトウェアスタック、748 GB のコヒーレントメモリ、FP4 計算能力最大 20 PFLOPS、および最大 1T パラメータのモデルをサポート。デスクで Frontier AI の開発、推論、エージェントを実現。[DGX Station プレイブック](https://build.nvidia.com/station)、[DGX Station 上の vLLM ガイド](https://build.nvidia.com/station/vllm) **NVIDIA RTX + NVIDIA RTX PRO** デスクトップ AI アプリ、Windows 開発、およびローカル推論 クリエイターやプロフェッショナル向けに、デスクトップおよびワークステーション環境全体で最適化されたローカル推論パフォーマンス [RTX blog](https://blogs.nvidia.com/blog/rtx-ai-garage-local-gemma-diffusion); [vLLM on RTX guide](https://build.nvidia.com/rtx/vllm) *表 2.* *NVIDIA プラットフォーム全体におけるローカル展開オプションの比較。DGX Spark、DGX Station、および RTX + RTX PRO システム向けの主要ユースケース、主要機能、および推奨される入門リソースを強調表示* ## NVIDIA での構築とプロトタイピング 初期テストや NVIDIA GeForce RTX 5090 または DGX Spark 上でのプロトタイピングには、Hugging Face Transformers を通じて DiffusionGemma にアクセスしてください。DGX Spark、DGX Station、および RTX PRO 上でより高いスループットまたは同時多ユーザーサービングを行う場合は、表 2 のプレイブックに従って vLLM を使用してください。 ローカルプロトタイピングから本番環境への展開に至るまで NVIDIA ハードウェアとソフトウェア全体で Day 0 サポートを提供しているため、開発者は実験から実世界アプリケーションへ迅速に移行できます。 **NVIDIA GPU アクセラレーションされたエンドポイント** [NVIDIA Developer Program](https://developer.nvidia.com/developer-program) の一部として、[build.nvidia.com](https://build.nvidia.com/google/diffusiongemma-26b-a4b-it) 上の GPU アクセラレーションされたエンドポイントでプロトタイピング用の無料アクセスを開始し、DiffusionGemma の構築を始めてください。ブラウザ体験はカスタムデータソースにも接続可能です。 **BF16 および NVFP4** 本モデルは、BF16 チェックポイント付きで今日から [Hugging Face](https://huggingface.co/nvidia/diffusiongemma-26B-A4B-it-NVFP4) で利用可能です。また、[NVIDIA Model Optimizer](https://github.com/NVIDIA/Model-Optimizer) を使用して、[DiffusionGemma](https://huggingface.co/nvidia/diffusiongemma-26B-A4B-it-NVFP4) の NVFP4 量子化チェックポイントも利用可能です。 ## NVIDIA NIM を用いたエンタープライズ向けデプロイメント [NVIDIA NIM](https://docs.nvidia.com/nim/index.html) を使用すれば、開発から本番環境への DiffusionGemma のデプロイが容易になります。NIM は、モデルを最適化されたコンテナ化推論マイクロサービスとしてパッケージ化します。これにはパフォーマンスチューニング機能、標準化された API、そしてオンプレミス、クラウド、またはハイブリッド環境で柔軟に実行できる機能が含まれています。NIM は、サーバーへの推論リクエストを送信するための標準的な OpenAI 互換 API を公開しています。 - コンテナをダウンロードします。 - NIM サーバーを開始します。 $ export NIM_IMAGE_PATH = "nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest" $ docker run --gpus=all \ -e NGC_API_KEY=$NGC_API_KEY \ -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \ -p 8000:8000 \ ${NIM_IMAGE_PATH} - テストリクエストを実行し、完全な NIM ドキュメントを読み込みます。 from openai import OpenAI client = OpenAI( api_key="not-required" ) response = client.chat.completions.create( model="google/diffusiongemma-26b-a4b-it", messages=[ {"role": "user", "content": "Write a poem about text diffusion"} ], max_tokens=256 ) print(response.choices[0].message.content) ## NVIDIA NeMo AutoModel を用いた Day 0 ファインチューニング ファインチューニングのガイドやレシピは、特定のタスクやドメイン向けにモデルを適応させたい開発者向けの [NVIDIA NeMo Framework](https://github.com/NVIDIA-NeMo) の一部である [NVIDIA NeMo AutoModel](https://github.com/NVIDIA-NeMo/Automodel/blob/main/docs/guides/dllm/diffusiongemma.md) ライブラリを通じて利用可能です。NeMo AutoModel を用いると、変換を行うことなく HuggingFace チェックポイントの上に直接モデル（LLM、VLM および DiffusionLM）をファインチューニングできるため、ユーザーは最新のフロンティアモデルに対して迅速な実験を開始できます。 NVIDIA はオープンソースエコシステムへの積極的な貢献者であり、数百の [プロジェクトをオープンソースライセンスの下で公開](https://developer.nvidia.com/open-source) しています。NVIDIA は、AI の透明性を促進し、ユーザーが AI の安全性と回復性に関する成果を共有できるようにする DiffusionGemma などのオープンモデルにコミットしています。 [Hugging Face](https://huggingface.co/google/diffusiongemma-26B-A4B-it) で DiffusionGemma をご覧いただくか、[build.nvidia.com](https://build.nvidia.com/google/diffusiongemma-26b-a4b-it) で NVIDIA API を使用して無料でテストしてください。 ## 著者について

背景や根拠まで確認しますか？

関連記事