DiffusionGemma:Google の高速テキスト生成モデルが再登場
Google が実験モデルだった Gemini Diffusion を Apache 2 ライセンスのオープンウェイトモデル「DiffusionGemma」として公開し、NVIDIA のクラウド API で高速度推論が可能になった。
キーポイント
オープンソース化とライセンス
Google は実験段階だった Diffusion モデルを、Apache 2 ライセンスの「DiffusionGemma-26B-A4B-it」として Hugging Face で公開した。
NVIDIA NIM による高速度推論
NVIDIA のクラウド API を活用することで、実質的に 500 トークン/秒以上の高速なテキスト生成が可能となっている。
実証されたパフォーマンス
Simon Willison氏の検証では、複雑な画像生成プロンプトに対して約 4.4 秒で 2,409 トークンを出力し、その速度を実証した。
影響分析・編集コメントを表示
影響分析
このニュースは、Google が長期間静かにしていた Diffusion 技術の実用化を完了させたことを示しており、特にオープンソースコミュニティと NVIDIA エコシステムが連携することで、高速な生成 AI の利用ハードルが大幅に低下した点で重要です。開発者はライセンスの制限なくこのモデルを利用でき、NVIDIA のインフラを通じて即座に高性能な推論環境を構築できるため、実装とプロトタイピングのスピードが加速すると予想されます。
編集コメント
実験段階で終わったと思われた技術が、オープンソース化とクラウドインフラの連携によって即座に実用レベルとして復活した事例は貴重です。特に「Apache 2 ライセンス」かつ「NVIDIA NIM で無料ホスティング」という組み合わせは、開発者にとって最大の恩恵となるでしょう。
昨年 5 月、Google は実験的な Gemini Diffusion モデルを短時間だけ公開しました。当時私はそのプレビューを試して 記録を残しています が、その時の処理速度は 1 秒あたり 857 トークンでした。非常に魅力的なモデルでしたが、Google はその後これに関する追加発表を行いませんでした。
しかし、この研究が最善の形で復活しました。新しいオープンウェイト(Apache 2 ライセンス)の Gemma モデルとして登場したのです。それが google/diffusiongemma-26B-A4B-it です。
現在、NVIDIA はこのモデルを自社の NIM クラウド API で 無料でホストしています。私はこの API を使用して、このペリカン(アジサシ)の画像を生成しました。その結果は こちら ですが、生成には 4.4 秒かかりました(time uv run generate.py の計測による)。これは 2,409 トークンを返したことになります。つまり、少なくとも 1 秒あたり 500 トークンの速度です。

Via Hacker News
Tags: google, ai, generative-ai, llms, nvidia, pelican-riding-a-bicycle, gemma, llm-release, llm-performance
原文を表示
Last May Google briefly released an experimental Gemini Diffusion model. I tried the preview at the time and recorded it running at 857 tokens/second. It was an exciting model, but Google made no further announcements about it.
That research has returned in the best possible way: as a new open weight (Apache 2 licensed) Gemma model, google/diffusiongemma-26B-A4B-it.
NVIDIA are currently hosting the model for free on their NIM cloud API. I used that API to generate this pelican, which took 4.4s (according to time uv run generate.py) to return 2,409 tokens - so at least 500 tokens/second.

Via Hacker News
Tags: google, ai, generative-ai, llms, nvidia, pelican-riding-a-bicycle, gemma, llm-release, llm-performance
関連記事
DiffusionGemma:テキスト生成が4倍高速化
Google DeepMind は、新しい手法「DiffusionGemma」を発表し、テキスト生成の速度を従来の4倍に向上させることに成功しました。
Cohere が開発者向けコード生成モデル「North Mini Code」を発表:30B パラメータの MoE アーキテクチャで 3B アクティブ
Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家(MoE)アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。
Google DeepMind、ローカルAIを4倍高速化する拡散モデル「DiffusionGemma」を公開
Google DeepMindは、従来の逐次生成ではなくテキストブロックを並列生成する新モデル「DiffusionGemma」を発表し、Nvidia DGXやゲーミングGPUなどのローカル環境で処理速度を4倍に向上させたと発表した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み