TensorRT最適化版Stable Diffusion 3.5、NVIDIA RTX GPUで2倍高速・VRAM40%削減
Stability AI は NVIDIA と共同で Stable Diffusion 3.5 の TensorRT 最適化版を公開し、生成速度の最大 2.3 倍向上と VRAM 使用量の 40% 削減を実現した。
キーポイント
性能とリソース効率の劇的改善
TensorRT と FP8 量子化技術により、SD3.5 Large で最大 2.3 倍、Medium で 1.7 倍の高速化を達成し、VRAM 使用量を 40% 削減した。
ハードウェアアクセシビリティの拡大
最適化により、RTX 50 シリーズシステム 5 台で SD3.5 Large を動作可能にし、以前は 1 台しか対応していなかった状況を改善した。
商用・非商用利用の解放
最適化モデルは Stability AI コミュニティライセンスの下、商用および非商用の両方で利用可能となり、Hugging Face と NVIDIA GitHub で入手できる。
大幅なパフォーマンス向上とメモリ削減
FP8 TensorRT最適化により、SD3.5 Large は従来の PyTorch ベースモデルと比較して最大 2.3 倍高速になり、VRAM 使用量を 40%(19GB から 11GB)削減しながら高品質を維持します。
多様な NVIDIA GPU 環境での対応
GeForce RTX 50/40 シリーズおよび Blackwell、Ada Lovelace 世代の RTX PRO グラフィックスカードを含む幅広い NVIDIA RTX ハードウェアで効率的に動作します。
商用・非商用利用可能なライセンス
最適化されたモデルは Stability AI Community License の下、商用および非商用の両方で利用可能であり、Hugging Face と NVIDIA GitHub から入手できます。
影響分析・編集コメントを表示
影響分析
この発表は、高性能な画像生成モデルを消費財レベルのハードウェアで効率的に運用する可能性を現実的なものにし、クリエイターや開発者のワークフローにおけるコストとスケーラビリティの課題を解決します。特に FP8 量子化技術の普及により、大規模モデルの実用性がさらに高まり、AI 生成ツールの民主化が加速すると予想されます。
編集コメント
大規模モデルの運用コストとハードウェア要件を同時に解決する重要な技術的マイルストーンです。特に FP8 量子化によるメモリ削減は、ローカル環境での高品質生成を可能にする鍵となります。
主なポイント:
NVIDIA と協力し、Stable Diffusion 3.5(SD3.5)の NVIDIA TensorRT-最適化版を提供しました。これにより、より広範な NVIDIA RTX GPU でエンタープライズグレードの画像生成が可能になりました。
SD3.5 の TensorRT-最適化モデルは、SD3.5 Large では最大 2.3 倍、SD3.5 Medium では最大 1.7 倍の高速な生成を実現し、VRAM(ビデオメモリ)の要件を 40% 削減します。
これらの最適化されたモデルは、寛容な Stability AI コミュニティライセンスの下で商用・非商用の両方の用途で使用可能になりました。重みデータは Hugging Face で、コードは NVIDIA の GitHub からダウンロードできます。

NVIDIA との協力により、TensorRT と FP8(8 ビット浮動小数点)を使用して SD3.5 ファミリーのモデルを最適化し、対応する RTX GPU 上での生成速度を向上させ、VRAM の要件を削減しました。
SD3.5 は、消費者向けハードウェア上でそのまま動作するように開発されました。Nvidia による最適化は、さまざまなハードウェア構成で作業するクリエイティブ専門家や開発者にとって、そのアクセシビリティをさらに広げるものです。
モデルが特に優れた点
これらのパフォーマンス向上により、SD3.5 の中核的な強みがより身近なものとなりました。SD3.5 は以下の分野で卓越しており、プロンプトへの忠実度と画像品質において最高レベルのパフォーマンスを維持しながら、市場で最もカスタマイズ可能な画像生成モデルの一つとなっています。
多様なスタイル: 3D、写真、絵画、ラインアートなど、あらゆる視覚スタイルを生成できる versatility を備えています。
多様な出力結果: 特定の人物タイプに偏ることなく、異なる肌色や特徴を持つ世界を代表する画像を作成します。これには広範なプロンプト入力も不要です。
プロンプトへの忠実度: 私たちの分析によると、SD3.5 Large は市場でプロンプトへの忠実度が最も高く、与えられたテキストプロンプトに密着して動作するため、効率的かつ高品質なパフォーマンスを求める際のトップチョイスとなっています。
より多くの NVIDIA RTX GPU で利用可能
TensorRT の最適化は、NVIDIA ハードウェア上でモデルが実行される方法を合理化することで、品質を維持しながらモデルサイズを削減します。モデルサイズの削減は、FP8 量子化(quantization)という技術によって達成されます。この技術は、高い出力品質を維持しつつ、モデルの効率性を高めます。これらの改善により、最適化前には 1 システムしか実行できなかった SD3.5 Large を、現在はメモリから 5 つの RTX 50 シリーズシステムで実行できるようになりました。
NVIDIA RTX GPU 全体でのパフォーマンス向上
SD3.5 TensorRT 最適化モデルは、NVIDIA GeForce RTX 50 および 40 シリーズ GPU、ならびに NVIDIA Blackwell および Ada Lovelace 世代の NVIDIA RTX PRO GPU 全体でより効率的に動作します。これにより、SD3.5 Large では最大 2.3 倍、SD3.5 Medium では 1.7 倍の高速化を実現し、同時に VRAM(ビデオメモリ)の要件を 40% 削減しています。

FP8 TensorRT は、BF16 PyTorch と比較して SD3.5 Large のパフォーマンスを 2.3 倍に向上させ、メモリ使用量を 40% 削減します。SD3.5 Medium については、BF16 TensorRT が 1.7 倍の高速化をもたらします。
SD3.5 Large
ベースとなる PyTorch モデルと比較して、画像生成速度が 2.3 倍高速化されています。
メモリ使用量は 40% 削減され、19GB から 11GB に減少しましたが、プロフェッショナルな品質は維持されています。
SD3.5 Medium
速度と効率性を最優先するユーザー向けに、画像生成速度が 1.7 倍高速化されています。
メモリフットプリントが低減されており、ミッドレンジの RTX ハードウェアで作業を行うクリエイターに最適です。
はじめに
最適化されたモデルは、寛容な Stability AI コミュニティライセンスの下、商用・非商用を問わず利用可能です。重み(weights)は Hugging Face で、コードは NVIDIA の GitHub からダウンロードできます。
当社の進捗状況について最新情報を入手するには、X、LinkedIn、Instagram をフォローするか、Discord コミュニティに参加してください。
原文を表示
Key Takeaways:
We've collaborated with NVIDIA to deliver NVIDIA TensorRT-optimized versions of Stable Diffusion 3.5 (SD3.5), making enterprise-grade image generation available on a wider range of NVIDIA RTX GPUs.
The SD3.5 TensorRT-optimized models deliver up to 2.3x faster generation on SD3.5 Large and 1.7x faster on SD3.5 Medium, while reducing VRAM requirements by 40%.
The optimized models are now available for commercial and non-commercial use under the permissive Stability AI Community License.You can download the weights on Hugging Face and code on NVIDIA’s GitHub.
image
In collaboration with NVIDIA, we've optimized the SD3.5 family of models using TensorRT and FP8, improving generation speed and reducing VRAM requirements on supported RTX GPUs.
SD3.5 was developed to run on consumer hardware out of the box. The Nvidia optimizations extend that accessibility further for creative professionals and developers working across a variety of hardware setups.
Where the models excel
These performance improvements make SD3.5's core strengths more accessible. SD3.5 excels in the following areas, making it one of the most customizable image models on the market, while maintaining top-tier performance in prompt adherence and image quality:
Versatile Styles: Capable of generating a wide range of styles and aesthetics like 3D, photography, painting, line art, and virtually any visual style imaginable.
Diverse Outputs: Creates images representative of the world, not just one type of person, with different skin tones and features, without the need for extensive prompting.
Prompt Adherence: Our analysis shows that SD3.5 Large leads the market in prompt adherence, allowing the model to closely follow a given text prompt, making it a top choice for efficient, high-quality performance.
Now available across more NVIDIA RTX GPUs
TensorRT optimization reduces model size while maintaining quality by streamlining how models run on NVIDIA hardware. Model size reduction is achieved through FP8 quantization, a technique that makes models more efficient while maintaining high output quality. These improvements mean that five RTX 50 Series systems can now run SD3.5 Large from memory, compared to just one system before optimization.
Enhanced performance across NVIDIA RTX GPUs
SD3.5 TensorRT-optimized models run more efficiently across NVIDIA GeForce RTX 50 and 40 Series GPUs, as well as NVIDIA Blackwell and Ada Lovelace generation NVIDIA RTX PRO GPUs. They deliver up to 2.3x faster generation on SD3.5 Large and 1.7x faster on SD3.5 Medium, while reducing VRAM requirements by 40%.
image
FP8 TensorRT boosts SD3.5 Large performance by 2.3x vs. BF16 PyTorch, with 40% less memory use. For SD3.5 Medium, BF16 TensorRT delivers a 1.7x speedup.
SD3.5 Large
2.3x faster image generation compared to compared to the base PyTorch models.
Memory use reduced by 40%, from 19GB to 11GB, all while maintaining professional quality.
SD3.5 Medium
1.7x faster image generation for users prioritizing speed and efficiency.
Lower memory footprint, ideal for creators working on mid-range RTX hardware.
Getting started
The optimized models are now available for commercial and non-commercial use under the permissive Stability AI Community License.You can download the weights on Hugging Face and code on NVIDIA’s GitHub.
To stay updated on our progress, follow us on X, LinkedIn, Instagram, and join our Discord Community.
関連記事
Stable Diffusion 3.5モデル、TensorRT最適化によりNVIDIA RTX GPUで性能2倍向上・メモリ使用量40%削減を実現
Stability AIがNVIDIAと協力し、Stable Diffusion 3.5モデルをTensorRTで最適化した。これにより、NVIDIA RTX GPUでの画像生成速度が最大2.3倍向上し、VRAM使用量が40%削減された。
Stability AIとNVIDIA、Stable Diffusion 3.5 NIMで高速パフォーマンスと簡易な企業導入を実現
Stability AIはNVIDIA NIMマイクロサービスをStable Diffusion 3.5向けにリリースし、企業が高度なモデルをより高速かつ簡単に導入できるようにした。
Stability AIとNVIDIA、Stable Diffusion 3.5 NIMで高速化・企業向け展開を簡素化
Stability AIはNVIDIAと連携し、Stable Diffusion 3.5を高速化・簡易デプロイ可能なNIMマイクロサービスとして提供開始した。このモデルはbuild.nvidia.comから利用可能で、Hugging Faceから重みも取得できる。Stability AIコミュニティライセンスの下、商用・非商用利用が可能だが、年収益100万ドル超の企業は個別契約が必要である。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み