TensorRT最適化版Stable Diffusion 3.5、NVIDIA RTX GPUで2倍高速・VRAM40%削減

主なポイント: NVIDIA と協力し、Stable Diffusion 3.5（SD3.5）の NVIDIA TensorRT-最適化版を提供しました。これにより、より広範な NVIDIA RTX GPU でエンタープライズグレードの画像生成が可能になりました。 SD3.5 の TensorRT-最適化モデルは、SD3.5 Large では最大 2.3 倍、SD3.5 Medium では最大 1.7 倍の高速な生成を実現し、VRAM（ビデオメモリ）の要件を 40% 削減します。 これらの最適化されたモデルは、寛容な Stability AI コミュニティライセンスの下で商用・非商用の両方の用途で使用可能になりました。重みデータは Hugging Face で、コードは NVIDIA の GitHub からダウンロードできます。 ![image](https://images.squarespace-cdn.com/content/v1/6213c340453c3f502425776e/9e641db9-c060-4a33-9984-8d587dc5cdbc/StabilityxNvidia_Thumnail_16x9_v1.png?format=1000w) NVIDIA との協力により、TensorRT と FP8（8 ビット浮動小数点）を使用して SD3.5 ファミリーのモデルを最適化し、対応する RTX GPU 上での生成速度を向上させ、VRAM の要件を削減しました。 SD3.5 は、消費者向けハードウェア上でそのまま動作するように開発されました。Nvidia による最適化は、さまざまなハードウェア構成で作業するクリエイティブ専門家や開発者にとって、そのアクセシビリティをさらに広げるものです。 モデルが特に優れた点 これらのパフォーマンス向上により、SD3.5 の中核的な強みがより身近なものとなりました。SD3.5 は以下の分野で卓越しており、プロンプトへの忠実度と画像品質において最高レベルのパフォーマンスを維持しながら、市場で最もカスタマイズ可能な画像生成モデルの一つとなっています。 多様なスタイル: 3D、写真、絵画、ラインアートなど、あらゆる視覚スタイルを生成できる versatility を備えています。 多様な出力結果: 特定の人物タイプに偏ることなく、異なる肌色や特徴を持つ世界を代表する画像を作成します。これには広範なプロンプト入力も不要です。 プロンプトへの忠実度: 私たちの分析によると、SD3.5 Large は市場でプロンプトへの忠実度が最も高く、与えられたテキストプロンプトに密着して動作するため、効率的かつ高品質なパフォーマンスを求める際のトップチョイスとなっています。 より多くの NVIDIA RTX GPU で利用可能 TensorRT の最適化は、NVIDIA ハードウェア上でモデルが実行される方法を合理化することで、品質を維持しながらモデルサイズを削減します。モデルサイズの削減は、FP8 量子化（quantization）という技術によって達成されます。この技術は、高い出力品質を維持しつつ、モデルの効率性を高めます。これらの改善により、最適化前には 1 システムしか実行できなかった SD3.5 Large を、現在はメモリから 5 つの RTX 50 シリーズシステムで実行できるようになりました。 NVIDIA RTX GPU 全体でのパフォーマンス向上 SD3.5 TensorRT 最適化モデルは、NVIDIA GeForce RTX 50 および 40 シリーズ GPU、ならびに NVIDIA Blackwell および Ada Lovelace 世代の NVIDIA RTX PRO GPU 全体でより効率的に動作します。これにより、SD3.5 Large では最大 2.3 倍、SD3.5 Medium では 1.7 倍の高速化を実現し、同時に VRAM（ビデオメモリ）の要件を 40% 削減しています。 ![image](https://images.squarespace-cdn.com/content/v1/6213c340453c3f502425776e/1ff853b2-8562-4ef1-aadf-6e85f4f6443d/StabilityxNvidia_Chart_v1+%281%29.png?format=1000w) FP8 TensorRT は、BF16 PyTorch と比較して SD3.5 Large のパフォーマンスを 2.3 倍に向上させ、メモリ使用量を 40% 削減します。SD3.5 Medium については、BF16 TensorRT が 1.7 倍の高速化をもたらします。 SD3.5 Large ベースとなる PyTorch モデルと比較して、画像生成速度が 2.3 倍高速化されています。 メモリ使用量は 40% 削減され、19GB から 11GB に減少しましたが、プロフェッショナルな品質は維持されています。 SD3.5 Medium 速度と効率性を最優先するユーザー向けに、画像生成速度が 1.7 倍高速化されています。 メモリフットプリントが低減されており、ミッドレンジの RTX ハードウェアで作業を行うクリエイターに最適です。 はじめに 最適化されたモデルは、寛容な Stability AI コミュニティライセンスの下、商用・非商用を問わず利用可能です。重み（weights）は Hugging Face で、コードは NVIDIA の GitHub からダウンロードできます。 当社の進捗状況について最新情報を入手するには、X、LinkedIn、Instagram をフォローするか、Discord コミュニティに参加してください。

背景や根拠まで確認しますか？

関連記事