ローカルデバイス向け画像生成モデル「Bonsai Image 4B」の紹介：1 ビットおよび三元表現版を公開

![image](https://cdn.prod.website-files.com/699604cc2b9dd89bdbda0608/6a15cec375689f915406cc3c_grid.png) Ternary Bonsai Image 4B から生成された画像今日、**Bonsai Image 4B** をリリースします。これは、ノートパソコンからスマートフォンまで、ローカルハードウェア上で高品質な拡散推論（diffusion inference）を実行するために設計されたコンパクトな画像生成モデルのファミリーです。 Bonsai Image 4B は 2 つの変種で提供されます： - 1-bit Bonsai Image 4B は、バイナリ {−1, +1} のトランスフォーマー重み（transformer weights）と FP16 グループごとのスケーリング係数を使用し、重みあたり有効 1.125 ビットを実現します。これは最大限の圧縮を目的としており、メモリ負荷、帯域幅、およびデプロイメントフットプリントが主要な制約となる場合に最適な選択肢です。 - Ternary Bonsai Image 4B は、{−1, 0, +1} のトランスフォーマー重みと FP16 グループごとのスケーリング係数を使用し、重みあたり有効 1.71 ビットを実現します。追加されたゼロ状態により、モデルはより表現的な柔軟性を獲得し、視覚品質とプロンプトの忠実度を向上させながら、極めてコンパクトなままです。 その結果、画像生成における新たなデプロイメント体制が実現しました：高品質な出力、オープンウェイト（open weights）、そしてこれまでこのクラスのモデルには手が届かなかったデバイス上での実用的なローカル推論です。私たちの知る限り、**Bonsai Image 4B は、iPhone で直接実行可能なパラメータクラス初の画像モデル**です。 ## ローカル生成のために設計された ![image](https://cdn.prod.website-files.com/699604cc2b9dd89bdbda0608/6a15cd893a2c1d8354bece23_ef1081ac.png) 1-bit Bonsai Image 4B から生成された画像 ローカルでの画像生成は、モデルをデバイスのメモリ予算内に収めるという厳しい制約から始まります。 4B クラスの画像モデルにおいて、拡散トランスフォーマーはモデルの中で最も大きな部分を占め、生成プロセスで繰り返し実行される部分です。各ノイズ除去ステップでトランスフォーマーが再度呼び出されるため、トランスフォーマーのサイズが直接メモリ負荷、帯域幅需要、およびローカル推論速度を決定します。 Bonsai Image 4B は FLUX.2 Klein 4B を基に構築されています。アーキテクチャはそのまま維持しつつ、トランスフォーマー重みの表現方法を変更しています。これらの重みをバイナリ形式とテルナリ（3値）形式に変換することで、ローカル展開において最も重要な画像パイプラインの一部を削減します。 Model Diffusion Transformer Reduction vs FP16 FLUX.2 Klein 4B 7.75 GB 1.0x 1-bit Bonsai Image 4B 0.93 GB 8.3x Ternary Bonsai Image 4B 1.21 GB 6.4x **Table I:** Diffusion transformer footprint for models. バイナリ層は、完全精度のトランスフォーマー重みと比較して約 14 倍の削減を実現します。精度に敏感な少数のサポートテンソル（約 5%）である投影層（projection layers）のみが FP16 で残され、最終的な 1-bit Bonsai Image 4B トランスフォーマーは **0.93 GB** となります。これは完全精度の FLUX.2 Klein 4B の 7.75 GB から 8.3 倍の削減です。 テンナリー変種も同様の構造に従います。そのテンナリー層は約 10 倍の削減を実現し、最終的な Ternary Bonsai Image 4B トランスフォーマーは**1.21 GB**となり、フル精度トランスフォーマーと比較して 6.4 倍の削減となります。これは 1 ビットモデルよりわずかに大きいですが、追加されたゼロ状態により視覚品質とプロンプト忠実度が向上します。 圧縮テキストエンコーダーと FP16 VAE を含めると、Apple Silicon でのデプロイメントペイロードは、1-bit Bonsai Image 4B で 3.42 GB、Ternary Bonsai Image 4B で 3.88 GB です。比較のため、フル精度の FLUX.2 Klein 4B では 15.97 GB のデプロイメントペイロードが必要です。ただし、実行時にはプロンプトエンコーディング後にテキストエンコーダーがオフロードされるため、平均メモリ使用量は総ペイロードよりも小さくなります。512x512 の画像を生成する場合、バイナリモデルとテンナリーモデルの平均アクティブメモリはそれぞれ 1.5 GB と 1.96 GB であり、元の FLUX.2 Klein 4B の 11.74 GB（それぞれ 7.8 倍および 6.0 倍の削減）と比較されます。1024x1024 の画像の場合、バイナリモデルとテンナリーモデルの平均アクティブメモリはそれぞれ 1.95 GB と 2.38 GB であり、元の FLUX.2 Klein 4B の 14.39 GB（それぞれ 7.4 倍および 6.0 倍の削減）と比較されます。 このメモリフットプリントの削減により、モデルを実行できる場所が変わります。私たちのデプロイメントスタックは、Apple Silicon 搭載の iPhone、iPad、Mac および CUDA GPU をサポートしており、Apple ハードウェアでは MLX の低ビットパスを、CUDA では Gemlite の低ビット GEMM カーネルを使用しています。iPhone 17 Pro Max では、フル精度の FLUX.2 Klein 4B パイプラインはデバイスのメモリ予算内に収まりませんが、両方の Bonsai Image バリアントはオンデバイスで実行可能です。 **動画 I: Bonsai Studio での画像生成 実際には、Bonsai Image 4B は iPhone 17 Pro Max で 512x512 の画像を 9.4 秒で生成し、Mac M4 Pro では約 6 秒です。Mac M4 Pro において、Bonsai Image 4B は標準のフル精度 MFLUX パイプラインよりも最大 5.6 倍高速です。 ## ベンチマーク性能の評価 モデルが有用でなければ、圧縮は意味を持ちません。私たちは Bonsai Image 4B を 3 つの補完的なベンチマークで評価しました：オブジェクト構成と属性バインディングのための GenEval**、人間の好みと美的品質のための **HPSv3**、そして詳細なプロンプト追従性とセマンティック忠実度のための **DPG-Bench** です。 ![image](https://cdn.prod.website-files.com/699604cc2b9dd89bdbda0608/6a15cc983b75e88cb7a12fac_comparison_grid_horizontal_v3%20(1).png) Bonsai Image と FLUX.2 Klein 4B モデル間の定性的比較。 Model Diffusion**Transformer Footprint (GB) GenEval HPSv3 DPG-Bench Size reduction relative to FLUX.2 Klein 4B Performance relative to FLUX.2 Klein 4B 1-bit Bonsai Image 4B 0.93 0.671 11.15 0.822 8.3x 88% Ternary Bonsai Image 4B 1.21 0.723 12.22 0.851 6.4x 95% FLUX.2 Klein 4B 7.75 0.819 12.84 0.853 1x 100% SDXL 5.14 0.3 10.05 0.74 1.5x 67% BK-SDM-Small 0.98 0.297 3.05 0.559 7.9x 42% Stable Diffusion 1.5 1.72 0.396 4.2 0.601 4.5x 51% PixArt-Σ XL 2 1.2 0.541 11.93 0.769 6.4x 83% Table II:** Image quality benchmark comparison across Ternary Bonsai Image 4B and other models. Ternary Bonsai Image 4B は品質指向のバリアントです。1.21 GB というサイズでありながら、GenEval、HPSv3、DPG-Bench の各評価において FLUX.2 Klein 4B の精度を 95% 維持しつつ、拡散トランスフォーマー（diffusion transformer）のフットプリントを 6.4 倍削減しています。 1-bit Bonsai Image 4B はフットプリント指向のバリアントです。拡散トランスフォーマーのサイズを 1 GB 未満に抑え、8.3 倍の削減を実現しながらも、前述の 3 つの評価において依然として強力なベンチマークスコアを提供します（FLUX.2 Klein 4B の精度の 88% を維持）。 これら2つのバリアントは、品質とフットプリントの境界線を押し広げます。Bonsai Image は、拡散トランスフォーマーのフットプリントを大幅に削減しながらも、現代の4Bクラス画像モデルと競合する性能を維持しています。同時に、同程度のメモリフットプリントを持つより小さなモデルと比較して、著しく優れたパフォーマンスを発揮します。これは、私たちが以前のBonsai言語モデルで見てきたパレート最適化のシフトと同じです。Bonsai Image は、従来はより小さく能力の低いモデルにしか許容されなかったメモリ範囲に、現代の拡散トランスフォーマーの挙動をもたらします。 ## なぜこれが重要なのか 画像生成は単なるモデル品質の問題ではありません。それはデプロイメント（展開）の問題でもあります。 クラウドAPIは多くの製品にとって依然として適切な選択肢であり続けます。しかし、クラウドのみでの生成には特定の製品制約を課します：すべてのプロンプトがリモートリクエストとなり、すべての反復処理に追加のサービングコストが発生し、すべての対話に往復遅延が生じます。 これは重要です。なぜなら画像生成は本質的に反復的なプロセスだからです。ユーザーは1枚の画像で満足することはめったになく、プロンプトを修正し、出力を比較し、バリエーションを生成し、失敗したものを破棄して再挑戦します。各試行がサーバー側のジョブである場合、創造的なループはユーザーが制限や待機を余儀なくされるものになってしまいます。 ローカル推論はこの状況を変えます。モデルがデバイス上に収容可能になれば、生成プロセスを製品体験の内部に直接配置できます。実行コストが低くなり、反復処理が高速化され、プロンプトや生成されたアセットをプライベートに保つ必要がある環境での利用も容易になります。 Bonsai Image 4B は、その展開体制への一歩です。ユーザーに近い場所で、彼らがすでに所有するハードウェア上で動作可能な画像生成を実現します。 ![image](https://cdn.prod.website-files.com/699604cc2b9dd89bdbda0608/6a15cd893a2c1d8354bece26_76e69dcd.png) Ternary Bonsai Image 4B から生成された画像 ## 利用について 1-bit および Ternary Bonsai Image 4B は、**Apache 2.0 ライセンス**の下でオープンウェイトとコードとともに公開されます。 今回の発表に伴い、iPhone で直接 Bonsai Image 4B を試せる iOS アプリ「Bonsai Studio」も同時にリリースします。 ## ご参加ください PrismML はカリフォルニア工科大学（Caltech）の研究者チームから派生し、Khosla Ventures、Cerberus、Google の支援を受けて設立されました。私たちは長年にわたり、推論能力を損なうことなくニューラルネットワークを圧縮するという分野における最も困難な課題の一つに取り組んできました。 次世代の最先端 AI を構築するお手伝いをしたいとお考えの方は、ぜひご連絡ください。私たちの[採用ページ](https://prismml.com/careers)をご覧ください。 ## リソース - ホワイトペーパー - Hugging Face - WebGPU デモ - iPhone 用 Bonsai Studio - GitHub

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト