AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月1日 09:00·約9分で読める

ローカルデバイス向け画像生成モデル「Bonsai Image 4B」の紹介:1 ビットおよび三元表現版を公開

#Image Generation#Model Compression#Edge AI#Mobile Inference#Open Weights
TL;DR

Bonsai Image 4B は、1 ビットおよびテンナリ形式の重み圧縮技術により、iPhone やラップトップなどのローカル端末で高品質な画像生成を可能にする画期的なモデルである。

AI深層分析2026年6月2日 23:06
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
5
革新性10%
4

キーポイント

1

極限の軽量化と実用化

1 ビット(有効 1.125 ビット)およびテンナリ(有効 1.71 ビット)形式の重みを用いることで、FLUX.2 Klein 4B の拡散トランスフォーマーサイズを約 8.3 倍に圧縮し、0.93GB で動作可能にした。

2

ローカルデバイスでの完全実行

メモリ制約の厳しいスマートフォンやラップトップでも直接推論が可能となり、特に iPhone 上で動作する初の画像生成モデルとして実証された。

3

品質と圧縮の両立

テンナリ版はゼロ状態(0)を追加することで表現力を高め、1 ビット版よりも視覚的品質やプロンプト忠実度が向上しつつも極めてコンパクトに保たれている。

4

オープンウェイトの展開

高品質な出力とオープンウェイトを組み合わせることで、従来は不可能だったクラスモデルのローカル推論という新たなデプロイメント体制を確立した。

影響分析・編集コメントを表示

影響分析

この発表は、生成 AI のインフラ構造に大きな転換点をもたらします。これまでクラウド依存が前提だった高品質画像生成を、プライバシー保護や低遅延が求められるローカル環境へ完全に移行させる可能性を開きました。特にモバイルデバイスでの実用化は、エッジ AI の普及と、ユーザーデータのローカル処理によるセキュリティ向上に大きく寄与するでしょう。

編集コメント

「AI をクラウドから端末へ」という長年の課題に対し、重み圧縮技術の飛躍的な進歩によって具体的な解決策を示した画期的なニュースです。開発者にとっては、ローカル環境でのプロトタイピングやプライバシー重視のアプリケーション構築が容易になるため、非常に注目すべき進展と言えます。

image
image

Ternary Bonsai Image 4B から生成された画像今日、Bonsai Image 4B をリリースします。これは、ノートパソコンからスマートフォンまで、ローカルハードウェア上で高品質な拡散推論(diffusion inference)を実行するために設計されたコンパクトな画像生成モデルのファミリーです。

Bonsai Image 4B は 2 つの変種で提供されます:

  • 1-bit Bonsai Image 4B は、バイナリ {−1, +1} のトランスフォーマー重み(transformer weights)と FP16 グループごとのスケーリング係数を使用し、重みあたり有効 1.125 ビットを実現します。これは最大限の圧縮を目的としており、メモリ負荷、帯域幅、およびデプロイメントフットプリントが主要な制約となる場合に最適な選択肢です。
  • Ternary Bonsai Image 4B は、{−1, 0, +1} のトランスフォーマー重みと FP16 グループごとのスケーリング係数を使用し、重みあたり有効 1.71 ビットを実現します。追加されたゼロ状態により、モデルはより表現的な柔軟性を獲得し、視覚品質とプロンプトの忠実度を向上させながら、極めてコンパクトなままです。

その結果、画像生成における新たなデプロイメント体制が実現しました:高品質な出力、オープンウェイト(open weights)、そしてこれまでこのクラスのモデルには手が届かなかったデバイス上での実用的なローカル推論です。私たちの知る限り、Bonsai Image 4B は、iPhone で直接実行可能なパラメータクラス初の画像モデルです。

ローカル生成のために設計された

image
image

1-bit Bonsai Image 4B から生成された画像

ローカルでの画像生成は、モデルをデバイスのメモリ予算内に収めるという厳しい制約から始まります。

4B クラスの画像モデルにおいて、拡散トランスフォーマーはモデルの中で最も大きな部分を占め、生成プロセスで繰り返し実行される部分です。各ノイズ除去ステップでトランスフォーマーが再度呼び出されるため、トランスフォーマーのサイズが直接メモリ負荷、帯域幅需要、およびローカル推論速度を決定します。

Bonsai Image 4B は FLUX.2 Klein 4B を基に構築されています。アーキテクチャはそのまま維持しつつ、トランスフォーマー重みの表現方法を変更しています。これらの重みをバイナリ形式とテルナリ(3値)形式に変換することで、ローカル展開において最も重要な画像パイプラインの一部を削減します。

Model

Diffusion Transformer

Reduction vs FP16

FLUX.2 Klein 4B

7.75 GB

1.0x

1-bit Bonsai Image 4B

0.93 GB

8.3x

Ternary Bonsai Image 4B

1.21 GB

6.4x

Table I: Diffusion transformer footprint for models.

バイナリ層は、完全精度のトランスフォーマー重みと比較して約 14 倍の削減を実現します。精度に敏感な少数のサポートテンソル(約 5%)である投影層(projection layers)のみが FP16 で残され、最終的な 1-bit Bonsai Image 4B トランスフォーマーは 0.93 GB となります。これは完全精度の FLUX.2 Klein 4B の 7.75 GB から 8.3 倍の削減です。

テンナリー変種も同様の構造に従います。そのテンナリー層は約 10 倍の削減を実現し、最終的な Ternary Bonsai Image 4B トランスフォーマーは1.21 GBとなり、フル精度トランスフォーマーと比較して 6.4 倍の削減となります。これは 1 ビットモデルよりわずかに大きいですが、追加されたゼロ状態により視覚品質とプロンプト忠実度が向上します。

圧縮テキストエンコーダーと FP16 VAE を含めると、Apple Silicon でのデプロイメントペイロードは、1-bit Bonsai Image 4B で 3.42 GB、Ternary Bonsai Image 4B で 3.88 GB です。比較のため、フル精度の FLUX.2 Klein 4B では 15.97 GB のデプロイメントペイロードが必要です。ただし、実行時にはプロンプトエンコーディング後にテキストエンコーダーがオフロードされるため、平均メモリ使用量は総ペイロードよりも小さくなります。512x512 の画像を生成する場合、バイナリモデルとテンナリーモデルの平均アクティブメモリはそれぞれ 1.5 GB と 1.96 GB であり、元の FLUX.2 Klein 4B の 11.74 GB(それぞれ 7.8 倍および 6.0 倍の削減)と比較されます。1024x1024 の画像の場合、バイナリモデルとテンナリーモデルの平均アクティブメモリはそれぞれ 1.95 GB と 2.38 GB であり、元の FLUX.2 Klein 4B の 14.39 GB(それぞれ 7.4 倍および 6.0 倍の削減)と比較されます。

このメモリフットプリントの削減により、モデルを実行できる場所が変わります。私たちのデプロイメントスタックは、Apple Silicon 搭載の iPhone、iPad、Mac および CUDA GPU をサポートしており、Apple ハードウェアでは MLX の低ビットパスを、CUDA では Gemlite の低ビット GEMM カーネルを使用しています。iPhone 17 Pro Max では、フル精度の FLUX.2 Klein 4B パイプラインはデバイスのメモリ予算内に収まりませんが、両方の Bonsai Image バリアントはオンデバイスで実行可能です。

**動画 I: Bonsai Studio での画像生成

実際には、Bonsai Image 4B は iPhone 17 Pro Max で 512x512 の画像を 9.4 秒で生成し、Mac M4 Pro では約 6 秒です。Mac M4 Pro において、Bonsai Image 4B は標準のフル精度 MFLUX パイプラインよりも最大 5.6 倍高速です。

ベンチマーク性能の評価

モデルが有用でなければ、圧縮は意味を持ちません。私たちは Bonsai Image 4B を 3 つの補完的なベンチマークで評価しました:オブジェクト構成と属性バインディングのための GenEval、人間の好みと美的品質のための HPSv3、そして詳細なプロンプト追従性とセマンティック忠実度のための DPG-Bench** です。

imageimage.png)

Bonsai Image と FLUX.2 Klein 4B モデル間の定性的比較。

Model

Diffusion**Transformer

Footprint (GB)

GenEval

HPSv3

DPG-Bench

Size reduction

relative to

FLUX.2 Klein 4B

Performance

relative to

FLUX.2 Klein 4B

1-bit Bonsai Image 4B

0.93

0.671

11.15

0.822

8.3x

88%

Ternary Bonsai Image 4B

1.21

0.723

12.22

0.851

6.4x

95%

FLUX.2 Klein 4B

7.75

0.819

12.84

0.853

1x

100%

SDXL

5.14

0.3

10.05

0.74

1.5x

67%

BK-SDM-Small

0.98

0.297

3.05

0.559

7.9x

42%

Stable Diffusion 1.5

1.72

0.396

4.2

0.601

4.5x

51%

PixArt-Σ XL 2

1.2

0.541

11.93

0.769

6.4x

83%

Table II:** Image quality benchmark comparison across Ternary Bonsai Image 4B and other models.

Ternary Bonsai Image 4B は品質指向のバリアントです。1.21 GB というサイズでありながら、GenEval、HPSv3、DPG-Bench の各評価において FLUX.2 Klein 4B の精度を 95% 維持しつつ、拡散トランスフォーマー(diffusion transformer)のフットプリントを 6.4 倍削減しています。

1-bit Bonsai Image 4B はフットプリント指向のバリアントです。拡散トランスフォーマーのサイズを 1 GB 未満に抑え、8.3 倍の削減を実現しながらも、前述の 3 つの評価において依然として強力なベンチマークスコアを提供します(FLUX.2 Klein 4B の精度の 88% を維持)。

これら2つのバリアントは、品質とフットプリントの境界線を押し広げます。Bonsai Image は、拡散トランスフォーマーのフットプリントを大幅に削減しながらも、現代の4Bクラス画像モデルと競合する性能を維持しています。同時に、同程度のメモリフットプリントを持つより小さなモデルと比較して、著しく優れたパフォーマンスを発揮します。これは、私たちが以前のBonsai言語モデルで見てきたパレート最適化のシフトと同じです。Bonsai Image は、従来はより小さく能力の低いモデルにしか許容されなかったメモリ範囲に、現代の拡散トランスフォーマーの挙動をもたらします。

なぜこれが重要なのか

画像生成は単なるモデル品質の問題ではありません。それはデプロイメント(展開)の問題でもあります。

クラウドAPIは多くの製品にとって依然として適切な選択肢であり続けます。しかし、クラウドのみでの生成には特定の製品制約を課します:すべてのプロンプトがリモートリクエストとなり、すべての反復処理に追加のサービングコストが発生し、すべての対話に往復遅延が生じます。

これは重要です。なぜなら画像生成は本質的に反復的なプロセスだからです。ユーザーは1枚の画像で満足することはめったになく、プロンプトを修正し、出力を比較し、バリエーションを生成し、失敗したものを破棄して再挑戦します。各試行がサーバー側のジョブである場合、創造的なループはユーザーが制限や待機を余儀なくされるものになってしまいます。

ローカル推論はこの状況を変えます。モデルがデバイス上に収容可能になれば、生成プロセスを製品体験の内部に直接配置できます。実行コストが低くなり、反復処理が高速化され、プロンプトや生成されたアセットをプライベートに保つ必要がある環境での利用も容易になります。

Bonsai Image 4B は、その展開体制への一歩です。ユーザーに近い場所で、彼らがすでに所有するハードウェア上で動作可能な画像生成を実現します。

image
image

Ternary Bonsai Image 4B から生成された画像

利用について

1-bit および Ternary Bonsai Image 4B は、Apache 2.0 ライセンスの下でオープンウェイトとコードとともに公開されます。

今回の発表に伴い、iPhone で直接 Bonsai Image 4B を試せる iOS アプリ「Bonsai Studio」も同時にリリースします。

ご参加ください

PrismML はカリフォルニア工科大学(Caltech)の研究者チームから派生し、Khosla Ventures、Cerberus、Google の支援を受けて設立されました。私たちは長年にわたり、推論能力を損なうことなくニューラルネットワークを圧縮するという分野における最も困難な課題の一つに取り組んできました。

次世代の最先端 AI を構築するお手伝いをしたいとお考えの方は、ぜひご連絡ください。私たちの採用ページをご覧ください。

リソース

  • ホワイトペーパー
  • Hugging Face
  • WebGPU デモ
  • iPhone 用 Bonsai Studio
  • GitHub
原文を表示
Images generated from Ternary Bonsai Image 4B
Images generated from Ternary Bonsai Image 4B

Today we’re releasing Bonsai Image 4B, a family of compact image-generation models designed to run high-quality diffusion inference on local hardware: from laptops to phones.

Bonsai Image 4B comes in two variants:

  • 1-bit Bonsai Image 4B uses binary {−1, +1} transformer weights with an FP16 group-wise scaling factor, giving 1.125 effective bits per weight. It targets maximum compression and is the right fit when memory pressure, bandwidth, and the deployment footprint are the primary constraints.
  • Ternary Bonsai Image 4B uses {−1, 0, +1} transformer weights with an FP16 group-wise scaling factor, giving 1.71 effective bits per weight. The additional zero state gives the model more representational flexibility, improving visual quality and prompt fidelity while remaining extremely compact.

The result is a new deployment regime for image generation: capable outputs, open weights, and practical local inference on devices that were previously out of reach for this class of model. To our knowledge, Bonsai Image 4B is the first image model in its parameter class to run directly on an iPhone.

Built for local generation

Images generated from 1-bit Bonsai Image 4B
Images generated from 1-bit Bonsai Image 4B

Local image generation starts with a hard constraint: the model has to fit within the device’s memory budget.

For a 4B-class image model, the diffusion transformer is the largest part of the model and the part that runs repeatedly during generation. Each denoising step invokes the transformer again, so transformer size directly shapes memory pressure, bandwidth demand, and local inference speed.

Bonsai Image 4B is built from the FLUX.2 Klein 4B. It keeps the architecture intact but changes how the transformer weights are represented. By moving those weights into binary and ternary form, Bonsai reduces the part of the image pipeline that matters most for local deployment.

Model

Diffusion Transformer

Reduction vs FP16

FLUX.2 Klein 4B

7.75 GB

1.0x

1-bit Bonsai Image 4B

0.93 GB

8.3x

Ternary Bonsai Image 4B

1.21 GB

6.4x

Table I: Diffusion transformer footprint for models.

The binary layers provide roughly a 14x reduction relative to full-precision transformer weights. A small set of precision-sensitive supporting tensors (~5%), called the projection layers, remains in FP16 so the final 1-bit Bonsai Image 4B transformer is 0.93 GB: an 8.3x reduction from the 7.75 GB full-precision FLUX.2 Klein 4B.

The ternary variant follows the same structure. Its ternary layers provide roughly a 10x reduction and the final Ternary Bonsai Image 4B transformer is 1.21 GB, a 6.4x reduction from the full-precision transformer. It is slightly larger than the 1-bit model, but the additional zero state improves visual quality and prompt fidelity.

Including the compressed text encoder and FP16 VAE, the Apple Silicon deployment payload is 3.42 GB for 1-bit Bonsai Image 4B and 3.88 GB for Ternary Bonsai Image 4B. For comparison, the full precision FLUX.2 Klein 4B requires a deployment payload of 15.97 GB. Since, at runtime, the text encoder is offloaded after prompt encoding, the mean memory usage is smaller than the total payload. When generating a 512x512 image, the mean-active memory is 1.5 GB and 1.96 GB, for the binary and ternary models, compared to 11.74 GB for the original FLUX.2 Klein 4B (a reduction of 7.8x and 6.0x, respectively). For a 1024x1024 image, the mean-active memory is 1.95 GB and 2.38 GB, for the binary and ternary models, compared to 14.39 GB for the original FLUX.2 Klein 4B (a reduction of 7.4x and 6.0x, respectively).

This reduction in memory footprint changes where the model can run. Our deployment stack supports Apple Silicon iPhones, iPads and Macs and CUDA GPUs, using MLX low-bit paths on Apple hardware and Gemlite low-bit GEMM kernels on CUDA. On iPhone 17 Pro Max, the full-precision FLUX.2 Klein 4B pipeline does not fit within the device memory budget, while both Bonsai Image variants run on-device.

Video I: Image generation on Bonsai Studio

In practice, Bonsai Image 4B generates a 512x512 image in 9.4 seconds on an iPhone 17 Pro Max and about 6 seconds on Mac M4 Pro. On Mac M4 Pro, Bonsai Image 4B is up to 5.6x faster than the stock full-precision MFLUX pipeline.**

Benchmarking performance

Compression only matters if the model remains useful. We evaluated Bonsai Image 4B across three complementary benchmarks: GenEval for object composition and attribute binding; HPSv3 human preference and aesthetic quality; DPG-Bench** dense prompt following and semantic faithfulness.

Qualitative comparison across Bonsai Image and FLUX.2 Klein 4B models.Qualitative comparison across Bonsai Image and FLUX.2 Klein 4B models..png)

Model

Diffusion**Transformer

Footprint (GB)

GenEval

HPSv3

DPG-Bench

Size reduction

relative to

FLUX.2 Klein 4B

Performance

relative to

FLUX.2 Klein 4B

1-bit Bonsai Image 4B

0.93

0.671

11.15

0.822

8.3x

88%

Ternary Bonsai Image 4B

1.21

0.723

12.22

0.851

6.4x

95%

FLUX.2 Klein 4B

7.75

0.819

12.84

0.853

1x

100%

SDXL

5.14

0.3

10.05

0.74

1.5x

67%

BK-SDM-Small

0.98

0.297

3.05

0.559

7.9x

42%

Stable Diffusion 1.5

1.72

0.396

4.2

0.601

4.5x

51%

PixArt-Σ XL 2

1.2

0.541

11.93

0.769

6.4x

83%

Table II: Image quality benchmark comparison across Ternary Bonsai Image 4B and other models.

Ternary Bonsai Image 4B is the quality-oriented variant. At 1.21 GB, it retains 95% of the FLUX.2 Klein 4B accuracy across GenEval, HPSv3, and DPG-Bench, while reducing the diffusion transformer footprint by 6.4x.

1-bit Bonsai Image 4B is the footprint-oriented variant. It brings the diffusion transformer below 1 GB, an 8.3x reduction, while still delivering strong benchmark scores across the same three evaluations (it retains 88% of the accuracy of FLUX.2 Klein 4B).

Together, the two variants move the quality–footprint frontier. Bonsai Image remains competitive with modern 4B-class image models while using a fraction of their diffusion-transformer footprint. At the same time, it substantially outperforms smaller models with similar memory footprints. That is the same Pareto shift we have seen in our prior Bonsai language models. Bonsai Image brings modern diffusion-transformer behavior into a memory range that previously belonged to much smaller, lower-capability models.

Why this is important

Image generation is not only a model-quality problem. It is also a deployment problem.

Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency.

That matters because image generation is naturally iterative. Users rarely stop at one image. They revise prompts, compare outputs, generate variations, discard failures, and try again. When each attempt is a server-side job, the creative loop becomes something users have to meter and wait for.

Local inference changes that. Once the model fits on the device, generation can sit directly inside the product experience. It becomes cheaper to run, faster to iterate on, and easier to use in environments where prompts, and generated assets should remain private.

Bonsai Image 4B is a step toward that deployment regime: capable image generation running closer to the user, on hardware they already own.

Images generated from Ternary Bonsai Image 4B
Images generated from Ternary Bonsai Image 4B

Availability

Both 1-bit and Ternary Bonsai Image 4B will be released with open weights and code under the Apache 2.0 license**.

With this launch, we are also launching Bonsai Studio, its iOS app for trying Bonsai Image 4B directly on iPhone.

Join Us

PrismML emerged from a team of Caltech researchers and was founded with support from Khosla Ventures, Cerberus and Google. We’ve spent years tackling one of the field’s hardest problems: compressing neural networks without sacrificing their reasoning ability.

If you want to help build the next generation of state-of-the-art AI, we’d love to hear from you. Check out our careers page.

Resources

  • Whitepaper
  • Hugging Face
  • WebGPU demo
  • Bonsai Studio for iPhone
  • GitHub
この記事をシェア

関連記事

TLDR AI★32026年6月8日 09:00

Gemma 4 QAT モデル:モバイルおよびラップトップの効率化のためのモデル圧縮最適化(4 分読了)

Google は、モバイルやラップトップでの効率を高めるため、量子化学習(QAT)で最適化した Gemma 4 チェックポイントを公開した。この更新により、メモリ要件が大幅に削減されつつもモデルの品質は維持される専用モバイル量子化フォーマットが含まれている。

Latent Space★52026年6月4日 12:24

[AI ニュース] Reve 2 と Ideogram 4:画像生成におけるレイアウト制御の進展

Latent Space は、Reve 2 と Ideogram 4 の同時発表により、画像構成が AGI ハード課題から脱却したと指摘。両社が強力なラベル付けとコードによるレイアウト制御を強化し、特に Ideogram 4.0 がオープンモデルで最高性能となったことを紹介している。

TLDR AI★42026年6月4日 09:00

Ideogram 4(GitHub リポジトリ)

Ideogram が、既存モデルの微調整ではなくゼロから訓練したオープンウェイトテキスト画像生成モデル「Ideogram 4」を公開しました。同社は、構造化 JSON プロンプトインターフェースや多言語テキストレンダリング機能、2K 解像度対応などの新機能を搭載しています。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む