Ideogram 4 (GitHub Repo)｜Ideogram 4（GitHub リポジトリ） | AIニュース最前線

*Ideogram 4：デザインの最前線にあるオープン画像モデル* Ideogram 4 は、**[Ideogram](https://ideogram.ai/)** が初めて公開した重み付きテキストから画像生成モデルです。これは既存のモデルを微調整したものではなく、ゼロから訓練された**最先端の基盤モデル**です。新しい構造化 JSON プロンプトインターフェースを導入し、最高クラスの多言語テキストレンダリング、深い言語理解、明示的なバウンディングボックスレイアウトとカラーパレット制御、ネイティブ 2K レゾリューション画像生成を実現しています。このモデルを試す最も簡単な方法は、オンラインで **[ideogram.ai](https://ideogram.ai/)** を利用することです。 私たちはオープン性がイノベーションを推進すると信じており、視覚知能の最前線において研究コミュニティと共に革新を起こすことを歓迎します。 ## 目次 - ニュース - モデルズー - パフォーマンス - クイックスタート - モデル概要 - プロンプトガイド - ドキュメンテーション - 引用 ## ニュース - [2026-06-03] Ideogram 4 をリリース！推論コードと重みが公開され、技術ブログ記事も掲載されました。最初の画像を生成するには「クイックスタート」セクションをご覧ください。または、ideogram.ai でオンラインモデルを試すことができます。 ## モデルズー モデル パラメータ数 重み量子化 対応ハードウェア Diffusers サポート ライセンス **[Ideogram 4 (nf4)](https://huggingface.co/ideogram-ai/ideogram-4-nf4)** 9.3B nf4 CUDA Yes [Ideogram 4 Non-Commercial](https://github.com/ideogram-oss/ideogram4/blob/main/model_licenses/LICENSE-IDEOGRAM-4-NON-COMMERCIAL) **[Ideogram 4 (fp8)](https://huggingface.co/ideogram-ai/ideogram-4-fp8)** 9.3B fp8 All No [Ideogram 4 Non-Commercial](https://github.com/ideogram-oss/ideogram4/blob/main/model_licenses/LICENSE-IDEOGRAM-4-NON-COMMERCIAL) 将来的には、より多くの量子化（quantization）に対応する予定です。 ## パフォーマンス Ideogram 4 を、サードパーティの環境およびベンチマーク、標準的なオープンソースベンチマーク、そして自社で実施した人間による選好度評価ベンチマークのすべてにおいて評価しました。その結果、**Ideogram 4 は現在までに最も優れたオープンウェイト画像生成モデルであり、デザインの最前線に位置しています。** ## デザインエリート [Design Arena](https://www.designarena.ai/) は、デザイン指向の生成に特化したサードパーティによる画像 Elo リーダーボードです。総合ランキングにおいて、Ideogram 4 はトップランクのオープンウェイトモデルであり、 proprietary（独自開発）である GPT や Gemini モデルに次ぐ位置にあります： オープンウェイトモデルのみをフィルタリングした場合、Ideogram 4 は圧倒的な差で首位に立ち、次点のオープンモデルを大きく引き離しています： ## ContraLabs [ContraLabs](https://contralabs.com/research) は、Contra の最高収益を生む人材から選ばれた 10 名の専門デザイナーが審査を行う盲検タイポグラフィ評価を実施しました。Ideogram 4 は首位獲得率でリードしており、4 つのモデルの中で最も優れていると選出された割合は全体で 47.9% です。これは、Gemini 3.1 Flash Image Preview (Nano Banana 2) の 30.0%、FLUX.2 [max] の 15.5%、Grok Imagine 1.0 の 15.0% を大きく上回る結果です： 実用性においても優れています：「実際のクライアントワークで使用しますか？」と問われた際、同じデザイナーたちが Ideogram 4 を最高評価の 3.55 / 5 と評価しました。これは Nano Banana 2 (2.84)、Grok Imagine 1.0 (2.61)、FLUX.2 [max] (2.49) を大きく上回る結果です： ## LMArena [LMArena](https://lmarena.ai/) は、汎用テキストから画像への生成ユースケースを測定するサードパーティのリーダーボードですが、ここでは Ideogram がオープンウェイトモデルの中で最高ランクに位置し、全体でもトップ 5 の画像生成モデルとなっています。これは予算やリソースが圧倒的に大きい巨大企業製モデルにのみ抜かれている状態です： ## Ideogram 内部評価 グラフィックデザインと写真撮影に焦点を当てた、当社の内部的な人間による選好度ベンチマークでは、プロのデザイン業務に深く精通したグラフィックデザイナーが盲検で評価を行いました。Bradley-Terry スコアによると、Ideogram 4 は全体で 2 位（GPT Image 2 medium に次ぐ）、オープンウェイトモデルとしては最高ランクとなりました： ## オープンソースベンチマーク レイアウト制御 (7Bench)、空間推論と物体の忠実度 (SpatialGenEval)、テキストレンダリング (X-Omni OCR)、プロンプト整合性 (Prism) を測定する標準的なオープンソースベンチマークにおいて、Ideogram 4 はあらゆる軸で主要なクローズドソースモデルとの差を縮めています。特にレイアウト制御 (7Bench) では、すべてのクローズドソースモデルよりも大幅に優れています： 9.3B パラメータという規模でありながら、Ideogram 4 はベンチマークしたオープンウェイトリリースの中で最高のテキストレンダリング性能を提供します。これは Qwen-Image (20B)、FLUX.2 [dev] (32B)、HunyuanImage 3.0 (80B MoE) といったはるかに大規模なモデルよりも上回っています： ## クイックスタート ## インストール pip install . コードを修正する予定の場合は、再インストールせずに src/ideogram4 配下の修正が反映されるよう、編集可能モードでインストールしてください: pip install -e . ## モデルへのアクセス モデルの重みは Hugging Face で**ゲート**（制限）されているため、コードがダウンロードを実行する前に、そのゲートを承認し認証を行う必要があります。これを行わないと、404 エラーまたは GatedRepoError が発生してダウンロードに失敗します。 - モデルページを開き — ideogram-ai/ideogram-4-nf4（または ideogram-ai/ideogram-4-fp8）— で「Agree and access repository」をクリックして、ライセンスのゲートを承認してください。 - huggingface.co/settings/tokens で Hugging Face のアクセストークンを作成し、ログインしてダウンロードを認証可能にします: hf auth login または、トークンを直接エクスポートすることもできます: export HF_TOKEN="hf_...". ## コマンドラインインターフェース (CLI) 単純な --prompt 引数は、「マジックプロンプト」LLM によって、モデルが期待する構造化された JSON キャプションに書き換えられます。デフォルトでは Ideogram がホストする magic-prompt API を使用しますが、これは**無料**であり、サーバー側で拡張処理を行います（ローカルでのモデルやシステムプロンプトは不要です）。IDEOGRAM_API_KEY を読み込みます — キーは [https://ideogram.ai/api/learn/](https://ideogram.ai/api/learn/) で取得してください: python run_inference.py \ --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \ --output out.png \ --quantization "nf4" \ --magic-prompt-key "$IDEOGRAM_API_KEY" また、拡張処理は独自の LLM プロバイダーを通じて実行することも可能です。当社のマジックプロンプトシステムプロンプトの 1 つは**オープンソース**です。詳細については、[Prompting Guide](https://github.com/ideogram-oss/ideogram4/blob/main/docs/prompting.md#magic-prompt) をご覧ください。 最高品質の画像を生成するには、`--height 2048 --width 2048` および `--sampler-preset V4_QUALITY_48` を設定してください。 ## Hive による安全性スクリーニング プロンプトと出力の安全性スクリーニングは [Hive](https://thehive.ai/) を経由で行われます。サインアップして、テキストモデレーションキーとビジュアルコンテンツモデレーションキーを作成し、それぞれ `HIVE_TEXT_MODERATION_KEY` および `HIVE_VISUAL_MODERATION_KEY` としてエクスポートするか（または `--hive-text-key` / `--hive-visual-key` を経由で渡してください）。 ```python run_inference.py \ --prompt "an isometric illustration of a tiny city floating in the clouds" \ --output out.png \ --quantization "nf4" \ --magic-prompt-key "$MAGIC_PROMPT_API_KEY" \ --hive-text-key "$HIVE_TEXT_MODERATION_KEY" \ --hive-visual-key "$HIVE_VISUAL_MODERATION_KEY" ``` サンプラープリセット、パラメータリファレンス、および最適化のヒントについては、[docs/inference.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/inference.md) を参照してください。 ## モデル概要 Ideogram 4 は**既存のチェックポイントからの微調整や蒸留ではなく、ゼロから完全にトレーニングされたファウンデーションモデル**です。これは、**完全なシングルストリーム** Diffusion Transformer (DiT) アーキテクチャ（拡散トランスフォーマー）に基づいて構築されたフローマッチングテキスト画像生成モデルです。 **アーキテクチャ:** - Fully single-stream DiT。テキストと画像のトークンは結合されて一つの統合されたシーケンスとなり、34 層のトランスフォーマーを同じ経路で処理されます。個別のテキストまたは画像ブランチは存在せず、これにより各層において深いクロスモーダル相互作用が可能になります。 - ビジョンランゲージモデルをテキストエンコーダーとして採用。CLIP や T5 のようなテキスト専用エンコーダーではなく、Ideogram 4 では Qwen3-VL-8B-Instruct という完全なビジョンランゲージモデルを使用し、視覚的概念に対するはるかに豊かな理解を提供します。13 層の中間層から隠れ状態を抽出して結合することで、表面レベルのトークン情報から深い構成的理解に至るまで、マルチスケールのセマンティック特徴をモデルに付与しています。 - ダブルブランチ分類器フリーガイダンス。条件付き（ポジティブ）と非条件付き（ネガティブ）のブランチは独立して微調整が可能であり、プロンプトへの忠実度と画像品質をそれぞれ個別に制御できます。 - フレキシブルな解像度。256 から 2048 までの任意の解像度（16 の倍数）をネイティブサポートし、アスペクト比は最大 6:1 まで対応。単一のモデルが正方形のサムネイルから超ワイドバナーまですべて処理し、ノイズスケジュールは解像度ごとに自動調整されます。 **主要機能:** - 極度の制御性。Ideogram 4 は構造化された JSON キャプションで訓練されており、ユーザーは単一のプロンプトから、構成、スタイル、照明、カラーパレット、タイポグラフィ、空間レイアウトに至るまで、前例のない制御力を発揮できます。 - 最先端のテキストレンダリング。Ideogram 4 は、プロンプトから直接高忠実度で画像内テキスト生成（看板、ロゴ、キャプション、透かし、複数行テキスト）を実現し、業界最高水準の性能を提供します。 - 空間レイアウト制御。プロンプト内のバウンディングボックス座標を使用することで、被写体、テキスト要素、背景領域を明示的に配置できます。 - カラーパレット条件付け。プロンプト内で HEX コードを指定することで、画像の支配的な色cheme を制御できます。 完全なアーキテクチャの詳細については、[docs/model_architecture.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/model_architecture.md) をご覧ください。パイプラインコンポーネントがどのように連携するかの手順については、[docs/pipeline.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/pipeline.md) を参照してください。 ## プロンプトガイド Ideogram 4 は**構造化された JSON キャプション**のみでトレーニングされています。プレーンテキストのプロンプトも動作しますが、キャプションスキーマに従った JSON オブジェクトを提供することで、最良の結果が得られます。 主要ポイント: - 最大限の制御性を求める場合は JSON プロンプトを使用してください。モデルはこれらでトレーニングされており、構造をネイティブに理解しています。 - カラーパレット条件付け — スタイル記述内に HEX コードの配列 `colour_palette` を指定して、画像の色scheme を制御します。 - アスペクト比の柔軟性 — Ideogram 4 は幅広いアスペクト比をサポートしています（各辺で 256 から 2048 の範囲における 16 の倍数解像度）。これはポートレート、風景、バナー、携帯電話の壁紙、ソーシャルメディアフォーマットなど、実用的な用途において重要な利点です。 - Bounding-box layout — specify bbox coordinates in the prompt to explicitly place subjects, text elements, and background regions. - Compositional control — use compositional_deconstruction with bounding boxes and per-element descriptions for precise spatial layout. **Why JSON-only training?** We train exclusively on JSON so that training and inference share a single, common prompt format. The training captions themselves are deliberately **extremely descriptive**: each JSON exhaustively describes everything in the image to maximize training efficiency. The more text-to-image relationships each caption pins down, the more grounded supervision the model extracts from a single training pair, rather than having to infer those relationships across many sparsely-captioned samples. **Why JSON at inference time?** Because the model was trained on captions that name every object explicitly, the most reliable way to get every requested object rendered is to mirror that pattern. Plain-text prompts still work, but won't perform as well since the model was only trained on structured JSON captions. **Don't want to write JSON by hand?** That's what *magic prompt* is for: it uses an LLM to expand a plain-text prompt into a full structured caption before generation, so you get JSON-quality results from a casual prompt. It runs by default in run_inference.py (see the [CLI](#cli) section). 完全なガイドについては、[docs/prompting.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/prompting.md) をご覧ください。 ## ドキュメンテーション ドキュメント 説明 [docs/prompting.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/prompting.md) JSON プロンプトの作成方法、カラーパレット条件付け、アスペクト比について [docs/inference.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/inference.md) サンプラープリセット、パラメータリファレンス、解像度、最適化のヒント [docs/model_architecture.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/model_architecture.md) アーキテクチャ図、DiT 仕様（Diffusion Transformer）、コンポーネントの詳細 [docs/pipeline.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/pipeline.md) 概念的なパイプラインの解説 — すべてのコンポーネントがどのように連携するか [docs/development.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/development.md) 開発環境セットアップ、pre-commit フック、コントリビューションガイド [docs/safety.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/safety.md) 事前トレーニング、事後トレーニング、推論時の安全性対策；違反報告の方法 ## 引用 提供されたコードやモデルが研究に役立つと思われる場合は、以下のように引用してください： @misc{ideogram-4-2026, author={Ideogram AI}, title={{Ideogram 4}}, year={2026}, howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}}, } ## 採用情報 次世代の生成モデルおよびそれらの上に構築された製品に取り組むための**研究科学者**と**研究エンジニア**を募集しています。興味のある方は、[https://jobs.ashbyhq.com/ideogram](https://jobs.ashbyhq.com/ideogram) より応募してください

Ideogram 4（GitHub リポジトリ）

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト