AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月4日 09:00·約13分で読める

Ideogram 4(GitHub リポジトリ)

#Ideogram#Image Generation#Open Source#Typography#Hugging Face
TL;DR

Ideogram がデザイン特化の画像生成モデル「Ideogram 4」をオープンソースとして公開し、テキストレンダリングと高品質なビジュアル生成において新たな基準を示した。

AI深層分析2026年6月5日 19:11
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

オープンソース化による技術民主化

Ideogram 4 のモデル weights とコードが GitHub で完全に公開され、開発者がローカル環境やカスタムワークフローで自由に利用・改変できるようになった。

2

デザイン特化とテキストレンダリングの強化

ロゴ作成、タイポグラフィ、複雑なテキスト配置において従来モデルを凌駕する精度を持ち、クリエイティブ分野での実用性が飛躍的に向上した。

3

多角的なアクセス手段の提供

GitHub でのコード公開に加え、Hugging Face でのモデル配布と公式 API の提供により、開発者からエンドユーザーまで幅広い層が利用可能になった。

影響分析・編集コメントを表示

影響分析

この発表は、高品質な画像生成モデルをクローズドなサービスからオープンソースエコシステムへ移行させる重要な転換点です。特にデザイン分野におけるテキストレンダリング技術の公開は、クリエイティブツール開発者や企業にとってローカルでの高度な画像生成基盤構築を可能にし、業界全体の標準化とイノベーション加速に寄与すると考えられます。

編集コメント

テキスト生成能力に特化した画像モデルがオープンソース化されるのは、クリエイティブ分野における AI ツールの開発者にとって極めて重要なニュースです。クローズドな API に依存せず、自社のワークフローに組み込むことが可能になった点は、実用性の観点から高く評価できます。

*Ideogram 4:デザインの最前線にあるオープン画像モデル*

Ideogram 4 は、Ideogram が初めて公開した重み付きテキストから画像生成モデルです。これは既存のモデルを微調整したものではなく、ゼロから訓練された最先端の基盤モデルです。新しい構造化 JSON プロンプトインターフェースを導入し、最高クラスの多言語テキストレンダリング、深い言語理解、明示的なバウンディングボックスレイアウトとカラーパレット制御、ネイティブ 2K レゾリューション画像生成を実現しています。このモデルを試す最も簡単な方法は、オンラインで ideogram.ai を利用することです。

私たちはオープン性がイノベーションを推進すると信じており、視覚知能の最前線において研究コミュニティと共に革新を起こすことを歓迎します。

目次

  • ニュース
  • モデルズー
  • パフォーマンス
  • クイックスタート
  • モデル概要
  • プロンプトガイド
  • ドキュメンテーション
  • 引用

ニュース

  • [2026-06-03] Ideogram 4 をリリース!推論コードと重みが公開され、技術ブログ記事も掲載されました。最初の画像を生成するには「クイックスタート」セクションをご覧ください。または、ideogram.ai でオンラインモデルを試すことができます。

モデルズー

モデル

パラメータ数

重み量子化

対応ハードウェア

Diffusers サポート

ライセンス

Ideogram 4 (nf4)

9.3B

nf4

CUDA

Yes

Ideogram 4 Non-Commercial

Ideogram 4 (fp8)

9.3B

fp8

All

No

Ideogram 4 Non-Commercial

将来的には、より多くの量子化(quantization)に対応する予定です。

パフォーマンス

Ideogram 4 を、サードパーティの環境およびベンチマーク、標準的なオープンソースベンチマーク、そして自社で実施した人間による選好度評価ベンチマークのすべてにおいて評価しました。その結果、Ideogram 4 は現在までに最も優れたオープンウェイト画像生成モデルであり、デザインの最前線に位置しています。

デザインエリート

Design Arena は、デザイン指向の生成に特化したサードパーティによる画像 Elo リーダーボードです。総合ランキングにおいて、Ideogram 4 はトップランクのオープンウェイトモデルであり、 proprietary(独自開発)である GPT や Gemini モデルに次ぐ位置にあります:

オープンウェイトモデルのみをフィルタリングした場合、Ideogram 4 は圧倒的な差で首位に立ち、次点のオープンモデルを大きく引き離しています:

ContraLabs

ContraLabs は、Contra の最高収益を生む人材から選ばれた 10 名の専門デザイナーが審査を行う盲検タイポグラフィ評価を実施しました。Ideogram 4 は首位獲得率でリードしており、4 つのモデルの中で最も優れていると選出された割合は全体で 47.9% です。これは、Gemini 3.1 Flash Image Preview (Nano Banana 2) の 30.0%、FLUX.2 [max] の 15.5%、Grok Imagine 1.0 の 15.0% を大きく上回る結果です:

実用性においても優れています:「実際のクライアントワークで使用しますか?」と問われた際、同じデザイナーたちが Ideogram 4 を最高評価の 3.55 / 5 と評価しました。これは Nano Banana 2 (2.84)、Grok Imagine 1.0 (2.61)、FLUX.2 [max] (2.49) を大きく上回る結果です:

LMArena

LMArena は、汎用テキストから画像への生成ユースケースを測定するサードパーティのリーダーボードですが、ここでは Ideogram がオープンウェイトモデルの中で最高ランクに位置し、全体でもトップ 5 の画像生成モデルとなっています。これは予算やリソースが圧倒的に大きい巨大企業製モデルにのみ抜かれている状態です:

Ideogram 内部評価

グラフィックデザインと写真撮影に焦点を当てた、当社の内部的な人間による選好度ベンチマークでは、プロのデザイン業務に深く精通したグラフィックデザイナーが盲検で評価を行いました。Bradley-Terry スコアによると、Ideogram 4 は全体で 2 位(GPT Image 2 medium に次ぐ)、オープンウェイトモデルとしては最高ランクとなりました:

オープンソースベンチマーク

レイアウト制御 (7Bench)、空間推論と物体の忠実度 (SpatialGenEval)、テキストレンダリング (X-Omni OCR)、プロンプト整合性 (Prism) を測定する標準的なオープンソースベンチマークにおいて、Ideogram 4 はあらゆる軸で主要なクローズドソースモデルとの差を縮めています。特にレイアウト制御 (7Bench) では、すべてのクローズドソースモデルよりも大幅に優れています:

9.3B パラメータという規模でありながら、Ideogram 4 はベンチマークしたオープンウェイトリリースの中で最高のテキストレンダリング性能を提供します。これは Qwen-Image (20B)、FLUX.2 [dev] (32B)、HunyuanImage 3.0 (80B MoE) といったはるかに大規模なモデルよりも上回っています:

クイックスタート

インストール

pip install .

コードを修正する予定の場合は、再インストールせずに src/ideogram4 配下の修正が反映されるよう、編集可能モードでインストールしてください:

pip install -e .

モデルへのアクセス

モデルの重みは Hugging Face でゲート(制限)されているため、コードがダウンロードを実行する前に、そのゲートを承認し認証を行う必要があります。これを行わないと、404 エラーまたは GatedRepoError が発生してダウンロードに失敗します。

  • モデルページを開き — ideogram-ai/ideogram-4-nf4(または ideogram-ai/ideogram-4-fp8)— で「Agree and access repository」をクリックして、ライセンスのゲートを承認してください。
  • huggingface.co/settings/tokens で Hugging Face のアクセストークンを作成し、ログインしてダウンロードを認証可能にします:

hf auth login

または、トークンを直接エクスポートすることもできます: export HF_TOKEN="hf_...".

コマンドラインインターフェース (CLI)

単純な --prompt 引数は、「マジックプロンプト」LLM によって、モデルが期待する構造化された JSON キャプションに書き換えられます。デフォルトでは Ideogram がホストする magic-prompt API を使用しますが、これは無料であり、サーバー側で拡張処理を行います(ローカルでのモデルやシステムプロンプトは不要です)。IDEOGRAM_API_KEY を読み込みます — キーは https://ideogram.ai/api/learn/ で取得してください:

python run_inference.py \

--prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \

--output out.png \

--quantization "nf4" \

--magic-prompt-key "$IDEOGRAM_API_KEY"

また、拡張処理は独自の LLM プロバイダーを通じて実行することも可能です。当社のマジックプロンプトシステムプロンプトの 1 つはオープンソースです。詳細については、Prompting Guide をご覧ください。

最高品質の画像を生成するには、--height 2048 --width 2048 および --sampler-preset V4_QUALITY_48 を設定してください。

Hive による安全性スクリーニング

プロンプトと出力の安全性スクリーニングは Hive を経由で行われます。サインアップして、テキストモデレーションキーとビジュアルコンテンツモデレーションキーを作成し、それぞれ HIVE_TEXT_MODERATION_KEY および HIVE_VISUAL_MODERATION_KEY としてエクスポートするか(または --hive-text-key / --hive-visual-key を経由で渡してください)。

python
run_inference.py \
  --prompt "an isometric illustration of a tiny city floating in the clouds" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
  --hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
  --hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"

サンプラープリセット、パラメータリファレンス、および最適化のヒントについては、docs/inference.md を参照してください。

モデル概要

Ideogram 4 は既存のチェックポイントからの微調整や蒸留ではなく、ゼロから完全にトレーニングされたファウンデーションモデルです。これは、完全なシングルストリーム Diffusion Transformer (DiT) アーキテクチャ(拡散トランスフォーマー)に基づいて構築されたフローマッチングテキスト画像生成モデルです。

アーキテクチャ:

  • Fully single-stream DiT。テキストと画像のトークンは結合されて一つの統合されたシーケンスとなり、34 層のトランスフォーマーを同じ経路で処理されます。個別のテキストまたは画像ブランチは存在せず、これにより各層において深いクロスモーダル相互作用が可能になります。
  • ビジョンランゲージモデルをテキストエンコーダーとして採用。CLIP や T5 のようなテキスト専用エンコーダーではなく、Ideogram 4 では Qwen3-VL-8B-Instruct という完全なビジョンランゲージモデルを使用し、視覚的概念に対するはるかに豊かな理解を提供します。13 層の中間層から隠れ状態を抽出して結合することで、表面レベルのトークン情報から深い構成的理解に至るまで、マルチスケールのセマンティック特徴をモデルに付与しています。
  • ダブルブランチ分類器フリーガイダンス。条件付き(ポジティブ)と非条件付き(ネガティブ)のブランチは独立して微調整が可能であり、プロンプトへの忠実度と画像品質をそれぞれ個別に制御できます。
  • フレキシブルな解像度。256 から 2048 までの任意の解像度(16 の倍数)をネイティブサポートし、アスペクト比は最大 6:1 まで対応。単一のモデルが正方形のサムネイルから超ワイドバナーまですべて処理し、ノイズスケジュールは解像度ごとに自動調整されます。

主要機能:

  • 極度の制御性。Ideogram 4 は構造化された JSON キャプションで訓練されており、ユーザーは単一のプロンプトから、構成、スタイル、照明、カラーパレット、タイポグラフィ、空間レイアウトに至るまで、前例のない制御力を発揮できます。
  • 最先端のテキストレンダリング。Ideogram 4 は、プロンプトから直接高忠実度で画像内テキスト生成(看板、ロゴ、キャプション、透かし、複数行テキスト)を実現し、業界最高水準の性能を提供します。
  • 空間レイアウト制御。プロンプト内のバウンディングボックス座標を使用することで、被写体、テキスト要素、背景領域を明示的に配置できます。
  • カラーパレット条件付け。プロンプト内で HEX コードを指定することで、画像の支配的な色cheme を制御できます。

完全なアーキテクチャの詳細については、docs/model_architecture.md をご覧ください。パイプラインコンポーネントがどのように連携するかの手順については、docs/pipeline.md を参照してください。

プロンプトガイド

Ideogram 4 は構造化された JSON キャプションのみでトレーニングされています。プレーンテキストのプロンプトも動作しますが、キャプションスキーマに従った JSON オブジェクトを提供することで、最良の結果が得られます。

主要ポイント:

  • 最大限の制御性を求める場合は JSON プロンプトを使用してください。モデルはこれらでトレーニングされており、構造をネイティブに理解しています。
  • カラーパレット条件付け — スタイル記述内に HEX コードの配列 colour_palette を指定して、画像の色scheme を制御します。
  • アスペクト比の柔軟性 — Ideogram 4 は幅広いアスペクト比をサポートしています(各辺で 256 から 2048 の範囲における 16 の倍数解像度)。これはポートレート、風景、バナー、携帯電話の壁紙、ソーシャルメディアフォーマットなど、実用的な用途において重要な利点です。
  • Bounding-box layout — specify bbox coordinates in the prompt to explicitly place subjects, text elements, and background regions.
  • Compositional control — use compositional_deconstruction with bounding boxes and per-element descriptions for precise spatial layout.

Why JSON-only training? We train exclusively on JSON so that training and inference share a single, common prompt format. The training captions themselves are deliberately extremely descriptive: each JSON exhaustively describes everything in the image to maximize training efficiency. The more text-to-image relationships each caption pins down, the more grounded supervision the model extracts from a single training pair, rather than having to infer those relationships across many sparsely-captioned samples.

Why JSON at inference time? Because the model was trained on captions that name every object explicitly, the most reliable way to get every requested object rendered is to mirror that pattern. Plain-text prompts still work, but won't perform as well since the model was only trained on structured JSON captions.

Don't want to write JSON by hand? That's what *magic prompt* is for: it uses an LLM to expand a plain-text prompt into a full structured caption before generation, so you get JSON-quality results from a casual prompt. It runs by default in run_inference.py (see the CLI section).

完全なガイドについては、docs/prompting.md をご覧ください。

ドキュメンテーション

ドキュメント

説明

docs/prompting.md

JSON プロンプトの作成方法、カラーパレット条件付け、アスペクト比について

docs/inference.md

サンプラープリセット、パラメータリファレンス、解像度、最適化のヒント

docs/model_architecture.md

アーキテクチャ図、DiT 仕様(Diffusion Transformer)、コンポーネントの詳細

docs/pipeline.md

概念的なパイプラインの解説 — すべてのコンポーネントがどのように連携するか

docs/development.md

開発環境セットアップ、pre-commit フック、コントリビューションガイド

docs/safety.md

事前トレーニング、事後トレーニング、推論時の安全性対策;違反報告の方法

引用

提供されたコードやモデルが研究に役立つと思われる場合は、以下のように引用してください:

@misc{ideogram-4-2026,

author={Ideogram AI},

title={{Ideogram 4}},

year={2026},

howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},

}

採用情報

次世代の生成モデルおよびそれらの上に構築された製品に取り組むための研究科学者と研究エンジニアを募集しています。興味のある方は、https://jobs.ashbyhq.com/ideogram より応募してください

原文を表示

*Ideogram 4: Open image model at the forefront of design*

Ideogram 4 is Ideogram's first open-weight text-to-image model. It is a state-of-the-art foundation model trained from scratch — not a fine-tune of any existing model. It introduces a new structured JSON prompting interface, with best-in-class multilingual text rendering, deep language understanding, explicit bounding-box layout and color-palette controls, and native 2k resolution images. The easiest way to try the model is online at ideogram.ai.

We believe openness drives innovation, and we invite the research community to innovate with us on the forefront of visual intelligence.

Table of Contents

  • News
  • Model Zoo
  • Performance
  • Quick Start
  • Model Summary
  • Prompting Guide
  • Documentation
  • Citation

News

  • [2026-06-03] Ideogram 4 released! Inference code and weights

are now public, and our technical blog post is live. See the

Quick Start section to generate your first image, or try the

model online at ideogram.ai.

Model Zoo

Model

Params

Weight Quantization

Supported Hardware

Diffusers Support

License

Ideogram 4 (nf4)

9.3B

nf4

CUDA

Yes

Ideogram 4 Non-Commercial

Ideogram 4 (fp8)

9.3B

fp8

All

No

Ideogram 4 Non-Commercial

We plan to support more quantizations in the future.

Performance

We evaluate Ideogram 4 across third-party arenas and benchmarks, standard

open-source benchmarks, and our own internal human-preference benchmark. Across

all of them, **Ideogram 4 is the best open-weight image model by far, and sits

at the frontier of design.**

Design Arena

Design Arena is a third-party image Elo

leaderboard focused specifically on design-oriented generation. On the overall

board, Ideogram 4 is the top-ranked open-weight model, trailing only proprietary

GPT and Gemini models:

Filtered to open-weight models only, Ideogram 4 leads by a commanding margin,

well ahead of the next-best open model:

ContraLabs

ContraLabs ran a blind typography evaluation judged by

ten professional designers from Contra's top-earning talent. Ideogram 4 leads on

first-place win rate, picked as the best of four models 47.9% of the time

overall — well ahead of Gemini 3.1 Flash Image Preview (Nano Banana 2) at 30.0%,

FLUX.2 [max] (15.5%), and Grok Imagine 1.0 (15.0%):

It also wins on practical usability: asked "Would you use this in real client

work?", the same designers rated Ideogram 4 highest at 3.55 / 5 — significantly

above Nano Banana 2 (2.84), Grok Imagine 1.0 (2.61), and FLUX.2 [max] (2.49):

LMArena

On LMArena, a third-party text-to-image leaderboard that

measures general-purpose text-to-image use cases, Ideogram is the top-ranked

open-weight lab and a top-5 image generation lab overall — beaten only by giant

companies with vastly larger budgets and resources:

Ideogram internal eval

For our internal human-preference benchmark, focused on graphic design and

photography, we had graphic designers deeply familiar with professional design

work do the rating blind. Bradley-Terry scores rank Ideogram 4 #2 overall —

behind only GPT Image 2 medium — and the top open-weight model:

Open-source benchmarks

On standard open-source benchmarks measuring core capabilities — layout control

(7Bench), spatial reasoning and object fidelity (SpatialGenEval), text rendering

(X-Omni OCR), and prompt alignment (Prism) — Ideogram 4 closes the gap to the

leading closed-source models across every axis. On layout control (7Bench), it

is significantly better than all closed-source models:

At 9.3B parameters, Ideogram 4 delivers the best text rendering of any open-weight

release we benchmarked — ahead of much larger models like Qwen-Image (20B),

FLUX.2 [dev] (32B), and HunyuanImage 3.0 (80B MoE):

Quick Start

Install

code
pip install .

If you plan to modify the code, install in editable mode instead so changes

under src/ideogram4/ take effect without reinstalling:

code
pip install -e .

Model access

The model weights are gated on Hugging Face, so you must accept the gate and

authenticate before the code can download them — otherwise the download fails

with a 404 / GatedRepoError.

  • Open the model page — ideogram-ai/ideogram-4-nf4

(or ideogram-ai/ideogram-4-fp8) — and click

Agree and access repository to accept the license gate.

  • Create a Hugging Face access token at

huggingface.co/settings/tokens and log in so the

download is authenticated:

code
hf auth login

Alternatively, export the token directly: export HF_TOKEN="hf_...".

CLI

The plain --prompt is rewritten into the structured JSON caption the model

expects by a "magic prompt" LLM. By default this uses Ideogram's hosted

magic-prompt API, which is free and does the expansion server-side (no local

model or system prompt needed). It reads IDEOGRAM_API_KEY — get a key at

https://ideogram.ai/api/learn/:

code
python run_inference.py \
  --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$IDEOGRAM_API_KEY"

You can also run the expansion through your own LLM provider — one of our magic-prompt

system prompt is open source. See the

Prompting Guide for details.

For the highest-quality images, set --height 2048 --width 2048 and

--sampler-preset V4_QUALITY_48.

Safety screening with Hive

Prompt and output safety screening is performed via Hive.

Sign up and create a Text Moderation key and a Visual Content Moderation key,

then export them as HIVE_TEXT_MODERATION_KEY and HIVE_VISUAL_MODERATION_KEY

(or pass them via --hive-text-key / --hive-visual-key).

code
python run_inference.py \
  --prompt "an isometric illustration of a tiny city floating in the clouds" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
  --hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
  --hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"

For sampler presets, parameter reference, and optimization tips, see

docs/inference.md.

Model Summary

Ideogram 4 is a foundation model trained entirely from scratch, not a

fine-tune or distillation of any existing checkpoint. It is a flow-matching

text-to-image model built on a fully single-stream Diffusion Transformer

(DiT) architecture.

Architecture:

  • Fully single-stream DiT. Text and image tokens are concatenated into one

unified sequence and processed through the same 34-layer transformer, with no

separate text or image branches. This enables deep cross-modal interaction at

every layer.

  • Vision-language model as text encoder. Instead of a text-only encoder

like CLIP or T5, Ideogram 4 uses

Qwen3-VL-8B-Instruct,

a full vision-language model that provides far richer understanding of visual

concepts. Hidden states are extracted from 13 intermediate layers and

concatenated, giving the model multi-scale semantic features ranging from

surface-level token information to deep compositional understanding.

  • Dual-branch classifier-free guidance. The conditional (positive) and

unconditional (negative) branches can be independently refined, enabling

separate control over prompt adherence and image quality.

  • Flexible resolution. Native support for any resolution from 256 to 2048

(multiples of 16), with aspect ratios up to 6:1. A single model handles

everything from square thumbnails to ultrawide banners, with the noise

schedule auto-adjusting per resolution.

Key Capabilities:

  • Extreme controllability. Ideogram 4 is trained on structured JSON

captions, giving users unprecedented control over composition, style,

lighting, color palette, typography, and spatial layout, all from a single

prompt.

  • State-of-the-art text rendering. Ideogram 4 delivers best-in-class

in-image text generation (signage, logos, captions, watermarks, multi-line

text) with high fidelity directly from the prompt.

  • Spatial layout control. Bounding-box coordinates in the prompt allow

explicit placement of subjects, text elements, and background regions.

  • Color palette conditioning. Specify hex colors in the prompt to steer the

image's dominant color scheme.

For full architecture details, see

docs/model_architecture.md. For a walkthrough of

how the pipeline components fit together, see

docs/pipeline.md.

Prompting Guide

Ideogram 4 is trained exclusively on structured JSON captions. While

plain-text prompts work, you will get the best results by providing a JSON

object that follows our caption schema.

Key points:

  • Use JSON prompts for maximum controllability — the model was trained on

them and understands the structure natively.

  • Color palette conditioning — specify a colour_palette array of hex

colors in the style description to steer the image's color scheme.

  • Aspect ratio flexibility — Ideogram 4 supports a wide range of aspect

ratios (any multiple-of-16 resolution from 256 to 2048 on each side). This

is a key advantage for practical use: portraits, landscapes, banners,

phone wallpapers, social media formats, etc.

  • Bounding-box layout — specify bbox coordinates in the prompt to

explicitly place subjects, text elements, and background regions.

  • Compositional control — use compositional_deconstruction with bounding

boxes and per-element descriptions for precise spatial layout.

Why JSON-only training? We train exclusively on JSON so that training

and inference share a single, common prompt format. The training captions themselves are deliberately

extremely descriptive: each JSON exhaustively describes everything in

the image to maximize training efficiency. The more

text-to-image relationships each caption pins down, the more grounded

supervision the model extracts from a single training pair, rather than

having to infer those relationships across many sparsely-captioned samples.

Why JSON at inference time? Because the model was trained on captions

that name every object explicitly, the most reliable way to get every

requested object rendered is to mirror that pattern. Plain-text prompts still work, but

won't perform as well since the model was only trained on structured JSON captions.

Don't want to write JSON by hand? That's what *magic prompt* is for: it uses

an LLM to expand a plain-text prompt into a full structured caption before

generation, so you get JSON-quality results from a casual prompt. It runs by

default in run_inference.py (see the CLI section).

See docs/prompting.md for a full guide.

Documentation

Document

Description

docs/prompting.md

How to write JSON prompts, color palette conditioning, aspect ratios

docs/inference.md

Sampler presets, parameter reference, resolutions, optimization tips

docs/model_architecture.md

Architecture diagram, DiT spec, component details

docs/pipeline.md

Conceptual pipeline walkthrough — how all components fit together

docs/development.md

Dev setup, pre-commit hooks, contributing

docs/safety.md

Pre-training, post-training, and inference-time safety mitigations; how to report violations

Citation

If you find the provided code or models useful for your research, consider citing them as:

code
@misc{ideogram-4-2026,
    author={Ideogram AI},
    title={{Ideogram 4}},
    year={2026},
    howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},
}

We're Hiring!

We're looking for Research Scientists and Research Engineers to

work on next-generation generative models and the products built on top of

them. Interested candidates please apply https://jobs.ashbyhq.com/ideogram

この記事をシェア

関連記事

MarkTechPost★42026年6月16日 17:18

Google Cloud、AI エージェントに構造化された文脈を提供するベンダー中立の Markdown 仕様「Open Knowledge Format(OKF)」を発表

Google Cloud は、LLM の知識不足という課題に対処するため、表スキーマやメトリック定義などを整理した形式を標準化するオープン仕様の「Open Knowledge Format(OKF)」を発表しました。これにより、AI エージェントが散在する情報を統合的に活用できるようになります。

MarkTechPost★32026年6月16日 16:20

レイアウト認識ドキュメントインテリジェンスのための Docling Parse を用いた解析パイプライン構築方法

MarkTechPost は、Docling Parse を使用して PDF ドキュメントの詳細な構造レベルで分析するワークフローの構築方法を解説しています。このチュートリアルでは、安定した Python 環境の準備や Colab の依存関係問題への対処法を説明し、テキストや表、画像を含むカスタム多ページ PDF を生成する方法を示します。その後、Docling Parse で単語や文字、行を抽出して座標情報を取得し、可視化オーバーレイを描画して構造化された JSON や CSV ファイルとして保存する手順を紹介しています。

Simon Willison Blog★32026年6月16日 02:19

datasette-agent 0.3a0 のリリース

Simon Willison が開発する「datasette-agent」のバージョン 0.3a0 を公開し、ユーザー承認後にデータベースへの書き込みを可能にする新ツール「execute_write_sql」を追加した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む