Ideogram 4(GitHub リポジトリ)
Ideogram がデザイン特化の画像生成モデル「Ideogram 4」をオープンソースとして公開し、テキストレンダリングと高品質なビジュアル生成において新たな基準を示した。
キーポイント
オープンソース化による技術民主化
Ideogram 4 のモデル weights とコードが GitHub で完全に公開され、開発者がローカル環境やカスタムワークフローで自由に利用・改変できるようになった。
デザイン特化とテキストレンダリングの強化
ロゴ作成、タイポグラフィ、複雑なテキスト配置において従来モデルを凌駕する精度を持ち、クリエイティブ分野での実用性が飛躍的に向上した。
多角的なアクセス手段の提供
GitHub でのコード公開に加え、Hugging Face でのモデル配布と公式 API の提供により、開発者からエンドユーザーまで幅広い層が利用可能になった。
影響分析・編集コメントを表示
影響分析
この発表は、高品質な画像生成モデルをクローズドなサービスからオープンソースエコシステムへ移行させる重要な転換点です。特にデザイン分野におけるテキストレンダリング技術の公開は、クリエイティブツール開発者や企業にとってローカルでの高度な画像生成基盤構築を可能にし、業界全体の標準化とイノベーション加速に寄与すると考えられます。
編集コメント
テキスト生成能力に特化した画像モデルがオープンソース化されるのは、クリエイティブ分野における AI ツールの開発者にとって極めて重要なニュースです。クローズドな API に依存せず、自社のワークフローに組み込むことが可能になった点は、実用性の観点から高く評価できます。
*Ideogram 4:デザインの最前線にあるオープン画像モデル*
Ideogram 4 は、Ideogram が初めて公開した重み付きテキストから画像生成モデルです。これは既存のモデルを微調整したものではなく、ゼロから訓練された最先端の基盤モデルです。新しい構造化 JSON プロンプトインターフェースを導入し、最高クラスの多言語テキストレンダリング、深い言語理解、明示的なバウンディングボックスレイアウトとカラーパレット制御、ネイティブ 2K レゾリューション画像生成を実現しています。このモデルを試す最も簡単な方法は、オンラインで ideogram.ai を利用することです。
私たちはオープン性がイノベーションを推進すると信じており、視覚知能の最前線において研究コミュニティと共に革新を起こすことを歓迎します。
目次
- ニュース
- モデルズー
- パフォーマンス
- クイックスタート
- モデル概要
- プロンプトガイド
- ドキュメンテーション
- 引用
ニュース
- [2026-06-03] Ideogram 4 をリリース!推論コードと重みが公開され、技術ブログ記事も掲載されました。最初の画像を生成するには「クイックスタート」セクションをご覧ください。または、ideogram.ai でオンラインモデルを試すことができます。
モデルズー
モデル
パラメータ数
重み量子化
対応ハードウェア
Diffusers サポート
ライセンス
9.3B
nf4
CUDA
Yes
9.3B
fp8
All
No
将来的には、より多くの量子化(quantization)に対応する予定です。
パフォーマンス
Ideogram 4 を、サードパーティの環境およびベンチマーク、標準的なオープンソースベンチマーク、そして自社で実施した人間による選好度評価ベンチマークのすべてにおいて評価しました。その結果、Ideogram 4 は現在までに最も優れたオープンウェイト画像生成モデルであり、デザインの最前線に位置しています。
デザインエリート
Design Arena は、デザイン指向の生成に特化したサードパーティによる画像 Elo リーダーボードです。総合ランキングにおいて、Ideogram 4 はトップランクのオープンウェイトモデルであり、 proprietary(独自開発)である GPT や Gemini モデルに次ぐ位置にあります:
オープンウェイトモデルのみをフィルタリングした場合、Ideogram 4 は圧倒的な差で首位に立ち、次点のオープンモデルを大きく引き離しています:
ContraLabs
ContraLabs は、Contra の最高収益を生む人材から選ばれた 10 名の専門デザイナーが審査を行う盲検タイポグラフィ評価を実施しました。Ideogram 4 は首位獲得率でリードしており、4 つのモデルの中で最も優れていると選出された割合は全体で 47.9% です。これは、Gemini 3.1 Flash Image Preview (Nano Banana 2) の 30.0%、FLUX.2 [max] の 15.5%、Grok Imagine 1.0 の 15.0% を大きく上回る結果です:
実用性においても優れています:「実際のクライアントワークで使用しますか?」と問われた際、同じデザイナーたちが Ideogram 4 を最高評価の 3.55 / 5 と評価しました。これは Nano Banana 2 (2.84)、Grok Imagine 1.0 (2.61)、FLUX.2 [max] (2.49) を大きく上回る結果です:
LMArena
LMArena は、汎用テキストから画像への生成ユースケースを測定するサードパーティのリーダーボードですが、ここでは Ideogram がオープンウェイトモデルの中で最高ランクに位置し、全体でもトップ 5 の画像生成モデルとなっています。これは予算やリソースが圧倒的に大きい巨大企業製モデルにのみ抜かれている状態です:
Ideogram 内部評価
グラフィックデザインと写真撮影に焦点を当てた、当社の内部的な人間による選好度ベンチマークでは、プロのデザイン業務に深く精通したグラフィックデザイナーが盲検で評価を行いました。Bradley-Terry スコアによると、Ideogram 4 は全体で 2 位(GPT Image 2 medium に次ぐ)、オープンウェイトモデルとしては最高ランクとなりました:
オープンソースベンチマーク
レイアウト制御 (7Bench)、空間推論と物体の忠実度 (SpatialGenEval)、テキストレンダリング (X-Omni OCR)、プロンプト整合性 (Prism) を測定する標準的なオープンソースベンチマークにおいて、Ideogram 4 はあらゆる軸で主要なクローズドソースモデルとの差を縮めています。特にレイアウト制御 (7Bench) では、すべてのクローズドソースモデルよりも大幅に優れています:
9.3B パラメータという規模でありながら、Ideogram 4 はベンチマークしたオープンウェイトリリースの中で最高のテキストレンダリング性能を提供します。これは Qwen-Image (20B)、FLUX.2 [dev] (32B)、HunyuanImage 3.0 (80B MoE) といったはるかに大規模なモデルよりも上回っています:
クイックスタート
インストール
pip install .
コードを修正する予定の場合は、再インストールせずに src/ideogram4 配下の修正が反映されるよう、編集可能モードでインストールしてください:
pip install -e .
モデルへのアクセス
モデルの重みは Hugging Face でゲート(制限)されているため、コードがダウンロードを実行する前に、そのゲートを承認し認証を行う必要があります。これを行わないと、404 エラーまたは GatedRepoError が発生してダウンロードに失敗します。
- モデルページを開き — ideogram-ai/ideogram-4-nf4(または ideogram-ai/ideogram-4-fp8)— で「Agree and access repository」をクリックして、ライセンスのゲートを承認してください。
- huggingface.co/settings/tokens で Hugging Face のアクセストークンを作成し、ログインしてダウンロードを認証可能にします:
hf auth login
または、トークンを直接エクスポートすることもできます: export HF_TOKEN="hf_...".
コマンドラインインターフェース (CLI)
単純な --prompt 引数は、「マジックプロンプト」LLM によって、モデルが期待する構造化された JSON キャプションに書き換えられます。デフォルトでは Ideogram がホストする magic-prompt API を使用しますが、これは無料であり、サーバー側で拡張処理を行います(ローカルでのモデルやシステムプロンプトは不要です)。IDEOGRAM_API_KEY を読み込みます — キーは https://ideogram.ai/api/learn/ で取得してください:
python run_inference.py \
--prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
--output out.png \
--quantization "nf4" \
--magic-prompt-key "$IDEOGRAM_API_KEY"
また、拡張処理は独自の LLM プロバイダーを通じて実行することも可能です。当社のマジックプロンプトシステムプロンプトの 1 つはオープンソースです。詳細については、Prompting Guide をご覧ください。
最高品質の画像を生成するには、--height 2048 --width 2048 および --sampler-preset V4_QUALITY_48 を設定してください。
Hive による安全性スクリーニング
プロンプトと出力の安全性スクリーニングは Hive を経由で行われます。サインアップして、テキストモデレーションキーとビジュアルコンテンツモデレーションキーを作成し、それぞれ HIVE_TEXT_MODERATION_KEY および HIVE_VISUAL_MODERATION_KEY としてエクスポートするか(または --hive-text-key / --hive-visual-key を経由で渡してください)。
run_inference.py \
--prompt "an isometric illustration of a tiny city floating in the clouds" \
--output out.png \
--quantization "nf4" \
--magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
--hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
--hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"サンプラープリセット、パラメータリファレンス、および最適化のヒントについては、docs/inference.md を参照してください。
モデル概要
Ideogram 4 は既存のチェックポイントからの微調整や蒸留ではなく、ゼロから完全にトレーニングされたファウンデーションモデルです。これは、完全なシングルストリーム Diffusion Transformer (DiT) アーキテクチャ(拡散トランスフォーマー)に基づいて構築されたフローマッチングテキスト画像生成モデルです。
アーキテクチャ:
- Fully single-stream DiT。テキストと画像のトークンは結合されて一つの統合されたシーケンスとなり、34 層のトランスフォーマーを同じ経路で処理されます。個別のテキストまたは画像ブランチは存在せず、これにより各層において深いクロスモーダル相互作用が可能になります。
- ビジョンランゲージモデルをテキストエンコーダーとして採用。CLIP や T5 のようなテキスト専用エンコーダーではなく、Ideogram 4 では Qwen3-VL-8B-Instruct という完全なビジョンランゲージモデルを使用し、視覚的概念に対するはるかに豊かな理解を提供します。13 層の中間層から隠れ状態を抽出して結合することで、表面レベルのトークン情報から深い構成的理解に至るまで、マルチスケールのセマンティック特徴をモデルに付与しています。
- ダブルブランチ分類器フリーガイダンス。条件付き(ポジティブ)と非条件付き(ネガティブ)のブランチは独立して微調整が可能であり、プロンプトへの忠実度と画像品質をそれぞれ個別に制御できます。
- フレキシブルな解像度。256 から 2048 までの任意の解像度(16 の倍数)をネイティブサポートし、アスペクト比は最大 6:1 まで対応。単一のモデルが正方形のサムネイルから超ワイドバナーまですべて処理し、ノイズスケジュールは解像度ごとに自動調整されます。
主要機能:
- 極度の制御性。Ideogram 4 は構造化された JSON キャプションで訓練されており、ユーザーは単一のプロンプトから、構成、スタイル、照明、カラーパレット、タイポグラフィ、空間レイアウトに至るまで、前例のない制御力を発揮できます。
- 最先端のテキストレンダリング。Ideogram 4 は、プロンプトから直接高忠実度で画像内テキスト生成(看板、ロゴ、キャプション、透かし、複数行テキスト)を実現し、業界最高水準の性能を提供します。
- 空間レイアウト制御。プロンプト内のバウンディングボックス座標を使用することで、被写体、テキスト要素、背景領域を明示的に配置できます。
- カラーパレット条件付け。プロンプト内で HEX コードを指定することで、画像の支配的な色cheme を制御できます。
完全なアーキテクチャの詳細については、docs/model_architecture.md をご覧ください。パイプラインコンポーネントがどのように連携するかの手順については、docs/pipeline.md を参照してください。
プロンプトガイド
Ideogram 4 は構造化された JSON キャプションのみでトレーニングされています。プレーンテキストのプロンプトも動作しますが、キャプションスキーマに従った JSON オブジェクトを提供することで、最良の結果が得られます。
主要ポイント:
- 最大限の制御性を求める場合は JSON プロンプトを使用してください。モデルはこれらでトレーニングされており、構造をネイティブに理解しています。
- カラーパレット条件付け — スタイル記述内に HEX コードの配列
colour_paletteを指定して、画像の色scheme を制御します。
- アスペクト比の柔軟性 — Ideogram 4 は幅広いアスペクト比をサポートしています(各辺で 256 から 2048 の範囲における 16 の倍数解像度)。これはポートレート、風景、バナー、携帯電話の壁紙、ソーシャルメディアフォーマットなど、実用的な用途において重要な利点です。
- Bounding-box layout — specify bbox coordinates in the prompt to explicitly place subjects, text elements, and background regions.
- Compositional control — use compositional_deconstruction with bounding boxes and per-element descriptions for precise spatial layout.
Why JSON-only training? We train exclusively on JSON so that training and inference share a single, common prompt format. The training captions themselves are deliberately extremely descriptive: each JSON exhaustively describes everything in the image to maximize training efficiency. The more text-to-image relationships each caption pins down, the more grounded supervision the model extracts from a single training pair, rather than having to infer those relationships across many sparsely-captioned samples.
Why JSON at inference time? Because the model was trained on captions that name every object explicitly, the most reliable way to get every requested object rendered is to mirror that pattern. Plain-text prompts still work, but won't perform as well since the model was only trained on structured JSON captions.
Don't want to write JSON by hand? That's what *magic prompt* is for: it uses an LLM to expand a plain-text prompt into a full structured caption before generation, so you get JSON-quality results from a casual prompt. It runs by default in run_inference.py (see the CLI section).
完全なガイドについては、docs/prompting.md をご覧ください。
ドキュメンテーション
ドキュメント
説明
JSON プロンプトの作成方法、カラーパレット条件付け、アスペクト比について
サンプラープリセット、パラメータリファレンス、解像度、最適化のヒント
アーキテクチャ図、DiT 仕様(Diffusion Transformer)、コンポーネントの詳細
概念的なパイプラインの解説 — すべてのコンポーネントがどのように連携するか
開発環境セットアップ、pre-commit フック、コントリビューションガイド
事前トレーニング、事後トレーニング、推論時の安全性対策;違反報告の方法
引用
提供されたコードやモデルが研究に役立つと思われる場合は、以下のように引用してください:
@misc{ideogram-4-2026,
author={Ideogram AI},
title={{Ideogram 4}},
year={2026},
howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},
}
採用情報
次世代の生成モデルおよびそれらの上に構築された製品に取り組むための研究科学者と研究エンジニアを募集しています。興味のある方は、https://jobs.ashbyhq.com/ideogram より応募してください
原文を表示
*Ideogram 4: Open image model at the forefront of design*
Ideogram 4 is Ideogram's first open-weight text-to-image model. It is a state-of-the-art foundation model trained from scratch — not a fine-tune of any existing model. It introduces a new structured JSON prompting interface, with best-in-class multilingual text rendering, deep language understanding, explicit bounding-box layout and color-palette controls, and native 2k resolution images. The easiest way to try the model is online at ideogram.ai.
We believe openness drives innovation, and we invite the research community to innovate with us on the forefront of visual intelligence.
Table of Contents
- News
- Model Zoo
- Performance
- Quick Start
- Model Summary
- Prompting Guide
- Documentation
- Citation
News
- [2026-06-03] Ideogram 4 released! Inference code and weights
are now public, and our technical blog post is live. See the
Quick Start section to generate your first image, or try the
model online at ideogram.ai.
Model Zoo
Model
Params
Weight Quantization
Supported Hardware
Diffusers Support
License
9.3B
nf4
CUDA
Yes
9.3B
fp8
All
No
We plan to support more quantizations in the future.
Performance
We evaluate Ideogram 4 across third-party arenas and benchmarks, standard
open-source benchmarks, and our own internal human-preference benchmark. Across
all of them, **Ideogram 4 is the best open-weight image model by far, and sits
at the frontier of design.**
Design Arena
Design Arena is a third-party image Elo
leaderboard focused specifically on design-oriented generation. On the overall
board, Ideogram 4 is the top-ranked open-weight model, trailing only proprietary
GPT and Gemini models:
Filtered to open-weight models only, Ideogram 4 leads by a commanding margin,
well ahead of the next-best open model:
ContraLabs
ContraLabs ran a blind typography evaluation judged by
ten professional designers from Contra's top-earning talent. Ideogram 4 leads on
first-place win rate, picked as the best of four models 47.9% of the time
overall — well ahead of Gemini 3.1 Flash Image Preview (Nano Banana 2) at 30.0%,
FLUX.2 [max] (15.5%), and Grok Imagine 1.0 (15.0%):
It also wins on practical usability: asked "Would you use this in real client
work?", the same designers rated Ideogram 4 highest at 3.55 / 5 — significantly
above Nano Banana 2 (2.84), Grok Imagine 1.0 (2.61), and FLUX.2 [max] (2.49):
LMArena
On LMArena, a third-party text-to-image leaderboard that
measures general-purpose text-to-image use cases, Ideogram is the top-ranked
open-weight lab and a top-5 image generation lab overall — beaten only by giant
companies with vastly larger budgets and resources:
Ideogram internal eval
For our internal human-preference benchmark, focused on graphic design and
photography, we had graphic designers deeply familiar with professional design
work do the rating blind. Bradley-Terry scores rank Ideogram 4 #2 overall —
behind only GPT Image 2 medium — and the top open-weight model:
Open-source benchmarks
On standard open-source benchmarks measuring core capabilities — layout control
(7Bench), spatial reasoning and object fidelity (SpatialGenEval), text rendering
(X-Omni OCR), and prompt alignment (Prism) — Ideogram 4 closes the gap to the
leading closed-source models across every axis. On layout control (7Bench), it
is significantly better than all closed-source models:
At 9.3B parameters, Ideogram 4 delivers the best text rendering of any open-weight
release we benchmarked — ahead of much larger models like Qwen-Image (20B),
FLUX.2 [dev] (32B), and HunyuanImage 3.0 (80B MoE):
Quick Start
Install
pip install .If you plan to modify the code, install in editable mode instead so changes
under src/ideogram4/ take effect without reinstalling:
pip install -e .Model access
The model weights are gated on Hugging Face, so you must accept the gate and
authenticate before the code can download them — otherwise the download fails
with a 404 / GatedRepoError.
- Open the model page — ideogram-ai/ideogram-4-nf4
(or ideogram-ai/ideogram-4-fp8) — and click
Agree and access repository to accept the license gate.
- Create a Hugging Face access token at
huggingface.co/settings/tokens and log in so the
download is authenticated:
hf auth loginAlternatively, export the token directly: export HF_TOKEN="hf_...".
CLI
The plain --prompt is rewritten into the structured JSON caption the model
expects by a "magic prompt" LLM. By default this uses Ideogram's hosted
magic-prompt API, which is free and does the expansion server-side (no local
model or system prompt needed). It reads IDEOGRAM_API_KEY — get a key at
https://ideogram.ai/api/learn/:
python run_inference.py \
--prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
--output out.png \
--quantization "nf4" \
--magic-prompt-key "$IDEOGRAM_API_KEY"You can also run the expansion through your own LLM provider — one of our magic-prompt
system prompt is open source. See the
Prompting Guide for details.
For the highest-quality images, set --height 2048 --width 2048 and
--sampler-preset V4_QUALITY_48.
Safety screening with Hive
Prompt and output safety screening is performed via Hive.
Sign up and create a Text Moderation key and a Visual Content Moderation key,
then export them as HIVE_TEXT_MODERATION_KEY and HIVE_VISUAL_MODERATION_KEY
(or pass them via --hive-text-key / --hive-visual-key).
python run_inference.py \
--prompt "an isometric illustration of a tiny city floating in the clouds" \
--output out.png \
--quantization "nf4" \
--magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
--hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
--hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"For sampler presets, parameter reference, and optimization tips, see
Model Summary
Ideogram 4 is a foundation model trained entirely from scratch, not a
fine-tune or distillation of any existing checkpoint. It is a flow-matching
text-to-image model built on a fully single-stream Diffusion Transformer
(DiT) architecture.
Architecture:
- Fully single-stream DiT. Text and image tokens are concatenated into one
unified sequence and processed through the same 34-layer transformer, with no
separate text or image branches. This enables deep cross-modal interaction at
every layer.
- Vision-language model as text encoder. Instead of a text-only encoder
like CLIP or T5, Ideogram 4 uses
Qwen3-VL-8B-Instruct,
a full vision-language model that provides far richer understanding of visual
concepts. Hidden states are extracted from 13 intermediate layers and
concatenated, giving the model multi-scale semantic features ranging from
surface-level token information to deep compositional understanding.
- Dual-branch classifier-free guidance. The conditional (positive) and
unconditional (negative) branches can be independently refined, enabling
separate control over prompt adherence and image quality.
- Flexible resolution. Native support for any resolution from 256 to 2048
(multiples of 16), with aspect ratios up to 6:1. A single model handles
everything from square thumbnails to ultrawide banners, with the noise
schedule auto-adjusting per resolution.
Key Capabilities:
- Extreme controllability. Ideogram 4 is trained on structured JSON
captions, giving users unprecedented control over composition, style,
lighting, color palette, typography, and spatial layout, all from a single
prompt.
- State-of-the-art text rendering. Ideogram 4 delivers best-in-class
in-image text generation (signage, logos, captions, watermarks, multi-line
text) with high fidelity directly from the prompt.
- Spatial layout control. Bounding-box coordinates in the prompt allow
explicit placement of subjects, text elements, and background regions.
- Color palette conditioning. Specify hex colors in the prompt to steer the
image's dominant color scheme.
For full architecture details, see
docs/model_architecture.md. For a walkthrough of
how the pipeline components fit together, see
Prompting Guide
Ideogram 4 is trained exclusively on structured JSON captions. While
plain-text prompts work, you will get the best results by providing a JSON
object that follows our caption schema.
Key points:
- Use JSON prompts for maximum controllability — the model was trained on
them and understands the structure natively.
- Color palette conditioning — specify a colour_palette array of hex
colors in the style description to steer the image's color scheme.
- Aspect ratio flexibility — Ideogram 4 supports a wide range of aspect
ratios (any multiple-of-16 resolution from 256 to 2048 on each side). This
is a key advantage for practical use: portraits, landscapes, banners,
phone wallpapers, social media formats, etc.
- Bounding-box layout — specify bbox coordinates in the prompt to
explicitly place subjects, text elements, and background regions.
- Compositional control — use compositional_deconstruction with bounding
boxes and per-element descriptions for precise spatial layout.
Why JSON-only training? We train exclusively on JSON so that training
and inference share a single, common prompt format. The training captions themselves are deliberately
extremely descriptive: each JSON exhaustively describes everything in
the image to maximize training efficiency. The more
text-to-image relationships each caption pins down, the more grounded
supervision the model extracts from a single training pair, rather than
having to infer those relationships across many sparsely-captioned samples.
Why JSON at inference time? Because the model was trained on captions
that name every object explicitly, the most reliable way to get every
requested object rendered is to mirror that pattern. Plain-text prompts still work, but
won't perform as well since the model was only trained on structured JSON captions.
Don't want to write JSON by hand? That's what *magic prompt* is for: it uses
an LLM to expand a plain-text prompt into a full structured caption before
generation, so you get JSON-quality results from a casual prompt. It runs by
default in run_inference.py (see the CLI section).
See docs/prompting.md for a full guide.
Documentation
Document
Description
How to write JSON prompts, color palette conditioning, aspect ratios
Sampler presets, parameter reference, resolutions, optimization tips
Architecture diagram, DiT spec, component details
Conceptual pipeline walkthrough — how all components fit together
Dev setup, pre-commit hooks, contributing
Pre-training, post-training, and inference-time safety mitigations; how to report violations
Citation
If you find the provided code or models useful for your research, consider citing them as:
@misc{ideogram-4-2026,
author={Ideogram AI},
title={{Ideogram 4}},
year={2026},
howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},
}We're Hiring!
We're looking for Research Scientists and Research Engineers to
work on next-generation generative models and the products built on top of
them. Interested candidates please apply https://jobs.ashbyhq.com/ideogram
関連記事
Google Cloud、AI エージェントに構造化された文脈を提供するベンダー中立の Markdown 仕様「Open Knowledge Format(OKF)」を発表
Google Cloud は、LLM の知識不足という課題に対処するため、表スキーマやメトリック定義などを整理した形式を標準化するオープン仕様の「Open Knowledge Format(OKF)」を発表しました。これにより、AI エージェントが散在する情報を統合的に活用できるようになります。
レイアウト認識ドキュメントインテリジェンスのための Docling Parse を用いた解析パイプライン構築方法
MarkTechPost は、Docling Parse を使用して PDF ドキュメントの詳細な構造レベルで分析するワークフローの構築方法を解説しています。このチュートリアルでは、安定した Python 環境の準備や Colab の依存関係問題への対処法を説明し、テキストや表、画像を含むカスタム多ページ PDF を生成する方法を示します。その後、Docling Parse で単語や文字、行を抽出して座標情報を取得し、可視化オーバーレイを描画して構造化された JSON や CSV ファイルとして保存する手順を紹介しています。
datasette-agent 0.3a0 のリリース
Simon Willison が開発する「datasette-agent」のバージョン 0.3a0 を公開し、ユーザー承認後にデータベースへの書き込みを可能にする新ツール「execute_write_sql」を追加した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み