Granite 4.0 3B Vision:企業文書向けのコンパクトなマルチモーダルAI
Hugging Faceは、企業文書理解向けに設計されたコンパクトな視覚言語モデル「Granite 4.0 3B Vision」を発表し、表抽出、チャート理解、意味的キーバリューペア抽出などの機能を備え、実用的な企業導入を目指している。
キーポイント
企業文書理解向けコンパクトVLMの発表
Granite 4.0 3B Visionは、複雑な文書、フォーム、構造化された視覚情報から信頼性の高い情報抽出を目的として設計されたコンパクトな視覚言語モデル(VLM)である。
3つの主要機能
複雑な表構造の正確な解析、チャートや図の構造化された機械可読形式への変換、多様な文書レイアウトにわたる意味的キーバリューフィールドペアの識別とグラウンディングを実現する。
実用的な企業導入を考慮した設計
モデルはGranite 4.0 Micro上のLoRAアダプターとして提供され、視覚と言語をモジュール化してテキストのみのフォールバックや混合パイプラインへのシームレスな統合を可能にしている。
チャート理解のための新技術
チャート理解のギャップを埋めるため、コード誘導型データ拡張アプローチで構築された大規模マルチモーダルデータセット「ChartNet」と、高詳細視覚特徴注入を可能にするDeepStackアーキテクチャの新バリアントが開発された。
ChartNetデータセットの特徴
コード誘導型合成パイプラインで生成された170万の多様なチャートサンプルを含み、各サンプルはプロットコード、レンダリング画像、データテーブル、自然言語要約、QAペアの5つの整合コンポーネントで構成され、チャートの意味を深く理解するためのクロスモーダルな視点を提供する。
DeepStack Injectionのアプローチ
抽象的な視覚的特徴は早期層に、高解像度の空間的特徴は後期層にルーティングされ、セマンティック理解と詳細保持を両立させることで、文書の内容とレイアウトの両方を理解する。
モデルのモジュール性と性能
LoRAアダプターとしてパッケージ化されており、マルチモーダルとテキストのみの両方のワークロードに対応可能。ChartNetベンチマークでは、Chart2Summaryで最高スコア(86.4%)、Chart2CSVで2位(62.1%)を達成。
影響分析・編集コメントを表示
影響分析
この発表は、AIの企業実装における重要な進展を示しており、特に構造化文書の自動処理という実務上の課題に焦点を当てた点で意義深い。コンパクトなモデルサイズとモジュラー設計は、コストと統合の面で企業への導入障壁を下げ、文書処理AIの実用化を加速させる可能性がある。
編集コメント
企業の実務ニーズに直結する文書理解機能に特化したモデル発表は、AIの実用化トレンドを反映している。コンパクトサイズとモジュラー設計は、実際の業務システムへの統合を考慮した現実的なアプローチと言える。
記事に戻る Granite 4.0 3B Vision: エンタープライズ文書向けコンパクトなマルチモーダルインテリジェンス
Upvote 3 ![]()


本日、エンタープライズ文書理解向けに設計されたコンパクトな視覚言語モデル(VLM: Vision-Language Model)であるGranite 4.0 3B Visionの発表を嬉しく思います。これは、複雑な文書、フォーム、構造化された視覚情報からの信頼性の高い情報抽出のために特別に構築されています。Granite 4.0 3B Visionは以下の能力に優れています:
表抽出:文書画像から複雑な表構造(例:複数行、複数列など)を正確に解析
チャート理解:チャートや図を構造化された機械可読形式、要約、または実行可能なコードに変換
意味的キー・バリューペア(KVP: Key-Value Pair)抽出:多様な文書レイアウトにわたって意味的に重要なキー・バリューフィールドのペアを識別し、その根拠を特定
このモデルは、当社の高密度言語モデルであるGranite 4.0 Microの上にLoRA(Low-Rank Adaptation)アダプターとして提供され、視覚と言語をモジュール化してテキストのみのフォールバックや混合パイプラインへのシームレスな統合を可能にします。また、画像からの詳細な自然言語記述の生成(例:「この画像を詳細に説明してください」)などの視覚言語タスクを引き続きサポートします。このモデルは単独で使用することも、Doclingと連携させて、深い視覚的理解能力で文書処理パイプラインを強化することもできます。
Granite 4.0 3B Visionの構築方法
Granite 4.0 3B Visionの性能は、3つの重要な投資の結果です:新しいコード誘導型データ拡張アプローチを介して構築された目的特化型チャート理解データセット、高詳細な視覚的特徴注入を可能にするDeepStackアーキテクチャの新しいバリアント、そしてエンタープライズ展開に実用的なモデルを維持するモジュラー設計です。
ChartNet: モデルにチャートを真に理解させる
チャートは視覚言語モデル(VLM)にとって課題となります。なぜなら、チャートを理解するには、視覚パターン、数値データ、自然言語を同時に推論する必要があり、これはほとんどのVLMがうまく扱えない組み合わせだからです。特に、折れ線グラフから正確な値を読み取るなど、空間的精度が重要な場合に顕著です。このギャップを埋めるために、私たちはChartNetを開発しました:これは、チャート解釈と推論のために特別に構築された100万規模のマルチモーダルデータセットであり、私たちの今後のCVPR 2026論文で詳細に説明されています。
ChartNetは、コード誘導型合成パイプラインを使用して、24種類のチャートタイプと6つのプロットライブラリにわたる170万の多様なチャートサンプルを生成します[図1参照]。その際立った特徴は、各サンプルが5つの整列されたコンポーネント(プロットコード、レンダリング画像、データテーブル、自然言語要約、QAペア)で構成されていることです。これにより、モデルはチャートがどのように見えるかだけでなく、何を意味するかについての深くクロスモーダルな視点を得られます。このデータセットには、視覚的忠実度、意味的精度、多様性でフィルタリングされた人間による注釈付きおよび実世界のサブセットも含まれています。
その結果、VLMを単にチャートを記述する段階から、チャートがエンコードする構造化情報を真に理解する段階へと移行させるトレーニングリソースが得られました。これは、モデルサイズ、アーキテクチャ、タスク全体で一貫した向上をもたらします。
図1: ChartNetの合成データ生成パイプライン。
DeepStack: よりスマートな視覚的特徴注入
ほとんどのVLMは、視覚情報を言語モデルに単一のポイントで注入します。これにより、モデルは高レベルの意味論と微細な空間的詳細の両方を同時に扱わなければなりません。Granite 4.0 3B Visionは、DeepStack Injection(ディープスタック注入)という異なるアプローチを採用しています:抽象的な視覚的特徴は意味理解のために初期層にルーティングされ、高解像度の空間的特徴は詳細を保持するために後期層に供給されます。その結果、文書に何が含まれているかだけでなく、どこにあるかを理解するモデルが得られます。これは、レイアウトが内容と同様に重要な表抽出、チャート理解、KVP解析などのタスクにとって重要です。完全な技術的詳細については、モデルカードのモデルアーキテクチャセクションを参照してください。
モジュラリティ: 1つのモデル、2つのモード
Granite 4.0 3B Visionは、スタンドアロンモデルとしてではなく、Granite 4.0 Microの上にLoRAアダプターとしてパッケージ化されています。実際には、これは同じデプロイメントがマルチモーダルとテキストのみの両方のワークロードに対応でき、視覚が必要とされない場合は自動的にベースモデルにフォールバックすることを意味します。これにより、パフォーマンスを犠牲にすることなく、エンタープライズ統合が簡単になります。
性能
チャート: LLM-as-a-judge(審判としてのLLM)を使用して人間検証済みのChartNetベンチマークで評価した結果、Granite 4.0 3B Visionは、評価されたすべてのモデル(大幅に大きなモデルを含む)の中で最高のChart2Summary(86.4%)スコアを達成しました[図2参照]。また、Chart2CSV(62.1%)では、サイズが2倍以上のモデルであるQwen3.5-9B(63.4%)に次いで2位となりました。
図2: LLM-as-a-judgeを使用したピア視覚言語モデルと比較した、chart2csvおよびchart2summaryにおけるGranite 4.0 3B Visionの性能。
表: 表抽出を2つの設定で評価します:切り抜かれた表(孤立領域)と全ページ文書(複雑なレイアウトに埋め込まれた表)[図3参照]。ベンチマークスイートには、TableVQA-extract(切り抜かれた表画像)、OmniDocBench-tables(全ページ文書)、PubTables-v2(切り抜きと全ページの両方の設定)が含まれます。モデルはHTML形式で表を抽出するタスクを与えられ、構造的および内容的な正確さの両方を捉える指標であるTEDS(Table Structure Recognition and Extraction Score)を使用してスコアリングされます。Granite 4.0 3B Visionは、評価されたすべてのモデルの中で、切り抜き(92.1)と全ページ(79.3)の両方でPubTablesV2、OmniDocBench(64.0)、TableVQA(88.1)のスコアで最高の性能を達成しました。
図3: TEDSで測定された、切り抜きおよび全ページベンチマーク(TableVQA-extract、PubTables-v2、OmniDocBench-tables)におけるGranite 4.0 3B Visionの表抽出性能。
意味的KVP: VAREXは、小さな抽出モデルを区別するために特別に設計されたベンチマークで、単純なフラットレイアウトから複雑なネストおよび表形式構造にわたる1,777の米国政府フォームで構成されています。モデルは、モデルが抽出したキー・バリューペアがグラウンドトゥルースと一致することを要求する厳格な指標である完全一致(EM: Exact Match)を使用して評価されます。Granite 4.0 3B Visionは、ゼロショットで85.5%のEM精度を達成しました。
Granite 4.0 3B Visionは、スタンドアロンの視覚情報抽出エンジンとして、またはDoclingとの完全自動化された文書処理パイプラインの一部として動作できます。このモデルは、多様な文書タイプと視覚形式にわたるスケーラブルで正確な抽出をサポートするように設計されています。
- スタンドアロン画像理解 Granite 4.0 3B Visionは個々の画像で直接実行できるため、上流システムを変更せずにターゲットを絞った視覚抽出を必要とする既存のワークフローを持つアプリケーションに有用です。これは既存の自動化ワークフローへの容易な統合を提供し、軽量でタスク特化型のツール(例:フォームパーサー、チャートアナライザーなど)に適しています。
- Doclingとの統合文書理解パイプライン Granite 4.0 3B Visionは、Doclingとシームレスに統合して、完全なエンドツーエンドの文書理解をサポートすることもできます。このモードは以下を提供できます:
複数ページPDFの大規模処理
Doclingによる図、表、その他の視覚要素の自動検出、セグメンテーション、切り抜き、およびきれいな切り抜き画像のGranite Visionモデルへのリダイレクトによる微細な抽出
全体的な計算コストが低く、スループットが速い効率的なワークフロー
大規模な文書コレクション全体で、より高い精度、より信頼性の高い抽出、および大幅に向上した効率
使用例
フォーム処理: KVP機能を使用して請求書、フォーム、領収書から構造化フィールドを抽出する、またはimage2text機能(例:「この画像を詳細に説明してください」)を使用して図の自然言語記述を生成する。
財務報告書分析: Doclingを使用して報告書を解析し、図を検出し、視覚要素を切り抜く。Granite Visionのchart2csv、chart2code機能を使用してチャートを処理し、tables_json機能を使用して表を処理し、それらを構造化された機械可読データに変換して、実用的な洞察を可能にする。
研究文書インテリジェンス: Doclingを利用して、密度の高い学術PDF全体でOCR(光学文字認識)とレイアウト解析を処理し、抽出された図をchart2summaryに、表の切り抜きをtables_htmlに渡して、単一のパイプライン内で自由形式のテキストと並行して視覚コンテンツを検索可能にする。
Granite 4.0 3B Visionは、HuggingFaceでApache 2.0ライセンスの下でリリースされ、現在利用可能です。完全な技術的詳細、トレーニング方法論、ベンチマーク結果はモデルカードで入手できます。あなたがこれで何を構築するか聞きたいです—コミュニティタブでフィードバックを共有してください。







Granite 4.0 3B Visionは、企業文書の視覚的要素とテキスト情報の両方を理解するために特別に設計された、コンパクトで効率的なマルチモーダルモデルです。このモデルは、IBMのGraniteファミリーの一部であり、企業環境における実用的な展開を目指して、精度と計算効率のバランスを最適化しています。
このモデルの主な強みは、レイアウト認識と視覚的質問応答(VQA)のタスクにあります。契約書、レポート、請求書、プレゼンテーションなどの複雑な文書を解析し、図表、表、グラフ、手書きメモなどの視覚要素から情報を抽出できます。例えば、表内の特定の数値を尋ねたり、グラフの傾向を説明したり、文書内の署名の位置を特定したりすることが可能です。
Granite 4.0 3B Visionは、わずか30億パラメータという比較的小さなサイズでありながら、はるかに大きなモデルに匹敵する性能を発揮します。これは、企業が限られた計算リソース(例えば、オンプレミスのサーバーやエッジデバイス)でも高性能なAI機能を利用できることを意味します。低レイテンシーと高いコスト効率は、大規模な文書処理ワークフローへの統合において重要な利点となります。
このモデルは、IBMのwatsonx.aiプラットフォームを通じて利用可能であり、企業は自社の文書データで微調整(Fine-tuning)を行い、特定のユースケースや業界の専門用語に適応させることができます。これにより、法律、金融、医療、製造など、さまざまな分野での高度な文書理解自動化アプリケーションの開発が促進されます。
要約すると、Granite 4.0 3B Visionは、企業が非構造化文書の宝庫から価値を引き出すための強力で実用的なツールです。そのコンパクトな設計と強力なマルチモーダル能力は、現実世界のビジネス課題に対するスケーラブルで効率的なAIソリューションへの道を開きます。
原文を表示
Back to Articles Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents
Upvote 3 ![]()


Today we're excited to announce Granite 4.0 3B Vision, a compact vision-language model (VLM) designed for enterprise document understanding. It’s purpose-built for reliable information extraction from complex documents, forms, and structured visuals. Granite 4.0 3B Vision excels on the following capabilities:
Table Extraction: Accurately parsing complex table structures (e.g., multi-row, multi-column, etc.) from document images
Chart Understanding: Converting charts and figures into structured machine-readable formats, summaries, or executable code
Semantic Key-Value Pair (KVP) Extraction: Identifying and grounding semantically meaningful key-value field pairs across diverse document layouts
The model ships as a LoRA adapter on top of Granite 4.0 Micro, our dense language model, keeping vision and language modular for text-only fallbacks and seamless integration into mixed pipelines. It continues to support vision-language tasks such as producing detailed natural-language descriptions from images (e.g., “Describe this image in detail”). The model can be used standalone or in tandem with Docling to enhance document processing pipelines with deep visual understanding capabilities.
How Granite 4.0 3B Vision Was Built
Granite 4.0 3B Vision’s performance is the result of three key investments: A purpose-built chart understanding dataset constructed via a novel code-guided data augmentation approach, a novel variant of the DeepStack architecture that enables high-detail visual feature injection, and a modular design that keeps the model practical for enterprise deployment.
ChartNet: Teaching Models to Truly Understand Charts
Charts present a challenge for vision-language models (VLMs) because understanding them requires jointly reasoning over visual patterns, numerical data, and natural language, a combination most VLMs cannot handle well, especially when spatial precision matters—such as reading exact values off a line chart. To close this gap, we’ve developed ChartNet: a million-scale multimodal dataset purpose-built for chart interpretation and reasoning, described in detail in our upcoming CVPR 2026 paper.
ChartNet uses a code-guided synthesis pipeline to generate 1.7 million diverse chart samples spanning 24 chart types and 6 plotting libraries [see Figure 1]. What makes it so distinctive is that each sample consists of five aligned components—plotting code, rendered image, data table, natural language summary, and QA pairs—providing models a deeply cross-modal view of what a chart means, not just what it looks like. The dataset also includes human-annotated and real-world subsets, filtered for visual fidelity, semantic accuracy, and diversity.
The result is a training resource that moves VLMs from merely describing charts to genuinely understanding the structured information they encode—with consistent gains across model sizes, architectures, and tasks.
Figure 1: ChartNet’s synthetic data generation pipeline.
DeepStack: Smarter Visual Feature Injection
Most VLMs inject visual information into their language model at a single point, which forces the model to handle both high-level semantics and fine-grained spatial detail simultaneously. Granite 4.0 3B Vision takes a different approach with DeepStack Injection: abstract visual features are routed into earlier layers for semantic understanding, while high-resolution spatial features are fed into later layers to preserve detail. The result is a model that understands both what is in a document and where—which is critical for tasks like table extraction, chart understanding, and KVP parsing where layout matters as much as content. For a full technical breakdown, see the Model Architecture section of the model card.
Modularity: One Model, Two Modes
Granite 4.0 3B Vision is packaged as a LoRA adapter on top of Granite 4.0 Micro, rather than as a standalone model. In practice, this means the same deployment can serve both multimodal and text-only workloads, automatically falling back to the base model when vision isn’t required. This keeps enterprise integration straightforward without sacrificing performance.
How It Performs
Charts: Evaluated on the human-verified ChartNet benchmark using LLM-as-a-judge, Granite 4.0 3B Vision achieves the highest Chart2Summary (86.4%) score among all evaluated models, including significantly larger ones [see Figure 2]. It also ranks second on Chart2CSV (62.1%), behind only Qwen3.5-9B (63.4%), a model more than double its size.
Figure 2: Granite 4.0 3B Vision performance on chart2csv and chart2summary, compared against peer vision-language models using LLM-as-a-judge.
Tables: We evaluate table extraction in two settings: cropped tables (isolated regions) and full-page documents (tables embedded in complex layouts) [see Figure 3]. The benchmark suite includes TableVQA-extract (cropped table images), OmniDocBench-tables (full-page documents), and PubTables-v2 (both cropped and full-page settings). Models are tasked with extracting tables in HTML format and scored using TEDS, a metric that captures both structural and content accuracy. Granite 4.0 3B Vision achieves the strongest performance across benchmarks, leading on PubTablesV2 on both cropped (92.1) and full-page (79.3), OmniDocBench (64.0), and TableVQA (88.1) scores among all evaluated models.
Figure 3: Granite 4.0 3B Vision’s table extraction performance across cropped and full-page benchmarks (TableVQA-extract, PubTables-v2, OmniDocBench-tables), measured by TEDS.
Semantic KVP: VAREX is a benchmark specifically designed to discriminate between small extraction models, comprising 1,777 U.S. government forms spanning simple flat layouts to complex nested and tabular structures. Models are evaluated using exact match (EM), a strict metric that requires the model’s extracted key-value pairs to match the ground truth. Granite 4.0 3B Vision achieves 85.5% EM accuracy zero-shot.
Granite 4.0 3B Vision can operate either as a stand‑alone visual information extraction engine or as part of a fully automated document‑processing pipeline with Docling. The model is designed to support scalable, accurate extraction across diverse document types and visual formats.
- Stand‑Alone Image Understanding Granite 4.0 3B Vision can run directly on individual images, making this option useful for applications with existing workflows that need targeted visual extraction without modifying upstream systems. This offers easy integration into existing automation workflows and is suitable for lightweight, task‑specific tools (e.g., form parsers, chart analyzers, etc.).
- Integrated Document Understanding Pipeline With Docling Granite 4.0 3B Vision can also be integrated seamlessly with Docling to support complete end‑to‑end document understanding. This mode can offer:
Large‑scale processing of multi‑page PDFs
Automated detection, segmentation, and cropping of figures, tables, and other visual elements with Docling and redirection of clean crops to Granite Vision model for fine-grained extraction
Efficient workflow with lower overall computational costs and faster throughput
Higher accuracy, more reliable extraction, and significantly improved efficiency across large document collections
Example Use Cases
Form Processing: Extract structured fields from invoices, forms, and receipts using KVP capabilities or generate natural‑language descriptions of figures using image2text feature (e.g., “Describe this image in detail”).
Financial Report Analysis: Use Docling to parse reports, detect figures, and crop visual elements. Process charts using Granite Vision’s chart2csv, chart2code, and tables using tables_json capabilities to convert them into structured, machine‑readable data enabling actionable insights.
Research Document Intelligence: Utilize Docling to handle OCR and layout parsing across dense academic PDFs, and pass extracted figures to chart2summary and table crops to tables_html to make visual content discoverable alongside free-form text in a single pipeline.
Granite 4.0 3B Vision is available now on HuggingFace, released under the Apache 2.0 license. Full technical details, training methodology, and benchmark results are available in the model card. We’d love to hear what you build with it—share your feedback in the community tab.







関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み