PDFの図表はRAGで扱えるのか?6つの方法で検証して分かった“現実的な最適解”
HEROZ Tech Blogは、PDF内の図表をRAGで扱うための6つの手法を精度・コスト・処理時間の観点で比較検証し、実務で使える現実的な最適解を最新の研究動向と照らし合わせて整理した。
キーポイント
検証対象の6手法
テキスト抽出、LLMによるOCR、マルチモーダルEmbeddingなど、PDF図表を扱うための複数の手法を比較検証の対象としている。
多角的な評価軸
各手法を精度、コスト、処理時間という実務で重要な観点から評価している。
現実的な最適解の提示
最新の研究動向も考慮し、実務で使える現実的な最適解を整理・提示している。
RAGの課題解決への焦点
RAG(Retrieval-Augmented Generation)における非構造化データ(図表)の扱いという具体的な課題に取り組んでいる。
影響分析・編集コメントを表示
影響分析
この記事は、RAG技術の実用化における大きな課題である非テキストデータ(図表)の扱いに具体的な方法論と評価軸を提供しており、企業や開発者が実装を進める上での指針となる。技術の進展を現場の視点で評価し、実用的な知見を共有することで、AI応用の深化に貢献する。
編集コメント
RAGの実用化における具体的な課題(図表処理)にスポットを当て、手法比較と実践的な評価軸を提供する良質な技術記事。開発者や導入検討者にとって有用な指針となる内容。
PDFに含まれる図表をRAG(Retrieval-Augmented Generation)で扱うことは可能なのか?本記事では、テキスト抽出、LLMを活用したOCR、マルチモーダルEmbeddingなど計6つの手法を比較し、精度・コスト・処理時間の観点から検証しました。最新の研究動向も踏まえながら、実務で適用可能な現実的な最適解を提示します。
原文を表示
はじめに
PDFの資料をRAGで検索・要約できるようにしたい、というニーズは多くの現場で見られます。
しかし実際にやってみると、「図や表の情報がうまく扱えない」という壁にぶつかることが少なくありません。
実際に社内外のユースケースでも、この課題に直面するケースが増えてきました。
テキスト中心のRAGでは、図解やレイアウトに依存した情報はうまく検索できず、結果として不正確な回答や見当違いの要約が返ってくることがあります。
では、最近話題のマルチモーダルRAGや画像対応のEmbeddingを使えば、この問題は解決するのでしょうか?
実は筆者も約2年前、マルチモーダルRAGの黎明期に同様の検証を行っています。
techblog.heroz.jp
当時は画像・表・テキストを分離して扱い、それぞれを要約・構造化する必要があり、実装・精度の両面で課題が残る状態でした。
しかし現在では、マルチモーダルEmbeddingの進化により、ページ全体をそのままベクトル化できるようになり、アプローチ自体が大きく変わりつつあります。
本記事では、PDFに含まれる図表を対象に、6つの方法(テキスト抽出、OCR、マルチモーダルEmbeddingなど)を比較し、精度・コスト・処理時間の観点から検証を行いました。
その結果、必ずしも最新の手法が最適とは限らず、用途によってはより現実的な選択肢が見えてきました。
PDFの図表をRAGで扱いたいと考えている方に向けて、本記事ではその「実務的な最適解」を整理して紹介します。
マルチモーダルRAGとは、テキストだけでなく、画像や図表といった複数の形式(モダリティ)の情報を扱うRAGの仕組みです。
従来のRAGはテキストを前提としているため、PDFに含まれる図や表の情報をそのまま扱うことが難しいという課題がありました。
この課題に対して、マルチモーダルRAGではいくつかの設計パターンが提案されています。
代表的には以下の3つに分類されます。
Option1:画像をそのまま扱う(マルチモーダルEmbedding)
Option2:画像をテキストに変換して扱う(OCR・要約)
Option3:画像とテキストを併用する(融合型)
今回のmode2はOption2、mode4系(mode4v / mode4c / mode4g)はOption1、mode3はOption3に対応する構成となっています。
本記事では、この分類に対応する形で6つの手法を比較します。
実験概要
目的
PDFに含まれる図表を含めて、RAGの検索および回答生成がどの程度可能かを検証する。
特に、マルチモーダルEmbeddingの実用性を確認する。
手法(6つのモード)
mode1:テキスト抽出のみ(テキストのみ・図表なし)
→ PDFからテキストのみ抽出し、図表は扱わない
mode2:LLMによるOCR(OCRテキスト化)
→ 各ページを画像として処理し、LLMでテキスト化して検索に利用する
mode3:OCR+画像併用(テキスト+画像)
→ OCRでテキスト化しつつ、回答生成時には画像も参照する
mode4v:画像Embedding(Voyage)
→ ページ全体を画像としてベクトル化し、そのまま検索に利用する
mode4c:画像Embedding(Cohere)
→ ページ全体を画像としてベクトル化し、そのまま検索に利用する
mode4g:画像Embedding(Gemini)
→ ページ全体を画像としてベクトル化し、そのまま検索に利用する
※ mode4v / mode4c / mode4gはそれぞれ異なるマルチモーダルEmbeddingモデル(Voyage / Cohere / Gemini Embedding 2)を使用しており、モデル間の差異も含めて比較している
データセット
本検証では、以下の3種類のデータセットを用いて評価を行いました。
データセットA: 某北欧家具メーカーの組み立てマニュアル(24問)
図解のみで構成されており、警告表示以外にテキストがほとんど含まれない資料です。
視覚情報のみから理解する必要があり、マルチモーダル性能を評価するための難易度の高いケースとなります。
データセットB: JDocQA(30問)
チラシやパンフレットを中心とした、日本語のマルチモーダルQAデータセットです。
テキストと図表が混在する、実務に近い構成となっています。
データセットC: 家電製品のマニュアル資料(20問)
図とテキストが併記された一般的なマニュアル形式のデータです。
図の難易度は比較的低く、テキスト情報による補助が期待できるケースです。
評価指標
精度:LLM(Claude 4.5 Sonnet)による5段階評価(1〜5の5点満点)
コスト:日本円によるAPI利用料金
処理時間:平均応答時間(ミリ秒)
結果
データセットAにおける精度比較(図解のみのため難易度が高い)
データセットBにおける精度比較(テキストと図表が混在)
データセットCにおける精度比較(テキストによる補助があるケース)
各モデルにおけるmode別の平均精度
本記事で最も重要な結果は、コストと精度の関係として以下のように整理できます。
コストと精度の関係(モデル別)
図より、mode2は多くのケースで比較的低コストに一定の精度を確保できる、コストパフォーマンスの高い選択肢であることが分かります。
一方で、mode4系は高精度を狙える一方、モデルによってはコスト負担が大きくなる傾向があります。
また、mode3は全体としては中間的な位置づけですが、GPT-5.2のようにコストを抑えつつ精度を伸ばせているケースも見られ、モデルやデータセットによって有効性が変わる手法と考えられます。
結果のまとめ
モード
精度
コスト
特徴
mode1 (テキストのみ・図表なし)
低
低
図表は扱えない
mode2 (OCRテキスト化)
中
中
多くのケースでコスパが良い
mode3 (テキスト+画像)
中〜高
中〜高
モデルによって評価が分かれる
mode4系 (画像Embedding)
高
高
高精度だがコスト増
本検証の特徴は、精度だけでなくコストも含めて比較している点にあり、実務における意思決定に直接つながる結果となっています。
以降では、この観点も踏まえながら結果を考察します。
考察
精度は段階的に向上するが、頭打ちになる
結果として、全体傾向としては mode1 < mode2 < mode3 < mode4系 という関係が確認されました。
ただし、mode3は全体としては中間的な位置づけであり、モデルによっては有効なケースも見られました。
これは、必要な情報の取得(retrieval)はすでに十分に行われており、その後の回答生成(generation)が性能を支配している可能性を示唆しています。
この傾向は近年の研究とも一致しています。
例えば、VisRAG(ICLR 2025)では、PDFを画像のまま扱うRAGが従来手法より高い性能を示すことが報告されています。
https://openreview.net/forum?id=zG459X3Xge
マルチモーダルEmbedding間の差は小さい
マルチモーダルEmbedding間で大きな差は見られませんでした。
UniDoc-Bench(2025)でも、Embedding単体では性能差が出にくく、一定以上では改善幅が小さくなる傾向が見られました。
https://huggingface.co/papers/2510.03663
OCRベースの手法も依然として有効
mode2(OCR)でも一定の精度が出ている点は重要です。
文書理解においては、テキスト化による情報の正規化が依然として有効であることが分かります。
LLMの性能が最終的な精度を決める
画像を扱う手法では、最終的な精度は回答生成LLMの性能に強く依存しました。
特に図解中心のタスクではモデル間の差が顕著に現れました。
実務的な最適解
今回の結果から、用途別に以下のような選択が現実的な指針となります。
コスト重視:mode2(OCR)
精度重視:mode4系(マルチモーダルEmbedding)
mode3(融合型):モデルやデータセットによって有効だが、コストやレイテンシも含めて個別に評価する必要がある
実務においては、まずmode2をベースラインとし、精度要件が高い場合にmode4系を検討するのが現実的な選択となります。
おわりに
本記事では、PDFに含まれる図表を対象に、RAGの6つの手法を比較し、その精度・コスト・処理時間について検証を行いました。
その結果、マルチモーダルEmbeddingはすでに実用レベルに達している一方で、必ずしも単体で最適解となるわけではなく、テキスト化(OCR)や画像の活用方法を含めた設計全体が重要であることが分かりました。
特に、最新の研究においてもテキストと画像を組み合わせた手法が有効であることが示されており、本検証の結果はそうした傾向とも一致しています。
一方で、実務においてはコストや処理時間の制約も無視できず、用途に応じたトレードオフ設計が求められます。
PDFの図表を含む情報活用は、今後ますます重要になる領域です。
マルチモーダルRAGは急速に進化を続けており、今後のモデル・アーキテクチャの発展によって、さらに実用性が高まっていくと考えられます。
引き続き、こうした技術動向を追いながら、実務で使える形に落とし込んでいきたいと思います。
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み