PDF から洞察へ：AWS 生成 AI サービスを用いたインテリジェントなドキュメント処理パイプラインの構築

組織は毎日、保険請求書や請求書から法的契約、医療記録に至るまで数百万の文書を処理しています。従来の光学文字認識（OCR）ソリューションはテキストを抽出できますが、複雑な文書内に埋め込まれた文脈、関係性、または意味を理解することはできません。この制限により手動介入が必要となり、処理時間とコストが増加し、潜在的なエラーも発生します。 [Amazon Bedrock Data Automation](https://aws.amazon.com/bedrock/bda/)（BDA）は、文書、画像、動画、音声ファイルなどのマルチモーダルコンテンツから意味のあるインサイトを抽出するための統一された API 体験を提供します。テキスト抽出に焦点を当てる従来のソリューションとは異なり、BDA は文書の文脈を理解し、抽出されたデータを検証し、精度に対する信頼スコアを提供します。BDA は、文書分類、抽出、正規化、および検証を含む複雑なタスクを自動化するパイプラインを通じて文書を処理します。文書が提出されると、BDA は自動的に論理的な境界に沿って分割し、各セクションを適切な文書タイプに分類して、正しい処理ブループリントと一致させます。このインテリジェントなルーティングにより、手動による文書の仕分けや複数の AI モデルのオーケストレーションが不要になります。本サービスは幅広いファイル形式をサポートしており、API リクエストあたり最大 3,000 ページ、500 MB まで対応可能で、大規模な多様な文書タイプの処理に適しています。 本記事では、Amazon Bedrock とその機能を活用した、AWS 上で構築するコスト効果に優れスケーラブルなインテリジェントドキュメント処理パイプラインの開発について概説します。BDA は Amazon Bedrock 内のマネージドサービスであり、ドキュメントからの洞察抽出を自動化します。ここでは、BDA がどのようにしてドキュメントの内容を抽出・分析するか、Amazon Bedrock AgentCore Runtime でホストされた Strands Agent が専門的な処理タスクを調整し、Amazon Bedrock Knowledge Base が複数のドキュメントにわたる文脈理解を可能にするかを示します。これらの機能を統一されたアーキテクチャ内で組み合わせることで、組織は最小限の開発労力でドキュメント処理ワークフローを変革することができます。 ## ソリューション概要 当社のインテリジェントドキュメント処理パイプラインは、生成 AI とオーケストレーションされたワークフローを組み合わせ、文書から視覚的なプロット、グラフ、チャートを自動的に抽出・分析し、洞察を導き出す一方で、複数のデータソースにわたる文脈と関係性を維持します。本ソリューションでは、ドキュメントが 4 つの統合レイヤーを通じて処理されます： - インプット処理層：ドキュメントのアップロードは、処理オーケストレーションとステートマシンの調整をトリガーします。 - 抽出および保存層：生テキストおよび表の抽出、画像および視覚要素の分析、スケーラブルなデータ統合を行います。 - インテリジェンス層：意味検索を備えたナレッジベースの取り込み、マルチモーダル基盤モデル（FM）分析、大規模言語モデル（LLM）による解釈機能を提供します。 - エージェント調整層：コーディネーターエージェントおよび専門タスク用エージェントです。 ## アーキテクチャコンポーネント ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-1.png) ## インプット処理層 インプット処理層は、このソリューションの基盤を形成します。この層は、着信ドキュメントの初期受信とルーティングを管理します。ドキュメントが指定された Amazon Simple Storage Service (Amazon S3) バケットに到着すると、ドキュメントアップロードが処理ワークフローをトリガーし、PDF やスキャンされたドキュメント（PDF 形式）を含むさまざまなフォーマットをサポートします。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-2-773x1024.png) BDA は入力処理層におけるコア抽出エンジンとして機能し、統一された API を通じて文書の分割、分類、およびコンテンツ抽出を処理します。AWS Step Functions は、抽出および保存層において BDA の機能を最大限に活用できるようワークフローをオーケストレーションし、プロセス全体を通じて運用上の可視性と制御を提供します。以下が詳細なオーケストレーションフローです。 - ドキュメント取り込み：ファイルは S3 バケットにさまざまな形式で到着します。各形式は統一 API を通じて処理されるため、形式固有の前処理の必要がなくなります。 - メタデータ記録：ワークフローはドキュメントのメタデータを Amazon DynamoDB に記録し、追跡、監査証跡、レポート作成を行います。これにはファイルタイプ、サイズ、提出時刻、処理ステータスが含まれます。 ページ数分析：ワークフローはページ数をチェックして処理戦略を改善します。BDA は自動的にドキュメントの分割を行い、最大 3,000 ページまでのドキュメントを処理できます。Step Functions におけるページ数チェックは、非同期ジョブに対して適切なタイムアウト値を設定し、異常に大きなドキュメントの監視とアラート発令を行うのに役立ちます。 - BDA 処理呼び出し：ワークフローは InvokeDataAutomationAsync API を使用して非同期 BDA ジョブを開始します。BDA はその後自動的に以下を行います： 論理的な境界に沿ってドキュメントを分割（各分割部は最大 20 ページ）。 - 各セクションをドキュメントタイプに分類する。 - ドキュメントを適切なブループリントにマッチングさせる（カスタム出力を使用する場合）。ブループリントは事前に設定されたアーティファクトであり、抽出ロジックを定義したものであり、BDA 処理前にセットアップする必要があります。 - テキスト、テーブル、フォーム、視覚要素を含むすべてのコンテンツを抽出する。 - タスクトークンによる非同期処理：ワークフローはタスクトークンを保存し、BDA ジョブの完了を待ちます。このパターンによりリソース効率が向上し、数千件のドキュメントを並列して処理することが可能になります。 エラーハンドリングとルーティング：包括的なエラーハンドリングにより、正常な処理、バリデーションエラー、タイムアウト、サポートされていないファイルタイプなど、さまざまなシナリオが管理され、ドキュメントの紛失を防ぎ、すべての問題がレビュー用にログ記録されます。 このオーケストレーションアプローチは、各処理段階に適切な分岐ロジックと例外管理を備えた、自動化されたドキュメント分析のための非常にスケーラブルなサーバーレスパイプラインを提供します。 ## 抽出および保存層 この層は本ソリューションの中核を成すものであり、BDA が生データを構造化され実用的なデータへと変換する中核エンジンとして機能します。詳細については以下のセクションで説明いたします。 **Amazon Bedrock Data Automation** は主要な処理エンジンとして機能し、2 つの柔軟な出力オプションを提供します： - Standard output – データタイプに基づいて一般的に必要な情報を提供します。これには、ドキュメントの要約、読み取り順序での抽出テキスト、表や図のキャプション、および生成されたインサイトが含まれます。Standard output はプロジェクトを通じてカスタマイズ可能で、処理ニーズに応じてヘッダー、フッター、タイトル、図などの特定の抽出機能を有効化または無効化できます。 - Custom output with blueprints – このアイデアは、同じ種類のドキュメント間で共通情報を抽出するために一貫した指示セットを使用するため、各ドキュメントタイプごとに 1 つのブループリントを作成することです。しかし、異なるドキュメントタイプ間では、異なる情報に対して別のブループリントが必要です。例えば、パスポートから抽出したい情報と銀行明細書から抽出したい情報は異なるため、これら 2 つのドキュメントタイプには個別のブループリントが必要です。すべての銀行明細書は、銀行やフォーマットが何であれ、銀行明細書から抽出したい情報の種類が同じであるため、単一のブループリントのみで処理する必要があります。ブループリントは、特定のフィールド、データ形式、および抽出指示を定義することで、抽出される情報に対する精密な制御を可能にします。プロジェクトには最大 40 のドキュメントブループリントを含めることができ、BDA は各ドキュメントを適切なブループリントに自動的にマッチングさせます。これにより、請求書、契約書、フォームなど多様なドキュメントタイプを単一の統合ワークフロー内で処理することが可能になります。 さらに、BDA は以下の機能も提供します： - 単一のインターフェースを通じて多様なコンテンツを処理するための統一された API エクスペリエンス - 処理性能の向上のために複数のリージョンにまたがるクロスリージョン推論機能 - 精度を確保するための視覚的グラウンディングや信頼度スコアなど、組み込みのセーフガード - 特定のドキュメントタイプに対して出力フォーマットを標準化するためのカスタムブループリント対応 **ビジュアル分析処理**は、従来の光学文字認識 (OCR) ソリューションでは解釈できないプロット、図、チャート、および視覚的要素から洞察を引き出すために BDA の機能を利用します。BDA は図のキャプション付けを行う際、画像クロップを出力の一部として提供し、さらにこれらの視覚的要素から詳細なテキスト記述と構造化データを生成して、後続のワークフローに含めます。例えば、BDA がチャートを処理する際には以下のような結果を生成します: - チャートの内容と目的を記述するキャプションの生成 - グラフからのデータポイントおよびトレンドの抽出 - 図やフローチャートからの構造的関係性の抽出 - ドキュメント内の位置と視覚的要素を結びつけるバウンディングボックス座標 **下流処理におけるすべてのドキュメント形式**: 対応するすべてのドキュメント形式（PDF, PNG, JPG, TIFF, DOC, DOCX）は、統一された API を通じて処理されます。BDA（文書解析サービス）から抽出されたコンテンツには視覚要素の記述も含まれており、これらは手動で設定することで Amazon Bedrock Knowledge Bases 内でインデックス化およびベクトル化が可能となり、多様なドキュメントタイプにわたる意味検索を実現できます。なお、BDA は Knowledge Bases と組み込み統合を持っており、文書取り込み時にパーサーとして機能します（この場合、BDA の標準出力を使用するため、ブループリントは不要です）。この下流ワークフローでは、BDA からすべての抽出情報を含む構造化された JSON 出力を受け取り、元のファイル形式に関わらず一貫した処理を可能にします。 **ドキュメントからのデータ抽出**には以下が含まれます: - レイアウトを保持した読み順でのテキスト抽出 - セル間の関係を維持した表構造の認識 - フォームフィールドの検出とキー・バリューペアの抽出 - 生成されたキャプションを含むチャート、グラフ、図などの視覚要素分析 - 抽出された要素の正確な位置追跡のためのバウンディングボックス座標 - コンテキストを保持したドキュメントレベルおよびページレベルの要約 ## インテリジェンス層 この層は本ソリューションのコグニティブエンジン（認知エンジン）です。Amazon Bedrock Knowledge Bases は、セマンティック検索と Retrieval Augmented Generation (RAG) 機能を通じて生データを行動可能なインサイトに変換するために、Amazon OpenSearch Serverless と連携するように構成する必要があります。以下のセクションで詳細を説明します。 Amazon Bedrock Knowledge Bases と Amazon OpenSearch Serverless の組み合わせは、以下によってセマンティック検索および RAG ワークフローを実現します: - インテリジェントな照会のために処理されたドキュメントコンテンツのインデックス化 - ドキュメントコレクション全体での類似度検索のためのベクトル埋め込みの維持 - 複数のドキュメントやデータソースにわたる複雑なクエリのサポート **Amazon Bedrock FMs **は、チャートおよびグラフの解釈、ドキュメントレイアウトの理解、テキストと視覚コンポーネント間のクロスモーダル関係検出を含む視覚コンテンツを分析します。 ## エージェント協調レイヤー このレイヤーは、本ソリューションの知能を組織化するものです。Amazon Bedrock AgentCore Runtime 上のストランドエージェントが、リクエストタイプに基づいて適切な専門化されたエージェントへリクエストをルーティングし、複雑な文書分析のためのクロスエージェント間の通信を調整することで、全体の処理ワークフローを管理します。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-3.png) **専門化されたタスクエージェント**は、特定の文書処理機能を担当します: - 金融市場レポートや投資ドキュメント向けのマーケットアナリストエージェント。 - ポートフォリオ分析および助言ドキュメント向けの投資助言エージェント。 - 金融データプロバイダー、規制データベース、市場インテリジェンスプラットフォームへの安全な API 接続を介したリアルタイムのサードパーティデータ統合を行う外部 API エージェント。 - コーディネーターエージェントは、Amazon Bedrock のナレッジベースに保存された履歴データに対して、外部 API エージェントからのリアルタイム市場データを比較することで、クロス参照検証を実行します。 ## Implementation architecture 処理パイプラインは、文書処理におけるイベント駆動型アプローチを採用し、複数の専門レイヤーを統合して一貫したワークフローを構築しています。各ステップが前段階の上に積み重なる論理的な進行に従い、まず文書のアップロードから始まり、Amazon S3 イベントがトリガーとなって状態機械（state machines）を開始します。その後、多様なコンテンツタイプから意味を抽出するマルチモーダル処理へと進み、さらに文書の特徴に基づいて処理を指示するエージェント調整が行われます。その後は、インテリジェントな検索のためのナレッジベースへのインデックス化が続き、最終的には洞察の生成とビジネスシステムとの統合に至り、生データから実行可能な知見までの包括的な処理の旅を実現します。 ## Document processing flow AWS Step Functions が文書処理パイプラインをオーケストレーションし、文書の分類、マルチモーダル抽出、データ検証、ナレッジベースの統合を管理しています。 ## Agentic interaction flow ユーザー向けレイヤーは、処理された文書コーパスとの自然言語対話によるインテリジェントな照会処理、専門エージェントに対する調整エージェントによる監督、および適切な処理エージェントへの照会のスマートな分散を通じて機能します。 ## Solution walkthrough ## ユースケース：商業用不動産物件分析 商業用不動産投資会社は、毎月 200 件を超える物件評価レポートを受領しています。これらのレポートには以下が含まれます: - 所在地マップ、ゾーニング情報、物件説明を含む物件概要ドキュメント。 - PDF 内に画像として埋め込まれた財務分析スプレッドシート（キャッシュフロー予測、キャップレート、ROI 計算を表示）。 - 比較対象となる物件の売却価格、賃貸料率、市場動向を示す市場比較チャート。 - アノテーションと測定値付きの物件写真および間取り図。 - タイトルレポート、環境アセスメント、ゾーニングコンプライアンスを含む法的ドキュメント。 - 時系列における稼働率、賃貸収入リスト、維持管理コストを示す過去の業績グラフ。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-4-689x1024.png) *アナリストはこのソリューションにアクセスし、ドキュメントをアップロードします* ## 実装 この実装では、以下の処理を行うことで、当社の生成 AI サービスが文書処理機能を通じて不動産投資分析をどのように変革するかを示しています: **ドキュメント分類**: システムは自動的にドキュメントタイプを特定し、物件メタデータ（住所と床面積を含む）を抽出して、異なるドキュメントセクションを適切な処理エージェントにルーティングします。 **マルチモーダルコンテンツ抽出**: - マーケットアナリストエージェントは埋め込まれた財務チャートを処理し、純営業収入（Net Operating Income）の見通しと資本化率のトレンドを抽出します。 - Amazon Bedrock Data Automation の視覚機能は物件写真を分析し、状態指標や間取り効率比を特定します。 - 文書間の関係性分析により、予測されたキャッシュフローが過去の業績データと整合しているか検証されます。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-5-1024x633.png) **自然言語クエリ**: 投資専門家は、「*IRR（内部収益率）の見通しが 12% を超え、債務カバレッジレシオが 1.25 を上回る物件を表示してください」や「類似資産の NOI 成長見通しと実際の市場パフォーマンスを比較してください」といった自然言語クエリを用いて情報を処理します。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-6-745x1024.png) ## 結果 初期スクリーニングにかかる処理時間が、物件あたり 3〜4 時間から 15〜20 分に短縮されました。自動抽出により手動転記の誤りが排除され、文書間検証によって不整合が特定されます。同社ははるかに多くの機会を処理でき、見落とされていた可能性のある魅力的な投資先も発見できるようになりました。 **スケーラビリティ検証:** このソリューションはスケールしてテストされており、BDA パイプラインを通じて同時に**50,000 件**以上の PDF ドキュメントを正常に処理しました。このソリューションは、契約書、財務報告書、技術仕様書など多様なドキュメントタイプにおいて高い精度を維持しながら、スケールした処理を実現しています。AWS Step Functions と非同期 BDA 処理によるサーバーレスアーキテクチャが、パフォーマンスの低下なくこの大規模並列処理能力を可能にし、エンタープライズ規模のドキュメント処理ワークロードに対するソリューションの準備完了を示しています。

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト