AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
AWS Machine Learning Blog·2026年6月12日 23:43·約18分で読める

PDF から洞察へ:AWS 生成 AI サービスを用いたインテリジェントなドキュメント処理パイプラインの構築

#Document Intelligence#Amazon Bedrock Data Automation#Contextual Understanding#Generative AI#AWS
TL;DR

AWS は、Amazon Bedrock Data Automation を中心とした新しいインテリジェント文書処理パイプラインを発表し、従来の OCR の限界を超えた文脈理解と自動化を実現した。

AI深層分析2026年6月13日 00:04
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

Amazon Bedrock Data Automation (BDA) の機能

単なる文字抽出ではなく、文書のコンテキスト、関係性、意味を理解し、分類、正規化、検証を自動で行う統合 API を提供します。

2

高度な処理パイプラインの構築

BDA と Strands Agent、Bedrock Knowledge Base を組み合わせることで、視覚的要素(グラフやチャート)の分析や複数文書にまたがる文脈理解を可能にします。

3

スケーラビリティとコスト効率

1 回の API リクエストで最大 3,000 ページ、500MB の処理に対応し、手動の文書分類やモデルオーケストレーションを不要にするコスト効果の高いアーキテクチャです。

影響分析・編集コメントを表示

影響分析

この発表は、保険請求書や契約書など大量の文書を扱う企業にとって、属人的な手作業を大幅に削減し、処理精度と速度を劇的に向上させる可能性を秘めています。特に「文脈理解」機能を標準化することで、複雑なドキュメント解析における AI 導入のハードルが下がり、業界全体のデジタルトランスフォーメーション加速が期待されます。

編集コメント

「文脈を理解する OCR」という概念を、AWS のマネージドサービスとして実用レベルで提供した点は業界に大きなインパクトを与えます。特に複雑な文書処理における人的ミスを減らす仕組みは、金融や法務分野での採用が急増するでしょう。

組織は毎日、保険請求書や請求書から法的契約、医療記録に至るまで数百万の文書を処理しています。従来の光学文字認識(OCR)ソリューションはテキストを抽出できますが、複雑な文書内に埋め込まれた文脈、関係性、または意味を理解することはできません。この制限により手動介入が必要となり、処理時間とコストが増加し、潜在的なエラーも発生します。

Amazon Bedrock Data Automation(BDA)は、文書、画像、動画、音声ファイルなどのマルチモーダルコンテンツから意味のあるインサイトを抽出するための統一された API 体験を提供します。テキスト抽出に焦点を当てる従来のソリューションとは異なり、BDA は文書の文脈を理解し、抽出されたデータを検証し、精度に対する信頼スコアを提供します。BDA は、文書分類、抽出、正規化、および検証を含む複雑なタスクを自動化するパイプラインを通じて文書を処理します。文書が提出されると、BDA は自動的に論理的な境界に沿って分割し、各セクションを適切な文書タイプに分類して、正しい処理ブループリントと一致させます。このインテリジェントなルーティングにより、手動による文書の仕分けや複数の AI モデルのオーケストレーションが不要になります。本サービスは幅広いファイル形式をサポートしており、API リクエストあたり最大 3,000 ページ、500 MB まで対応可能で、大規模な多様な文書タイプの処理に適しています。

本記事では、Amazon Bedrock とその機能を活用した、AWS 上で構築するコスト効果に優れスケーラブルなインテリジェントドキュメント処理パイプラインの開発について概説します。BDA は Amazon Bedrock 内のマネージドサービスであり、ドキュメントからの洞察抽出を自動化します。ここでは、BDA がどのようにしてドキュメントの内容を抽出・分析するか、Amazon Bedrock AgentCore Runtime でホストされた Strands Agent が専門的な処理タスクを調整し、Amazon Bedrock Knowledge Base が複数のドキュメントにわたる文脈理解を可能にするかを示します。これらの機能を統一されたアーキテクチャ内で組み合わせることで、組織は最小限の開発労力でドキュメント処理ワークフローを変革することができます。

ソリューション概要

当社のインテリジェントドキュメント処理パイプラインは、生成 AI とオーケストレーションされたワークフローを組み合わせ、文書から視覚的なプロット、グラフ、チャートを自動的に抽出・分析し、洞察を導き出す一方で、複数のデータソースにわたる文脈と関係性を維持します。本ソリューションでは、ドキュメントが 4 つの統合レイヤーを通じて処理されます:

  • インプット処理層:ドキュメントのアップロードは、処理オーケストレーションとステートマシンの調整をトリガーします。
  • 抽出および保存層:生テキストおよび表の抽出、画像および視覚要素の分析、スケーラブルなデータ統合を行います。
  • インテリジェンス層:意味検索を備えたナレッジベースの取り込み、マルチモーダル基盤モデル(FM)分析、大規模言語モデル(LLM)による解釈機能を提供します。
  • エージェント調整層:コーディネーターエージェントおよび専門タスク用エージェントです。

アーキテクチャコンポーネント

image
image

インプット処理層

インプット処理層は、このソリューションの基盤を形成します。この層は、着信ドキュメントの初期受信とルーティングを管理します。ドキュメントが指定された Amazon Simple Storage Service (Amazon S3) バケットに到着すると、ドキュメントアップロードが処理ワークフローをトリガーし、PDF やスキャンされたドキュメント(PDF 形式)を含むさまざまなフォーマットをサポートします。

image
image

BDA は入力処理層におけるコア抽出エンジンとして機能し、統一された API を通じて文書の分割、分類、およびコンテンツ抽出を処理します。AWS Step Functions は、抽出および保存層において BDA の機能を最大限に活用できるようワークフローをオーケストレーションし、プロセス全体を通じて運用上の可視性と制御を提供します。以下が詳細なオーケストレーションフローです。

  • ドキュメント取り込み:ファイルは S3 バケットにさまざまな形式で到着します。各形式は統一 API を通じて処理されるため、形式固有の前処理の必要がなくなります。
  • メタデータ記録:ワークフローはドキュメントのメタデータを Amazon DynamoDB に記録し、追跡、監査証跡、レポート作成を行います。これにはファイルタイプ、サイズ、提出時刻、処理ステータスが含まれます。

ページ数分析:ワークフローはページ数をチェックして処理戦略を改善します。BDA は自動的にドキュメントの分割を行い、最大 3,000 ページまでのドキュメントを処理できます。Step Functions におけるページ数チェックは、非同期ジョブに対して適切なタイムアウト値を設定し、異常に大きなドキュメントの監視とアラート発令を行うのに役立ちます。

  • BDA 処理呼び出し:ワークフローは InvokeDataAutomationAsync API を使用して非同期 BDA ジョブを開始します。BDA はその後自動的に以下を行います:

論理的な境界に沿ってドキュメントを分割(各分割部は最大 20 ページ)。

  • 各セクションをドキュメントタイプに分類する。
  • ドキュメントを適切なブループリントにマッチングさせる(カスタム出力を使用する場合)。ブループリントは事前に設定されたアーティファクトであり、抽出ロジックを定義したものであり、BDA 処理前にセットアップする必要があります。
  • テキスト、テーブル、フォーム、視覚要素を含むすべてのコンテンツを抽出する。
  • タスクトークンによる非同期処理:ワークフローはタスクトークンを保存し、BDA ジョブの完了を待ちます。このパターンによりリソース効率が向上し、数千件のドキュメントを並列して処理することが可能になります。

エラーハンドリングとルーティング:包括的なエラーハンドリングにより、正常な処理、バリデーションエラー、タイムアウト、サポートされていないファイルタイプなど、さまざまなシナリオが管理され、ドキュメントの紛失を防ぎ、すべての問題がレビュー用にログ記録されます。

このオーケストレーションアプローチは、各処理段階に適切な分岐ロジックと例外管理を備えた、自動化されたドキュメント分析のための非常にスケーラブルなサーバーレスパイプラインを提供します。

抽出および保存層

この層は本ソリューションの中核を成すものであり、BDA が生データを構造化され実用的なデータへと変換する中核エンジンとして機能します。詳細については以下のセクションで説明いたします。

Amazon Bedrock Data Automation は主要な処理エンジンとして機能し、2 つの柔軟な出力オプションを提供します:

  • Standard output – データタイプに基づいて一般的に必要な情報を提供します。これには、ドキュメントの要約、読み取り順序での抽出テキスト、表や図のキャプション、および生成されたインサイトが含まれます。Standard output はプロジェクトを通じてカスタマイズ可能で、処理ニーズに応じてヘッダー、フッター、タイトル、図などの特定の抽出機能を有効化または無効化できます。
  • Custom output with blueprints – このアイデアは、同じ種類のドキュメント間で共通情報を抽出するために一貫した指示セットを使用するため、各ドキュメントタイプごとに 1 つのブループリントを作成することです。しかし、異なるドキュメントタイプ間では、異なる情報に対して別のブループリントが必要です。例えば、パスポートから抽出したい情報と銀行明細書から抽出したい情報は異なるため、これら 2 つのドキュメントタイプには個別のブループリントが必要です。すべての銀行明細書は、銀行やフォーマットが何であれ、銀行明細書から抽出したい情報の種類が同じであるため、単一のブループリントのみで処理する必要があります。ブループリントは、特定のフィールド、データ形式、および抽出指示を定義することで、抽出される情報に対する精密な制御を可能にします。プロジェクトには最大 40 のドキュメントブループリントを含めることができ、BDA は各ドキュメントを適切なブループリントに自動的にマッチングさせます。これにより、請求書、契約書、フォームなど多様なドキュメントタイプを単一の統合ワークフロー内で処理することが可能になります。

さらに、BDA は以下の機能も提供します:

  • 単一のインターフェースを通じて多様なコンテンツを処理するための統一された API エクスペリエンス
  • 処理性能の向上のために複数のリージョンにまたがるクロスリージョン推論機能
  • 精度を確保するための視覚的グラウンディングや信頼度スコアなど、組み込みのセーフガード
  • 特定のドキュメントタイプに対して出力フォーマットを標準化するためのカスタムブループリント対応

ビジュアル分析処理は、従来の光学文字認識 (OCR) ソリューションでは解釈できないプロット、図、チャート、および視覚的要素から洞察を引き出すために BDA の機能を利用します。BDA は図のキャプション付けを行う際、画像クロップを出力の一部として提供し、さらにこれらの視覚的要素から詳細なテキスト記述と構造化データを生成して、後続のワークフローに含めます。例えば、BDA がチャートを処理する際には以下のような結果を生成します:

  • チャートの内容と目的を記述するキャプションの生成
  • グラフからのデータポイントおよびトレンドの抽出
  • 図やフローチャートからの構造的関係性の抽出
  • ドキュメント内の位置と視覚的要素を結びつけるバウンディングボックス座標

下流処理におけるすべてのドキュメント形式: 対応するすべてのドキュメント形式(PDF, PNG, JPG, TIFF, DOC, DOCX)は、統一された API を通じて処理されます。BDA(文書解析サービス)から抽出されたコンテンツには視覚要素の記述も含まれており、これらは手動で設定することで Amazon Bedrock Knowledge Bases 内でインデックス化およびベクトル化が可能となり、多様なドキュメントタイプにわたる意味検索を実現できます。なお、BDA は Knowledge Bases と組み込み統合を持っており、文書取り込み時にパーサーとして機能します(この場合、BDA の標準出力を使用するため、ブループリントは不要です)。この下流ワークフローでは、BDA からすべての抽出情報を含む構造化された JSON 出力を受け取り、元のファイル形式に関わらず一貫した処理を可能にします。

ドキュメントからのデータ抽出には以下が含まれます:

  • レイアウトを保持した読み順でのテキスト抽出
  • セル間の関係を維持した表構造の認識
  • フォームフィールドの検出とキー・バリューペアの抽出
  • 生成されたキャプションを含むチャート、グラフ、図などの視覚要素分析
  • 抽出された要素の正確な位置追跡のためのバウンディングボックス座標
  • コンテキストを保持したドキュメントレベルおよびページレベルの要約

インテリジェンス層

この層は本ソリューションのコグニティブエンジン(認知エンジン)です。Amazon Bedrock Knowledge Bases は、セマンティック検索と Retrieval Augmented Generation (RAG) 機能を通じて生データを行動可能なインサイトに変換するために、Amazon OpenSearch Serverless と連携するように構成する必要があります。以下のセクションで詳細を説明します。

Amazon Bedrock Knowledge Bases と Amazon OpenSearch Serverless の組み合わせは、以下によってセマンティック検索および RAG ワークフローを実現します:

  • インテリジェントな照会のために処理されたドキュメントコンテンツのインデックス化
  • ドキュメントコレクション全体での類似度検索のためのベクトル埋め込みの維持
  • 複数のドキュメントやデータソースにわたる複雑なクエリのサポート

Amazon Bedrock FMs は、チャートおよびグラフの解釈、ドキュメントレイアウトの理解、テキストと視覚コンポーネント間のクロスモーダル関係検出を含む視覚コンテンツを分析します。

エージェント協調レイヤー

このレイヤーは、本ソリューションの知能を組織化するものです。Amazon Bedrock AgentCore Runtime 上のストランドエージェントが、リクエストタイプに基づいて適切な専門化されたエージェントへリクエストをルーティングし、複雑な文書分析のためのクロスエージェント間の通信を調整することで、全体の処理ワークフローを管理します。

image
image

専門化されたタスクエージェントは、特定の文書処理機能を担当します:

  • 金融市場レポートや投資ドキュメント向けのマーケットアナリストエージェント。
  • ポートフォリオ分析および助言ドキュメント向けの投資助言エージェント。
  • 金融データプロバイダー、規制データベース、市場インテリジェンスプラットフォームへの安全な API 接続を介したリアルタイムのサードパーティデータ統合を行う外部 API エージェント。
  • コーディネーターエージェントは、Amazon Bedrock のナレッジベースに保存された履歴データに対して、外部 API エージェントからのリアルタイム市場データを比較することで、クロス参照検証を実行します。

Implementation architecture

処理パイプラインは、文書処理におけるイベント駆動型アプローチを採用し、複数の専門レイヤーを統合して一貫したワークフローを構築しています。各ステップが前段階の上に積み重なる論理的な進行に従い、まず文書のアップロードから始まり、Amazon S3 イベントがトリガーとなって状態機械(state machines)を開始します。その後、多様なコンテンツタイプから意味を抽出するマルチモーダル処理へと進み、さらに文書の特徴に基づいて処理を指示するエージェント調整が行われます。その後は、インテリジェントな検索のためのナレッジベースへのインデックス化が続き、最終的には洞察の生成とビジネスシステムとの統合に至り、生データから実行可能な知見までの包括的な処理の旅を実現します。

Document processing flow

AWS Step Functions が文書処理パイプラインをオーケストレーションし、文書の分類、マルチモーダル抽出、データ検証、ナレッジベースの統合を管理しています。

Agentic interaction flow

ユーザー向けレイヤーは、処理された文書コーパスとの自然言語対話によるインテリジェントな照会処理、専門エージェントに対する調整エージェントによる監督、および適切な処理エージェントへの照会のスマートな分散を通じて機能します。

Solution walkthrough

ユースケース:商業用不動産物件分析

商業用不動産投資会社は、毎月 200 件を超える物件評価レポートを受領しています。これらのレポートには以下が含まれます:

  • 所在地マップ、ゾーニング情報、物件説明を含む物件概要ドキュメント。
  • PDF 内に画像として埋め込まれた財務分析スプレッドシート(キャッシュフロー予測、キャップレート、ROI 計算を表示)。
  • 比較対象となる物件の売却価格、賃貸料率、市場動向を示す市場比較チャート。
  • アノテーションと測定値付きの物件写真および間取り図。
  • タイトルレポート、環境アセスメント、ゾーニングコンプライアンスを含む法的ドキュメント。
  • 時系列における稼働率、賃貸収入リスト、維持管理コストを示す過去の業績グラフ。
image
image

*アナリストはこのソリューションにアクセスし、ドキュメントをアップロードします*

実装

この実装では、以下の処理を行うことで、当社の生成 AI サービスが文書処理機能を通じて不動産投資分析をどのように変革するかを示しています:

ドキュメント分類: システムは自動的にドキュメントタイプを特定し、物件メタデータ(住所と床面積を含む)を抽出して、異なるドキュメントセクションを適切な処理エージェントにルーティングします。

マルチモーダルコンテンツ抽出:

  • マーケットアナリストエージェントは埋め込まれた財務チャートを処理し、純営業収入(Net Operating Income)の見通しと資本化率のトレンドを抽出します。
  • Amazon Bedrock Data Automation の視覚機能は物件写真を分析し、状態指標や間取り効率比を特定します。
  • 文書間の関係性分析により、予測されたキャッシュフローが過去の業績データと整合しているか検証されます。
image
image

自然言語クエリ: 投資専門家は、「*IRR(内部収益率)の見通しが 12% を超え、債務カバレッジレシオが 1.25 を上回る物件を表示してください」や「類似資産の NOI 成長見通しと実際の市場パフォーマンスを比較してください」といった自然言語クエリを用いて情報を処理します。

image
image

結果

初期スクリーニングにかかる処理時間が、物件あたり 3〜4 時間から 15〜20 分に短縮されました。自動抽出により手動転記の誤りが排除され、文書間検証によって不整合が特定されます。同社ははるかに多くの機会を処理でき、見落とされていた可能性のある魅力的な投資先も発見できるようになりました。

スケーラビリティ検証: このソリューションはスケールしてテストされており、BDA パイプラインを通じて同時に50,000 件以上の PDF ドキュメントを正常に処理しました。このソリューションは、契約書、財務報告書、技術仕様書など多様なドキュメントタイプにおいて高い精度を維持しながら、スケールした処理を実現しています。AWS Step Functions と非同期 BDA 処理によるサーバーレスアーキテクチャが、パフォーマンスの低下なくこの大規模並列処理能力を可能にし、エンタープライズ規模のドキュメント処理ワークロードに対するソリューションの準備完了を示しています。

<img loading="lazy" class="alignnone size-large wp-image-131470" src="https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-7-1024x841.png" alt="Document Processing Dashbo

原文を表示

Organizations process millions of documents daily, from insurance claims and invoices to legal contracts and medical records. While traditional optical character recognition (OCR) solutions extract text, they can’t understand context, relationships, or meaning embedded within complex documents. This limitation creates bottlenecks that require manual intervention, increasing processing time and costs while introducing potential errors.

Amazon Bedrock Data Automation (BDA), provides a unified API experience for extracting meaningful insights from multimodal content, including documents, images, videos, and audio files. Unlike traditional solutions that focus on text extraction, BDA understands document context, validates extracted data, and provides confidence scores for accuracy. BDA processes documents through a pipeline that automates complex tasks including document classification, extraction, normalization, and validation. When a document is submitted, BDA automatically splits it along logical boundaries, classifies each section into appropriate document types, and matches them to the correct processing blueprints. This intelligent routing removes the need for manual document sorting and orchestration of multiple AI models. The service supports a wide range of file formats, with support for up to 3,000 pages and 500 MB per API request, making it suitable for processing diverse document types at scale.

This post outlines the development of a cost-effective and scalable intelligent document processing pipeline on AWS, powered by Amazon Bedrock and its features. BDA is a managed service within Amazon Bedrock that automates the extraction of insights from documents. We demonstrate how BDA extracts and analyzes document content, while Strands Agent hosted on Amazon Bedrock AgentCore Runtime coordinate specialized processing tasks, and Amazon Bedrock Knowledge Base enable contextual understanding across multiple documents. By combining these capabilities within a unified architecture, organizations can transform their document processing workflows with minimal development effort.

Solution overview

Our intelligent document processing pipeline combines generative AI with orchestrated workflows to automatically extract, analyze visual plots, graphs, and charts, and derive insights from documents while maintaining context and relationships across multiple data sources.The solution processes documents through four integrated layers:

  • Input processing layer: Document upload triggers processing orchestration and state machine coordination.
  • Extraction and storage layer: Raw text and table extraction, image and visual element analysis, and scalable data integration.
  • Intelligence layer: Knowledge base ingestion with semantic search, multimodal foundation model (FM) analysis, and large language model (LLM)-powered interpretation.
  • Agentic coordination layer: Coordinator agent and specialized task agents.

Architecture components

AWS document processing pipeline architecture showing user upload flow through EventBridge, Step Functions, Amazon Titan Embeddings, and Vector Database for RAG applications.
AWS document processing pipeline architecture showing user upload flow through EventBridge, Step Functions, Amazon Titan Embeddings, and Vector Database for RAG applications.

Input processing layer

The input processing layer forms the foundation of this solution. This layer manages the initial reception and routing of incoming documents. A Document Upload Triggers processing workflows when documents arrive in designated Amazon Simple Storage Service (Amzon S3) buckets, supporting various formats including PDFs, and scanned documents (in PDF).

AWS Step Functions workflow diagram for automated PDF document processing using Amazon Bedrock Data Automation, DynamoDB, and Lambda.
AWS Step Functions workflow diagram for automated PDF document processing using Amazon Bedrock Data Automation, DynamoDB, and Lambda.

BDA serves as the core extraction engine in the input processing layer, handling document splitting, classification, and content extraction through a unified API. AWS Step Functions orchestrates the workflow to maximize the capabilities of BDA in the Extraction and Storage Layer, providing operational visibility and control throughout the process. Here’s the detailed orchestration flow:

  • Document Ingestion: Files arrive in S3 buckets in various formats. Each format is processed through the unified API, removing the need for format-specific preprocessing.
  • Metadata Recording: The workflow records document metadata in Amazon DynamoDB for tracking, audit trails, and reporting. This includes file type, size, submission time, and processing status.

Page Count Analysis: The workflow checks page count to improve processing strategies. BDA automatically handles document splitting and can process documents up to 3,000 pages. The page count check in Step Functions helps with setting appropriate timeout values for the asynchronous jobs and monitoring and alerting for unusually large documents.

  • BDA Processing Invocation: The workflow launches an asynchronous BDA job using the InvokeDataAutomationAsync API. BDA then automatically:

Splits documents along logical boundaries (up to 20 pages per split).

  • Classifies each section into document types.
  • Matches documents to appropriate blueprints (if using custom output). Blueprints are artifacts configured ahead of time that define the extraction logic and must be set up before BDA processing.
  • Extracts all content including text, tables, forms, and visual elements.
  • Asynchronous Processing with Task Tokens: The workflow stores a task token and waits for BDA job completion. This pattern enables efficient resource utilization and allows processing of thousands of documents concurrently.
  • Error Handling and Routing: Comprehensive error handling manages different scenarios including successful processing, validation errors, timeouts, and unsupported file types, ensuring no document is lost and all issues are logged for review.

This orchestration approach provides a highly scalable serverless pipeline for automated document analysis with appropriate branching logic and exception management throughout each processing stage.

Extraction and storage layer

This layer is central to this solution, where BDA serves as the core engine for transforming raw content into structured, actionable data. We provide more details in the following section.

Amazon Bedrock Data Automation serves as the primary processing engine, offering two flexible output options:

  • Standard output – Provides commonly required information based on data type, including document summaries, extracted text in reading order, table and figure captions, and generative insights. Standard output can be customized through projects to enable or disable specific extraction features like headers, footers, titles, and diagrams based on your processing needs.
  • Custom output with blueprints –The idea is to create one blueprint per document type, as you use the same set of instructions to extract common information across documents of the same type. However, across different document types, you need different blueprints for different information. For example, you want to extract different information from a passport than from a bank statement, so these two document types require separate blueprints. All bank statements should be processed with only one blueprint for because regardless of the bank or format, the type of information that you want to extract from bank statements should be the same. Blueprints allow precise control over extracted information by defining specific fields, data formats, and extraction instructions. Projects can contain up to 40 document blueprints, with BDA automatically matching each document to the appropriate blueprint. This enables processing of diverse document types like invoices, contracts, and forms within a single unified workflow.

In addition, BDA provides:

  • Unified API experience for processing multimodal content through a single interface
  • Cross-Region inference capability across multiple Regions for improved processing
  • Built-in safeguards, including visual grounding and confidence scores for accuracy
  • Support for custom blueprints to standardize output formats for specific document types

Visual analysis processing uses the capabilities of BDA to extract insights from plots, diagrams, charts, and visual elements that traditional optical character recognition (OCR) solutions can’t interpret. BDA provides image crops as part of the output when doing figure captioning, and it also generates detailed textual descriptions and structured data from these visual elements that are included in the downstream workflow. For example, when BDA processes a chart, it produces:

  • Generated captions describing the chart’s content and purpose
  • Extracted data points and trends from graphs
  • Structural relationships from diagrams and flowcharts
  • Bounding box coordinates linking the visual element to its location in the document

All document formats in downstream processing: Every supported document format (PDF, PNG, JPG, TIFF, DOC, DOCX) is processed through the unified API. The extracted content from BDA, including visual element descriptions, can then be manually configured for indexing and vectorization in Amazon Bedrock Knowledge Bases to enable semantic search across diverse document types. Note that BDA also has a built-in integration with Knowledge Bases where it can serve as a parser during document ingestion into a knowledge base, using BDA standard output (no blueprints required). This downstream workflow receives structured JSON outputs from BDA containing all extracted information, enabling consistent processing regardless of the original file format.

Data extraction from documents includes:

  • Text extraction in reading order with layout preservation
  • Table structure recognition with cell relationships maintained
  • Form field detection and key-value pair extraction
  • Visual element analysis including charts, graphs, and diagrams with generated captions
  • Bounding box coordinates for precise location tracking of extracted elements
  • Document-level and page-level summaries with context preservation

Intelligence layer

This layer is the cognitive engine of this solution. Amazon Bedrock Knowledge Bases must be configured to work with Amazon OpenSearch Serverless to transform raw content into actionable insights through semantic search and Retrieval Augmented Generation (RAG) capabilities. The following section provides more details.

Amazon Bedrock Knowledge Bases with Amazon OpenSearch Serverless enables semantic search and RAG workflows by:

  • Indexing processed document content for intelligent querying
  • Maintaining vector embeddings for similarity search across document collections
  • Supporting complex queries that span multiple documents and data sources

Amazon Bedrock FMs analyze visual content including chart and graph interpretation, document layout understanding, and cross-modal relationship detection between text and visual components.

Agentic coordination layer

This layer organizes the intelligence of this solution. Strands Agents on Amazon Bedrock AgentCore Runtime manage the overall processing workflow by routing requests to the appropriate specialized agents based on request type and coordinating cross-agent communication for complex document analysis.

Architecture diagram showing a multi-agent AI system built on AWS AgentCore Runtime, where a Coordinator Agent orchestrates Market Analyst, Investment Advisory, and External API agents, connected via Amazon API Gateway and backed by a vector database using Amazon Titan Embeddings.
Architecture diagram showing a multi-agent AI system built on AWS AgentCore Runtime, where a Coordinator Agent orchestrates Market Analyst, Investment Advisory, and External API agents, connected via Amazon API Gateway and backed by a vector database using Amazon Titan Embeddings.

Specialized task agents handle specific document processing functions:

  • Market analyst agents for financial market reports and investment documents.
  • Investment advisory agents for portfolio analysis and advisory documentation.
  • External API agents for real-time, third-party data integration through secure API connections to financial data providers, regulatory databases, and market intelligence platforms.
  • Coordinator agents perform cross-reference validation by comparing real-time market data from the external API agents against historical data stored in the Amazon Bedrock knowledge base.

Implementation architecture

The processing pipeline employs an event-driven approach to document processing, integrating multiple specialized layers into a cohesive workflow. It follows a logical progression where each step builds upon the previous one. This begins with document upload, triggering Amazon S3 events that initiate state machines, and proceeding through multi-modal processing that extracts meaning from diverse content types. The pipeline continues with agent coordination that directs processing based on document characteristics, followed by knowledge base indexing for intelligent retrieval. This methodical flow culminates in the generation and integration of insights with business systems, creating a comprehensive processing journey from raw documents to actionable intelligence.

Document processing flow

AWS Step Functions orchestrates the document processing pipeline, handling document classification, multi-modal extraction, data validation, and knowledge base integration.

Agentic interaction flow

The user-facing layer provides intelligent query processing through natural language interaction with the processed document corpus, coordination agent supervision of specialized agents, and the smart distribution of queries to the right processing agents.

Solution walkthrough

Use case: Commercial real estate property analysis

A commercial real estate investment firm receives over 200 property evaluation reports monthly. These reports contain:

  • Property overview documents with location maps, zoning information, and property descriptions.
  • Financial analysis spreadsheets embedded as images within PDFs, showing cash flow projections, cap rates, and ROI calculations.
  • Market comparison charts displaying comparable property sales, rental rates, and market trends.
  • Property photos and floor plans with annotations and measurements.
  • Legal documents, including title reports, environmental assessments, and zoning compliance.
  • Historical performance graphs showing occupancy rates, rent rolls, and maintenance costs over time.
AI-powered document upload interface with drag-and-drop zone, processing options for text extraction, Markdown conversion, and knowledge base sync, plus a recent uploads section.
AI-powered document upload interface with drag-and-drop zone, processing options for text extraction, Markdown conversion, and knowledge base sync, plus a recent uploads section.

*The analyst accesses this solution, uploads the documents to it*

Implementation

This implementation shows how our generative AI services can transform real estate investment analysis through document processing capabilities by doing the following:

Document classification: The system automatically identifies document types, extracts property metadata (including address and square footage), and routes different document sections to the appropriate processing agents.

Multimodal content extraction:

  • Market analyst agents process embedded financial charts to extract Net Operating Income projections and capitalization rate trends.
  • Amazon Bedrock Data Automation visual capabilities analyze property photos to identify condition indicators and floor plan efficiency ratios.
  • Cross-document relationship analysis validates projected cash flows with historical performance data.
Document Processing Dashboard showing real-time status of 9 PDF documents with 6 completed, 3 failed, and 0 currently processing, displayed in a tabular interface with upload times, processing durations, and execution IDs.
Document Processing Dashboard showing real-time status of 9 PDF documents with 6 completed, 3 failed, and 0 currently processing, displayed in a tabular interface with upload times, processing durations, and execution IDs.

Natural language queries: Investment professionals process information using natural language queries, such as “*Show me properties with projected IRR above 12% and debt coverage ratios over 1.25″ or “Compare NOI growth projections with actual market performance for similar assets.*”

AI Investment Advisor chatbot interface showing a real estate market analysis conversation about Boston housing trends, with category cards for Market Analysis, Investment Strategies, Property Valuation, and Financial Calculations.
AI Investment Advisor chatbot interface showing a real estate market analysis conversation about Boston housing trends, with category cards for Market Analysis, Investment Strategies, Property Valuation, and Financial Calculations.

Results

Processing time per property reduced from 3–4 hours to 15-20 minutes for initial screening. Automated extraction removes manual transcription errors while cross-document validation identifies inconsistencies. The firm can process significantly more opportunities and identify attractive investments that might otherwise be overlooked.

Scalability validation: This solution has been tested at scale, successfully processing over 50,000 PDF documents concurrently through the BDA pipeline. The solution maintained high accuracy across diverse document types including contracts, financial reports, and technical specifications while processing at scale. The serverless architecture with AWS Step Functions and asynchronous BDA processing enabled this massive parallel processing capability without performance degradation, demonstrating the solution’s readiness for enterprise-scale document processing workloads.

<img loading="lazy" class="alignnone size-large wp-image-131470" src="https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/12/ML-18003-image-7-1024x841.png" alt="Document Processing Dashbo

この記事をシェア

関連記事

AWS Machine Learning Blog★42026年6月12日 00:11

Amazon Bedrock Data Automation のブループリント抽出精度を最適化する方法

AWS は、インボイスや契約書などの非構造化文書からの構造化データ抽出精度を向上させるため、Amazon Bedrock Data Automation の利用方法を解説した。

AWS Machine Learning Blog★42026年5月28日 06:28

Amazon Bedrock Data Automation を活用した金融文書の処理方法

AWS は、Amazon Bedrock Data Automation(BDA)が税務申告書やローン明細など多様な形式の金融文書からデータを自動抽出・検証・分析する機能を提供すると発表した。

The Verge AI★32026年5月14日 07:04

Microsoft Edge の Copilot アップデートがタブ間情報を AI で統合

マイクロソフトは Microsoft Edge ブラウザの Copilot に新機能を追加し、開いているすべてのタブから情報を収集して質問に答えたり、比較・要約したりできるようにした。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む