Optimize blueprint extraction accuracy in Amazon Bedrock Data Automation｜Amazon Bedrock Data Automation のブループリント抽出精度を最適化する方法 | AIニュース最前線

請求書、契約書、税務書類、申込書などの非構造化ドキュメントから構造化データを抽出することは、組織における一般的な自動化の目標です。高い抽出精度を達成し続けることは依然として主要な課題となっています。ドキュメントが想定されたテンプレートから逸脱した場合や、ベンダー間でフォーマットが異なる場合、スキャン品質が悪い場合に精度は低下します。 [Amazon Bedrock Data Automation](https://aws.amazon.com/bedrock/bda/)（BDA）を使用すれば、単一の API を通じてドキュメントからのデータの分類、抽出、正規化、検証を行うことができます。カスタマイズ可能なブループリントを使用して、特定のドキュメントフォーマットやビジネス要件に合わせてカスタム出力を生成します。ただし、生産環境で扱う多様なドキュメントすべてに対応するブループリントの抽出精度を最適化するには、依然として反復的な調整が必要です。 **Blueprint instruction optimization**（ブループリント指示の最適化）は、この課題に直接対処するために抽出指示を自動的に改善する BDA の機能です。期待される値を含む 3〜10 件の例示ドキュメントを提供すると、BDA は数週間ではなく数分でブループリントの指示を調整し、精度を向上させます。モデルの個別微調整は不要です。 本記事を読み終える頃には、精度向上のためにブループリントを最適化する方法を理解し、Amazon Bedrock コンソールまたは API を通じて最適化ワークフローを実行し、例示ドキュメントとグランドトゥルース（正解データ）の選択に関するベストプラクティスを適用できるようになります。 ## ドキュメントフィールド抽出の課題 Amazon Bedrock Data Automation を用いてインテリジェントドキュメント処理（IDP）パイプラインを構築する際、[ブループリント](https://docs.aws.amazon.com/bedrock/latest/userguide/bda-bp.html)を作成し、ドキュメントからどのフィールドを抽出するかを定義します。各フィールドには、抽出をガイドする自然言語の指示が含まれています。例えば： - フィールド: invoice_number → 指示: "請求書番号"。 - フィールド: total_amount → 指示: "支払総額"。 これらの初期指示は、単純なケースでは十分に機能します。しかし、実世界のドキュメントには追加の複雑さが伴います： - ドキュメントのバリエーションによってフィールドラベルが異なる。 - 見た目が類似したラベルが混乱を招く（例: "小計" と "合計"）。 - ベンダーや時期によってドキュメントのレイアウトが異なる。 - エッジケースには、より具体的な抽出ガイダンスが必要となる。 以下は、購入注文のブループリントスキーマがどのようなものかを示した簡略化された例です。各フィールドには型（type）、inferenceType（ドキュメントに直接表示される値の場合は明示的、推論を要する値の場合は推論型）、および抽出をガイドする指示が含まれています： { "class": "Purchase Order", "type": "object", "properties": { "po_number": { "type": "string", "inferenceType": "explicit", "instruction": "The unique identifier for the purchase order" }, "order_date": { "type": "string", "inferenceType": "explicit", "instruction": "The date when the order was placed" }, "order_total": { "type": "number", "inferenceType": "explicit", "instruction": "The total amount for the order" }, "special_requests": { "type": "string", "inferenceType": "inferred", "instruction": "Any special requests or notes included in the order" } } } Blueprint instruction optimization（ブループリント指示の最適化）は、各フィールドに対する指示値を洗練させます。型（type）と推論タイプ（inferenceType）は変更されません。完全な注文書スキーマは [GitHub リポジトリ](https://github.com/aws-samples/sample-blueprint-optimizer-for-data-automation) で確認できます。 あなたはすでに、自社のドキュメントやデータについて熟知しています。Blueprint instruction optimization は、精度のギャップを埋めるためのより迅速な道筋を提供します。 ## 従来のアプローチ：手動での反復 抽出精度を向上させるには、通常、フィールド指示を手動で反復して改善します。異なる表現を試したり、文脈を追加したり、試行錯誤を通じて記述を洗練させたりします。各サイクルでは、抽出を実行し、結果を期待値と比較し、指示を調整して繰り返す必要があります。数百のベンダーからドキュメントを処理する組織にとって、このプロセスはドキュメントタイプごとに数週間かかることもあります。 ## 最適化されたアプローチ：自動化による改善 ブループリント指示最適化により、この改善ループ全体を単一のワークフローで自動化できます。BDA は抽出結果とグラウンドトゥルース（正解データ）の差異を分析し、各フィールドの自然言語指示を改良します。これにより、数週間ではなく数分で最適化された指示が提供されます。 ## ブループリント指示最適化による精度向上 ワークロードから実際のドキュメントを使用して抽出指示を改善するには、以下の手順に従ってください。 - 例文ドキュメントの提供 – 生産環境から代表的なドキュメントを 3〜10 件アップロードしてください。抽出が困難だったエッジケースを含むものとし、過学習を防ぐために、生産環境におけるドキュメント分布の多様性をできるだけ広くカバーするようにしてください。 - グランドトゥルース（正解データ）の提供 – 各例文ドキュメント内の各フィールドに対して、正しい期待値を提供してください。グランドトゥルースとは、抽出品質を測定するためのベンチマークとして機能する、検証済みで正確なデータのことです。これにより、BDA は正解が何であるべきかを理解します。 - 最適化の実行 – 最適化プロセスを開始します。BDA は初期の抽出結果とグランドトゥルースを比較し、各フィールドに対する自然言語指示を改良していきます。 - 結果の確認 – 詳細な精度指標と最適化された指示を確認してください。最適化は通常数分で完了します。指標には、F1 スコア（適合率と再現率を組み合わせた測定値）や完全一致率（抽出値がグランドトゥルースと完全に一致するフィールドの割合）が含まれます。 最適化された指示には、例文から学習したパターンが組み込まれ、より詳細で具体的な内容が追加されます。例えば、「請求書番号」という初期の指示は、「ドキュメントヘッダーの右上隅に通常記載され、『Invoice #』または『Invoice No.』の後に続く数値または英数字コードとしてフォーマットされた請求書番号」のように変更される可能性があります。 ## シナリオ例：発注書の抽出 最適化ワークフローを説明するために、架空の自転車製造会社の文書を用いた発注書抽出シナリオを追跡します。 発注書から注文番号、商品説明、数量、単価、合計額などのフィールドを抽出するためのブループリントを作成します。 Cycle Central や Bike World などの小売業者からの代表的な発注書 4 通と、対応するグランドトゥルースファイルをアップロードして最適化を実行すると、精度が向上します： **指標** **最適化前** **最適化後** ファイルごとの完全一致（最良ケース） 92% 100% 集計された完全一致 90% 92% BDA は、発注書セット全体にわたるベンダー固有のフォーマット、フィールドラベルの変動、およびレイアウトの違いに対応するために指示を自動的に洗練させ、集計された完全一致を 90% から 92% に向上させます。 大量処理を行う場合でも、精度が数パーセントポイント向上するだけで、手動レビューキューの削減と処理スループットの高速化に直接寄与します。 ## はじめに ブループリント指示の最適化機能は、Amazon Bedrock コンソールまたは API を通じてアクセスできます。独自の文書を使用するか、ブループリント、サンプル PDF 文書、およびグランドトゥルース JSON ファイルを含むサンプルソリューションをデプロイしてください。 ## 前提条件 本記事の手順に従うには、以下の準備が必要です： - AWS アカウント。 - サポート対象のリージョンにおいて、Amazon Bedrock Data Automation が有効化された Amazon Bedrock へのアクセス権限。 - Amazon Bedrock Data Automation および Amazon Simple Storage Service (Amazon S3) を使用するための権限を持つ、AWS Identity and Access Management (AWS IAM) ロール。 - 本番ワークロードを代表するサンプルドキュメントが 3 から 10 件。 - 各サンプルドキュメントに対する期待される抽出値を含むグランドトゥルース JSON ファイル、またはデプロイテンプレートに含まれるサンプル。グランドトゥルースファイルはブループリントのスキーマと一致し、各フィールドには正しい期待値が設定されています。以下に購入注文書の簡略化された例を示します： { "po_number": "PO-2026-0224-1265", "retailer_name": "Bike World", "order_date": "2026-02-24", "order_total": 11571.25, "order_items": [ { "sku": "AB-MB-076", "product_name": "Trail Classic", "quantity": 6, "unit_price": 1864.37, "line_total": 11186.22 } ] } ## サンプルソリューションのデプロイ ソリューションをデプロイするには、以下の手順に従ってください： - GitHub リポジトリから CloudFormation テンプレートをダウンロードします。 - AWS CloudFormation コンソールを開きます。 - [スタックの作成] を選択し、[テンプレートファイルのアップロード] を選びます。 - ダウンロードしたテンプレートファイルをアップロードして、[次へ] を選択します。 - スタック名には、任意の名前（例：blueprint-optimization-sample）を入力します。 - 残りのプロンプトに従い、IAM の権限に関する確認に同意した後、[スタックの作成] を選択します。 このスタックは、サンプルブループリント、ドキュメントファイル、グラウンドトゥルースファイル、および [Amazon SageMaker AI](https://aws.amazon.com/sagemaker/) ノートブックをデプロイします。**ノートブックでは、API を使用した最適化ワークフローの案内を行います。完全なコードサンプルも [GitHub リポジトリ](https://github.com/aws-samples/sample-blueprint-optimizer-for-data-automation) で利用可能です。 スタックのデプロイ完了後、以下の手順に従ってください： - AWS Management Console を開きます。 - Amazon SageMaker AI に移動します。 - 左側のナビゲーションペインから「Notebooks」を選択します。 - スタックによって作成されたノートブックインスタンスを探します。 - 「Open JupyterLab」を選択します。 - JupyterLab でソースディレクトリに移動します。 - 「Purchase order optimization notebook」を開きます。 - カーネルとして Python 3 を選択します。 - 提供されたサンプルドキュメントを使用してブループリントを作成・最適化するためのノートブック内の指示に従ってください。この最適化には数分かかります。 - 最適化が完了したら、最適化されたブループリントを確認し、更新された指示と元の指示を比較してください。 - 必要に応じて、最適化されたブループリントを生産環境用にライブプロモーションすることもできます。 - 作業が終わったら、CloudFormation スタックを削除する前に S3 バケットを空にするために、ノートブック内のクリーンアップセルを実行してください。 コンソールを使用したい場合は、スタックによって作成された Amazon S3 バケットにサンプルドキュメントとグランドトゥルースファイルが用意されています。 ## コンソールの使用 Amazon Bedrock コンソールから、自動生成されたスキーマまたは手動で定義したスキーマのいずれかを使用してブループリントを作成できます。デプロイされたスタックからのサンプルを使用する場合は、提供された JSON を貼り付けることができます。 - Amazon Bedrock Data Automation に移動します。 - カスタム出力設定を選択します。 - ブループリンの作成を選択します。 - 代表的なサンプルドキュメントをアップロードします。 - JSON スキーマを定義します。 - デプロイされたスタックからのサンプルを使用する場合は、手動で新しいブループリンを作成を選択してください。 - JSON ビューに切り替えます。 - サンプルのブループリン JSON を貼り付けます。図 1: ブループリン作成ページ（JSON スキーマエディタが表示されており、ここにブループリン定義を貼り付けることができます）。 - ブループリンを保存します。 - 結果を取得して初期抽出を実行します。これにより、最適化前のベースライン精度が確立されます。 - ブループリン詳細ページから「ブループリンの最適化」を選択します。 追加のサンプルドキュメント（3 つ以上を推奨）をアップロードし、各ファイルに対して正解データ（グランドトゥルース）を提供してください。正解データの JSON ファイルをアップロードするか、「自動入力」を選択して現在の抽出結果から値をシードし、その後手動で編集することもできます。 最適化が完了すると、Amazon Bedrock Data Automation は各ファイルおよび集計における最適化前後の精度指標を表示します（以下の画像参照）。改善されたバージョンと既存のブループリントを置き換えるには、「最適化されたブループリントを保存」を選択してください。図 2: 最適化結果ページ。各ファイルの最適化前後の精度指標と、集計での改善状況を示しています。 ## 結果の解釈 結果ページでは、各サンプルファイルおよび集計値に対して3つの指標が表示されます。各指標が何を意味するかを理解することで、最適化されたブループリントを保存すべきか、それともより多くの例を追加して再実行すべきかを判断できます。 **完全一致率 (Exact Match Rate)** は、抽出された値があなたの正解データと文字通り完全に一致するフィールドの割合です。これは精度に対する最も厳しい測定基準です。前述の例では、Cycle Central ファイルの完全一致率が 92.4% から 100% に向上しており、BDA が抽出したすべてのフィールドが期待される値と正確に一致したことを意味します。 **全体 F1 スコア (Overall F1 Score)** は、適合率（BDA が抽出したもののうち正しい割合）と再現率（正解データのうち BDA が見つけた割合）を単一のスコアに統合したものです。F1 スコアは、行項目の説明など値の長さが可変的なフィールドにおいて特に有用です。これらの場合、完全一致は厳しすぎる一方で、部分的な評価が意味を持つことがあります。この例では F1 スコアも 92.4% から 100% に向上しており、最適化された指示によって正しい値と適切な量のコンテンツの両方が捉えられたことを示しています。 **信頼度スコア (Confidence Score)** は、BDA が各抽出値についてどの程度確信を持っているかを示すものです。信頼度スコアが高いほど、BDA はそのフィールドに対して文書内でより明確なシグナルを検出したことになります。このファイルでは信頼度が 57.8% から 60.1% に向上しましたが、これは文書のレイアウトが曖昧な場合に予想される小さな改善です。高い信頼度スコアは、ヒューマン・イン・ザ・ループ (human-in-the-loop) ワークフローにおいて人間によるレビューにルーティングされるフィールドの量を削減します。 **ファイル別メトリクス**タブを使用して、最適化後もスコアが低いドキュメントを特定してください。これらは、よりターゲットを絞った例を追加するための候補となります。**集計メトリクス**に切り替えて、**最適化されたブループリントの保存**を選択する前に、サンプルセット全体におけるブループリントの健全性を評価してください。 ## API のウォークスルー 以下の例は、AWS SDK for Python (Boto3) を使用した最適化ワークフローにおける主要な API コールを示しています。完全な実行可能なノートブックは、[GitHub リポジトリ](https://github.com/aws-samples/sample-blueprint-optimizer-for-data-automation)で利用可能です。 **1. ブループリントの作成** JSON スキーマを CreateBlueprint に渡します。**DEVELOPMENT**ステージをサンドボックスとして使用してください。明示的にプロモートするまで、LIVE ブループリントには影響しません。 ```python import boto3, json bda_client = boto3.client('bedrock-data-automation') response = bda_client.create_blueprint( blueprintName='acme-bikes-purchase-order', type='DOCUMENT', blueprintStage='DEVELOPMENT', schema=json.dumps(blueprint_schema) ) blueprint_arn = response['blueprint']['blueprintArn'] ``` **2. 最適化の開始** InvokeBlueprintOptimizationAsync を呼び出し、サンプルドキュメントとグラウンドトゥルースファイルを使用します。各サンプルは、ドキュメント用の S3 URI と、そのグラウンドトゥルース JSON 用の S3 URI のペアで構成されます。 response = bda_client.invoke_blueprint_optimization_async( blueprint={ 'blueprintArn': blueprint_arn, 'stage': 'DEVELOPMENT' }, samples=[ { 'assetS3Object': {'s3Uri': 's3://my-bucket/samples/PO_001.pdf'}, 'groundTruthS3Object': {'s3Uri': 's3://my-bucket/ground-truth/PO_001.json'} }, # ... additional samples ], outputConfiguration={ 's3Object': {'s3Uri': 's3://my-bucket/optimization-output/'} }, dataAutomationProfileArn=profile_arn ) invocation_arn = response['invocationArn'] **3. 完了をポーリングする** ジョブは非同期で実行されます。GetBlueprintOptimizationStatus をポーリングし、ステータスが「Success」になるまで待ちます。 import time while True: status = bda_client.get_blueprint_optimization_status( invocationArn=invocation_arn )['status'] if status == 'Success': break elif status in ('ServiceError', 'ClientError'): raise RuntimeError(f'Optimization failed: {status}') time.sleep(15) **4. 最適化されたブループリントを取得する** ジョブが完了すると、GetBlueprint は更新されたスキーマを返します。

Amazon Bedrock Data Automation のブループリント抽出精度を最適化する方法

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト