リコーがAWS上で構築したスケーラブルなインテリジェント文書処理ソリューション
RicohはAWS GenAI IDP Acceleratorを活用し、生成AIとサーバーレスアーキテクチャを組み合わせた標準化された文書処理フレームワークを構築し、顧客オンボーディング時間を週単位から日単位に短縮し、月間処理能力を7倍に拡大した。
キーポイント
スケーラブルな文書処理ソリューションの構築
Ricohは生成AIとサーバーレスアーキテクチャを組み合わせ、カスタム手作業エンジニアリングへの依存を解消し、文書処理のスケーリング限界を克服した。
AWS GenAI IDP Acceleratorの活用
AWSの標準化フレームワークを利用して再利用可能なフレームワークを構築し、導入ごとのエンジニアリング時間を90%以上削減した。
医療分野での実用化とコンプライアンス対応
HITRUST、HIPAA、SOC IIなどの厳格なコンプライアンス基準を満たしながら、Amazon BedrockとAmazon Textractを組み合わせて最先端の自動化を実現した。
ビジネスインパクトの定量化
顧客オンボーディング時間の大幅短縮(週から日へ)と処理能力の7倍増加(月間70,000文書以上)という具体的な成果を達成した。
影響分析・編集コメントを表示
影響分析
この記事は、生成AIを企業のコア業務プロセスに統合する実用的な方法論を示しており、特に規制の厳しい医療分野での適用可能性を実証した点で意義が大きい。標準化されたアプローチによりAI導入の障壁を下げ、業界全体のデジタルトランスフォーメーションを加速させる可能性がある。
編集コメント
生成AIの実ビジネス応用における成功事例として、特に規制産業での導入ハードルをどう克服したかが参考になる。具体的な数値成果が示されており、説得力のあるケーススタディとなっている。
*この投稿は、リコーのジェレミー・ジャクソンとラド・フルェックによる共著です。*
本稿では、生成 AI、サーバーレスアーキテクチャ、標準化されたフレームワークを組み合わせることで、企業が文書処理のスケーリング限界をどのように克服できるかを示します。リコーは AWS GenAI インテリジェントドキュメントプロセッシング (IDP) アクセラレータ を用いて、反復可能で再利用可能なフレームワークを構築しました。このフレームワークにより、顧客のオンボーディング期間が数週間から数日へと短縮されました。また、複雑な文書分割を必要とする新しい AI 集約型ワークフローの処理能力も向上し、その容量は月間 70,000 ドキュメントを超えるまで 7 倍に拡大すると見込まれています。さらに、各デプロイにかかるエンジニアリング時間は 90% 以上削減されました。
リコー・USA インクは、200 カ国以上にわたる多様な顧客基盤にサービスを提供するグローバルな技術リーダーです。そのヘルスケア分野では、主要な健康保険給付者、管理型医療組織、および医療提供者を対象としており、毎月数十万件の重要な文書(保険請求、苦情、異議申し立て、臨床記録など)を処理しています。彼らが直面した課題は、ドキュメント中心のワークフローを近代化する企業に共通するものであり、カスタム手動エンジニアリングへの依存でした。新しいヘルスケア顧客ごとの導入には、専門エンジニアによる独自の開発と調整が必要でした。さらに、展開にはカスタムのプロンプトエンジニアリング、モデルのファインチューニング、統合テストが伴い、これらは顧客間で再利用できませんでした。これはリコーの顧客にとって例外的で個別最適化された体験を提供する一方で、要した時間と労力がボトルネックとなり、拡大を制限していました。今後、処理量が 7 倍に増加すると見込まれる中、リコーは革新の機会を捉えました。
課題は単にプロセスを自動化することだけではありませんでした。ドキュメント抽出とエージェント型ワークフローのための最先端 AI を提供できるスケーラブルなソリューションを構築することが求められていました。このソリューションは、HITRUST、HIPAA、SOC II といった厳格なコンプライアンス基準を満たす必要がありました。これらの要件は、急速に進化する AI の革新とは往々にして対立するものです。コンプライアンスフレームワークは通常、モデルのトレーニング能力を制限するデータ共有を規制しています。また、反復的な AI の開発とデプロイに必要な俊敏性を阻害しうる厳格なセキュリティ制御も義務付けています。これらの課題にもかかわらず、リコーは顧客のためにこの緊張関係を克服することを最優先事項としました。Amazon Bedrock を通じて利用可能なファウンデーションモデル(FMs)を基盤とし、Amazon Textract と組み合わせることで、リコーは顧客が厳格なコンプライアンス基準に適合した最先端の自動化の恩恵を受けられるようにしました。
本稿では、AWS GenAI IDP Accelerator を基盤として標準化されたマルチテナント型のドキュメント分類および抽出ソリューションをリコーがどのように構築し、カスタムエンジニアリングによるボトルネックからスケーラブルで反復可能なサービスへとドキュメント処理を変革したかを探ります。
カスタマー概要
リコー・アメリカ合衆国法人は、200 以上の国々の組織に対してデジタル職場サービス、文書管理、およびビジネスプロセス自動化ソリューションを提供するグローバルな技術リーダーです。そのヘルスケア分野において、リコーは主要な健康保険給付者、管理型医療機関、および医療提供者にサービスを提供しており、毎月数千件の重要な書類を処理しています。これには保険請求、苦情、異議申し立て、臨床記録などが含まれます。
「リコー・インテリジェント・ビジネスプラットフォーム内では、主要な IDP(Intelligent Document Processing:文書処理)タスクにおいて最も高度な知能を必要とするワークフローが爆発的に成長しました。私たちは、個別の構築からプラットフォームへの移行が必要でした」と、リコーのポートフォリオ・ソリューション開発部門 AI アーキテクトであるジェレミー・ジャクソン氏は述べています。「顧客のために、AI の統合、運用、進化を行うことで、顧客自身が行う必要をなくします。当社の独自 IDP パターンと技術を AWS GenAI IDP アクセラレーター(GenAI:生成型人工知能)に統合することで、この優位性がさらに強化されました。その結果、HITRUST CSF 認証を取得した構成可能な IDP プラットフォームを提供し、顧客を AI の最前線へと結びつけました。」
医療文書は構造化されておらず、非常に多様な形式で届くことが一般的です。1 つの封筒には複数の文書タイプが含まれている可能性があり、ファックスカバーシート、臨床記録、異議申し立てフォームなど、それぞれ異なるレイアウトと命名規則を持っています。文書のページ数は 15〜50 ページに及び、封入されているものもあれば、ないものもあります。また、医療提供者によって文書構造やフィールドの命名規則、重要な情報の配置が異なります。テンプレートベースの抽出アプローチは効果的ではありませんでした。
リコーのインテリジェントビジネスプラットフォームサービスにおける機能要件には、構造化されていないまたは半構造化されたドキュメントのスキャンからデータ属性を抽出し、各データ属性に対して人間のレビューが必要なタイミングを確実に識別できる信頼性の高い自信度(confidence level)を割り当てることが含まれます。事前に定義された閾値未満の自信度を持つすべての属性は、正確性とコンプライアンスの確認のために人間によってレビューされます。人間のレビュアーは抽出されたデータを検証し、誤りを修正し、会員 ID、診断コード、請求金額などの重要な医療情報が規制遵守の整合性および請求処理に必要な品質基準を満たしていることを確認します。このヒューマン・イン・ザ・ループ(human-in-the-loop)アプローチにより、2 つの主要なビジネス成果が達成されます。すなわち、医療給付者が要求する高い精度レベル(通常 98〜99%)を維持しつつ、完全手動処理と比較して人的レビューコストを 60〜70% 削減することです。
本ソリューションは、文書のさまざまなセクションから会員 ID、プロバイダー情報、請求詳細などの主要データを抽出する必要があり、カバーレターに情報が含まれていない場合は臨床ノートやその他のセクションを検索する機能も必要でした。非機能的要件では、以下の重要な運用ニーズに対応しました:
- パフォーマンスとスケーラビリティ – トラフィックの急増にも対応し、数分で最大 1,000 件の文書を処理できるようにしつつ、低トラフィック期間には計算リソースの浪費を避けること
- 精度と品質 – 納期およびデータ精度に関する厳格なサービスレベル契約(SLA)を満たすこと
- コスト最適化 – 正確性の要件と手動レビューコストのバランスを取る設定可能な信頼度閾値を可能にし、合意された SLA を超える誤った属性の捕捉を抑えつつ、高価な人的レビューを最小限に抑えること
- 運用効率 – コード変更ではなく設定変更を通じて迅速な顧客オンボーディングを実現すること
複雑な文書処理ワークフローにおける課題
ある時期から、リコーチームは、スキャンされた文書からテキストを検出・抽出する従来の光学式文字認識(OCR)と、テキストと画像を同時に理解できるマルチモーダル AI モデルを組み合わせていました。このアプローチにより、複数の名前や住所を含む文書からデータを抽出する際に類似したフィールドを区別するなど、複雑な課題に対処することができました。
Amazon Bedrock でマルチモーダル FMs が利用可能になって間もなく、単純に Amazon Bedrock への API 呼び出しを行うだけでは(つまり、スキャンしたドキュメントとプロンプトを送るだけ)複雑なワークフローには不十分であることがすぐに明らかになりました。ドキュメントがカバーシートや契約書、承認応答など複数の部分やセクションで構成されている場合、抽出ルールはまずそのセクションタイプを正しく分類することに依存することが多いためです。
このソリューションでは、請求書、異議申し立て、メール、ファックスのカバーシートなどを区別する複雑なドキュメント分類を扱いながら、パケットをより細粒度のドキュメントタイプに分解する必要はありませんでした。また、大規模言語モデル(LLM)にはコンテキストウィンドウの制限があり、コンテキストが埋まってくると指示に従う性能が低下するという課題があります。ドキュメントページサイズの制限により、Ricoh チームは大型ドキュメントに対して代替アプローチを採用する必要がありました。
Ricoh チームはまた、既存の高容量ドキュメント処理ワークフロー(ドキュメントルーティングシステム、ケース管理サービス、下流のビジネスアプリケーションなど)との統合を柔軟に行いながら、処理ステップやモデル選択に対する制御権を維持することも必要でした。これには、医療提供者または患者情報に基づいてドキュメントを分割するという独自の要件も含まれていました。
精度を向上させるために、リコーチームはプロンプトに動的にコンテキストを挿入するより洗練された手段を利用しました。これは、処理対象の文書に応じて、関連する文書メタデータ、以前に抽出されたフィールド、および文書構造情報をプログラムによって AI モデルの指示に追加する技術です。この文脈認識型プロンプティングは、静的なプロンプトと比較して抽出精度を 15〜20% 向上させ、モデルが文書間の関係やフィールドの依存関係を理解するのに役立ちました。
これらの成果は顕著なものでしたが、この成功を再現しようとした際、リコーチームは持続的な障壁に直面しました。具体的には、基盤となるモデルの新機能を取り込むなど、顧客ごとに設定に開発者 40〜60 時間が必要だったのです。リコーは、これらのスケーラビリティ課題に対処するため、AWS ジェネレーティブ AI イノベーションセンターと IDP アクセラレーター(IDP Accelerator)で連携しました。
ソリューション概要
リコーは AWS と提携し、GenAI IDP Accelerator の実装を行いました。これは、本番環境レベルの文書処理ソリューションをデプロイするのを支援するために設計された参照フレームワークです。このアクセラレーターは、異なる文書タイプやワークフローに最適化された複数の処理パターンを提供します。
チームは、テキスト画像を機械可読なテキストに変換する OCR 技術である Amazon Textract と、インテリジェントな分類および抽出を行うための Amazon Bedrock FMs を組み合わせた「処理パターン 2」Processing Pattern 2 を選択しました。このパターンは、テキストの抽出と AI による理解の両方を必要とする複雑な多部構成文書のために特に設計されています。このアプローチではモデルのオーケストレーションに対する完全な制御が可能であり、リコーの多部構成医療文書を扱うのに理想的です。なぜなら、分類を先に行い、その結果に基づいて抽出を行うという順次処理をサポートし、一般的な LLM のコンテキストウィンドウを超える文書もセクションごとに処理して対応できるからです。
本ソリューションは、厳格な医療規制への準拠要件に合致するように設計されました。HIPAA 準拠のため、保護対象の個人情報(PHI)は、AWS Key Management Service (AWS KMS) を用いて保存時に暗号化され、転送時には TLS 1.2+ で暗号化されます。アクセス制御は最小権限の原則に従い、AWS Identity and Access Management (IAM) ポリシーによってデータへのアクセスを承認された人員にのみ制限しています。
HITRUST 認証要件に対応するため、本アーキテクチャは Amazon CloudWatch および AWS CloudTrail を通じて包括的な監査ログを実装し、データアクセスおよび処理アクティビティを記録しています。SOC 2 Type II コンプライアンスへの適合は、それぞれ独自の SOC 2 認証を保持する AWS サービスの活用と、変更管理、イベント対応、継続的監視に関するリコーの文書化された運用統制を組み合わせて実現されています。
従量課金モデルにより、アイドル状態のインフラコストが排除されます。リコーは実際のドキュメント処理分のみに対して支払いを行い、非稼働期間中は請求が発生しません。このコスト予測可能性は、異なるドキュメントボリュームを持つ複数の顧客をサポートする上で極めて重要でした。各顧客のコストは使用量に比例してスケーリングするため、固定のインフラ投資を必要としないからです。
文書は Amazon Simple Storage Service (Amazon S3) を通じて入力され、イベント駆動型のワークフローがトリガーされます。AWS Lambda 関数が Amazon Bedrock モデルを呼び出し、請求書、異議申し立て、ファックス、苦情、事前承認リクエスト、臨床文書などの文書タイプを特定します。Amazon Textract がテキストとレイアウトを解析し、その結果は構造化データ抽出のために Amazon Bedrock モデルと組み合わせられます。各顧客の要件に固有のカスタムビジネスルール(フィールド検証ルール、文書ルーティング基準、データ変換仕様など)が信頼度スコア計算と併用され、どのフィールドが人間のレビューを必要とするかを決定します。
信頼度スコアは、複数のソース(Amazon Textract と Amazon Bedrock)からの抽出結果を比較し、システムが各抽出されたフィールドに対して持つ確信度を表す数値(0〜100%)を割り当てることで計算されます。顧客が定義した閾値(通常 70〜85%)を下回るスコアを持つフィールドは、人間の検証が必要としてフラグ付けされます。最終出力は Amazon S3 に保存され、低信頼度のケースはレビューキューを通じて人間の検証用にルーティングされます。オペレーターはここで抽出されたデータを検証し、誤りを修正し、将来の処理改善のためのフィードバックを提供します。
AWS GenAI IDP Accelerator から提供されるコア IDP-Common エンジンは、統合層として機能し、リコーが確立されたワークフローを維持することを支援しました。IDP Common Package は、AWS 上の加速型インテリジェントドキュメント処理ソリューション向けに共有機能を提供する Python ライブラリです。このソリューションは、AI サービスを利用して文書から情報を自動的に抽出・処理することで、企業における手動データ入力を取り除き、精度を向上させることを目的としています。
各顧客への展開は、AWS Serverless Application Model (AWS SAM) アプリケーションとして構成可能な形でインスタンス化され、AWS CloudFormation スタックとしてデプロイされることで、迅速なオンボーディングを可能にします。これにより、Amazon Virtual Private Cloud (Amazon VPC) 設定、セキュリティグループルール、IAM ロールポリシー、およびサービスクォータといったインフラストラクチャの詳細が抽象化され、チームメンバーは Lambda の予約済み並列処理数やデータベース接続詳細など、顧客固有のパラメータにのみ集中できます。この焦点を絞ったアプローチは、新しい顧客のオンボーディングを行う際に特に価値があります。
モジュラー設計により、リコーは顧客定義の独自ドキュメント分類、業界固有フォーム向けのカスタムデータ抽出、個人識別情報(PII)コンプライアンス適合のための赤塗りルールといった特定のパラメータやカスタム機能を、既存の高容量ワークフローに統合することができました。これにより、確立されたプロセスを妨げずに、顧客オンボーディング時間を数週間から数日へと短縮する自動デプロイメントを通じて運用効率を維持しつつ、ドキュメント処理における高度な AI 機能(インテリジェントドキュメント分類や非構造化フォームからの自動化データ抽出など)を追加することが可能になりました。
アーキテクチャの詳細
本アーキテクチャは、コード変更ではなく設定による迅速な顧客オンボーディングの支援、医療規制(HIPAA、HITRUST、SOC 2)への準拠の促進、変動するドキュメント量に対するコスト効率の高いスケーラビリティの提供という3つの主要な目的を念頭に設計されました。インフラ管理のオーバーヘッドを排除し、コストを直接使用量に連動させるためサーバーレスアプローチが採用され、マルチテナント設計における顧客ごとのキュー設定により、リソース効率とワークロードの分離が両立しています。Amazon Bedrock 単体ではなく、処理パターン2(Amazon Textract と Amazon Bedrock)を採用した決定は、LLM のコンテキストウィンドウを超えるドキュメントを処理する必要性と、ドキュメントタイプに基づいてプロンプトに選択的に含めることができる構造化テキスト抽出の要件によって導かれました。
実装では、スキャンされたドキュメントが Amazon S3 にアップロードされると自動的に Lambda 関数が呼び出されるサーバーレスアーキテクチャが採用されました。Lambda 関数は AI サービス(Amazon Textract と Amazon Bedrock)への呼び出しを処理し、抽出した属性とその信頼度スコアを Amazon DynamoDB データベースへ出力します。
アーキテクチャは、AWS Well-Architected Framework の原則を複数の柱にわたって取り入れています。セキュリティにおいては、データは AWS KMS を用いて顧客管理キーで保存時に暗号化され、転送時には TLS 1.2+ で暗号化されます。IAM ロールは機能ごとに分離された最小権限アクセスを強制し、文書の取り込み、処理、検索それぞれに別々のロールが設定されています。CloudTrail は監査証跡のために API コールをログ記録し、CloudWatch Logs はセキュリティ監視のためのアプリケーションレベルのイベントをキャプチャします。
信頼性においては、サーバーレス設計により単一障害点が排除され、自動リトライとデッドレターキュー(DLQ)が過渡的なエラーを処理します。パフォーマンス効率においては、Lambda の並行実行制限と Amazon Simple Queue Service (Amazon SQS) のキュースロットリングにより、高いスループットを維持しつつ API クォータの枯渇を防ぎます。コスト最適化においては、従量課金モデルによりアイドル状態のリソースのコストが排除され、Amazon S3 のライフサイクルポリシーが処理済みの文書を低コストストレージ階層へ自動的に移行します。
運用の卓越性においては、AWS SAM と CloudFormation を用いたインフラストラクチャとしてのコード(IaC)により一貫したデプロイが可能となり、CloudWatch ダッシュボードとアラームが処理メトリクスとエラーレートに関するリアルタイムな可視性を提供します。
アーキテクチャの重要な部分は SQS キューであり、これによりチームは Lambda の並行処理設定と Amazon SQS の可視性タイムアウトを制御することでメッセージ処理速度を調整し、Amazon Textract および Amazon Bedrock API エンドポイントへのリクエスト発行率を制御することが可能になります。この設計により、サービスクォータ制限(例えば、Amazon Textract における 1 秒あたりのトランザクション数や、Amazon Bedrock における 1 分あたりのリクエスト数など)内に収まることが保証されます。さらに、Amazon SQS は自動的に再試行を支援し、未処理のメッセージを DLQ(Dead Letter Queue:デッドレターキュー)へ送信します。
各顧客には独自の Amazon EventBridge ルールと SQS キューが割り当てられており、マルチテナント分離を実現しています。これにより、ある顧客からの大量の処理が他の顧客に影響を与えるのを防ぎつつ、独立したスケーリング(顧客ごとの並行処理制限やスループット制御の適用)を可能にします。
このアーキテクチャでは、ドキュメント保存のために Amazon S3 を使用しています。ファックス、スキャン、SFTP システムなど様々なソースからのドキュメントを管理するために、異なるバケットが作成されています。DynamoDB テーブルにはドキュメントのメタデータと処理状態が格納され、ドキュメントのバージョンを追跡して、同一ドキュメントに対する複数の更新試行を防ぐ役割を果たしています。
原文を表示
*This post is cowritten by Jeremy Jacobson and Rado Fulek from Ricoh.*
This post demonstrates how enterprises can overcome document processing scaling limits by combining generative AI, serverless architecture, and standardized frameworks. Ricoh engineered a repeatable, reusable framework using the AWS GenAI Intelligent Document Processing (IDP) Accelerator. This framework reduced customer onboarding time from weeks to days. It also increased processing capacity for new AI-intensive workflows that required complex document splitting. The capacity is projected to grow sevenfold to over 70,000 documents per month. Additionally, the solution decreased engineering hours per deployment by over 90%.
Ricoh USA, Inc. is a global technology leader serving a diverse client base in over 200 countries. Within its healthcare practice, Ricoh serves major health insurance payers, managed care organizations, and healthcare providers—processing hundreds of thousands of critical documents each month, including insurance claims, grievances, appeals, and clinical records for their clients. They faced a challenge common to enterprises modernizing document-heavy workflows: reliance on custom manual engineering. Each new healthcare customer implementation required unique development and tuning by specialized engineers. Additionally, deployment required custom prompt engineering, model fine-tuning, and integration testing that couldn’t be reused across customers. Although this provided an exceptional, bespoke experience for Ricoh customers, the time and effort involved created bottlenecks that limited expansion. With an anticipated sevenfold increase in volume, Ricoh seized the opportunity to innovate.
The challenge was not just to automate processes. It was to build a scalable solution that could deliver state-of-the-art AI for document extraction and agentic workflows. This solution needed to meet strict compliance standards, including HITRUST, HIPAA, and SOC II. These requirements often stand at odds with rapid AI innovation. Compliance frameworks typically restrict data sharing that limits model training capabilities. They also mandate rigorous security controls that can impede the agility needed for iterative AI development and deployment. Despite these challenges, Ricoh made it a priority to overcome this tension for their customers. Building upon foundation models (FMs) available through Amazon Bedrock and combining them with Amazon Textract, Ricoh made it possible for customers to benefit from cutting-edge automation that aligns with the strictest compliance standards.
This post explores how Ricoh built a standardized, multi-tenant solution for automated document classification and extraction using the AWS GenAI IDP Accelerator as a foundation, transforming their document processing from a custom-engineering bottleneck into a scalable, repeatable service.
Customer overview
Ricoh USA, Inc. is a global technology leader delivering digital workplace services, document management, and business process automation solutions to organizations in over 200 countries. Within its healthcare practice, Ricoh serves major health insurance payers, managed care organizations, and healthcare providers—processing thousands of critical documents each month, including insurance claims, grievances, appeals, and clinical records.
“Within the Ricoh Intelligent Business Platform, the workflows that required the highest levels of intelligence for key IDP tasks experienced explosive growth. We needed to move from bespoke builds to a platform,” says Jeremy Jacobson, AI Architect, Portfolio Solution Development at Ricoh. “For our customers, we integrate, operate, and evolve AI so they don’t have to. Aligning our proprietary IDP patterns and technologies with the AWS GenAI IDP accelerator amplified this advantage. So equipped, we delivered a HITRUST CSF-certified configurable IDP platform that ties our customers to the frontiers of AI.”
Healthcare documents often arrive unstructured and highly variable. A single packet might include multiple document types—fax covers, clinical notes, and appeal forms—each with different layouts and naming conventions. Documents ranged from 15–50 pages, with some containing cover letters while others did not. Different healthcare providers used varying document structures, field naming conventions, and placement of critical information across different healthcare providers. Template-based extraction approaches proved ineffective.
For Ricoh’s Intelligent Business Platform services, functional requirements included capturing data attributes from scans of unstructured or semi-structured documents and assigning to each data attribute a confidence level that reliably identifies when human review is needed. Every attribute with a confidence level below a predefined threshold is reviewed by a person to verify accuracy and compliance. Human reviewers verify extracted data, correct errors, and validate that critical healthcare information—such as member IDs, diagnosis codes, and claim amounts—meets the quality standards required for regulatory compliance alignment and claims processing. This human-in-the-loop approach achieves two key business outcomes: maintaining the high accuracy levels (typically 98–99%) required by healthcare payers while reducing manual review costs by 60–70% compared to fully manual processing.
The solution needed to extract key data such as member IDs, provider information, and claim details from various sections of documents, with the capability to search through clinical notes and other sections when information was not found in cover letters. Non-functional requirements addressed several critical operational needs:
- Performance and scalability – Handle traffic spikes to process up to 1,000 documents in minutes while avoiding wasted computational resources during low-traffic periods
- Accuracy and quality – Meet strict service level agreements (SLAs) for delivery deadlines and data accuracy
- Cost optimization – Enable configurable confidence thresholds that balance accuracy requirements with manual review costs—keeping wrongly captured attributes below the agreed SLA while minimizing expensive human review
- Operational efficiency – Enable quick customer onboarding through configuration changes rather than code changes
Challenges with complex document processing workflows
For some time, the Ricoh team had combined traditional optical character recognition (OCR)—which detects and extracts text from scanned documents—with multimodal AI models that can understand both text and images simultaneously. This approach helped address complex challenges such as distinguishing between similar fields when extracting data from documents with multiple names and addresses.
After multimodal FMs became available on Amazon Bedrock, it soon became clear that a simple API call to Amazon Bedrock—that is, sending a scanned document along with a prompt—would not suffice for complex workflows. When documents are composed of multiple parts or sections, such as cover sheets, contracts, or authorization responses, extraction rules often depend upon first successfully classifying the section type.
The solution needed to handle complex document classification, distinguishing between claims, disputes, emails, and fax cover sheets without breaking down packets into granular document types. Additionally, large language models (LLMs) have context window limits and experience declining performance in following instructions as the context fills. Document page size limitations required the Ricoh team to use alternative approaches for larger documents.
The Ricoh team also required flexibility to integrate with their existing high-capacity document processing workflows—including document routing systems, case management services, and downstream business applications—while maintaining control over processing steps and model selection. This included unique requirements such as splitting documents based on healthcare provider or patient information.
To improve accuracy, the Ricoh team utilized more sophisticated means of dynamically inserting context into prompts—a technique where relevant document metadata, previously extracted fields, and document structure information are programmatically added to the AI model’s instructions based on the specific document being processed. This context-aware prompting improved extraction accuracy by 15–20% compared to static prompts, helping the model understand document relationships and field dependencies.
Although these gains were substantial, when trying to recreate this success, the Ricoh team ran into a persistent hurdle: these workflows demanded 40–60 hours of developer time per customer to set up, for instance to incorporate newly released features of the underlying models. Ricoh coordinated with the AWS Generative AI Innovation Center on the IDP Accelerator to address these scalability challenges.
Solution overview
Ricoh partnered with AWS to implement the GenAI IDP Accelerator, a reference framework designed to help you deploy production-grade document processing solutions. The accelerator provides multiple processing patterns optimized for different document types and workflows.
The team selected Processing Pattern 2, which combines Amazon Textract for OCR—the technology that converts images of text into machine-readable text—with Amazon Bedrock FMs for intelligent classification and extraction. This pattern is specifically designed for complex, multi-part documents that require both text extraction and AI-powered understanding. The approach offered full control over model orchestration and was ideal for handling Ricoh’s multi-part healthcare documents because it supports sequential processing (classify first, then extract based on classification) and handles documents exceeding typical LLM context windows by processing them in sections.
The solution was architected to align with stringent healthcare compliance requirements. For HIPAA compliance, the Protected Health Information (PHI) is encrypted at rest using AWS Key Management Service (AWS KMS) and in transit using TLS 1.2+. Access controls follow the principle of least privilege, with AWS Identity and Access Management (IAM) policies restricting data access to authorized personnel only.
For HITRUST certification requirements, the architecture implements comprehensive audit logging through Amazon CloudWatch and AWS CloudTrail, capturing data access and processing activities. SOC 2 Type II compliance alignment is supported through the use of AWS services that maintain their own SOC 2 certifications, combined with Ricoh’s documented operational controls for change management, event response, and continuous monitoring.
The pay-per-use pricing model removes idle infrastructure costs—Ricoh only pays for actual document processing, with no charges during periods of inactivity. This cost predictability was crucial for supporting multiple customers with varying document volumes, as each customer’s costs scale proportionally with their usage rather than requiring fixed infrastructure investments.
Documents enter using Amazon Simple Storage Service (Amazon S3), triggering event-driven workflows. AWS Lambda functions invoke Amazon Bedrock models to determine document types such as claims, appeals, faxes, grievances, prior authorization requests, and clinical documentation. Amazon Textract parses text and layout, and the results are combined with Amazon Bedrock models for structured data extraction. Custom business rules—configurable logic specific to each customer’s requirements, such as field validation rules, document routing criteria, and data transformation specifications—work alongside confidence scoring to determine which fields require human review.
Confidence scores are calculated by comparing extraction results from multiple sources (Amazon Textract and Amazon Bedrock) and assigning a numerical value (0–100%) indicating the system’s certainty in each extracted field. Fields scoring below customer-defined thresholds (typically 70–85%) are flagged for human validation. Final outputs are stored in Amazon S3, with low-confidence cases routed for human validation through review queues where operators verify extracted data, correct errors, and provide feedback that improves future processing.
The core IDP-Common engine from the AWS GenAI IDP Accelerator served as the integration layer, helping Ricoh maintain its established workflows. The IDP Common Package is a Python library that provides shared functionality for the Accelerated Intelligent Document Processing solution on AWS. This solution helps businesses automatically extract and process information from documents using AI services, removing manual data entry and improving accuracy.
Each customer deployment is instantiated using a configurable AWS Serverless Application Model (AWS SAM) application deployed as an AWS CloudFormation stack, supporting rapid onboarding. This abstracts away infrastructure details—including Amazon Virtual Private Cloud (Amazon VPC) configuration, security group rules, IAM role policies, and service quotas—so team members can focus only on the customer-dependent parameters such as Lambda reserved concurrency or database connection details. This focused approach is valuable when onboarding a new customer.
The modular design helped Ricoh integrate specific parameters and custom functionality such as customer-defined proprietary document classification, custom data extraction for industry-specific forms, or redaction rules for personally identifiable information (PII) compliance alignment into their existing high-capacity workflow without disrupting established processes. This approach helped the team maintain operational efficiency through automated deployment that reduced customer onboarding time from weeks to days, while adding advanced AI capabilities for document processing, including intelligent document classification, and automated data extraction from unstructured forms.
Architecture details
The architecture was designed with three primary objectives: enable rapid customer onboarding through configuration rather than code changes, help align with healthcare regulations (HIPAA, HITRUST, SOC 2), and provide cost-effective scalability for variable document volumes. The serverless approach was chosen to remove infrastructure management overhead and align costs directly with usage, and the multi-tenant design with per-customer queues balances resource efficiency with workload isolation. The decision to use Processing Pattern 2 (Amazon Textract and Amazon Bedrock) rather than Amazon Bedrock alone was driven by the need to handle documents exceeding LLM context windows and the requirement for structured text extraction that could be selectively included in prompts based on document type.
The implementation used a serverless architecture in which Lambda functions are automatically invoked upon upload of scanned documents to Amazon S3. The Lambda functions handle calls to the AI services—Amazon Textract and Amazon Bedrock—and output the captured attributes along with their confidence scores to an Amazon DynamoDB database.
The architecture incorporates AWS Well-Architected Framework principles across multiple pillars. For security, the data is encrypted at rest using AWS KMS with customer-managed keys and in transit using TLS 1.2+. IAM roles enforce least-privilege access, separated by function, with separate roles for document ingestion, processing, and retrieval. CloudTrail logs the API calls for audit trails, and CloudWatch Logs captures application-level events for security monitoring.
For reliability, the serverless design removes single points of failure, with automatic retries and dead-letter queues (DLQs) handling transient errors. For performance efficiency, Lambda concurrency limits and Amazon Simple Queue Service (Amazon SQS) queue throttling helps prevent API quota exhaustion while maintaining high throughput. For cost optimization, the pay-per-use model removes idle resource costs, and Amazon S3 lifecycle policies automatically transition processed documents to lower-cost storage tiers.
For operational excellence, infrastructure as code using AWS SAM and CloudFormation enables consistent deployments, and CloudWatch dashboards and alarms provide real-time visibility into processing metrics and error rates.
A critical part of the architecture is an SQS queue that makes it possible for the team to control the rate at which they are making requests to Amazon Textract and Amazon Bedrock API endpoints by controlling message processing velocity through Lambda concurrency settings and Amazon SQS visibility timeouts. This design helps them stay within service quota limits (such as transactions per second for Amazon Textract and requests per minute for Amazon Bedrock). Furthermore, Amazon SQS seamlessly facilitates retries and sending of unprocessed messages to a DLQ.
Each customer has its own Amazon EventBridge rule and SQS queue, enabling multi-tenant isolation (helping prevent one customer’s high volume from impacting others) and independent scaling (allowing per-customer concurrency limits and throughput controls).
The architecture used Amazon S3 for document storage. Different buckets were created to manage documents from various sources, including fax, scan, and SFTP systems. DynamoDB tables stored document metadata and processing state, tracking document versions and helping prevent multiple attempts to update the same document s
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み