AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
AWS Machine Learning Blog·2026年6月10日 01:43·約21分で読める

ハンズフリー初回損失通知:Strands Agents と Amazon Bedrock AgentCore ブラウザツールを活用したインテリジェントな請求受付

#Generative Agents#Browser Automation#Multimodal LLM#Amazon Bedrock#Strands Agents
TL;DR

AWS と Strands は、保険業界の複雑な初報処理(FNOL)において、ドメイン推論を行うエージェントとブラウザ操作ツールを組み合わせることで、人間の専門性を維持しつつ反復作業を自動化する新ソリューションを発表した。

AI深層分析2026年6月9日 17:02
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

未構造化データによる業務負荷の解消

保険初報処理(FNOL)では、写真や動画など多様な非構造化データを解釈・検証するために調整担当者が膨大な時間を費やしており、これが処理遅延の主要因となっている。

2

Strands Agents と Amazon Bedrock の連携

Strands Agents SDK を用いて保険固有のビジネスルールを適用するドメイン推論エージェントを構築し、Amazon Bedrock 上の基盤モデルを活用して証拠の解釈や複雑度評価を行う。

3

ブラウザツールによる自動操作の実現

Amazon Nova Act と Amazon Bedrock AgentCore Browser Tool を組み合わせ、自然言語指令に基づいてポータル内の画面遷移やデータ入力といった UI 操作を自律的に行う。

4

人間と AI の協働による効率化

反復的な画面作業を自動化することで調整担当者は高付加価値な判断業務に集中でき、災害時などの需要急増時における処理遅延やバックログの解消が期待される。

影響分析・編集コメントを表示

影響分析

この記事は、生成 AI が単なる情報抽出や要約を超え、実際の業務システム(ポータル)と連携して物理的な操作まで行う「自律型アクション」の段階に入ったことを示す重要な事例です。特に保険業界のような高規制・高複雑な領域において、人間の専門知識を維持しつつ反復作業を自動化する具体的なアーキテクチャを提供しており、業種横断での AI 実装の標準モデルとなり得る可能性があります。

編集コメント

「AI がブラウザを操作する」という概念が、保険という実務の重厚な領域で具体的にどう機能するかを示した非常に説得力のある記事です。単なるデモではなく、業務フローの根本的な改善(調整担当者の時間解放)に直結する点が高く評価されます。

多様な形式の初回損失通知(FNOL)証拠を、タグ付けされ意思決定可能なインテークに変換し、調整担当者が生データではなく文脈からスタートできるようにする。

手動による FNOL 処理では、構造化されていない多様な証拠を人間との対話を想定したポータルを通じて解釈する必要があり、専門家の時間が反復作業に大きく消費されます。現場で撮影された写真、周囲の動画、スキャンされた書類、口述または録音されたメモなどはすべてインテーク段階でシステムに入力され、そこで下される決定が請求処理期間、後続の精度、および顧客体験に直接影響を及ぼします。

保険業種全体を通じて、この瞬間は表面上は単純に見えますが実際には非常に複雑です。FNOL インテークはしばしば「単に請求を開くだけ」と説明されますが、実務では、意味のある決定を下す前に、大量の構造化されていないデータを解釈し、検証し、関連付ける必要がある段階なのです。

課題は重大です。保険請求処理のプロフェッショナルは、反復的な受付検証に過度な時間を費やしています。ポータルをナビゲートし、証拠の完全性を確認し、専門知識をより価値の高い意思決定に応用する前にアーティファクト(文書・データ)を解釈することは、相当な時間を要します。業界の観察によると、初期請求処理において受付検証が調整担当者の時間の大きな割合を占めることが示唆されており、典型的な提出物では評価を開始する前に意味のある画面操作が必要とされます。壊滅的な事象や季節的な急増によるボリュームの増加時には、これらの遅延が複合し、バックログを生み出して請求解決を遅らせ、顧客体験に悪影響を及ぼします。

本稿では、ドメイン推論のために Strands Agents SDK で構築されたエージェントと、ライブポータル操作のための Amazon Bedrock AgentCore Browser Tool を組み合わせた、ハンズフリーの FNOL(First Notice of Loss:初回損失通知)受付システムがどのように機能するかを実証します。このアプローチは、人間の専門知識を維持しつつ、反復的な画面作業を排除するものです。

本ソリューションは、2 つの相補的な機能を組み合わせます。

Strands Agents は、生成 AI エージェント構築においてモデル駆動型のアプローチを採用したオープンソース SDK です。このアーキテクチャでは、エージェント(Strands Agents で構築)が、Amazon Bedrock を介して提供されるファウンデーションモデル(FMs:基盤モデル)を用いて、証拠の解釈、クロスモーダル相関分析、請求の複雑性評価といった保険固有のビジネスルールを適用します。

ブラウザ推論は、自然言語の指示(例:「次の未処理請求を開く」や「画像分析をトリガーする」)を解釈し、具体的な UI 操作に変換するクライアント SDK である Amazon Nova Act によって実行されます。Amazon Bedrock AgentCore Browser tool は、Nova Act がこれらの操作を実行するために接続する、管理された隔離された Chrome セッションを提供します。AgentCore Browser Tool はまた、観測可能性のためのセッション記録およびライブビュー機能も提供しています。

このワークフローでは、Nova Act が AgentCore Browser セッションを通じて画面に表示されている内容を推論することで請求受付プロセスを主導し、Strands ベースのエージェントがバックグラウンドでドメイン推論を行います。Nova Act は証拠の分析が必要なタイミングを判断し、ポータルの相互作用を調整します。一方、ドメインエージェントは、人間のリビュアーが使用するのと同じドメインロジックを適用することで、その証拠が何を意味するかを決定します。

その結果、人的な監視と監査可能性を維持しつつ、手動の画面操作を自動化できます。請求専門家は、検証ではなく判断のために準備された、文脈に富んだ事前分析済み提出物を受け取ります。タグ付けされた証拠は、請求ライフサイクル全体を通じてより良いルーティング、パターン分析、継続的なワークフロー改善を支える永続的な運用資産となります。

このワークフローは、システム動作中に直接キャプチャされた実際のブラウザ自動化の録画を用いて説明されています。

機会:人的専門知識を強化するための請求受付の最適化

自動車保険、損害保険(火災・対人・対物)、生命保険、健康保険、専門分野など、あらゆる保険ラインにおいて、請求受付は構造化されていない情報がシステムに初めて流入する瞬間です。写真、動画、スキャンされた文書、録音されたメモなどが同時に到着しますが、しばしば不完全で、ラベル付けが不統一であり、標準化されることはほとんどありません。

請求処理のプロフェッショナルたちは、この瞬間に深いドメイン知識をもたらします。彼らはどのような証拠が実用的であるかを知っており、通常何が欠けているか、アーティファクト(証拠物)同士がどのように関連しているか、そして補償性、深刻度、次のステップにおいてどのシグナルが重要かを理解しています。しかし現在、その専門知識の多くは、画面を次々とクリックし、アーティファクトを一つずつ視覚的に検査するという、遅く手作業によるポータル操作を通じて適用されています。意味のある評価を開始する前に、レビュー担当者は経験に大きく依存した基礎的な質問に答えなければなりません。これには、必要な証拠物が存在するか、写真や動画が実用可能で関連性があるか、音声メモに重要な観察事項が含まれているか、そして遅延なく進めるために提出内容が十分かどうかといった問いが含まれます。

これらの質問に答えるには、細心の注意を払った画面操作が必要です。典型的な初回損失通知(FNOL)の提出では、多数のアートファクトが複数のビューに分散しており、レビュー担当者は証拠の特定、各項目の開封と解釈、異なるモダリティ間のシグナルの相関付け、発見された事象とポリシー閾値との比較、監査継続のための要約の作成を求められます。

これらの手順は不可欠ですが、同時に反復的で機械的な作業でもあります。これらは専門的な判断よりも注意深い集中力を必要とします。その結果、熟練した調整担当者や検査担当者は、自らの専門知識を高価値な意思決定に適用する前に、入力情報の完全性を検証するために不釣り合いに多くの時間を費やすことになります。

この課題は日常的な請求処理において存在し、災害事象による需要の急増、季節的な自動車保険請求、あるいは健康・生命保険の活動が急増した際に一層顕著になります。業務量が増加するとバックログが蓄積し、証拠レビューが手抜きになったり不整合が生じたりし、人間の判断が本来必要な時期よりも遅れて行われることになります。

問題の本質は専門知識や技術の不足ではありません。ドメイン知識がプロセスの後半でしか活用されていない点にあり、すでに反復的な入力情報の検証に時間を費やした後に初めてその知識が行使されるのです。

ドメイン知識をエンコードすることが風景を変える理由

重要な意思決定ロジックが構造化されたルールとして捉えられ、個別の経験や直感に頼るのではなく、取り込み時に一貫して適用されることで、請求入力は加速します。

経験豊富なレビュー担当者は、直感的に、異なる請求タイプに必要な写真の角度や、欠落した画像を動画で代替できるタイミング、より複雑さを示すアーティファクトの組み合わせ、下流処理を停滞させる可能性のあるギャップがどこかを理解しています。

エージェント型生成 AI を用いることで、この業務知識をビジネスルールおよび推論ツールにエンコードし、証拠がシステムに入力される際にも一貫して適用することが可能になります。

Strands Agents を Nova Act および AgentCore Browser Tool と組み合わせることで、ポータルのナビゲーションや請求書の開封、分析のトリガーといった機械的な入力作業と、ドメイン固有の推論処理を分離できます。Nova Act は Browser Tool セッションを通じてワークフローを進め、Strands Agents は専門的なロジックを適用して証拠を解釈し、タグ付けし、関連付けを行います。

証拠が取り込み時にタグ付けされることで、不足しているまたは不十分なアーティファクトが早期に検出され、関連性が暗黙的ではなく明示的となり、存在する内容に基づいて請求書をトリアージできます。人間のレビュー担当者はゼロから始めるのではなく、文脈を前提として作業を開始します。

なぜ自動証拠タグ付けが重要なのか – 現在および将来

自動化されたタグ付けは、下流の工程が始まる前に請求情報の完全性と明確さを確保することで、現在の請求処理を加速します。レビュー担当者は基本的な確認に費やす時間を減らし、判断が必要な箇所により多くの時間を割くことができます。

長期的には、一貫してタグ付けされた証拠は永続的なデータ資産となります。タグは一度きりの解釈ではなく、コード化されたドメイン推論によって生成されるため、保険会社は以下のことが可能になります:

  • ルーティングと優先順位の改善
  • 不完全な提出物に起因する手戻りの削減
  • 遅延やエスカレーションにつながるパターンの特定
  • コンプライアンスの境界や意思決定権限を変更することなく、新たなシナリオが発生した際にインテークルールを精緻化

タグ付けされた証拠が蓄積されるにつれて、非構造化アーティファクトはもはや孤立したファイルではなくなります。画像、動画、音声は、一般的なギャップが検出された際の積極的なアウトリーチ、専門チームへの事前準備(プレステージージング)、類似の将来の請求処理期間の短縮など、新しいワークフローを支援する検索可能で分析可能なシグナルとなります。

最も重要なのは、タグ付けによってドメインの専門知識をインテースト時に一度適用し、ライフサイクル全体で再利用できる点です。異なる段階で繰り返し再発見する必要がなくなります。

これは、エージェント型自動化が可能にする転換です。専門知識を上流に移動させ、構造化されたシグナルによって下流システムを強化し、人間の関与を排除することなく、より迅速かつ一貫した解決を実現します。

既存のポータルを変更せずにこの転換を実装する方法を示すため、次のセクションでは、ブラウザレベルの自動化と推論駆動型エージェントを組み合わせた、エージェント型のFNOL(First Notice of Loss:初回損失通知)インテークアーキテクチャについて解説します。

ソリューション概要:ポータル変更なしのエージェント型インテーク

このプロトタイプは、エージェントによる推論とブラウザレベルでの相互作用を活用して、FNOL(First Notice of Loss:初回損失通知)のインテールをエンドツーエンドで自動化する方法を示しています。本番環境では、同じブラウザ自動化アプローチが既存のポータルに対して変更を加えることなく機能します。なぜなら、Nova Act クライアント SDK は人間が行うように UI と相互作用するからです。

このプロトタイプは、現実的な本番環境を模倣するように構築されています。FNOL ポータルとバックエンドサービスは AWS 上でコンテナ化されたアプリケーションとして実行され、エージェント駆動型のブラウザ自動化は、人間の審査員が実際に行うのと同じようにライブポータルと相互作用します。この分離により、ドメイン推論と UI コントロールを独立して進化させることが可能になりつつ、監査可能性と運用上の安全性も維持されます。

高レベルでは、本ソリューションは AWS 上で現代的なエージェント型システムがどのようにデプロイされるかについて、ある程度の知識があることを前提としています。これには、推論のための FMs(Foundation Models:基盤モデル)、アプリケーションランタイム用のコンテナ化されたサービス、状態と証拠のためのイベント駆動ストレージの使用が含まれます。従来の RPA(Robotic Process Automation:ロボティック・プロセス・オートメーション)ツールの事前経験は必要ありません。ここで説明される自動化は、事前に記録されたスクリプトの再生やハードコードされたフローに依存するのではなく、UI 状態に対する推論に基づいています。

AWS アカウントと権限

本ソリューションで使用されるリソースのデプロイおよび管理に必要な権限を持つ AWS アカウントへのアクセスが必要です。これには、AWS Cloud Development Kit (AWS CDK)、Amazon Elastic Container Service (Amazon ECS) on AWS Fargate、Amazon Simple Storage Service (Amazon S3)、Amazon DynamoDB、Elastic Load Balancing (Application Load Balancer)、Amazon CloudFront、および AWS Identity and Access Management (IAM) のロールとポリシーが含まれます。

デプロイでは、AWS Command Line Interface (AWS CLI) を使用した標準的な開発環境設定により、ローカルで AWS 認証情報が構成されていることを前提としています。

ランタイム環境とデプロイモデル

FNOL(First Notice of Loss:初回損失通知)のインテークユーザーインターフェースおよびバックエンドサービス、Strands Agents を用いて実装された証拠分析や請求複雑度評価機能は、Docker コンテナとしてパッケージ化され、AWS Fargate 上で動作する Amazon ECS にデプロイされています。インフラストラクチャは AWS CDK(Cloud Development Kit)によってプロビジョニングされ、単一のデプロイワークフローの一部としてコンテナイメージの構築と必要なコンピューティング、ストレージ、ネットワークリソースの作成が行われます。

画像、動画、転写文などの非構造化証拠アーティファクトは Amazon S3 に保存されます。請求メタデータ、証拠参照情報、およびエージェントが生成した分析出力は Amazon DynamoDB に永続化され、これによりインテーク全体を通じて証拠の取得、相関付け、推論をエージェントが行えるようになります。

実践におけるブラウザ自動化

エージェント駆動型のブラウザ自動化は、ワークステーションや自動化ホストなどの独立した制御環境から実行され、AgentCore Browser セッションを介してデプロイされた FNOL アプリケーションに接続します。これは、現実の環境で一般的に行われているブラウザ自動化の実施形態を反映しています。ブラウザ推論を担当するクライアント SDK である Nova Act は、WebSocket を通じて Chrome DevTools Protocol(CDP)により AgentCore Browser Tool が提供する管理された Chrome セッションに接続します。この管理されたブラウザを通じて、自動化レイヤーはライブポータルを観察・操作し、一方バックエンドサービスはホストされ隔離された状態を維持します。

ブラウザ制御をアプリケーションランタイムの外側に保つことで、システムは明確な運用境界を維持します。エージェントは、人間のレビューヤーが画面上で目にするものと同じものを正確に視認し、現在の UI 状態に基づいて意思決定を行い、ポータルの内部構造やアプリケーションコードへの直接アクセスを必要とせずに意図的に行動します。

デプロイメントワークフローとセットアップ

インフラストラクチャのプロビジョニング、コンテナのデプロイ、オプションのデータ生成、およびブラウザ自動化の設定を含む完全なデプロイメントワークフローは、付随する GitHub リポジトリ に提供されるスクリプトと設定ファイルを通じて自動化されています。

アーキテクチャの概要

高レベルでは、アーキテクチャは以下の補完的なレイヤーで構成されます:

  • ブラウザ操作。Nova Act は、WebSocket を介して Chrome DevTools Protocol (CDP) によって AgentCore Browser Tool セッションに接続し、FNOL ポータルの UI 状態を推論しながら、表示されている内容に対して意図的に行動します。
  • ドメイン推論。Strands Agents SDK を用いて 2 つのエージェントが構築されています。1 つは多様な証拠(マルチモーダル・エビデンス)を解釈してタグ付けする Evidence Analyzer エージェント、もう 1 つは請求の複雑さを評価する Claims Complexity Analyzer エージェントです。
  • 実行の可観測性。各ステップでスクリーンショット、プロンプト、推論プロセス、UI 状態の遷移が自動的に記録され、追加の計装(インストルメンテーション)なしにレビュー可能な監査証跡を生成します。
  • インフラストラクチャと永続化。アプリケーションは AWS Fargate 上の Amazon ECS で実行され、証拠アーティファクトは Amazon S3 に保存されます。請求状態と分析出力は Amazon DynamoDB が管理し、運用状況の可視性は Amazon CloudWatch が提供します。

以下の図は、異なるコンポーネントがどのように連携して FNOL 受付を自動化するかを示しています:

image
image

本アーキテクチャは、ポータルインタラクション、ドメイン推論、実行の可視性、およびインフラストラクチャの関心を分離しつつ、単一のエンドツーエンドの FNOL(First Notice of Loss:初回損失通知)受付ワークフローを維持するために意図的に階層化されています。エージェント駆動型のブラウザ自動化はスタックの最上位で動作し、人間の審査員が行うのと全く同じように FNOL ポータルと対話します。ドメイン固有の推論は Strands Agents によって独立して適用され、AWS インフラストラクチャは実行、永続化、および運用上の可視性のための管理された基盤を提供します。

Nova Act と AgentCore Browser Tool を用いたブラウザ操作

Nova Act は、ドメインロジックや意思決定を組み込むことなく、FNOL ポータルのユーザーインターフェースの観察と対役を担当します。AgentCore Browser Tool セッション内で実行され、Chrome DevTools Protocol (CDP) を通じてブラウザに接続することで、Nova Act は現在の UI 状態をリアルタイムで推論します。請求キューのナビゲーション、未処理のエビデンスセクションの特定、画像分析、動画分析、音声分析アクションの呼び出し、モーダルダイアログとの対話を行い、意図しない UI 変更を避けるために必要な場合のみスクロールを行います。このアプローチにより、自動化システムは慎重な人間の審査員のように振る舞うことが可能になります:画面に表示されているものを観察し、適切な行動を決定し、事前に定義された手順や脆いスクリプトを再生するのではなく、現在の状態に基づいて意図的に行動します。

エグゼキューションの観測可能性と監査可能性

AgentCore Browser は管理されたブラウザセッションを通じてアクションを実行するため、設計上すべてのインタラクションが観測可能で追跡可能です。自動化が実行される間、Chrome DevTools Protocol (CDP) セッションを介してアクションをリアルタイムで観測でき、エージェントが FNOL ポータルとどのように相互作用しているかについてのリアルタイムな可視性が提供されます。

各意思決定ポイントでは自動的にスクリーンショットがキャプチャされ、プロンプト、意思決定、UI 状態遷移は構造化メタデータとして記録されます。これらすべての成果物が一体となって、エージェントの行動を透明かつレビュー可能なものにする完全な実行トレイルを形成します。常に、エージェントが画面で何を見たか、特定のアクションがなぜ行われたのか、どの証拠が処理されたか、そしてその結果としてどのような結論が導き出されたかを特定することが可能です。

これにより、追加の計測やカスタムロギングを必要とせずに自然な監査証跡が生成されます。これは、自動化自体と同様に説明可能性、追跡可能性、運用上の責任所在が重要となる規制対象の保険環境において不可欠な機能です。

エージェント実行中のスクリーンショットキャプチャ

このプロトタイプでは、ブラウザ自動化はセッション固有のログディレクトリで構成されています。エージェントが各 act() ステップを実行する際、Nova Act は表示されているブラウザの状態をキャプチャし、プロンプト、タイムスタンプ、アクション識別子などのステップメタデータとともにスクリーンショットを永続化します。

これらのアーティファクトは、継続的な画面録画に依存することなく、予期しない UI 状態に遭遇した際にエージェントが実際に観測した内容を明らかにすることで、運用上のトラブルシューティング(operational troubleshooting)と監査や実行後のレビューの両方を支援します。各実行では、スクリーンショットとログを含む孤立したタイムスタンプ付きフォルダが生成されます。これにより、実行結果は再現可能で検証可能となり、特定のセッションに明確に関連付けられます。

AWS における下流処理とストレージ

証拠の分析とタグ付けが完了した後、AWS サービスは、結果を永続化し、請求書のステータスを維持し、インテークワークフロー全体を通じて運用上の可視性をサポートするために必要な堅牢な基盤を提供します。

2 つの Strands ベースのエージェントは、すべての再...

原文を表示

Turning multimodal first notice of loss (FNOL) evidence into tagged, decision-ready intake so adjusters start with context instead of raw artifacts.

Manual FNOL processing consumes significant expert time on repetitive tasks because unstructured, multimodal evidence must be interpreted through portals designed for human interaction. Photos captured in the field, walkaround videos, scanned documents, and dictated or recorded notes all enter the system at intake, where decisions directly influence claim cycle time, downstream accuracy, and customer experience.

Across insurance lines, this moment is deceptively complex. FNOL intake is often described as “just opening a claim,” but in practice, it’s where large volumes of unstructured data must be interpreted, validated, and correlated before any meaningful decisions can begin.

The challenge is significant: claims professionals spend excessive time on repetitive intake validation. Navigating portals, verifying evidence completeness, and interpreting artifacts before applying their expertise to higher-value decisions takes considerable time. Industry observations suggest that intake validation can consume a substantial share of an adjuster’s time during initial claim processing, with typical submissions requiring meaningful screen work before assessment can begin. During volume spikes from catastrophic events or seasonal surges, these delays compound, creating backlogs that slow claim resolution and impact customer experience.

In this post, we demonstrate how a hands-free FNOL intake system combines agents built with the Strands Agents SDK for domain reasoning with Amazon Bedrock AgentCore Browser Tool for live portal interaction. This approach preserves human expertise while removing repetitive screen work.

The solution combines two complementary capabilities:

Strands Agents is an open source SDK that takes a model-driven approach to building generative AI agents. In this architecture, the agents (built with Strands Agents) apply insurance-specific business rules, such as evidence interpretation, cross-modal correlation, and claim complexity assessment using foundation models (FMs) served through Amazon Bedrock.

Browser reasoning is performed by Amazon Nova Act, a client SDK that interprets natural-language instructions (for example, “open the next unprocessed claim” or “trigger image analysis”) and translates them into grounded UI actions. Amazon Bedrock AgentCore Browser tool provides the managed, isolated Chrome session that Nova Act connects to for executing those actions. AgentCore Browser Tool also provides session recording and live view capabilities for observability.

In this workflow, Nova Act drives the intake process by reasoning about what’s visible on screen through the AgentCore Browser session, while the Strands-based agents perform domain reasoning in the background. Nova Act determines when evidence must be analyzed and orchestrates portal interactions, and the domain agents determine what the evidence means by applying the same domain logic a human reviewer would use.

The result is automation of manual screen work while preserving human oversight and auditability. Claims professionals receive context-rich, pre-analyzed submissions ready for judgment rather than validation. Tagged evidence becomes a durable operational asset, supporting better routing, pattern analysis, and continuous workflow refinement across the claims lifecycle.

The workflow is illustrated using real browser automation recordings captured directly from the system in action.

The opportunity: Optimizing claims intake to amplify human expertise

Across insurance lines (auto, property and casualty, life, health, and specialty), claim intake marks the moment when unstructured information first enters the system. Photos, videos, scanned documents, and recorded notes arrive together, often incomplete, inconsistently labeled, and rarely standardized.

Claims professionals bring deep domain knowledge to this moment. They know what usable evidence looks like, what is typically missing, how artifacts relate to one another, and which signals matter for coverage, severity, and next steps. Yet today, much of that expertise is applied through slow, manual portal work clicking through screens and visually inspecting artifacts one by one. Before meaningful assessment can begin, reviewers must answer foundational questions that rely heavily on experience. These include whether required artifacts are present, whether photos and videos are usable and relevant, whether audio notes contain material observations, and whether the submission is sufficient to proceed without delay.

Answering these questions requires painstaking screen work. A typical FNOL submission can include dozens of artifacts spread across multiple views, requiring reviewers to locate evidence, open and interpret each item, correlate signals across modalities, compare findings against policy thresholds, and capture summaries for audit continuity.

These steps are essential, but they are also repetitive and mechanical. They require attention rather than judgment. As a result, skilled adjusters and examiners spend a disproportionate amount of time validating intake completeness before they can apply their expertise to higher-value decisions.

This challenge exists in everyday claims processing and becomes more pronounced during volume spikes from catastrophe events, seasonal auto claims, or surges in health and life claims activity. As workloads increase, backlogs grow, evidence review becomes rushed or inconsistent, and human judgment is applied later than it should be.

The issue isn’t a lack of expertise or technology. It’s that domain knowledge is being exercised too late in the process, after time has already been spent on repetitive intake validation.

Why encoding domain knowledge changes the landscape

Claim intake accelerates when critical decision logic is captured in structured rules and applied consistently at ingestion time, rather than relying solely on individual experience and intuition.

Experienced reviewers intuitively know which photo angles are required for different claim types, when video can substitute for missing images, which combinations of artifacts signal higher complexity, and which gaps are likely to stall downstream processing.

Agentic generative AI makes it possible to encode this working knowledge into business rules and reasoning tools that can be applied consistently as evidence enters the system.

By combining Strands Agents with Nova Act and the AgentCore Browser Tool, mechanical intake work like navigating portals, opening claims, and triggering analysis is separated from domain reasoning. Nova Act advances the workflow through the Browser Tool session, while Strands Agents apply expert logic to interpret, tag, and correlate evidence.

When evidence is tagged at ingestion, missing or insufficient artifacts are detected early, relevance becomes explicit rather than implicit, and claims can be triaged based on what is present. Human reviewers begin with context instead of starting from scratch.

Why automated evidence tagging matters – now and later

Automated tagging accelerates the current claim by ensuring intake completeness and clarity before downstream steps begin. Reviewers spend less time confirming basics and more time applying judgment where it matters.

Over time, consistently tagged evidence becomes a durable data asset. Because tags are generated by codified domain reasoning, not one time interpretation, insurers can do the following:

  • Improve routing and prioritization
  • Reduce rework caused by incomplete submissions
  • Identify patterns that lead to delays or escalations
  • Refine intake rules as new scenarios emerge, without changing compliance boundaries or decision authority

As tagged evidence accumulates, unstructured artifacts are no longer isolated files. Images, videos, and audio become searchable, analyzable signals that support new workflows, such as proactive outreach when common gaps are detected, pre-staging claims for specialized teams, and shortening cycle times for similar future claims.

Most importantly, tagging allows domain expertise to be applied once at ingestion and reused throughout the lifecycle, rather than rediscovered repeatedly at different stages.

This is the shift agentic automation enables: moving expertise upstream, enriching downstream systems with structured signals, and enabling faster, more consistent resolution, without removing humans from the loop.

To demonstrate how this shift can be implemented without modifying existing portals, the following section walks through an agentic FNOL intake architecture that combines browser-level automation with reasoning-driven agents.

Solution overview: Agentic intake without portal changes

This prototype demonstrates how FNOL intake can be automated end-to-end using agentic reasoning and browser-level interaction. In production, the same browser automation approach would work against existing portals without modification, because the Nova Act client SDK interacts with the UI as a human would.

The prototype is built to mirror a realistic production environment. The FNOL portal and backend services run as a containerized application on AWS, while agent-driven browser automation interacts with the live portal exactly as a human reviewer would. This separation allows domain reasoning and UI control to evolve independently, while preserving auditability and operational safety.

At a high level, the solution assumes a working familiarity with how modern, agentic systems are deployed on AWS. This includes the use of FMs for reasoning, containerized services for application runtime, and event-driven storage for state and evidence. No prior experience with traditional robotic process automation (RPA) tools is required. The automation described here relies on reasoning over UI state rather than replaying pre-recorded scripts or hard-coded flows.

AWS account and permissions

You need access to an AWS account with permissions to deploy and manage the resources used by the solution, including AWS Cloud Development Kit (AWS CDK), Amazon Elastic Container Service (Amazon ECS) on AWS Fargate, Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB, Elastic Load Balancing (Application Load Balancer), Amazon CloudFront, and AWS Identity and Access Management (IAM) roles and policies.

The deployment assumes that AWS credentials are configured locally using a standard development setup with the AWS Command Line Interface (AWS CLI).

Runtime environment and deployment model

The FNOL intake user interface and backend services, including evidence analysis and claim complexity evaluation implemented using Strands Agents, are packaged as Docker containers and deployed on Amazon ECS with AWS Fargate. Infrastructure is provisioned using AWS CDK, which builds container images and creates the required compute, storage, and networking resources as part of a single deployment workflow.

Unstructured evidence artifacts such as images, videos, and transcripts are stored in Amazon S3. Claim metadata, evidence references, and agent-generated analysis outputs are persisted in Amazon DynamoDB. This allows agents to retrieve, correlate, and reason over evidence throughout intake.

Browser automation in practice

Agent-driven browser automation is executed from a separate control environment, such as a workstation or automation host, and connects to the deployed FNOL application through an AgentCore Browser session. This reflects how browser automation is commonly operated in real-world environments. Nova Act, the client SDK responsible for browser reasoning, connects to the managed Chrome session provided by AgentCore Browser Tool through Chrome DevTools Protocol (CDP) over WebSocket. The automation layer observes and interacts with the live portal through this managed browser, while backend services remain hosted and isolated.

By keeping browser control external to the application runtime, the system maintains clear operational boundaries. Agents see exactly what a human reviewer would see on screen, make decisions based on current UI state, and act deliberately without requiring direct access to portal internals or application code.

Deployment workflow and setup

The full deployment workflow, including infrastructure provisioning, container deployment, optional data generation, and browser automation setup is automated through scripts and configuration files provided in the accompanying GitHub repository.

Architecture overview

At a high level, the architecture consists of the following complementary layers:

  • Browser interaction. Nova Act connects to an AgentCore Browser Tool session through Chrome DevTools Protocol (CDP) over WebSocket, reasoning about the FNOL portal’s UI state and acting deliberately on what is visible.
  • Domain reasoning. Two agents are built with the Strands Agents SDK: an Evidence Analyzer agent that interprets and tags multimodal evidence, and a Claims Complexity Analyzer agent that assesses claim complexity.
  • Execution observability. Screenshots, prompts, reasoning, and UI state transitions are captured automatically at each step, producing a reviewable audit trail without additional instrumentation.
  • Infrastructure and persistence. Amazon ECS on AWS Fargate runs the application, Amazon S3 stores evidence artifacts, Amazon DynamoDB maintains claim state and analysis outputs, and Amazon CloudWatch provides operational visibility.

The following diagram shows how the different components fit together to automate FNOL intake:

Hands-free FNOL architecture
Hands-free FNOL architecture

The architecture is intentionally layered to separate portal interaction, domain reasoning, execution observability, and infrastructure concerns, while preserving a single, end-to-end FNOL intake workflow. Agent-driven browser automation operates at the top of the stack, interacting with the FNOL portal exactly as a human reviewer would. Domain-specific reasoning is applied independently by Strands Agents, while AWS infrastructure provides the managed foundation for execution, persistence, and operational visibility.

Browser interaction with Nova Act and AgentCore Browser Tool

Nova Act is responsible for observing and interacting with the FNOL portal’s user interface, without embedding any domain logic or decision-making. Running inside an AgentCore Browser Tool session and connecting to the browser using Chrome DevTools Protocol (CDP), Nova Act reasons about the current UI state in real time. It navigates claim queues, identifies unprocessed evidence sections, invokes Analyze Images, Analyze Videos, and Analyze Audio actions, interacts with modal dialogs, and scrolls only when necessary to avoid unintended UI changes. This approach allows automation to behave like a careful human reviewer: observing what’s visible on screen, deciding which action is appropriate, and acting deliberately based on current state rather than replaying predefined steps or brittle scripts.

Execution observability and auditability

Because AgentCore Browser executes actions through a managed browser session, every interaction is observable and traceable by design. As the automation runs, actions can be observed live through the Chrome DevTools Protocol (CDP) session, providing real-time visibility into how the agent interacts with the FNOL portal.

At each decision point, screenshots are captured automatically, while prompts, decisions, and UI state transitions are recorded as structured metadata. Together, these artifacts form a complete execution trail that makes the agent’s behavior transparent and reviewable. It’s always possible to determine what the agent saw on screen, why a specific action was taken, which evidence was processed, and what conclusions were derived as a result.

This produces a natural audit trail without requiring additional instrumentation or custom logging. This is an essential capability in regulated insurance environments where explainability, traceability, and operational accountability are as important as automation itself.

Capturing screenshots during agent execution

In this prototype, browser automation is configured with a session-specific logging directory. As the agent executes each act() step, Nova Act captures the visible browser state and persists screenshots alongside step metadata such as prompts, timestamps, and action identifiers.

These artifacts support both operational troubleshooting (by revealing exactly what the agent observed when encountering unexpected UI states) and audit or post-run review, without relying on continuous screen recordings. Each execution produces an isolated, timestamped folder containing screenshots and logs. This makes runs reproducible, inspectable, and clearly attributable to a specific session.

Downstream processing and storage on AWS

After evidence has been analyzed and tagged, AWS services provide the durable foundation required to persist results, maintain claim state, and support operational visibility throughout the intake workflow.

The two Strands-based agents handle all re

この記事をシェア

関連記事

AWS Machine Learning Blog★32026年6月3日 02:31

Amazon Nova 2 Lite を用いた物体検出

AWS は、小規模チームでも高コストなインフラ構築を回避できるよう、Amazon Bedrock で利用可能な多モーダル基盤モデル「Amazon Nova 2 Lite」を発表し、自然言語による物体検出機能を強化した。

TLDR AI★42026年5月8日 09:00

OpenAI Codex が macOS および Windows の Chrome で直接動作可能に

OpenAI は、Codex を macOS と Windows の Chrome ブラウザで直接利用可能にする機能を公開した。この機能は背景で並列処理を行い、ブラウザを乗っ取らずに構造化ページや複雑なデータフローの反復作業をコード生成によって自動化する。

Apple Machine Learning★42026年5月6日 09:00

多モーダル LLM の空間・機能知能を評価するベンチマーク「SFI-Bench」の提案

研究者らは、既存のベンチマークが幾何学的知覚に留まる課題を指摘し、物的存在の場所だけでなく目的を理解する高次認知能力を評価する動画ベースのベンチマーク「SFI-Bench」を発表した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む