Amazon Bedrock AgentCore の新機能:広範な知識と継続的学習を備えたエージェント構築が可能に
Amazon は Bedrock AgentCore に新機能を追加し、組織内データや外部情報の統合を容易にし、継続的な学習とガバナンスを通じてエージェントの実用性を飛躍的に向上させた。
キーポイント
多層化された知識アクセスの強化
AgentCore が SharePoint や Google Drive などの組織内データ、ウェブ情報、有料データベースへのネイティブ接続を可能にし、エージェントがより広範なコンテキストにアクセスできるようになった。
運用管理と改善ループの自動化
カスタムパイプライン構築の手間を省き、ベクトルストアや埋め込みモデルの管理を AWS が代行することで、データ鮮度の維持や検索精度の向上を自動化する。
継続的な学習とガバナンス
デプロイ後のエージェントのパフォーマンスを体系的に監視し、フィードバックループを通じて継続的に改善・強化できる仕組みを提供し、スケーラブルな制御を可能にする。
影響分析・編集コメントを表示
影響分析
この発表は、LLM エージェントが単なる実験段階から本格的な業務実装へ移行する上で最大のボトルネックであった「データアクセスの断絶」と「運用管理の難しさ」を解消する重要な一歩です。特に、企業内の散在する非構造化データを即座に活用可能にする機能は、AI 導入のスピードと成功率を劇的に高める可能性があります。
編集コメント
エージェント技術が「モデルの性能」から「エコシステムの接続性」へ焦点を移す転換点を示しており、実務レベルでの AI 活用加速に直結する発表です。
今日のエージェントを動かすモデルは驚くほど能力が高いです。複雑な問題に対する推論、多段階のワークフローの計画、微妙なニュアンスを持つ回答の生成が可能です。しかし、ほとんどのエージェントはその潜在能力を十分に発揮できていません。そのギャップの原因は知能にあるのではなく、適切な文脈とフィードバックへのアクセス不足にあります。
自社の返金ポリシーに関する質問に答えるよう命じられたカスタマーサービスエージェントは、そのポリシーが保存されている SharePoint のドキュメントに到達できない場合、手を打つことができません。市場概要を作成する研究エージェントは、トレーニングデータを超えた最新情報にアクセスできない場合、不十分な画像しか提供できません。必要なリアルタイム市場データがアクセスできない有料壁の向こう側に置かれている場合、金融アドバイザーのエージェントは二番手な推奨しか返しません。そしてこれらすべてのケースにおいて、ほとんどのチームには、デプロイ後にエージェントが改善されているのか悪化しているのかを体系的に把握する方法がありません。
能力のあるモデルは出発点に過ぎません。生産環境でエージェントのパフォーマンスを決めるのは、完全な業務遂行に必要なすべてへのアクセスです:適切な知識、行動するためのリソース、そして継続的な改善のためのフィードバックループです。
本日、エージェントの構築・接続・最適化を可能にするプラットフォームである Amazon Bedrock AgentCore に新機能を導入しました。本記事では、これらの機能がどのように各課題を解決するかを解説します。すなわち、組織内知識、ウェブ上の情報、有料データへのエージェントの接続支援、プロダクション環境での問題発見と修正のサポート、そしてエージェントが高度化するにつれてスケーラブルに対応する制御機能の実装です。これらを組み合わせることで、より高性能なエージェントを迅速に構築し、スケーラブルな制御でガバナンスを行い、継続的に改善することが可能になります。
より多くの知識を持ち、より広くアクセスできるエージェント
AgentCore 上のエージェントに対し、3 つのレイヤーからなるナレッジ(知識)へのネイティブアクセスを提供します。これにより、エージェントが到達・達成可能な範囲が拡大します。

組織内知識レイヤー: Amazon Bedrock Managed Knowledge Base(Amazon Bedrock 管理型ナレッジベース)
最も価値のある情報は、SharePoint、Google Drive、Confluence、S3、社内ウィキなど、さまざまな場所に散在しています。これらをエージェントが利用可能にするには、従来、カスタムの取り込みパイプラインの構築、検索のチューニング、そして時間経過に伴うデータの鮮度維持が必要でした。つまり、エージェントが自社の基本的な質問に回答できるようになるまでに、数ヶ月ものエンジニアリング期間を要していたのです。
Bedrock Managed Knowledge Base は、AgentCore で利用可能となり、従来の作業を置き換えます。構造化されていないデータソースに接続するだけで、残りの処理は AgentCore が担当します。ベクトルストアや検索時に使用される埋め込みモデル・再ランク付けモデルの管理、レート制限などのスケーラビリティに関する課題もすべて管理するため、チームはパイプラインの運用ではなくエージェントの構築に集中できます。その中核には、従来の RAG(Retrieval-Augmented Generation)を遥かに超える「アジェンティック・リトリーバー」が備わっています。単にクエリと最も近いチャンクをマッチングさせるのではなく、知識ベース全体でクエリを計画し、文書間に関連する概念をつなぎ合わせ、中間結果を評価した上で回答前に再ランク付けを行います。複数のトピックにまたがる複雑な多段クエリにおいては、基本的な検索よりもはるかに広範かつ完全なカバレッジが得られることが確認されています。エージェントは「その情報にはアクセスできません」という応答から、実際のビジネス知識に基づいて合成された回答へと進化し、パイプラインの構築や検索チューニングの手間も不要となります。
世界知識層:AgentCore 上の Web Search
内部知識には限界があります。規制は変化し、市場は変動し、競合他社は絶えず新製品を発売します。最高の成果を出すためには、エージェントが組織外の世界的な動向を理解している必要があります。これは調査、事実確認、カスタマーサービス、市場インテリジェンスの各分野において不可欠です。
本日、AI エージェントを構築する開発者向けの新しいツール「Web Search」Web Search を発表いたします。これは、顧客の安全な AWS 環境内のデータを保持したまま、ウェブから情報を提供します。Alexa+、Amazon Quick Suite、Kiro の基盤となっている Amazon の検索インフラストラクチャをベースに構築されており、エージェントによる検索に適応しています。トークンあたりの知能値が高くなるよう最適化され、高価値な抜粋を返すことができます。また、マルチソース・グラウンディング(grounding:文脈の根拠付け)アプローチを採用し、公開ウェブの情報と Amazon の独自知識グラフを組み合わせています。このグラフには、構造化されたエンティティデータ、検証済みの事実、株価やスポーツスコアなどのリアルタイム情報が追加されています。AgentCore 上の Web Search は、クエリを AWS のセキュリティおよびコンプライアンス境界内に保持します。追加のベンダーを導入する必要はなく、それに伴うオーケストレーション(orchestration:調整・制御)、認証、請求ワークフローも不要です。公開ソースを相互参照する研究用エージェントや、規制やポリシーの更新を監視するコンプライアンス用エージェント、あるいは現在の情報に基づいてモデルの応答を根拠付ける用途など、どのようなケースでも、エージェントは内部知識を照会するのと同じように、ライブウェブ上で推論を行うことができます。
**
「ソニーでは、AgentCore を基盤としたエンタープライズ AI エージェントプラットフォームを構築しています。このプラットフォーム上では、各事業部のチームが知識アシスタントからワークフロー自動化エージェントまで、それぞれのニーズに合わせてカスタマイズされた AI エージェントを開発・共有・再利用できます。当社の企業知識は SharePoint、Confluence、Amazon S3 などのリポジトリに分散しており、チャートや表を含む複雑な PDF ドキュメント、プレゼンテーション資料、スプレッドシートなどを含んでいます。現在、Bedrock Managed Knowledge Base(マネージドナレッジベース)と Web Search(ウェブ検索)が AgentCore で利用可能になったことで、これらの機能をゼロから構築することなく、一貫したガバナンスモデルのもとで、高度な情報取得機能とライブウェブグラウンディングをエージェントに付与できるようになりました。これにより、AI を触媒として、人々の働き方を変革するというビジョンをスケールして加速させることができます。」**
*Masahiro Oba, ソニーグループ株式会社 常務執行役員*
有料知識レイヤー:AgentCore の決済機能と AWS WAF AI トラフィックの収益化
最良の情報とは、必ずしも無料ではありません。金融市場フィード、ライセンス付きリサーチ、独自データセット、プレミアム API などです。もしエージェントが有料リソースにアクセスできない場合、最適ではない回答を返すことになり、ユーザーは何が欠落しているのかを知る術もありません。
有料コンテンツへのアクセスには2つの要素が必要です。エージェントには支払い手段が必要であり、プロバイダーには収益化の仕組みが必要です。先月プレビューとして発表された AgentCore の決済機能はエージェント側の処理を担い、エージェントが有料サービスやコンテンツを発見し、実行ループ内でそれらにアクセスして支払うことを可能にします。現在一般利用可能な WAF AI トラフィックのマネタイズ はプロバイダー側の処理を担い、コンテンツ所有者がエージェントのアクセスを制御する能力を提供します。具体的には、アクセスをブロックするか、許可するか、あるいは収益を得るかの選択が可能です。両方の機能が同じプラットフォーム上で動作するため、WAF を利用しているプロバイダーは自動的に AgentCore で検証されたエージェントを認識します。その結果、信頼できるチャネルが構築されます。検証済みエージェントにとっては摩擦が低減し、プロバイダーには対価が支払われます。これら2 つの機能を組み合わせることで、エージェント経済の両側を支えるインフラストラクチャが完成し、エージェントは無料のものだけでなく、あらゆるリソースにアクセスできるようになります。
すべてのインタラクションから学習するエージェント
エージェントにより良い知識へのアクセスを与えることは課題の一部に過ぎません。重要なのは、そのエージェントが実際に目標を達成しているかどうかを確認し、達成できていない場合にそれを検知することです。
これは言葉ほど簡単ではありません。最も危険なエージェントの失敗は、エラーを吐くものではありません。ダッシュボード上では正常に見えるものです:実行していない注文変更を確認したエージェント、API タイムアウト時に製品在庫を捏造するエージェント、承認ステップをスキップしながらもダッシュボードには 99% の成功率が表示されるようなエージェントです。これらの失敗はエラー信号を生み出しません。数週間後に顧客からの苦情として表面化し、数千セッションが影響を受けた後であることも珍しくありません。チームが何かがおかしいと知っていても、修正はほとんど推測の域を出ません。プロンプトを微調整したり、ツールの説明を変更したり、オーケストレーションロジックを調整したりして、それが役立つことを願うのみで、変更が実際に改善をもたらしたのか、あるいは別のものを静かに壊してしまったのかを知る構造的な方法はありません。
本日、AgentCore において、生産環境のトレースを継続的な改善へと転換する新しい最適化機能を発表します。これらは一体となってループを形成します:エージェントが実際に行っていることを理解し、データに基づいた修正を生成し、リリース前に検証し、その有効性を証明することです。
エージェントの動作を理解する: 今日からプレビュー版として利用可能になった AgentCore は、数百セッションにわたる豊富な失敗、意図、および軌跡のインサイトを提供し、ダッシュボードや一度に一つずつトレースをレビューするだけでは発見できないパターンを浮き彫りにします。失敗インサイトは、エラー信号を発生させない沈黙した行動上の失敗を含む、 recurring な失敗パターンを発見し、それぞれの根本原因を詳細に説明し、影響の広さでランク付けすることで、一目でどの問題が最も多くのユーザーに影響を与えているかを把握し、優先的に修正できます。意図インサイトは、ユーザーが実際に何を行おうとしていたかによってリクエストをクラスタリングするため、エージェントの使用実態をリアルな形で把握できます。軌跡インサイトは、タスクを通じてエージェントがたどるパスをグループ化するため、一般的なパターンや外れ値を特定できます。毎日または毎週のレポートで継続的なモニタリングを有効にしたり、デプロイ後や苦情の急増後にターゲット調査を実行したりでき、結果は数分で得られます。
自信を持って修正: 何を修正すべきか分かれば、本日一般利用可能となった推奨事項と A/B テストにより、行動を起こすことができます。推奨事項は、トレーシングデータと評価出力を分析し、エージェントが実際にどのように動作しているかに基づいて、システムプロンプトやツール記述に対する具体的な改善点を提案します。バッチ評価では、これらの推奨事項を定義されたテストデータセットに対して検証し、集計スコアを報告するため、変更が生産環境に展開される前に回帰を検出できます。A/B テストは、ライブ生産トラフィックを分割してエージェントバージョン間で制御比較を実行し、変更を確定する前に、本番環境条件下でその変更が有効であることを実証します。これらすべての機能は、エージェントがどこで実行されているかに関係なく動作します:AgentCore のランタイム上、AWS Lambda、Amazon EKS、または非 AWS 環境のいずれでも。
これは、プラットフォームに組み込まれており、事後に無理やりつなぎ合わせたものではない場合の、継続的改善の姿です。

**
「FUJISOFT では、ソフトウェア開発と運用を加速させるための AI エージェントを構築しています。私たちのフレームワークである Character Capsule は、エージェントの役割、スキル、手順を再利用可能なカプセルとしてパッケージ化し、Copilot や Kiro などのローカルコーディングツール上で実行したり、AgentCore 上でマルチエージェントオーケストレーションにスケールさせたりします。より多くのエージェントを展開するにつれ、最大の課題は『一見正常に見えるが後に表面化するサイレントフェイル』であり、その修正も推測の域を出ませんでした。しかし、AgentCore の最適化機能がこれを変えました。この機能は本番環境のトレースを分析して失敗パターンを浮き彫りにし、なぜ発生するのかを説明し、影響度順にランク付けします。その後、プロンプトやツール記述の改善に関する推奨事項が得られ、コミットする前に生トラフィック上で A/B テストを実行できます。エージェントの改善はもはや試行錯誤ではなく、データに基づいた継続的なループとなっています。」
*FUJISOFT AI プロモーション部門 上級マネージャー Kazumi Matsuda*
エージェントがより高度化するにつれて強化される制御:新しいポリシー機能強化
より能力の高いエージェントは、より広範な攻撃対象領域を意味します。また、エージェントは従来のソフトウェアには存在しなかったセキュリティ課題をもたらします。それは確率的であるという点です。エージェントは判断を下しますが、その判断は文脈の影響を受けます。新たな暴露点はネットワークではなく、エージェントのコンテキストにあります。ここでは、プロンプトインジェクションやメモリポイズニングが侵入を必要とせず、単にエージェントを説得して誤った判断をさせるだけで発生します。
確率的なものを保護する方法は、確定的なものを用いることです。脳そのものではなく、それを囲むガードレールとして機能します。AgentCore のポリシー機能はすでに、ゲートウェイにおいてエージェントがツールやデータに対して何を行え、何を行えないかを定義するリアルタイムかつ確定的な制御を提供しています。本日、私たちは Bedrock Guardrails 統合を一般提供開始し、これによりすべてのエージェントアクションがプロンプトインジェクションの試行、有害コンテンツ、機密データの露出について評価されるようになりました。これらのチェックはゲートウェイ層で実行され、エージェントのコードの外側で行われます。そのため、エージェントは文脈内でそれらを目にできず、それらを回避して推論することもでき、また適用されないと思い込むこともできません。
Guardrails は、ポリシーエンジンが対応する検知シグナルの最初の例であり、将来的には当社製品のみならず他社製も含まれます。まもなく AgentCore では、Check Point、Zscaler、Rubrik、Netskope、SentinelOne といった主要なセキュリティプロバイダーからの検知シグナルを同じポリシーに供給できるようになります。信号がどこから来ようとも原則は変わりません。検知自体は確率的であっても、ポリシーの適用は常に確定的であり、確立された閾値に基づいて最終的な許可または拒否の決定が行われます。
AgentCore 上のすべてのツールとコンテキストソースがゲートウェイを通過するため、エージェントに付与される新機能も自動的に同じセキュリティレイヤーによって管理されます。より高度なエージェント、より強力な制御、そしてこれらが同時にスケールします。
アイデアから数分で動作するエージェントへ:AgentCore ハーネスの一般提供
エージェントは単なるモデルではありません。モデルが脳だとすれば、ハーネスはその体です。脳が作業を完了するために必要なすべての要素が含まれています。オーケストレーションループの実行、ツールの実行、コンテキストウィンドウの管理、ターン間の状態の永続化、障害からの回復、各セッションの分離を行います。エージェントのパフォーマンスはモデルだけでなく、このハーネスによっても大きく左右されます。耐久性のあるものを作ることに、現在の多くのチームが時間を費やしています。

本日一般提供を開始した AgentCore ハーネスは、管理された機能としてこのレイヤーを提供します。ループをコーディングする代わりに、設定ファイルでエージェントを定義します。使用するモデル、呼び出すツール、アクセス可能なスキル、従う指示などです。AgentCore がそのループを組み立てて実行してくれます。単一の定義から数分で動作するエージェントが得られ、独自の分離環境で稼働します。ファイルシステムとシェル、セッション間のメモリ、スキル(AWS 厳選カタログを含む)、Web ブラウジング機能が標準搭載されています。これは使い古されるためのスタートツールではありません。開始時の設定こそが、スケール運用時の基盤となります。また、カスタムオーケストレーションが必要な場合は、ハーネスをコードとしてエクスポートでき、再構築することなく同じプラットフォーム上で継続できます。
速度だけでなく、これが可能にするのは市場がまだ提供していない本当の選択肢です。現在利用可能なハーンチス(harness)のオプションはそれぞれ、何らかのものに縛り付けてしまいます。オープンソースのオプションでは自分でハーンチスをホストして運用する必要があり、マネージドサービスではその環境にロックされます。モデル研究所からのハーンチスは自社のモデルのみを最適化しています。私たちはハーンチスとモデルを分離したため、任意のモデルを選択し、セッション中にエージェントロジックを変更せずにモデル間で切り替えることができます。最前線が移動し、タスクに適したベストなモデルが変化したとしても、エージェントの基盤はそのまま維持されます。
選択肢があることは一部に過ぎません。ハーンチスはフレームワークを囲むホスティング層ではなく単一プラットフォームの一部であるため、セキュリティポリシーを適用するゲートウェイを通じてツールにアクセスし、組織内のナレッジやウェブ検索、有料サービスへとエージェントを接続します。アイデンティティ(ID)、メモリ、観測性(observability)は同じプラットフォームから提供されるため、エージェントが実行するすべてのアクションは追加の配線なしで最初の呼び出しから管理・追跡されます。1 日目に宣言したエージェントが、1000 番目の実行でも同じ基盤の上で稼働します。
「Twilio の顧客は、音声、メッセージング、デジタルチャネル全体で動作し、リアルタイムのインテリジェンスと永続的なメモリを備えた AI エージェントを構築しています。これにより、すべての対話が会話のように感じられます。AgentCore ハネスと Twilio Conversations を組み合わせることで、開発者はインフラストラクチャの再配線を行うことなく、アイデアからライブエージェントまで迅速に進めることができます。優れた AI と優れた通信インフラストラクチャが一体となって構築されたときに、最高の顧客体験が実現されます。」
Omar Paul, Twillo 製品担当バイスプレジデント
利用開始
これらの機能は本日、AgentCore で一般提供されています:管理型ハネス、Bedrock Managed Knowledge Base(マネージドナレッジベース)、Web Search(ウェブ検索)、Guardrail Integration(ガードレール統合)、推奨事項および A/B テストです。Insights(インサイト)と支払い機能はプレビュー版として利用可能です。
コンソール または AgentCore CLI をご利用ください。詳しくは ドキュメント をご覧ください。
著者について
imageMadhu Parthasarathy
Madhu Parthasarathy は Amazon Bedrock AgentCore のゼネラルマネージャーであり、企業が生産用 AI エージェントを構築・接続・最適化するためのプラットフォームを開発するチームを率いています。彼は大規模分散インフラの構築において 20 年以上の経験を持ち、そのうち 16 年以上はアマゾンで過ごしました。アマゾンでは、Amazon Retail、Elastic Block Store (EBS)、そして現在は AgentCore において主要なイニシアチブを主導してきました。アマゾンへの復帰以前には、LinkedIn でシニアリーダーシップ職を務め、同社の全事業部門を支えるエンタープライズプラットフォームの責任者を務めました。また、ネオクラウドスタートアップでは AI インフラストラクチャを率い、セキュリティと開発者体験に関するビジョンを策定しました。現在はカリフォルニア州サンタクララに在住しています。
原文を表示
The models powering today’s agents are remarkably capable. They can reason across complex problems, plan multi-step workflows, and generate nuanced responses. But most agents are operating well below that potential. The gap isn’t intelligence. It’s access to the right context and feedback.
A customer service agent tasked with answering a question about your company’s refund policy can’t help if it can’t reach the document in SharePoint where that policy lives. A research agent building a market brief delivers an incomplete picture if it can’t access current information beyond its training data. A financial advisor agent returns a second-best recommendation if the real-time market data it needs sits behind a paywall it can’t get through. And across all of these, most teams have no systematic way to know whether their agents are getting better or worse once deployed.
A capable model is only the starting point. What makes an agent perform in production is access to everything it needs to do the full job: the right knowledge, the resources to act, and the feedback loops to keep improving.
Today we’re introducing new capabilities on Amazon Bedrock AgentCore, the platform to build, connect, and optimize agents. In this post, we cover how these capabilities close each gap: connecting agents to organizational, web, and paid knowledge; helping teams find and fix what’s going wrong in production; and enforcing controls that scale as agents grow more capable. Together, they help you build more capable agents faster, govern them with controls that scale, and improve them continuously.
Agents that know more and reach more
We’re giving agents on AgentCore native access to three layers of knowledge, each broadening what your agents can reach and accomplish.

Organizational knowledge layer: Amazon Bedrock Managed Knowledge Base
Your most valuable information is scattered across SharePoint, Google Drive, Confluence, S3, and internal wikis. Making it available to agents has traditionally required building custom ingestion pipelines, tuning retrieval, and maintaining data freshness over time. That’s months of engineering before your agent can answer a basic question about your own business.
Bedrock Managed Knowledge Base, now available on AgentCore, replaces that work. You connect your unstructured data sources, and AgentCore handles the rest. We manage the vector store, the embeddings and re-ranking models used during retrieval, and the scalability concerns like rate limits, so your team can focus on building agents rather than operating pipelines. At its core is an agentic retriever that goes well beyond traditional RAG. Instead of matching a query to the closest chunks, it plans queries across your knowledge bases, connects related concepts across documents, evaluates intermediate results, and re-ranks before answering. For complex, multi-part queries that span several topics at once, agentic retrieval surfaced noticeably broader and more complete coverage than basic retrieval. Your agent goes from “I don’t have access to that” to a synthesized answer drawn from your actual business knowledge, with no pipeline to build and no retrieval to tune.
World knowledge layer: Web Search on AgentCore
Internal knowledge has gaps. Regulations change, markets shift, competitors launch new products constantly. To do their best work, your agents need to understand what’s happening in the world outside your organization, for research, fact-checking, customer service, and market intelligence.
Today we are introducing Web Search, a new tool for developers building AI agents. It provides information from the web while keeping data within the customer’s secured AWS environment. Built on the same search infrastructure from Amazon that powers Alexa+, Amazon Quick Suite, and Kiro, Web Search is optimized for agentic retrieval, returning high-value excerpts that deliver high intelligence per token. It also takes a multi-source grounding approach, combining public web information with Amazon’s proprietary knowledge graph. That graph adds structured entity data, verified facts, and real-time information like stock prices and sports scores. Web Search on AgentCore keeps your queries within your AWS security and compliance boundary, with no extra vendor to onboard and none of the orchestration, authentication, and billing workflows that come with one. Whether you’re building research agents that cross-reference public sources, compliance agents that monitor regulatory and policy updates, or grounding model responses in current information, your agent can now reason over the live web the same way it queries your internal knowledge.
“At Sony, we’re building an enterprise AI agent platform on AgentCore where teams across business units can develop, share, and reuse AI agents – from knowledge assistants to workflow automation agents – each tailored to their needs. Our enterprise knowledge is distributed across repositories such as SharePoint, Confluence, and Amazon S3, and includes complex documents such as PDFs, presentations, and spreadsheets with charts and tables. Now that Bedrock Managed Knowledge Base and Web Search are available in AgentCore, we can equip agents with advanced retrieval and live web grounding with a consistent governance model, without building these capabilities from scratch. This accelerates our vision of transforming how people work, with AI as a catalyst, at scale.”
Masahiro Oba, Senior General Manager, Sony Group Corporation
Paid knowledge layer: AgentCore payments and AWS WAF AI traffic monetization
The best information isn’t always free. Financial market feeds, licensed research, proprietary datasets, premium APIs. If your agent can’t access paid resources, it returns a suboptimal answer and the user never knows what was missed.
Accessing paid content takes two parts: agents need a way to pay, and providers need a way to get paid. AgentCore payments, announced in preview last month, handles the agent side, letting agents discover paid services and content, access them, and pay within their execution loop. WAF AI traffic monetization, now generally available, handles the provider side, giving content owners the ability to control agent access: block it, allow it, or get paid. Because both capabilities run on the same platform, providers using WAF automatically recognize agents verified on AgentCore. The result is a trusted channel: lower friction for verified agents, and compensation for providers. Together, these capabilities build the infrastructure for both sides of the agent economy, so agents can reach everything, not just what happens to be free.
Agents that learn from every interaction
Giving agents better access to knowledge is only part of the equation. You also need to know whether your agent is actually meeting its goal, and catch it when it isn’t.
This is harder than it sounds. The most dangerous agent failures aren’t the ones that throw errors. They’re the ones that look fine on dashboards: an agent that confirms an order modification it never executed, one that fabricates product availability when an API times out, another that skips an approval step while dashboards show a 99% success rate. These failures produce no error signals. They surface through customer complaints weeks later, often after thousands of sessions have been affected. And even when teams know something is off, fixing it is mostly guesswork. You tweak a prompt, change a tool description, adjust orchestration logic, and hope it helps, with no structured way to know whether the change actually improved things or quietly broke something else.
Today we’re announcing new optimization capabilities in AgentCore that turn production traces into continuous improvement. Together, they form a loop: understand what your agents are actually doing, generate fixes grounded in data, validate them before they ship, and prove they work.
Understand what your agents are doing: Available in preview today, AgentCore provides rich failure, intent, and trajectory insights across hundreds of sessions, surfacing patterns no dashboard or one-at-a-time trace review would reveal. Failure insights discover recurring failure patterns, including the silent behavioral failures that produce no error signal, explain the root cause of each in detail, and rank them by how widespread they are, so you can tell at a glance which problems are hurting the most users and fix those first. Intent insights cluster requests by what users were actually trying to do, so you can see the real shape of how your agent is used. Trajectory insights group the paths your agents take through a task, so you can spot common patterns and outliers. You can enable continuous monitoring with daily or weekly reports, or run a targeted investigation after a deployment or a spike in complaints, with results in minutes.
Fix it with confidence: Once you know what to change, recommendations and A/B testing, generally available today, help you act. Recommendations analyze your traces and evaluation outputs to suggest specific improvements to your system prompts and tool descriptions, grounded in how your agent actually behaves. Batch evaluation tests those recommendations against your defined test dataset and reports aggregate scores, so you catch regressions before changes reach production. A/B testing runs a controlled comparison between agent versions by splitting live production traffic, giving you real evidence that a change works under production conditions before you commit to it. All of this works regardless of where your agents run: on AgentCore’s runtime, AWS Lambda, Amazon EKS, or non-AWS environments.
This is what continuous improvement looks like when it’s built into the platform rather than stitched together after the fact.

“At FUJISOFT, we’re building AI agents to accelerate software development and operations. Our framework, Character Capsule, packages agent roles, skills, and procedures as reusable capsules that run on local coding tools like Copilot and Kiro, or scale to multi-agent orchestration on AgentCore. As we deployed more agents, our biggest challenge was the silent failures that looked fine but surfaced later, and fixing them was guesswork. The optimization capabilities in AgentCore changed this. They analyze our production traces to surface failure patterns, explain why they happen, and rank them by impact. We then get recommendations to improve our prompts and tool descriptions, and A/B test them on live traffic before committing. Agent improvement is now a continuous loop grounded in data, not trial and error.”
Kazumi Matsuda, Senior Manager, AI Promotion Department, FUJISOFT
Stronger control as agents grow more capable: New policy enhancements
More capable agents mean more surface area. And agents introduce a security challenge that traditional software never had: they’re probabilistic. Agents make judgements, and judgements can be influenced by context. The new point of exposure isn’t your network; it’s the agent’s context, where prompt injection and memory poisoning don’t require breaking in but simply convincing the agent to make a bad judgment.
The way you secure something probabilistic is with something deterministic: not as the brain, but as guardrails around it. The policy capabilities in AgentCore already provide real-time, deterministic controls that define what an agent can and cannot do with your tools and data at the gateway. Today we’re extending them with Bedrock Guardrails integration, generally available, which evaluates every agent action for prompt injection attempts, harmful content, and sensitive data exposure. These checks run at the gateway layer, outside the agent’s code, where the agent can’t see them in its context, can’t reason around them, and can’t convince itself they don’t apply.
Guardrails is the first of many detection signals the policy engine can act on, and it won’t only be our own. Coming soon, AgentCore will let you feed detection signals from leading security providers, including Check Point, Zscaler, Rubrik, Netskope, and SentinelOne, into the same policies. The principle stays the same no matter where a signal comes from: detection can be probabilistic, but the policy enforcement is always deterministic, making the final allow-or-deny decision based on established thresholds.
Because every tool and context source on AgentCore routes through the gateway, the new capabilities your agent gains are automatically governed by the same security layer. More capable agents, stronger controls, scaling together.
From idea to working agents in minutes: AgentCore harness is generally available
An agent is more than a model. If the model is the brain, the harness is the body: everything the brain needs to get work done. It runs the orchestration loop, executes tools, manages the context window, persists state across turns, recovers from failures, and isolates each session. The harness shapes how well an agent performs as much as the model does. Building a durable one is where most teams spend their time today.

AgentCore harness, generally available today, gives you that layer as a managed capability. Instead of coding the loop, you define your agent in configuration: the model it uses, the tools it calls, the skills it has access to, the instructions it follows. AgentCore assembles and runs that loop for you. From that single definition, you get a working agent in minutes, running in its own isolated environment. It comes with a filesystem and shell, memory across sessions, skills (including the AWS-curated catalog), and web browsing. This isn’t a starter tool you outgrow: the configuration you start with is what you operate at scale, and when you need custom orchestration, you can export your harness to code, and stay on the same platform without rebuilding anything.
Besides speed, what this unlocks is a real choice the market doesn’t offer yet. The harness options available today each leave you tied to something. Open-source options make you host and operate the harness yourself; managed services lock you to their environment; harnesses from model labs are optimized for their models only. We decoupled the harness from the model, so you can choose any model and switch between them mid-session without touching your agent logic. As the frontier moves and the best model for a task changes, your agent’s foundation stays put.
Choice is only part of it. Because the harness is one piece of a single platform rather than a hosting layer wrapped around a framework, it reaches your tools through the same gateway that enforces your security policies and connects your agent to organizational knowledge, web search, and paid services. Identity, memory, and observability come from that same platform, so every action your agent takes is governed and traced from the first call without additional wiring. The agent you declare on day one is the agent you run at your thousandth, on the same foundation throughout.
“Twilio’s customers are building AI agents that work across voice, messaging, and digital channels, with real-time intelligence and persistent memory that make every interaction feel like a conversation. By combining AgentCore harness with Twilio Conversations, developers can go from idea to live agent without rewiring infrastructure. The best customer experiences happen when great AI and great communications infrastructure are built together.”
Omar Paul, VP of Product, Twilio
Get started
These capabilities are generally available today on AgentCore: managed harness, Bedrock Managed Knowledge Base, Web Search, Guardrail Integration, recommendations and A/B testing. Insights and payments are available in preview.
Get started in the console or with the AgentCore CLI. Visit the documentation to learn more.
About the authors
**

Madhu Parthasarathy**
Madhu Parthasarathy is the GM of Amazon Bedrock AgentCore, where he leads the team building the platform that companies use to build, connect, and optimize production AI agents. He brings more than 20 years of experience building large-scale distributed infrastructure, including over 16 years at Amazon, where he has led major initiatives across Amazon Retail, Elastic Block Store (EBS), and now AgentCore. Before returning to Amazon, Madhu held senior leadership roles at LinkedIn, where he led the enterprise platform powering all of LinkedIn’s enterprise lines of business, and at a neo-cloud startup, where he led AI infrastructure and set the vision for security and developer experience. He is based in Santa Clara, California.
関連記事
Amazon Quick の自律型エージェントで毎日数時間を節約
AWS は、Amazon Quick という AI アシスタントが背景で動作し、業務の自動化や会議準備などを代行することで、ユーザーが重要な優先事項に集中できる機能を発表した。
大規模なデータと AI エージェントのための文脈知能
AWS は、AI エージェントがデータレイクやデータベースなど散在する情報源を統合し、大規模に推論できる「文脈知能」機能を発表した。これによりエージェントの判断精度向上を目指す。
Liquid AI、11言語対応の高速多言語検索向け新モデル「LFM2.5-Embedding-350M」と「LFM2.5-ColBERT-350M」を発表
Liquid AI は、11言語間の高速な多言語・異言語検索を実現する新たな取得モデル「LFM2.5-Embedding-350M」と「LFM2.5-ColBERT-350M」を公開した。両モデルはパラメータ数 3.5 億で、LFM ファミリー初の双方向型であり、Hugging Face で利用可能となった。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み