エンタープライズにおけるエージェンシックAI パート2:ペルソナによるガイダンス
AWSの記事は、エージェンティックAIを企業で実用化するための具体的なガイダンスを、事業責任者、エンタープライズアーキテクト、セキュリティリーダー、データガバナンス担当者、コンプライアンス管理者という5つのペルソナ別に提供している。
キーポイント
エージェンティックAI成功の最大の障壁は技術ではなく運用モデル
記事は、エージェンティックAIの最大の障壁は技術ではなく運用モデルであると指摘し、価値を生み出す組織は作業を詳細に定義し、自律性を意図的に制限し、改善を継続的な習慣としていると述べている。
事業責任者向け:エージェントをKPIに責任を持たせる
事業責任者は、エージェントに新規採用者と同じように職務記述書を作成し、ビジネスケースを既存の追跡数値に基づけ、導入を段階的に進めるべきだと提案している。
エンタープライズアーキテクト向け:エージェントをプラットフォームとして扱う
エンタープライズアーキテクトは、エージェントを単なるアプリケーションではなく、再利用可能なプラットフォームとして設計し、標準化されたインターフェースと監視可能な実行環境を構築する必要がある。
セキュリティ・データ・コンプライアンスリーダー向けの具体的な責任
記事は、セキュリティリーダー、データガバナンス担当者、コンプライアンス管理者それぞれが、エージェンティックAIの導入において負うべき具体的な責任とリスク管理のポイントを説明している。
影響分析・編集コメントを表示
影響分析
この記事は、エージェンティックAIの話題が技術的可能性の議論から、企業内での具体的な実装と責任分担の段階に移行していることを示している。AWSが提供するこのペルソナ別ガイダンスは、クラウドプラットフォーム提供者が、顧客のAI導入成功を支援するための戦略的コンテンツとしての役割を強めている証左である。
編集コメント
技術解説ではなく実装ガイドに特化した内容で、AI導入を推進する各部門リーダーにとって非常に実用的なチェックリストとなっている。特に「誰が」「どのように」責任を持つかという観点は、AIプロジェクトの成功確率を高める上で見過ごせないポイントだ。
これは AWS ジェネレーティブ AI イノベーションセンターによる 2 部構成シリーズの第 II 部です。第 I 部を見逃した場合は、Agentic AI の運用化 第 1 部:ステークホルダー向けガイド をご参照ください。
Agentic AI における最大の障壁は技術そのものではなく、オペレーティングモデルです。第 I 部 で私たちは、エージェントから真の価値を生み出している組織には 3 つの特徴があることを示しました。すなわち、作業を詳細に定義すること、自律性を意図的に制限すること、そして改善を一度きりのプロジェクトではなく継続的な習慣として捉えることです。また、真に「エージェント向け」であるための作業に必要な 4 つの要素も紹介しました。それは、明確な開始と終了、ツール間での判断力、観測可能かつ測定可能な成功基準、そして安全な失敗モードです。これらの基盤がなければ、最も洗練されたエージェントでさえ実験室の中で立ち往生してしまいます。
さて、より難しい問いに直面します: *誰が*それを機能させ、*どのように*実現するのか?
第 II 部では、その共有された基盤を実行に移さなければならないリーダーたちに直接語りかけます。各役割には、固有の責任、リスク、そして影響力を行使するポイントがあります。P&L(損益計算書)を所管している方、エンタープライズアーキテクチャを統括している方、セキュリティを主導している方、データをガバナンスしている方、あるいはコンプライアンスを管理している方にとって、このセクションはあなたの職務に即した言葉で記されています。なぜなら、Agentic AI が成功するか、静かに消滅するかの分かれ道がまさにそこにあるからです。
第 II 部 – ペルソナ別ガイダンス
ビジネスラインのオーナー向け:エージェントにあなたの KPI の責任を負わせる
P&L(損益計算書)を所有しているなら、新たな技術のおもちゃは不要です。必要なのは、未解決チケット数の削減、キャッシュコンバージョンサイクルの日数短縮、カート放棄数の減少、コンプライアンス例外の減少です。エージェントが有用なのは、これらの数値に直接結びつけられる場合に限られます。
最初のステップは、新規採用者と同様にエージェントのための職務記述書を作成することです。「このエージェントは、入力の X を受け取り、Y を確認し、Z を実行して完了したら該当チームに引き渡す」という内容を含めます。また、「完了」の定義を運用上の用語で明確にしてください:応答までの時間、品質基準、エスカレーションのトリガー、顧客へのコミットメントなどです。
2 つ目のステップは、自チームがすでに追跡している数値に基づいてビジネスケースを確立することです。このワークフローには週あたりどの程度の単位が通過しますか?各単位の労働コスト、手直しコスト、廃棄コストはいくらですか?待ち行列で待機する時間はどれくらいですか?何かが不足していたり間違っていたりして戻ってくる頻度はどの程度ですか?もしこれらの質問に今日答えられないなら、最初のプロジェクトはエージェントではなく、ワークフローの計測・可視化です。
3 つ目のステップはシーケンシングです。この旅の初期段階では、最も有用なエージェントは往復の手渡しを縮小するものです。つまり、受信されたリクエストを読み取り、複数のシステムから文脈を集約し、計画を提案して、事前準備が整ったその計画をチームに引き渡すのです。それ自体でループを完結させることはできないかもしれませんが、数時間あるいは数日にわたる行き来の時間を削減できます。このようなコスト削減の成果は CFO からの信頼を築き、後ほどより野心的で収益志向の使用事例に取り組むための政治的資本を与えてくれます。
事業部門の責任者はモデルやプロンプトを理解する必要はありません。彼らが必要としているのは、自らの指標に直接紐付いた少数のエージェントジョブを所有することであり、また、あらゆるイニシアチブがラベル付きのスライドではなく、書面によるジョブ契約から始まることを強く求めることです。

CTO またはチーフアーキテクト向け:10 個のエージェントを望むか、100 個を望むかを決定する
CTO の場合、最大のリスクの一つが成功そのものです。最初のエージェントがうまく機能し始めると、他のチームもそれぞれ欲しいと思うようになります。もし各チームが独自のスタック(独自フレームワーク、独自コネクタ、独自アクセスモデル)を構築すれば、見た目が異なり、テスト方法も異なり、全体として監視することが不可能な「動物園」のようなエージェント群ができてしまいます。
アーキテクチャに関する問いは簡潔に述べれば簡単ですが、実行するのは困難です。あなたは 10 個の印象的な個別のエージェントを望むのか、それとも 100 個のエージェントを安全にサポートできるシステムを望むのか?
システムパスは、初期段階で困難な作業を要求します。それは、顧客データの読み込み、チケットの更新、支払いの予約などが必要になった際に、すべてのエージェントが同じ統合を呼び出すようにツールの公開方法を標準化することを意味します。また、設計において「思考」と「実行」を分離することも意味します:1 つのコンポーネントが計画を立て、別のコンポーネントがツールを呼び出し、さらに別のコンポーネントがコンプライアンスを確認し、最後に別のコンポーネントが決定事項をユーザーに説明します。さらに、観測性(observability)とデバッグがユースケース全体で機能するように、意思決定の追跡記録を一貫した形式で捕捉することも意味します。
また、エージェントを短期間のスクリプトではなく、長期間稼働するサービスとして捉えるよう求められます。それらにはアイデンティティ(ID)、権限、ローテーション、ライフサイクル管理、そして既存の利用者を壊すことなくアップグレードできる方法が必要です。これは初日に多くの作業が必要ですが、これがなければ、10 番目のチームがエージェントを必要とした際にゼロから作り直すことなく「はい」と答えることはできません。
CTO の仕事は、真空状態の中で最良のエージェントフレームワークを選ぶことではありません。それは、多くのチームが安全に、迅速に、一貫してエージェントをリリースできるようにする、堅牢な基盤(アイデンティティ、ポリシー強制、ログ記録、コネクタ、評価フックなど)を構築することです。
CISO 向け:エージェントはコードではなく同僚として扱う
セキュリティを担当している場合、あなたは資産(システム、データストア、認証情報)という観点で考えることに慣れているでしょう。しかし、エージェントは脅威モデルに新たな要素を加えます。それは、機械的な速度で意思決定を行い、行動を実行できる権限を持つエンティティです。
誤りは、エージェントを単なる別のアプリケーションとして扱うことです。彼らはむしろ同僚に近く、アカウントを持ち、役割を持ち、使用できるツールを持っています。間違いを犯すこともあり、設定ミスを起こすこともあります。
実用的な対応は、人間に対するのと同じ厳格さで、エージェント用の非人間のアイデンティティを設定することです。各エージェントには独自の認証情報、独自の権限、独自の監査証跡を持たせるべきです。たまたま実行されているサービスアカウントのすべての権利を継承してはいけません。エージェントが機密データを読み込んだり、高リスクなツールを呼び出したりした場合は、チームが認識できる形でログに記録される必要があります。
また、エージェントを安全に停止する方法も用意する必要があります。それは単なる設計ドキュメント上の一行ではなく、実際に機能するキルスイッチを意味します。「この種のアクションは常に人間の承認を必要とする」というポリシーを設定し、それをエージェントのプロンプト上だけでなく、ツールレベルで強制することを意味します。また、行動の逸脱にも注意を払う必要があります:例えば、通常よりも突然頻繁にツールを呼び出すようになったエージェントや、以前は必要としていなかったデータを読み始めたりするケースです。
アジェンティック AI にうまく適応できる CISO は、自律性を完全にブロックしようとはしません。彼らは自律性が許容される範囲を定義し、信頼するために必要な証拠は何であるかを定め、その信頼が崩れた場合にどうなるかを明確にします。そして設計の議論に早期に参加し、ポリシーをエージェントの形状の一部として組み込み、最終的なゲートとして後付けするのではなく、そうします。
データ責任者向け:データを「退屈」にすること
エージェントは、すでに存在するデータ基盤を増幅します。もしデータが断片的で古く、文書化されていない場合、エージェントはその問題を素早く全員に可視化してしまいます。一方、データが一貫性があり、適切にガバナンスされ、理解しやすいものであれば、エージェントはその価値を何倍にも高めます。
エージェンシー時代における CDO の役割は、可能な限り最高の方法でデータを「退屈」にすることです。つまり、エージェントが「この閾値を超えるすべての未解決請求を示してください」と尋ねたとき、どの地域や事業部門で動作しているかに関わらず、一貫した回答が得られることを意味します。「顧客健全度スコア」という定義が一つだけ存在し、人間もエージェントも共に使用できるように十分に文書化されていることを意味します。また、データ系譜(ラインージ)が明確であることを意味します。何か問題が発生した場合、指標を通じて、特徴量を通じて、そして最終的にソースシステムまで遡って意思決定の経路を追跡できることです。
さらに、準備状況について現実的であることも意味します。一部のワークフローは、依存するデータが不十分すぎるか矛盾しすぎているため、自律的な判断にはまだ適していません。最も優れた CDO はこの点に目を向けます。「エージェントをサポートできない」と言うのではなく、「今日はこのクラスの業務ならサポートできます。もし他のクラスを自動化したいのであれば、まず必要なデータ改善点はこれです」と伝えます。
CDO がエージェントに関する議論に対して貢献できる最も価値のあるものの一つは、地図です。どのドメインに本番グレードのデータがあり、どの領域が進行中で、どこに地雷があるのかを示す地図です。その地図は、他の人々が実装の途中でデータ負債を発見するのではなく、最初の仕事を賢く選べるように助けます。
データサイエンスまたは AI 担当役員のために:評価こそが真のプロダクト
データサイエンスや AI を率いる場合、モデルに焦点を当てたくなるものです。どのファウンデーションモデルか、どのファインチューニング技術か、どのベンチマークスコアかといったことです。これらの決定は重要ですが、本番環境では、モデルを取り巻く評価システムこそが真のプロダクトです。
エージェントは、ベンチマークでは測定できない方法で失敗します。ループに陥ったり、ツールを誤って呼び出したりします。一見妥当そうだが実際には間違っている方法でタスクを半ば完了させたりします。クリーンなテストデータ上では良好に動作しますが、誰も含めることを考えなかったエッジケースでは崩壊してしまいます。効果的な評価システムは三つの役割を果たします。
第一に、実際の業務をテストに変換することです。本番環境でエージェントがミスを犯した場合、そのシナリオは成長する評価スイートの一部となります。時間とともに、遭遇する最も困難なケースが、後退から守るためのガードレールとして機能します。
第二に、自動的に実行されることです。プロンプト、モデル、ツール、または検索インデックスへの変更に対して、変更が本番環境に展開される前に評価が実行されます。これにより、数回のスポットチェックと期待に頼らずに迅速に反復できるという自信が得られます。
第三に、それは企業が重視するものを測定します。これにはレイテンシやツール成功率といった技術指標も含まれますが、タスク完了率、エスカレーション率、意思決定あたりのコスト、そして人間の担当者がエージェントの推奨をそのまま受け入れる作業の割合なども含まれます。これらの数値が見えて改善されれば、信頼は自然に生まれます。
ここで早期に投資するチームは、モデルの選択が難しくなるのではなく、むしろ単純化されることに気づきます。実務タスク上でモデルがどのように振る舞うかを見える化できれば、「どのモデルが最善か」という議論は哲学的な討論ではなく、根拠に基づいた比較へと変わります。
コンプライアンスまたは法務担当者のために:監査に直面する前に監査対応を設計せよ
もしあなたがコンプライアンスや法的リスクに対して責任を負っているなら、エージェント型 AI は動く標的に見えるかもしれません。規制は進化しており、ベンダーのマーケティングは規制の明確化よりも先行しています。すべての基準が確定するまで組織を凍結することはできませんが、「ガバナンスについては後で考える」という姿勢も許容できません。
実用的なアプローチは、監査から逆算して取り組むことです。規制当局や内部監査委員会が「この日付に、なぜこのエージェントはこの行動を取ったのか?」と問うたと想像してください。その質問を明確かつ迅速に回答するために必要な証拠を、今すぐ決定しておきましょう。
これはいくつかの設計上の選択を意味します。すべてのエージェントは、自分が見た入力、呼び出したツール、検討したオプション、選択した内容、適用したルールといった痕跡を残すべきです。クレジット決定、保険引受、雇用関連の行動など、リスクの高いドメインでは、人間がループ内に留まり続ける必要があり、エージェントの役割は助言的または準備的なものにするべきです。具体的には、データの収集、証拠の整理、アクションの提案などが該当します。人間の承認も記録の一部となります。
また、すべてのエージェントのアイデアが許可されるわけではないことも意味します。一部のユースケースでは、フレームワークと統制が成熟するまで、規制上のレッドゾーン内に明確に位置し続けます。あなたの役割は、これらの境界線を早期に可視化することです。特定の条件付きで「はい」と答えられるエージェントがあり、特定の前提条件を満たせば「後日 yes」とできるものがあり、明確な理由に基づいて「いいえ」と答える必要があるものが少数ある場合、あなたは妨げ役ではなく促進役となることができます。
リーダーシップチームの他のメンバーに対してあなたが最も役立つことのひとつは、「責任ある AI が必要だ」といった抽象的な懸念を、作業開始前に各提案されたエージェントに適用できる具体的なチェックリストに変換することです。
コール・トゥ・アクション
この投稿のパターンがどこか懐かしいと感じるなら、あなたは遅れているわけではありません。むしろ、多くの企業が現在いる場所にいるのです。前進する企業とそうでない企業の違いは、アジェンシー AI を技術的な実験ではなく、オペレーティングモデルの課題として扱うという決断にあります。始めるために実行できる 5 つの動きがあります:
適切な会議室を招集する。 LOB(ライン・オブ・ビジネス)責任者、CTO、CISO、CDO、AI/データサイエンスリーダー、コンプライアンス責任者を一堂に集め、デモのためではなく、作業セッションとして臨んでください。各担当者に一つの質問に答えてもらいます:「実務ワークフローにおいてエージェントを実環境へ投入する上で、最も大きな障害となっているものは何ですか?」
一つの使用事例ではなく、一つの職務を選定する。 明確な開始点と終了点、定義されたツール、そしてチーム外の人間が検証可能な成功基準を備えた具体的な業務の一片を特定してください。エージェントの職務記述書を共同で作成しましょう。会議室で「完了」の状態について合意できない場合、それがあなたが解決すべき最初の課題です。
準備度マップを描く。 CDO と CISO が共同で、今日から自律的な意思決定に生産環境として使用可能なデータドメインとシステムがどこにあるか、まず改善を要する箇所はどこか、そして厳格な境界線(ハード・バウンダリー)がどこにあるかをスケッチしてください。その一枚のマップが、数ヶ月にわたる無駄な努力を防ぐことになります。
一定のリズムへのコミットを行う。 多機能チームがエージェントの振る舞い、成功した点、失敗した点、そして調整すべき点を検討する、週次または隔週の定期的レビューを設定してください。リリース時だけ評価するのであれば、それはデモを構築しているに過ぎません。継続的に評価するのであれば、それは能力(キャパビリティ)を構築していることになります。
ガバナンスを起動のゲートではなく、設計の入力として扱う。 6 ヶ月後に監査人が「なぜこのエージェントはこれを行ったのか?」と問うた場合に必要な証拠が何かを、今すぐ決定してください。その要件を、最初のコード行を書く前にアーキテクチャに統合してください。
エンタープライズにおいてアジェンティック AI から真の価値を生み出している企業は、魅力的ではない地道な作業を遂行することでその地位を築きました。具体的には、職務を明確に定義し、自律性を意図的に範囲限定し、評価への投資を絶え間なく行い、ステークホルダーを共通の運用モデルで結束させることです。
生成 AI イノベーションセンターと連携する
この旅路を一人で進む必要はありません。最初のアジェンティック AI パイロットを計画中の方でも、企業全体の機能へスケールしようとしている方でも、ワークフロー、データ、そしてビジネス成果に基づいた対話を始めるために、Generative AI Innovation Center チームまでお問い合わせください。
著者について
image
Nav Bhasin
Nav Bhasin は、AWS ジェネレーティブ AI イノベーションセンターのシニアデータサイエンスマネージャーです。ここでは、エンタープライズ顧客が「エージェント型 AI(Agentic AI)」の概念から本番環境への展開に至るまでのプロセスを加速させています。産業、エネルギー、ヘルスケア分野にわたって 10 年以上にわたり AI プロダクトの開発に従事してきた Nav は、AWS では過去 6 年間、世界中のジェネレーティブ AI アーキテクトとサイエンティストを率いており、Amazon Bedrock、Amazon SageMaker、AgentCore といったプロダクトの本番環境での採用において中心的な役割を果たしてきました。イノベーションセンターに着任する前は、AWS のコアとなるジェネレーティブ AI プロダクトポートフォリオの市場投入アーキテクチャおよびデータサイエンスチームを統括していました。AWS 以前には、Utopus Insights でデータサイエンスおよびエンジニアリング部門の責任者を務め、Honeywell ではエンジニアリングとアーキテクチャを担当しました。Nav は MBA および電子工学の修士号を取得しています。

Sri Elaprolu
Sri Elaprolu は、AWS 生成 AI イノベーションセンターのディレクターであり、企業および政府機関向けに最先端の AI ソリューションを実装するグローバルチームを率いています。AWS での在籍期間 13 年間にわたり、彼はグローバル企業や公共セクター組織と連携して機械学習(ML)科学チームを指揮してきました。AWS 以前には、ノースロップ・グラマンで 14 年間過ごし、製品開発およびソフトウェアエンジニアリングのリーダーシップ職を務めました。Sri は工学科学修士号および MBA を保有しています。
原文を表示
This is Part II of a two-part series from the AWS Generative AI Innovation Center. If you missed Part I, refer to Operationalizing Agentic AI Part 1: A Stakeholder’s Guide.
The biggest barrier to agentic AI isn’t the technology—it’s the operating model. In Part I, we established that organizations generating real value from agents share three traits: they define work in precise detail, they bound autonomy deliberately, and they treat improvement as a continuous habit rather than a one-time project. We also introduced the four ingredients of work that is truly “agent-shaped”: a clear start and end, judgment across tools, observable and measurable success, and a safe failure mode. Without these foundations, even the most sophisticated agent will stall in the lab.
Now comes the harder question: *who* makes it work, and *how*?
In Part II, we speak directly to the leaders who must turn that shared foundation into action. Each role carries a distinct set of responsibilities, risks, and leverage points. Whether you own a P&L, run enterprise architecture, lead security, govern data, or manage compliance, this section is written in the language of your job—because that’s where agentic AI either succeeds or quietly dies.
Part II – Guidance by persona
For the line-of-business owner: put the agent on the hook for your KPIs.
If you own a P&L, you don’t need another technology toy. You need fewer open tickets, fewer days in your cash conversion cycle, fewer abandoned carts, fewer compliance exceptions. An agent is useful only if it can be tied directly to those numbers.
The first step is to write a job description for the agent the same way you would for a new hire. “This agent takes inbound X, checks Y, does Z, and hands off to this team when it’s done.” Include what *done* means in your operational terms: time to respond, quality threshold, escalation triggers, and customer-facing commitments.
The second step is to anchor the business case in numbers your own team already tracks. How many units per week pass through this workflow? What does each unit cost in labor, rework, and write-offs? How long does it spend waiting in queues? How often does it bounce back because something was missing or wrong? If you can’t answer these questions today, your first project isn’t an agent—it’s instrumenting the workflow.
The third step is sequencing. Early in the journey, the most useful agent is often the one that collapses handoffs: it reads the inbound request, gathers context from multiple systems, proposes a plan, and drops that plan into your team’s lap with everything pre-staged. It may not *close the loop* by itself, but it can remove hours or days of back-and-forth. Cost-saving wins like this help build credibility with the CFO and give you political capital to pursue more ambitious, revenue-focused use cases later.
The line-of-business owner doesn’t need to understand models or prompts. They need to own a small portfolio of agent jobs tied directly to their metrics, and they need to insist that every initiative starts with a written job contract, not a slide with a label.

For the CTO or chief architect: Decide whether you want ten agents or one hundred
If you’re the CTO, one of your biggest risks is success. Once the first agent lands well, other teams will want one. If each team builds its own stack—own framework, own connectors, own access model—you’ll end up with a zoo of agents that look different, are tested differently, and are impossible to monitor as a whole.
The architecture question is simple to state and hard to execute: do you want ten impressive one-off agents, or do you want a system that can support one hundred agents safely?
The system path asks you to do some hard work early. It means standardizing how tools are exposed so that every agent calls the same integration when it needs to read customer data, update a ticket, or book a payment. It means separating *thinking* from *doing* in your design: one component plans, another calls tools, another checks compliance, another explains decisions back to users. It means capturing decision traces in a consistent format so observability and debugging work across use cases.
It also asks you to think about agents as long-lived services, not short-lived scripts. They need identities, permissions, rotation, lifecycle management, and a way to be upgraded without breaking their consumers. That’s more work on day one, but it’s what allows you to say “Yes” to the tenth team that wants an agent without starting from scratch.
The CTO’s job isn’t to pick the best agent framework in a vacuum. It’s to build a sturdy floor—identity, policy enforcement, logging, connectors, and evaluation hooks—that allows many teams to ship agents safely, quickly, and consistently.
For the CISO: Treat agents like colleagues, not code
If you’re responsible for security, you’re used to thinking in assets: systems, data stores, credentials. Agents add something new to your threat model: authorized entities that can make decisions and take actions at machine speed.
The mistake is to treat agents as just another application. They’re closer to colleagues. They have accounts. They have roles. They have tools they can use. They can make mistakes. They can be misconfigured.
The practical move is to set up non-human identities for agents with the same seriousness you apply to human identities. Each agent should have its own credentials, its own permissions, and its own audit trail. It shouldn’t inherit all the rights of the service account it happens to run under. When an agent reads sensitive data or calls a high-risk tool, that should be visible in your logs in a way your team recognizes.
You’ll also want ways to stop agents cleanly. That means kill switches that really work, not just a line in a design doc. It means policies that say, “This class of action always requires human approval,” and enforces that at the tool level, not just in the agent’s prompt. It means watching for behavior that drifts: an agent that suddenly calls a tool far more often than usual, or starts reading data it hasn’t needed before.
CISOs who adapt well to agentic AI don’t try to block autonomy entirely. They define where autonomy is acceptable, what evidence is needed to trust it, and what happens when that trust is broken. They join the design conversation early and make policy part of the agent’s shape, not a gate at the end.
For the chief data officer: Make the data boring
Agents amplify whatever data foundation you already have. If your data is fragmented, stale, and undocumented, agents can make those problems visible to everyone quickly. If your data is consistent, well-governed, and straightforward to understand, agents can multiply its value.
The CDO’s job in the agentic era is to make the data boring, in the best possible way. That means when an agent asks, “Show me all open claims over this threshold,” it gets a consistent answer regardless of which region or line of business it operates in. It means one definition of “customer health score” exists and is documented well enough that people and agents can both use it. It means lineage is clear: when something goes wrong, you can trace the decision back through the metrics, through the features, all the way to the source system.
It also means being realistic about readiness. Some workflows simply aren’t ready for autonomous decisions because the data they rely on is too incomplete or too contradictory. The best CDOs lean into this. They don’t say, “We can’t support agents.” They say, “We can support this class of work today. If you want to automate that other class, here are the data improvements we need first.”
One of the most valuable contributions a CDO can make to the agent conversation is a map: which domains have production-grade data, which are in progress, and where the landmines are. That map helps everyone else pick their first jobs wisely, instead of discovering data debt mid-implementation.
For the chief data science or AI officer: Evaluation is your real product
If you lead data science or AI, it’s tempting to focus on models: which foundation model, which fine-tune technique, which benchmark score. Those decisions matter, but in production, your real product is the evaluation system wrapped around the model.
Agents can fail in ways that benchmarks don’t measure. They get stuck in loops. They call tools incorrectly. They half-complete tasks in ways that look plausible but are wrong. They behave well on clean test data and fall apart on the edge cases no one thought to include. An effective evaluation system does three things.
First, it turns real work into tests. When an agent makes a mistake in production, that scenario becomes part of a growing evaluation suite. Over time, the hardest cases you encounter become guardrails that help protect you from regressing.
Second, it runs automatically. Changes to prompts, models, tools, or retrieval indexes trigger evaluation before that change goes live. That gives you the confidence to iterate quickly, because you’re not relying on a few spot checks and hope.
Third, it measures what the business cares about. That includes technical metrics like latency and tool success rate, but also task completion rate, escalation rate, cost per decision, and the share of work where humans accept the agent’s recommendation as-is. When those numbers are visible and improving, trust follows.
Teams that invest here early discover that model choices become simpler, not harder. Once you can see how a model behaves on your real tasks, the “which model is best?” debate becomes a grounded comparison instead of a philosophical discussion.
For the compliance or legal officer: Design for audits before you face one
If you’re accountable for compliance or legal risk, agentic AI probably looks like a moving target. Regulations are evolving, and vendor marketing is ahead of regulatory clarity. You can’t freeze the organization until every standard settles, but you also can’t tolerate “We’ll figure out the governance later.”
A pragmatic approach is to work backwards from an audit. Imagine a regulator or internal audit committee asks, “On this date, why did this agent take this action?” Decide now what evidence you’d need to answer that question clearly and quickly.
That implies a few design choices. Every agent should leave a trail: what inputs it saw, what tools it called, what options it considered, what it chose, and what rules it applied. For high-stakes domains like credit decisions, insurance underwriting, and employment-related actions, humans must remain in the loop, and the agent’s role should be advisory or preparatory: collecting data, organizing evidence, proposing actions. The human’s approval becomes part of the record.
It also implies that not all agent ideas are allowed. Some use cases live squarely inside regulatory red zones until frameworks and controls mature. Your job is to make those lines visible early. When you can say “Yes” to some agents with clear conditions, “Yes later” to others with specific prerequisites, and “No” to a few with a clear rationale, you can become an enabler rather than a blocker.
One of the most helpful things you can do for the rest of the leadership team is to turn abstract concerns like “we need responsible AI” into a concrete checklist that can be applied to each proposed agent before work starts.
Call to action
If the patterns in this post sound familiar, you’re not behind. You’re where most enterprises are. What separates those who move forward is the decision to treat agentic AI as an operating model challenge, not a technology experiment. Five moves you can make to get started:
Convene the right room. Bring your LOB owner, CTO, CISO, CDO, AI/DS leader, and compliance lead together—not for a demo, but for a working session. Each person answers one question: “What’s the single biggest thing blocking us from putting an agent into production on a real workflow?”
Pick one job, not one use case. Identify one concrete piece of work with a clear start, clear end, defined tools, and a success measure someone outside the team can verify. Write the agent’s job description together. If the room can’t agree on what *done* looks like, you’ve found your first problem to solve.
Draw your readiness map. Have your CDO and CISO jointly sketch which data domains and systems are production-ready for autonomous decisions today, which need improvements first, and where the hard boundaries are. That one-page map can save you months of wasted effort.
Commit to a cadence. Set a recurring weekly or biweekly review where the cross-functional team examines how the agent behaved, what worked, what broke, and what to adjust. If you only evaluate at launch, you are building a demo. If you evaluate continuously, you are building a capability.
Make governance a design input, not a launch gate. Decide now what evidence you would need if an auditor asked “Why did this agent do this?” six months from today. Integrate that into the architecture before the first line of code is written.
The enterprises generating real value from agentic AI got there by doing the unglamorous work: defining jobs precisely, bounding autonomy deliberately, investing in evaluation relentlessly, and aligning stakeholders around a shared operating model.
Partner with the Generative AI Innovation Center
You don’t have to navigate this journey alone. Whether you are planning your first agentic pilot or scaling to an enterprise-wide capability, reach out to the Generative AI Innovation Center team to start a conversation grounded in your workflows, your data, and your business outcomes.
About the authors

Nav Bhasin
Nav Bhasin is a Senior Data Science Manager at the AWS Generative AI Innovation Center, where he accelerates enterprise customers’ journey from Agentic AI concept to production deployment. With over a decade of experience building AI products across industrial, energy, and healthcare domains, Nav has spent six years at AWS leading worldwide teams of GenAI architects and scientists, playing a central role in bringing products like Amazon Bedrock, Amazon SageMaker, and AgentCore to production adoption. Before the Innovation Center, he led go-to-market architecture and data science teams for AWS’s core GenAI product portfolio. Prior to AWS, Nav served as Head of Data Science and Engineering at Utopus Insights and led Engineering and Architecture at Honeywell. Nav holds an MBA and a graduate degree in Electronics Engineering.

Sri Elaprolu
Sri Elaprolu is Director of the AWS Generative AI Innovation Center, where he leads a global team implementing cutting-edge AI solutions for enterprise and government organizations. During his 13-year tenure at AWS, he has led ML science teams partnering with global enterprises and public sector organizations. Prior to AWS, he spent 14 years at Northrop Grumman in product development and software engineering leadership roles. Sri holds a Master’s in Engineering Science and an MBA.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み