信頼性の高いAIエージェント構築における見えない作業
Amazon Science は、AI エージェントの信頼性を高めるために、複雑なウェブ操作を反復練習する「強化学習ジム」や「ノーマコア・エージェント」という概念を提案し、実世界での運用課題への解決策を示した。
キーポイント
AI エージェントの現実的な課題
大規模なタスク(例:バケーション計画)を実行する前に、スクロールやポップアップ回避など数百もの微細で退屈な操作が確実に実行される必要があるという「見えない作業」の重要性を指摘している。
ノーマコア・エージェントの概念
複雑なタスクよりも、基本的で単純なインタラクション(原子行動)に特化して信頼性を高める「ノーマコア・エージェント」というアプローチが提唱されている。
強化学習ジムの活用
Amazon の AGI Lab が、現実のウェブシステムの複雑さを模倣した高忠実度の強化学習(RL)ジムを構築し、エージェントが安全にスキルを磨ける環境を提供している。
信頼性の基盤としての原子行動
AI エージェントの実用化には、古くからのシステムや一貫性のないインターフェースに対しても、決定論的かつ確実な動作が求められるという前提がある。
AI エージェントの信頼性基盤としての「ジム」
ウェブシステムの複雑さを反映したトレーニング環境(ジム)は、エージェントがエラーを検出し回復し、曖昧な状況でも正しく動作する能力を養うための共有基盤を提供します。
自動運転車からの信頼性マインドセットの転用
「ほぼ正しい」状態では安全ではないという自動運転車の厳格な基準が、AI エージェント開発にも適用され、システムの状態変更に対する確実性が求められています。
言語モデルを超えた検証能力の必要性
エージェントは単に出力を生成するだけでなく、DOM 構造やネットワーク挙動などの「正解」情報を基に、自身の行動がシステムに正しく反映されたかを検証し、不明確な場合は人間へのエスカレーションを行います。
影響分析・編集コメントを表示
影響分析
この記事は、AI エージェント研究が単なる言語モデルの能力向上から、実世界での物理的・デジタル操作の信頼性確保へとパラダイムシフトしていることを示しています。特に、Amazon が強化学習ジムという具体的なインフラを構築して解決を図っている点は、業界全体の実装標準や評価基準に大きな影響を与える可能性があります。
編集コメント
AI エージェントの「魔法」のような側面ではなく、その背後にある地味だが不可欠な技術的基盤に焦点を当てた貴重な洞察です。実社会での導入において、なぜ多くのプロジェクトが失敗するのかを理解する上で重要な視点を提供しています。
信頼性の高いAIエージェント構築に隠された仕事
「強化学習ジム」は、顧客の要求を実行するために連鎖させる必要がある数多くの低レベルタスクでエージェントを訓練する。
AI開発者に、エージェントがあなたのために何をしてくれるか尋ねると、その答えはしばしば旅行パンフレットのように聞こえる:飛行機を予約し、ホテルを見つけ、夏休みの計画を立ててくれる。それは魅力的なイメージだ――目に見えないコンシェルジュが、あなたがコーヒーをすすっている間に、努力せずに旅程を縫い合わせている。
しかし、アマゾン内部では、研究者たちは、大きなことが起こる前に、無数の小さなことがうまくいかなければならないことを知っている。一例を挙げよう:AIが休暇の計画を立てる前に、それはスクロールすることを学ばなければならない。
それはスクロールする方法を学ばなければならない…そしてクリック…そしてタブ移動…そしてポップアップの背後に隠れた日付を選択…そしてフォームが黙ってリセットされたときに回復…そしてカレンダーウィジェットとドロップダウンを区別…そして別のフィールドを上書きせずに、フィールドに正確に一度だけ再入力…そして2004年以来再設計されていないロイヤルティポータルをナビゲートすることを学ばなければならない。
「私の夏休みを予約して」という単一のコマンドは、旅行サービス全体で何百ものマイクロインタラクションを引き起こす:数十年も前のインターフェースをまだ実行している航空会社の予約システム;一貫性のない使用パターンを持つホテルの在庫管理ツール;クレジットカード認証レイヤー;ロイヤルティプログラム;決済基盤;モバイルでの確認;ブラウザベースのフォームの背後に埋もれたコンプライアンスチェック。魔法のような消費者の瞬間が可能になる前に、あらゆる小さなアクションは――信頼性高く、決定的に、毎回――成功しなければならない。これが、AIエージェントの物語と、それを構築する現実との間のギャップである。
アマゾンでは、ありふれた詳細は後回しにされるものではない。それらは基礎なのだ。現実世界でうまく機能するためには、エージェントはまず一連の原子的な振る舞いを習得しなければならない。内部的には、これを「ノームコア・エージェント」の構築と表現することがある:実際のソフトウェアの信頼性の高い運用を支える、非常に単純で、非常に退屈なインタラクションに並外れて優れるように訓練されたシステムのことだ。
それらの原子的な振る舞いを習得するには多くの練習が必要であり、それがアマゾンの人工汎用知能(AGI)ラボが、エージェントがスキルを磨くことができる高忠実度の強化学習(RL)「ジム」のエコシステムを構築している理由である。アスリートが制御された条件下で基本的な動きを繰り返すことで体幹の安定性を築くのと同じように、エージェントは、繰り返し可能で計測されたシナリオの中で、最も小さなインタラクションの単位を練習することで信頼性を発達させる。
実際のウェブシステムの煩雑さを反映するように設計されたジムは、スキルを分離し、変化させ、負荷をかけ、測定する。最終的な結果は、エージェントの基盤――エージェントの一群が現実世界のアプリケーションでドメイン固有の効率性を構築できる、能力の共有基盤――である:配送や予約のために住所を利用可能にするフォーム入力;運賃、特典、またはオプションが適用されるかどうかを示すドロップダウン選択;取引が有効で検証可能な最終状態に到達することを保証する多段階ワークフロー。
現在、アマゾンAGIラボは、数十のアプリケーションドメインと数千の個別タスクにまたがるジムでエージェントを構築・訓練しており、さらに開発中のものもある。これらのジムは、エージェントに休暇を予約する方法だけを教えるのではない。それらは、タスクの下にある予測不可能な地形を生き延びる方法を教える。ウェブインターフェースについて推論する方法。エラーを検出し回復する方法。人間は許容するが機械はしばしば誤解するレガシーシステムと対話する方法。人間がコンピュータ上で行うことを何でもできるエージェントを構築するために、私たちのチームは、人間が本能的に乗り越えている曖昧さを処理することをエージェントに教えなければならない。
もしエージェントが夏休みを予約するまでの道のりが、何百もの小さく失敗しやすいステップを通るならば、私たちを空港まで連れて行く自動運転車は、さらに容赦のない環境に直面している。だから、アマゾンのAGIラボ内部のエンジニアや研究者の一部が自動運転車の世界から来ているのは偶然ではない。彼らは、「ほぼ正しい」が「安全ではない」と区別がつかない環境、「一瞬は完璧に動作し、次の瞬間には黙って失敗するシステムは配備に適さない」環境で何年も過ごしてきた。自動運転車において、正しさは確率的ではない。システムは毎回、毎回、正しくなければならない。
その考え方は今、私たちのラボがエージェントAIにどのようにアプローチするかを形作っている。エージェントは単に出力を生成するだけではない。それらは稼働中のシステム内部でアクションを起こす。データベースに触れ、トランザクションを開始し、システム状態を変更する。そして、モデルの出力が世界における実際の変化であるとき、信頼性は交渉の余地のないものになる。
その基準を満たすために、エージェントは言語モデルができない何かをしなければならない:システムがそのアクションに正しく応答したかどうかを判断することだ。それは、エージェントが本質的に正しさを知っているという意味ではない。それは、トレーニング環境が、エージェントが試みたことと実際に起こったことを比較し、結果が曖昧だったり承認を必要とする場合に人間にエスカレーションしたり委譲したりできるようにするのに十分なグランドトゥルース――ドキュメントオブジェクトモデル(DOM)構造、UIのタイミング、ネットワーク動作、バックエンドの状態遷移――を明らかにすることを意味する。
ここで形式的検証器が登場する。ジム内の各タスクは、成功した完了がどのようなものかを正確に定義する仕様によって固定されている。それは、要求される最終状態、それを生み出すことが許容されるバックエンドの変更、そして決して発生してはならない変更を記述する。例えば、「Eメールを送信する」のようなワークフローは、ボタンがクリックされたように見えるからといって成功と宣言されるのではない。それは、データベースに正確に1つの新しいEメールレコードが存在し、無関係なレコードが作成、変更、削除されていないから成功と宣言されるのだ。
私たちのRLジムでは、これらの検証器はスコアリング関数の基礎である。エージェントは、環境が許可された正確な変更を反映し、禁止された変更が一つもない場合にのみ報酬を受け取り、「正しい」とは何かを示すシグナルを提供する。
エージェントは、これらの検証器を一度ではなく、タイミング、ネットワーク、UIの条件が変化する中で何千回も満たさなければならない。この繰り返される曝露――スキルを分離し、条件を変化させ、検証可能な結果を強制するように精密に設計されたRLジム内での――によって、孤立した成功が永続的な能力に変換される。エージェントがほぼ完璧な信頼性というその基準を満たしたときのみ、実際のワークフローを実行することを任せることができる。そしてそのときのみ、あらゆるアクションに結果が伴う本番環境で安全に動作できるのだ。
ノームコア・ワークアウト
現実世界のあらゆるワークフローを注意深く見ると、完璧に実行されなければならない小さなタスクが散らばっていることに気づくだろう。これらが、私たちのRLジム内部のノームコア・ワークアウトだ:エージェントが、大きなことを実現させる小さなことを学ぶ、集中した練習ルーティンである。いくつかの例を挙げよう:
ワークアウト1:カレンダー安定性テスト
一貫性のないUIコンポーネントに対する堅牢性の構築
カレンダーアプリケーションでは、日付を選択するだけでも驚くほどの協調性を必要とする。ウェブ全体で、カレンダーは微妙に異なる方法で動作する:要素はズームの下で移動し、ウィジェットは他のUIレイヤーの背後に隠れたり、クリック中に再レンダリングされたりする。RLジムでは、これらのバリエーションは意図的に現れ、エージェントにウィジェットの現在の状態を認識し、それがずれたときに回復し、正確に一度だけ正しい日付を確定し――そして結果として生じるバックエンドの状態が正しいことを検証することを教える。この基礎的なスキルは、あらゆる場所のワークフローに適用される。
原文を表示
The unseen work of building reliable AI agents
"Reinforcement learning gyms" train agents on the many low-level tasks that they must chain together to execute customer requests.
Share Share Copy link
Ask an AI developer what an agent might do for you, and the answer often sounds like a travel brochure: book your flights, find you a hotel, plan your summer vacation. It's a charming image — an invisible concierge effortlessly stitching together an itinerary while you sip a coffee.
But inside Amazon, researchers know that a million small things must work before big things can happen. One example: before an AI can plan a vacation, it must learn to scroll.
It must learn how to scroll … and click … and tab … and select a date that's hidden behind a pop-up … and recover when a form silently resets … and distinguish a calendar widget from a drop-down … and re-enter a field exactly once without overwriting another … and navigate a loyalty portal that hasn't been redesigned since 2004.
A single "book my summer vacation" command sets off hundreds of micro-interactions across travel services: airline reservation systems still running decades-old interfaces; hotel inventory tools with inconsistent use patterns; credit card verification layers; loyalty programs; payment rails; mobile confirmations; and compliance checks buried behind browser-based forms. Every tiny action has to succeed — reliably, deterministically, every time — before the magical consumer moment is possible. This is the gap between the narrative of AI agents and the reality of building one.
At Amazon, the mundane details aren't an afterthought; they're the foundation. To work successfully in the real world, an agent must first master a set of atomic behaviors. Internally, we sometimes describe this as building "normcore agents": systems trained to be exceptionally good at the very simple, very boring interactions that underpin the reliable operation of real software.
Mastering those atomic behaviors requires a lot of practice, which is why Amazon's Artificial General Intelligence (AGI) Lab is building an ecosystem of high-fidelity reinforcement learning (RL) "gyms" where agents can hone their skills. Just as an athlete builds core stability by repeating fundamental movements under controlled conditions, an agent develops reliability by practicing the smallest units of interaction in repeatable, instrumented scenarios.
Designed to reflect the messiness of real web systems, a gym isolates a skill, varies it, stresses it, and measures it. The end result is an agentic substrate — a shared foundation of competence from which a fleet of agents can build domain-specific efficiencies in real-world applications: form completions that make an address usable for a delivery or reservation; drop-down selections that indicate whether a fare, benefit, or option applies; and multistep workflows that guarantee that a transaction reaches a valid, verifiable end state.
Today, the Amazon AGI Lab has built and trained agents in gyms spanning dozens of application domains and thousands of individual tasks, with more in development. These gyms don't just teach an agent how to book a vacation; they teach it how to survive the unpredictable terrain beneath the task. How to reason about web interfaces. How to detect and recover from errors. How to interact with legacy systems that humans tolerate but machines often misinterpret. To build an agent that can do anything humans do on a computer, our team has to teach it to handle the ambiguity humans navigate instinctively.
If an agent's path to booking a summer vacation runs through hundreds of tiny, failure-prone steps, the autonomous cars that get us to the airport face an environment that's even less forgiving. So it's no accident that some of the engineers and researchers inside Amazon's AGI Lab come from the world of self-driving cars. They spent years in environments where "almost right" is indistinguishable from "unsafe," where a system that performs flawlessly one moment and fails silently the next is unfit for deployment. In autonomous vehicles, correctness isn't probabilistic; the system must be right every single time.
That mindset now shapes how our lab approaches agentic AI. Agents don't just produce outputs; they take actions inside live systems. They touch databases, initiate transactions, and modify system states. And when the output of a model is a real change in the world, reliability becomes non-negotiable.
To meet that standard, an agent must do something language models cannot: determine whether the system responded correctly to its action. That doesn't mean the agent inherently knows correctness; it means the training environment exposes enough ground truth — document object model (DOM) structure, UI timing, network behavior, backend state transitions — for the agent to compare what it attempted with what actually happened and escalate or defer to a human when the outcome is ambiguous or requires approval.
This is where formal verifiers come in. Each task inside a gym is anchored by a specification that defines exactly what successful completion looks like. It describes the required end state, the backend changes that are allowed to produce it, and the changes that must never occur. A workflow like "send an e-mail," for example, isn't declared successful just because a button appears to have been clicked; it's declared successful because exactly one new e-mail record exists in the database, and no unrelated records have been created, modified, or deleted.
In our RL gyms, these verifiers are the basis of a scoring function. The agent receives a reward only when the environment reflects the precise changes permitted and none of the forbidden ones, providing a signal about what "right" means.
Agents must satisfy these verifiers not once but thousands of times, under shifting timing, network, and UI conditions. This repeated exposure — within precisely engineered RL gyms that isolate skills, vary conditions, and enforce verifiable outcomes — converts isolated successes into durable competence. Only when an agent meets that standard of near-perfect reliability can it be trusted to run real workflows. And only then can it operate safely in production, where every action has consequences.
Normcore workouts
Look closely at any real-world workflow and you'll find a scattering of tiny tasks that have to be executed perfectly. These are the normcore workouts inside our RL gyms: concentrated practice routines where agents learn the small things that make the big things happen. Here are a few examples:
Workout 1: The calendar stability test
Building robustness against inconsistent UI components
In calendar applications, even selecting a date requires surprising coordination. Across the web, calendars behave in subtly different ways: elements shift under zoom, and widgets hide behind other UI layers or re-render mid-click. In RL gyms, these variations appear intentionally, teaching the agent to recognize a widget's current state, recover when it drifts, and commit the correct date exactly once — then verify that the resulting backend state is correct. This foundational skill applies to workflows everywhere, from travel bookings to scheduling tools to compliance applications.
Workout 2: The dropdown discipline drill
Learning to distinguish UI appearance from system state
A dropdown menu might appear to have been updated before the backend has actually processed the change. This mismatch appears in enterprise applications, consumer portals, and government systems alike. Agents must confirm that the system — not just the UI — has registered the action. The drill builds discipline: trust the system state, not the surface.
Workout 3: The async endurance run
Maintaining coherence across long, timing-sensitive flows
Many workflows involve long chains of asynchronous steps — searching, filtering, validating, refreshing — each with different timing and failure modes. RL gyms break these flows into atomic segments: text fields that compete with autosuggest lists, modal windows that load out of order, backends that intermittently return errors, and pages that scaffold before they populate. The agent learns endurance — staying aligned with the true state of the system across dozens or hundreds of steps.
Acknowledgments: Deniz Birlikci, Gary Lim, and Annika Huston for their contributions.
Machine learning
Conversational AI
Reinforcement learning
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み