AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月11日 09:00·約20分で読める

エージェント型インターフェースの進化:Claude Managed Agents を活用した構築(13 分読了)

#Agentic Workflows#Claude#Anthropic#Autonomous Agents#Interface Design
TL;DR

TLDR AI は、Claude Managed Agents を活用して自律型インターフェースを構築・進化させるための具体的な戦略と技術的アプローチを詳述している。

AI深層分析2026年6月12日 01:06
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

Managed Agents の定義と役割

従来のチャットボットを超え、Claude Managed Agents は複雑なタスクを自律的に計画・実行し、ユーザーの意図を深く理解する次世代インターフェースの中核となる。

2

構築における設計原則

信頼性の高いエージェントシステムを構築するには、明確な境界設定、段階的な検証プロセス、およびエラー発生時の回復メカニズムが不可欠である。

3

実装と進化のロードマップ

初期段階では単一タスクに特化し、フィードバックループを通じて学習・適応させることで、徐々に複雑なマルチステップ作業を処理できる能力へと進化させる。

影響分析・編集コメントを表示

影響分析

この記事は、LLM を単なる情報検索ツールから自律的な業務遂行エージェントへと転換させるための具体的な実装指針を示しており、業界全体の開発パラダイムシフトを加速させる意義がある。特に「Managed Agents」という概念の定着により、企業における AI 導入のハードルが下がり、より複雑で信頼性の高い自動化システムの普及が期待される。

編集コメント

「エージェント型」という概念が具体的な実装レベルで語られている点は、昨今の抽象的な議論から一歩進んだ実践的な知見として貴重です。

エージェントを実環境に導入するには、優れたプロンプトだけでは不十分です。エージェントには、自身が生成したコードを実行する場所、データへのアクセスに必要な認証情報、観測可能なセッション、そして利用状況に応じてスケールできるインフラストラクチャが必要です。Applied AI チームでは、製品・研究・Claude を基盤に構築する顧客の三者が交差する領域で活動していますが、同じパターンを繰り返し目にします。つまり、プロトタイプと実環境のエージェントを分けるのはインフラストラクチャなのです。あまりにも多くのチームが、セキュリティ、状態管理、権限付与、ハッチの調整といった課題に開発サイクルを浪費してしまいます。

Claude Managed Agents は、本番グレードのエージェントを構築・展開するためのコンポーザブルな API のスイートであり、パフォーマンスに最適化されたエージェントハッチと本番インフラストラクチャを組み合わせています。これにより、チームは数ヶ月ではなく数日でプロトタイプからローンチへと移行できます。この記事では、Anthropic のエージェント用ビルディングブロックの進化、Claude Managed Agents を構築した理由、そして現在どのようにして実環境で活用されているかについて解説します。

エージェントアーキテクチャの進化

2023 年に Claude を開発者に公開した際、API はあえてシンプルに設計されました:トークンを入力し、トークンを出力するだけです。プロンプトを送信すると、Claude が完成文を返すため、ハッチと基盤となるインフラストラクチャは利用者が構築する必要がありました。

API は年々豊かになっていきましたが、その裏にある契約は変わっていませんでした:1 つのリクエストに対して 1 つのモデルターン(応答)があり、次に何が起こるかはアプリケーションが決定するのです。長い間、それで十分でした。文書の要約、サポートチケットの分類、テキストブロックの書き換えなど、単一のターンに収まるような作業には適していました。

しかし時が経つにつれ、人々が任せたかったタスクはもはやその枠に収まらなくなりました。彼らは Claude にタスクを最初から最後まで任せたいと考えました。何かを検索し、それに基づいて行動し、何が変わったかを確認し、次に何をすべきかを判断してほしいのです。そして、それがコードベースや社内ウィキ、チケット管理システムなど、すでに業務で使われているシステムの中で動作することを望んでいました。

API を用いる場合、Claude をエージェント化するには独自のループを構築する必要がありました:モデルに何をするか問いかけ、ツールを実行し、その結果をフィードバックして繰り返すのです。エージェントの骨組み(スキャフォールディング)を構築・デプロイする責任はユーザーにあり、モデルが進化するにつれて調整が必要になることもあります。完全なカスタマイズが必要なエージェントにとってはこのアプローチは理にかなっています。しかし、より予測可能で複雑さが低いエージェントワークロードにおいては、モデルや製品が進展するにつれてハーンネス(制御枠組み)を最適化することは次第に面倒なものになっていきました。

image
image

Claude Code は、2025 年にリリースしたエージェント型コーディングツールで、Claude がコードベースと直接対話できるようにするものです。このツールには、ループ、ツール実行、サブエージェント、コンテキスト管理、そして効果的なエージェントとしての機能を実現する豊富な能力など、私たちが独自に構築したハーンセス(基盤)が含まれていました。開発者たちは自然と、さまざまなドメインで自分たちのエージェントにも同様のハーンセスの仕組みを求めました。

Claude Code のハーンセスの上にエージェントを構築できるようにするために、私たちは Claude Agent SDK をリリースしました。Claude Agent SDK は、開発者が独自のエージェントを構築するためのツールを提供します。これにより、開発者は独自のループを維持するのではなく、Claude Code を実行しているのと同じ基盤上でエージェントを構築できるようになります。多くのチームにとって、これがエージェントを実用的なものにする転換点となりました。ハーンセスは Claude 向けにすでにチューニングされており、インフラストラクチャのプリミティブ(基本要素)を提供しており、Claude Code の進化とともに継続的に改善されていきます。

しかし、ハーンセスがあったとしても、本番環境へのエージェントのデプロイにはいくつかの理由から課題が残ります。

  • ホスティングとスケーリング。エージェントはどこで実行され、数時間にわたるタスクにおいてプロセスはどれほど長く生存可能か、利用が増加した際にどのようにスケールするか。
  • セッション管理。エージェントの履歴と進捗はどこに保存されるのか?実行中に中断があっても再開できるか、過去のセッションを遡って内容を検査できるか。
  • ファイルシステム管理。実際の作業を行うには成果物の生成が必要である:コードの編集、ファイルの作成、出力の構築など。エージェントが作業するワークスペースはどこにあり、実行間においてそのワークスペースはどうなるのか。
  • 実行の隔離。Claude が記述したコードはどこかで実行されなければならない。もし間違っていた場合の影響範囲(ブラスト・レイジ)はどの程度か、本番環境で実際に信頼できる境界線は何か。
  • 認証情報。エージェントにはお客様のシステムへのアクセス権限が必要である。生成されたコードに機密情報が漏洩することなく、どのようにしてそのアクセス権を得るのか。
  • 観測性(オバザビリティ)。エージェントが自律的に 1 時間動作し、予期せぬ行動をとった場合、そのすべてのステップを再構築できるか。

Agent SDK を用いることで、上記の生産環境インフラの多くの要素が Claude Code の仕組みを通じて提供される。エージェントは実際のファイルシステムで作業でき、セッション状態はローカルまたは外部ストレージに永続化され、観測性は OpenTelemetry 経由で既存のモニタリングスタックへエクスポート可能となる。

image
image

しかし、チームがローカル開発から本番環境へとエージェントを構築するようになると、大規模展開と管理されたインフラによるデプロイが必要となりました。さらに、モデルとその周辺ハルネスが進化し、より長時間実行され、より多くのコードを実行し、より多くのシステムにアクセスし、より多くのアクションを実行するようになるにつれ、スケーラビリティ、セキュリティ、サンドボックス化の課題はますます複雑になっています。

これらの障壁のいくつかは、共通のアーキテクチャ上の選択に起因しています。エージェントハルネスは、通常、作業対象となるファイルシステムと同じコンテナ内で実行されます。コンテナは起動(起動コストが発生)しないと Claude が思考を開始できず、エージェントとコードの実行はあなたの認証情報と隣り合わせになり、コンテナが停止すると実行も同時に終了してしまいます。

Managed Agents は、脳を手足から分離することでこれらの問題を解決します。Claude を呼び出すハルネスとコードを実行するサンドボックスは別々に動作し、セッション(すべてのモデル呼び出し、ツール呼び出し、および結果の追加のみ可能なログ)がこれら 2 つを結びつけます。Claude はコンテナが存在する前に推論を開始でき、サンドボックスは認証情報から遠く離れており、実行全体はいつでもそのセッションから再構築可能です。

image
image

クロード管理型エージェントを使用するタイミングと理由

管理型エージェントを構築する際、ユーザーはタスク、ツール、およびガードレールを定義し、Anthropic は自社のインフラ上でエージェントを実行し、実行環境の提供方法やツールの呼び出し方、失敗時の回復策、マルチエージェントのオーケストレーションなど、背後にあるエージェントループを処理します。

ハネスがモデルの知能と並行して進化しない場合、エージェントは機能不全に陥ります。Claude Sonnet 4.5 では、コンテキストの末尾に近づくとエージェントは完了を急ぎ、残された余地を活用するのではなく作業を短く切り上げてしまうというパターン、「コンテキスト不安」が見られました。私たちの対策として、ハネスにコンテキストのリセットを追加し、Claude が制限値付近で一貫性を保つために支援が必要だという前提を組み込みました。しかし、この前提は次のモデルでは生き残れませんでした。Claude Opus 4.5 ではその挙動は消え去り、私たちが追加したリセットは単なるオーバーヘッドとなりました。

ほとんどの組織にとって、ハネスの維持管理は製品の差別化につながらないオーバーヘッドです。ハネスは特定のモデルの動作に合わせて調整する必要があり、圧縮(compaction)、ツール実行、キャッシュといったプリミティブは、Claude では他のモデルとは異なる挙動を示します。Claude 管理型エージェントを使用すれば、ハネスがモデルと並行して進化するため、チームは自社のエージェントを差別化する要素に集中できます:コンテキスト管理とドメイン専門知識です。

開発者が効果的なエージェントを構築するために必要なコンテキストとツールを設定できるようにするため、Managed Agents は主に 3 つのリソースを中心に構築されています:エージェント、環境、セッションです。*エージェント*とは構成のことであり、モデル、プロンプト、ツールのセット、およびそれらを取り巻くガードレールから成ります。*環境*はエージェントが実行される実行コンテキストであり、サンドボックスコンテナ、ネットワークルール、そしてクラウド上でホストされているか、あるいはあなたが管理するインフラストラクチャ上に事前インストールされたパッケージを含みます。各実行は*セッション*と呼ばれ、エージェントと環境をペアにして、それぞれに独立したサンドボックスインスタンスを取得します。セッションはサーバーサイドで完全なイベント履歴、サンドボックスの状態、および出力を保持するため、長時間実行される作業は一時的に停止し、きれいに再開でき、事後にもステップごとに追跡可能です。Managed Agents を使用すれば、エージェントと環境を一度定義するだけで、ワークロードが成長しても同じ構成に対して多数のセッションを実行できます。

imageimage.png)

Managed Agents での本番環境とスケーラビリティの構築

Applied AI 部門では、コーディング、財務、サポート、法務、そしてその他 dozen のドメインにわたって、エージェントがプロトタイプから本番環境へと移行する様子を目撃しています。これは Anthropic 社内および顧客システム内でのことです。これにより、デモと本番対応のエージェントを分けるものや、チームがしばしば行き詰まる箇所について明確な視点が得られています。

以下に、Claude Managed Agents のような管理型サービス上で構築する最も一般的な理由を共有します:

1. 認証情報はサンドボックスから隔離されます。 すべての処理が 1 つのコンテナ内で実行される場合、Claude が生成したコードは認証情報のすぐ隣に配置されるため、プロンプトインジェクションによってモデルが自身の環境を読み込むよう説得され、トークンが漏洩するリスクがあります。同じコンテナ内で堅牢なガードレールを設定することでこれを防ぐことも可能ですが、アーキテクチャを分離することで、認証情報をサンドボックスから完全に排除するという、より安全なアプローチが可能になります。MCP や CLI、GitHub リポジトリなどのツール用のトークンは別の Vault に保存され、プロキシが要求に応じてそれらを取得して復号化します。Managed Agents は Vaults を提供しており、これにより独自に秘密情報ストアを運用したり、すべての呼び出しでトークンを転送したり、エージェントが誰の代理として行動したかを追跡できなくなったりする心配がありません。Vault の認証情報は保存前にエンベロープ暗号化で保護され、取得には検証用の署名付きリクエストトークンが必要です。

imageimage.png)

2. サンドボックスのオーバーヘッドを排除した低レイテンシ。 レイテンシは、ユーザーが Claude の応答待ちを強く感じるため、多くのエンタープライズチームにとって最優先の指標です。Managed Agents アーキテクチャがない場合、エージェントが思考のみを行いツールを実行しないセッションであっても、すべてのセッションに対してコンテナが起動する必要があります。このセットアップ時間は無駄であり、ユーザーは最初の応答までの遅延としてそれを体感します。Managed Agents を用いると、Claude は環境の並列起動中に即座に推論を開始し、ツールを実行しないセッションではコンテナを完全にスキップできます。これにより、ユーザーはコンテナ起動を待たずに最初のトークン(token)を確認でき、エージェントが何かを実行する必要がある頃には環境も準備完了しています。テスト結果によると、中央値(p50)では初回トークンまでの時間を約 60% 短縮し、最も遅いケース(p95)では 90% 以上短縮することが確認されました。

3. セッション管理、観測可能性、およびメモリを可能にする信頼性が高く永続的なセッション。 リクエスト/レスポンスではなく、Managed Agents は *イベント* の観点で思考します。セッションは進行中のイベントストリームであり、すべてのモデル呼び出し、ツール呼び出し、結果は、エージェントを実行するプロセスの外に存在するログに追加されます。このアーキテクチャにより、エージェントが動作している間にイベントがストリーミングされるリアルタイム更新が可能になり、データベースやセーブポイントを管理することなく、いつでもセッションを再開できます。セッションを削除しない限り、対話間でも履歴は保持され、セッションがアイドル状態になるとコンテナがチェックポイント化されるため、中断した場所からきれいに再開できます。また、実行全体がすでにイベントの記録であるため、観測可能性とメモリも付随します:Claude Developer Console には、エージェントセッションのネイティブなビジュアルタイムラインビューと、トランスクリプトを詳細に調査できるデバッグ機能が用意されています。Managed Agents はさらに、Memory や Dreaming といった機能も提供しており、これらもこのセッションの永続性を利用しています。Dreaming はスケジュールされたプロセスで、エージェントのセッションとメモリストアをレビューし、パターンを抽出して記憶をキュレーションすることで、エージェントが時間とともに改善できるようにします。Dreaming は、永続的なセッションログから読み取ることで、反復するミステイクやユーザーの嗜好から学習できるよう、セッション間で記憶を洗練させます。

4. アスロピック管理型またはセルフホスト型のクラウドコンテナにおける柔軟性。 デフォルトでは、Managed Agents を使用すると、オーケストレーションとツールの実行の両方をアスロピック管理型のクラウドコンテナに委譲できます。これにより、ホスティングとスケーリングがシンプルで容易になり、プロダクションへの到達までの道筋をより速く提供します。Managed Agents では「脳」と「手」が分離されているため、「手」はあなたの仮想プライベートクラウド(VPC)内など、あらゆる場所に存在させることができます。そのため、ツールの実行に対する制御を望むチーム向けに セルフホスト型サンドボックス も提供しており、これによりエージェントのコード、ファイルシステム、ネットワーク出口(egress)が環境から決して離れることがありません。また、Claude をプライベートネットワーク内で実行される Model Context Protocol (MCP) サーバーに接続できる MCP トンネル も提供しています。つまり、セルフホスト型サンドボックスは「エージェントのコードがどこで実行されるか」を制御し、MCP トンネルは「アスロピックがネットワーク内の MCP サーバーにどのように到達するか」を制御するため、境界内に残す内容を正確に制御する能力を得ることができます。

image
image

*Claude Managed Agents の組み込み観測コンソールはすべてのイベントを記録するため、タイムラインを検索し、任意のステップを開いてその生ペイロードを読み取ることができます。*これらの機能に加え、成果物による自己評価(ルブリックに基づく)、マルチエージェントオーケストレーション、権限ポリシー、Webフックなどの追加機能も提供されています。詳しくは こちら をご覧ください。

現在のカスタマーによる Managed Agents の活用事例

業界を問わず、カスタマーはすでに Claude Managed Agents を用いて本番環境でエージェントを稼働させています。いくつかの具体例をご紹介します:

  • Notion は、Custom Agents を Managed Agents で実行しています。チームはタスクボードから直接 Claude に作業を割り当て、Claude が各タスクに関連するドキュメント、議事録、接続されたデータを取得し、完成したコード、プレゼン資料、ウェブサイトがレビュー用にワークスペースに戻ってきます。数十のタスクが並列で実行され、チームによると初期プロトタイプでは約 12 時間の作業を 20 分に短縮できたとのことです。
  • Rakuten は Managed Agents を活用し、製品、営業、マーケティング、財務の各分野に専門的なエージェントを、それぞれ約 1 週間以内に本番環境へ展開しました。
  • Sentry は、Seer デバッグエージェントとパッチ作成および PR(プルリクエスト)発行を行う Claude エージェントを組み合わせています。これは単一のエンジニアによって数週間で構築され、従来なら数ヶ月かかったものを大幅に短縮しました。
  • Asana はプロジェクト内のタスクを引き受ける AI Teammates を構築し、Atlassian は開発者エージェントを Jira のワークフローに組み込みました。

Claude Managed Agents の始め方

Managed Agents は、Claude Code と platform.claude.com 上の Claude Developer Console を通じてエージェントを可能な限り簡単に立ち上げられるように構築されました。例えば、Console のクイックスタート機能を使えば、エージェントテンプレートから始めるか、自然言語でエージェントの概要を記述するだけで、数分でセキュリティ設定とデプロイが完了する本番環境対応のエージェントを作成できます。

image
image

*platform.claude.com のエージェントクイックスタート:テンプレートから始めるか、構築したいものを記述します。*imageimage

*数ステップ後:エージェントが作成され、環境が設定され、セッションが稼働します。Console は実行中のプロセスをストリーミング表示します。*Claude Code では、/claude-api スキル がデフォルトで提供されており、Claude Managed Agents 上でアプリケーションを構築するための詳細かつ最新のリファレンス資料を Claude に提供します。Managed Agents アプリケーションの設定におけるベストプラクティスを活用するためにも、このスキルの利用を強く推奨します。新規の Managed Agent をゼロから設定するためのインタビュー形式のウォークスルーを開始するには、/claude-api managed-agents-onboard コマンドを実行してください。

image
image

管理型エージェントの構築における未来

チームが Managed Agents(管理型エージェント)と共に取り組んでいる内容を共有するにつれ、以前は生産インフラストラクチャに費やしていた時間が、今では彼らのエージェントを差別化する要素に回されていることがわかります。具体的には、コンテキストの管理やユーザーへの体験の調整です。新しいモデルが登場した際も、アーキテクチャそのものに手を加えることなく、エージェントを更新してそれを使用し、評価(evals)を再実行し、改善点をリリースできます。

あなたが何を作るのか、楽しみにしています。

Claude Managed Agents で始める*。*

*この記事は、Anthropic の Applied AI チームに所属する Gagan Bhat と Isabella He によって執筆されました。彼らは、Hema Thanki、Jess Yan、Molly Vorwerck の貢献に対して感謝の意を表します。*

原文を表示

Getting an agent into production takes more than a good prompt. The agent needs somewhere to run the code it writes, credentials to reach your data, observable sessions, and infrastructure that scales with usage. On the Applied AI team, we work at the intersection of product, research, and the customers building on Claude—and we see the same pattern repeatedly: infrastructure is what separates a prototype from a production agent. All too often, teams burn development cycles on security, state management, permissioning, and harness tuning.

Claude Managed Agents, our suite of composable APIs for building and deploying production-grade agents, pairs an agent harness tuned for performance with production infrastructure, allowing teams to go from prototype to launch in days rather than months. In this post, we'll cover the evolution of Anthropic’s agentic building blocks, why we built Claude Managed Agents, and how teams are using it in production today.

Evolving the agent architecture

When we opened up Claude to developers in 2023, the API was deliberately simple: tokens in, tokens out. You sent a prompt, Claude returned a completion, and you built the harness and underlying infrastructure.

The API grew steadily richer over the years, but the contract underneath never changed: one request, one model turn, and your application decides what happens next. For a long time, that was enough. Summarizing a document, classifying a support ticket, rewriting a block of text—the kind of work that fits comfortably in a single turn.

Over time, however, the tasks people wanted to hand off stopped fitting. They wanted Claude to carry a task all the way through, look something up, act on it, see what changed, and decide what to do next. And they wanted it to operate *in* the systems their work already ran on, like a codebase, internal wiki, or ticketing system.

With the API, turning Claude into an agent meant building your own loop: ask the model what to do, run the tool, feed the result back, and repeat. You were responsible for building and deploying the agent scaffolding, which may need tuning as models evolve. For agents that require full customization, this approach makes sense. For agentic workloads that are more predictable and less complex, optimizing harnesses as models and products evolved became tedious.

Claude Code, the agentic coding tool we launched in 2025 that lets Claude interact directly with your codebase, contained our own version of that harness: the loop, tool execution, subagents, context management, and rich capabilities that made it an effective agent. Developers naturally wanted similar harness machinery for their own agents across various domains.

To enable teams to build agents on top of the Claude Code harness, we released Claude Agent SDK. Claude Agent SDK gives developers tools to build their own agents on the same machinery that runs Claude Code instead of maintaining a homegrown loop. For a lot of teams, this is when agents became practical: the harness arrived already tuned for Claude with infrastructure primitives and it kept improving as Claude Code did.

Even with a harness, though, deploying agents in production environments can be challenging for several reasons:

  • Hosting and scaling. Where does the agent run, how long can a process stay alive for a multi-hour task, and what scales it when usage grows?
  • Session management. Where does an agent's history and progress live? Can a run survive an interruption and resume unencumbered? Can you go back and inspect what happened in previous sessions?
  • Filesystem management. Doing real work means producing artifacts: editing code, writing files, building outputs. Where does the agent get a workspace to act on, and what happens to that workspace between runs?
  • Execution isolation. The code Claude writes has to execute somewhere. What's the blast radius if it's wrong, and what boundary would you actually trust in production?
  • Credentials. The agent needs access to your systems. How does it get that access without exposing proprietary information to the code it generates?
  • Observability. When an agent works autonomously for an hour and does something surprising, can you reconstruct every step it took?

With the Agent SDK, many elements of the aforementioned production infrastructure are provided through Claude Code’s machinery. The agent gets a real filesystem to work in, session state is persisted locally or on external storage, and observability is exportable through OpenTelemetry into whatever monitoring stack you already run.

However, as teams increasingly built agents that moved out of local development into production, they needed a way to deploy them at scale and with managed infrastructure. And as models and their surrounding harnesses become more advanced–running longer, executing more code, touching more systems, and taking more actions– scaling, security, and sandboxing became more challenging.

Several of these hurdles stem from a common architectural choice: agent harnesses often run *inside the same container* as the filesystem it works on. A container has to spin up (paying a startup cost) before Claude can think, the agent along with code execution lives right next to your credentials, and when the container dies, the run dies with it.

Managed Agents solves these problems by decoupling the brain from the hands. The harness that calls Claude runs separately from the sandbox where code executes, and the session–an append-only log of every model call, tool call, and result–connects the two. Claude can start reasoning before any container exists, the sandbox stays far away from your credentials, and a whole run can be reconstructed from its session at any point.

When and why to use Claude Managed Agents

When building with Managed Agents, users define the task, the tools, and the guardrails, and Anthropic runs the agent on our infrastructure and handles the agentic loop underneath: how to give an agent an execution environment to call tools, how to recover when something fails, multi-agent orchestration, and more.

When the harness doesn’t evolve alongside model intelligence, the agent breaks down. On Claude Sonnet 4.5, an agent would rush to finish as it neared the end of its context, cutting work short rather than using the room it had left—a pattern called "context anxiety." Our fix was to add context resets to the harness, baking in an assumption that Claude needed help staying coherent near the limit. That assumption didn't survive the next model. On Claude Opus 4.5, the behavior was gone, and the resets we'd added were just overhead.

For most organizations, maintaining a harness is overhead that doesn't differentiate their product. Harnesses have to be tuned for certain model behaviors; primitives like compaction, tool execution, and caching works differently on Claude than other models. With Claude Managed Agents, the harness evolves alongside the model, allowing teams to focus on what will differentiate their agents: context management and domain expertise.

To enable developers to configure the context and tools necessary to build effective agents, Managed Agents is built around three primary resources: agents, environments, and sessions. An *agent* is a configuration: a model, a prompt, a set of tools, and the guardrails around them. An *environment* is the execution context the agent runs in: the sandbox container, its networking rules, and the packages pre-installed in it, hosted on our cloud or on infrastructure you control. Each run is a *session*, which pairs an agent with an environment and gets its own isolated sandbox instance. Sessions persist their full event history, sandbox state, and outputs server-side, so long-running work can pause, resume cleanly, and be traced step by step after the fact. With Managed Agents, you can define an agent and an environment once, then run many sessions against the same configuration as your workload grows.

.png)

Building for production and scale on Managed Agents

Within Applied AI, we see agents go from prototype to production both inside Anthropic and across our customers’ systems, across coding, finance, support, legal, and a dozen other domains. This gives us a clear view of what separates a demo from a production-ready agent and where teams often get stuck.

Below, we share the most common reasons to build on a managed service like Claude Managed Agents:

1. Credentials are kept out of the sandbox. When everything runs in one container, the code Claude generates sits right next to your credentials, so prompt injections could lead the model to leak a token by convincing the model to read its own environment. We can protect against this by setting up robust guardrails within the same container, but decoupling the architecture enables a much more secure approach by keeping credentials out of the sandbox entirely. Tokens for tools like MCPs, CLIs, and GitHub repos live in a separate vault, and a proxy fetches them and decrypts them only on demand. Managed Agents provides Vaults that handle credentials out-of-the-box, so you don’t need to run your own secret store, transmit tokens on every call, or lose track of which end user an agent acted on behalf of. Vault credentials are protected with envelope encryption before storage, and retrieval requires a signed request token for verification.

.png)

2. Lower latency from eliminated sandbox overhead. Latency is a metric that is top-of-mind for many enterprise teams, since users acutely feel when they’re waiting for Claude to respond. Without the Managed Agents architecture, a container has to be spun up for every session, even the ones where the agent only needs to think and never runs a tool. That setup time is wasted, and the user feels it as a delay before the first response. With Managed Agents, Claude begins reasoning immediately while the environment spins up in parallel, and sessions that never run a tool skip the container entirely. This means the user sees the first token without waiting on container startup, and the environment is ready by the time the agent needs to run something. In our testing, that cut the time-to-first-token by roughly 60% in the median case (p50) and by over 90% in the slowest cases (p95).

3. Reliable, persistent sessions that enable session management, observability, and memory. Instead of request/response, Managed Agents thinks in terms of *events. *A session is an ongoing stream of events: every model call, tool call, and result, are appended to a log that lives outside the process running the agent. With this architecture, you get real-time updates as events stream in while the agent works, and you can resume any session later with no database or save-points to manage. History is preserved between interactions unless you delete the session, and when a session goes idle its container is checkpointed so you can pick up cleanly from where it paused. And because the whole run is already a record of events, observability and memory come with it: the Claude Developer Console offers a native visual timeline view of your agent sessions, and a debugging experience that allows you to examine any transcript in-depth. Managed Agents also comes with features like Memory and Dreaming that also use this session durability. Dreaming is a scheduled process that reviews your agent sessions and memory stores, extracts patterns, and curates memories so your agents improve over time. Dreaming refines memory between sessions so that it can improve from recurring mistakes and user preferences by reading from the persistent session logs.

4. Flexibility in Anthropic-managed or self-hosted cloud containers. By default, with Managed Agents, you can delegate both orchestration and tool execution to Anthropic-managed cloud containers. This makes hosting and scaling simple and easy, delivering a faster path to production. Because the brain is decoupled from the hands in Managed Agents, the hands can live anywhere, including inside your Virtual Private Cloud (VPC). Thus, we also offer self-hosted sandboxes for teams that want control over tool execution, so the agent’s code, filesystem, and network egress never leave their environment. We also provide MCP tunnels, which let you connect Claude to Model Context Protocol (MCP) servers that run inside your private network. So self-hosted sandboxes control *where the agent’s code executes*, and MCP tunnels control *how Anthropic reaches MCP servers in your network*, giving you the ability to control exactly what stays inside your boundary.

The built-in observability console for Claude Managed Agents records every event, so you can scrub the timeline, open any step, and read its raw payload.
The built-in observability console for Claude Managed Agents records every event, so you can scrub the timeline, open any step, and read its raw payload.

Beyond these features, additional capabilities include outcomes that let an agent grade its own work against a rubric, multiagent orchestration, permission policies, and webhooks. Learn more here.

How customers are building on Managed Agents today

Across industries, customers are already shipping agents in production with Claude Managed Agents. Here are a few examples:

  • Notion runs its Custom Agents on Managed Agents: teams assign work to Claude straight from a task board, Claude picks up the docs, meeting notes, and connected data around each task, and the finished code, decks, and sites land back in the workspace for review. Dozens of tasks run in parallel, and their team has described an early prototype turning roughly twelve hours of work into twenty minutes.
  • Rakuten used Managed Agents to ship specialist agents across product, sales, marketing, and finance, each live within about a week.
  • Sentry paired its Seer debugging agent with a Claude agent that writes the patch and opens the PR, built in weeks instead of months by a single engineer.
  • Asana built AI Teammates that pick up tasks inside projects, and Atlassian put developer agents into Jira workflows.

Getting started with Claude Managed Agents

We built Managed Agents to make it as easy as possible to spin up agents through Claude Code and the Claude Developer Console at platform.claude.com. The Console’s quickstart, for example, lets you start from an agent template or describe an agent in plain language, then turn it into a production-ready agent you can secure and deploy in minutes.

The agent quickstart at platform.claude.com: start from a template or describe what you want to build.
The agent quickstart at platform.claude.com: start from a template or describe what you want to build.
A few steps later: the agent is created, the environment is configured, and a session is live. The console streams the run as it happens.
A few steps later: the agent is created, the environment is configured, and a session is live. The console streams the run as it happens.

In Claude Code, the /claude-api skillis provided by default and provides Claude with detailed, up-to-date reference material for building applications on Claude Managed Agents. We highly recommend that you utilize it for the best practices on setting up your Managed Agents application. Get started by running /claude-api managed-agents-onboard for an interview-driven walkthrough for setting up a new Managed Agent from scratch.

The future of building managed agents

As teams share what they’re building with Managed Agents, we see that the time they used to spend on production infrastructure now goes to what differentiates their agents: managing context and tailoring the experience to users. Now, when a new model comes out, you update your agent to use it, rerun your evals, and ship the improvement without touching the architecture underneath.

We’re excited to see what you build.

Get started* with Claude Managed Agents.*

*This article was written by Gagan Bhat and Isabella He, Members of Technical Staff on Anthropic’s Applied AI team. They'd like to thank Hema Thanki, Jess Yan, and Molly Vorwerck for their contributions.*

この記事をシェア

関連記事

Cloudflare Blog★42026年6月19日 02:59

独自の脆弱性ハーンを構築する

クラウドフレアは、最先端セキュリティモデルを企業コードベースに適用した「グラスウィング・プロジェクト」の初期調査結果を発表し、AI 脅威からインフラと顧客を守るための防御構造の適応について解説している。

The Verge AI★42026年6月18日 23:00

AI が危険と判断される基準を誰が決定するのか?

ザ・バージェの AI シニア記者ヘイデン・フィールドが出演し、アントロピック社の新モデル「Fable 5」やトランプ政権との関わりなど、AI の安全性に関する重大な議論について解説する。

The Zvi★42026年6月18日 22:35

AI #173:AIの一時停止

ホワイトハウスが輸出規制を課した結果、トランプ政権によりClaude Fable 5とClaude Mythos 5がシャットダウンされ、アンソロピック社がワシントンで政府と協議している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む