Claude マネージドエージェントの新機能:夢想、成果指向、マルチエージェント調整
Anthropic は Claude Managed Agents に「Dreaming」と呼ばれる自己改善機能と、成果物評価を自動化する「Outcomes」機能を追加し、複雑なタスクにおけるエージェントの自律性を大幅に高めた。
キーポイント
Dreaming(夢見)機能の導入
過去のセッションやメモリを定期的にレビューしてパターンを抽出し、エージェントが自らの記憶を構造化・洗練させることで、長期的な学習と自己改善を実現するスケジュールプロセス。
Outcomes(成果)による自己修正
成功の基準となるルブリックを定義し、エージェントとは独立したグラダーが出力を検証してフィードバックを与える仕組みにより、人間の介入なしに品質基準を満たすまで自動で再試行を行う。
マルチエージェント連携の強化
Dreaming と Outcomes の組み合わせにより、チーム全体での共通の学習やワークフローの収束を可視化し、複雑なタスク処理における最小限のステアリング(制御)を実現する。
影響分析・編集コメントを表示
影響分析
この発表は、AI エージェントが単なるタスク実行から「自律的に学習・改善するシステム」へと進化するための決定的なステップを示しています。特に、外部評価者(グラダー)を介した自己修正メカニズムと、履歴データからのパターン抽出による記憶の最適化は、実務環境での複雑なワークフロー自動化における信頼性とスケーラビリティを劇的に向上させる可能性があります。
編集コメント
「Dreaming」という名前の通り、エージェントが睡眠中に記憶を整理・再構築するイメージは直感的で、自律型 AI の進化方向性をよく表しています。実務レベルでの自己修正能力の確立により、今後はより高度なビジネスプロセスへの完全自動化導入が進むと予想されます。
本日、Claude Managed Agents の研究プレビューとして「Dreaming(夢見)」機能をリリースします。Dreaming は過去のセッションをレビューしてパターンを見つけ、エージェントが自己改善できるよう支援することで、メモリの機能を拡張するものです。また、Managed Agents を活用して開発を行う開発者向けに、アウトカム(outcomes)、マルチエージェントオーケストレーション、および Webhooks の利用も可能になりました。これらの更新により、最小限の操作で複雑なタスクを処理できる能力がエージェントにさらに付与されます。
Dreaming で自己改善型エージェントを構築する
Dreaming は、エージェントのセッションとメモリストアを定期的にレビューし、パターンを抽出して記憶を整理することで、時間とともにエージェントが向上するためのスケジュールされたプロセスです。制御の程度はユーザーが決定できます:Dreaming は自動的にメモリを更新することも可能ですが、変更が適用される前にユーザーが確認することもできます。

Dreaming は、単一のエージェントでは見つけることができないパターンを浮き彫りにします。これには、繰り返しのミスの特定、エージェントが収束するワークフロー、チーム全体で共有される嗜好などが含まれます。また、進化しても高信号(high-signal)の記憶を保つためにメモリ構造を再構築します。これは、長時間実行されるタスクやマルチエージェントオーケストレーションにおいて特に有用です。
記憶と夢想は、自己改善型エージェントのための堅牢な記憶システムを形成します。記憶により、各エージェントは作業中に学習した内容を捕捉できます。一方、夢想はセッション間にその記憶を洗練させ、共有された教訓をエージェント間で引き出し、常に最新の状態に保ちます。
夢想機能は、Claude Platform の Managed Agents で利用可能です。開発者は こちら からアクセスをリクエストできます。
より良い成果を実現する
アウトカム(outcomes) を使用すると、成功の基準となるルブリック(評価基準)を記述し、エージェントがその目標に向かって作業を行います。出力は、エージェントの推論に影響されない独自のコンテキストウィンドウ内で、別のグラダー(評価者)があなたの基準に対して評価します。何かが適切でない場合、グラダーは変更すべき箇所を特定し、エージェントは再度試行します。
エージェントは、「良い」という状態がどのようなものかを理解しているときに、最も優れた成果を出せます。例えば、構造的なフレームワークやプレゼンテーションの標準、あるいは満たす必要がある要件のセットなどが該当します。アウトカムを使用することで、エージェントはその基準に対して自身の作業をチェックし、人間が各試行をレビューする必要なく、出力が十分になるまで自己修正を行います。
Outcomes は、細部への注意と網羅的なカバレッジが必要なタスクにおいて特に有用です。また、コピーがブランドボイスに合致しているか、デザインがビジュアルガイドラインに従っているかなど、主観的な品質の評価にも機能します。テストでは、標準的なプロンプトライプと比較してタスクの成功率が最大 10 ポイント向上し、最も困難な問題において最大の改善が見られました。Outcomes はファイル生成の質も向上させ、内部ベンチマークでは docx でタスク成功率が +8.4%、pptx では +10.1% 向上しました。
また、Outcome を定義してエージェントを実行し、完了時に Webhook 経由で通知を受け取ることも可能になりました。
マルチエージェントオーケストレーションで複雑なタスクを処理する
単一のエージェントでは対応が難しいほど多くの作業が必要な場合、マルチエージェントオーケストレーション を使用すると、リードエージェントが仕事を細分化し、それぞれに独自のモデル、プロンプト、ツールを持つ専門のエージェント(サブエージェント)へ委任できます。例えば、リードエージェントは調査を実行する一方で、サブエージェントはデプロイ履歴、エラーログ、メトリクス、サポートチケットなどへと分散して作業を進めます。
これらの専門家は共有ファイルシステム上で並列に動作し、リードエージェントの全体的な文脈に貢献します。リードエージェントは、イベントが永続的であり、すべてのエージェントが自身の行動を記憶しているため、ワークフローの途中で他のエージェントと再度連携することができます。また、Claude Console では、どのエージェントが何を、どのような順序で、なぜ行ったのかという各ステップを追跡でき、タスクがどのように委任され実行されたかについて完全な可視性を提供します。

チームが構築しているもの
チームは、ドリーミング(Dreaming)、アウトカム(Outcomes)、マルチエージェントオーケストレーションを活用して、自身の作業を検証し、セッション間で学習し、複雑なジョブを並列化できるエージェントをリリースしています:
- Harvey は、Managed Agents を用いて、長文のドラフト作成やドキュメント作成といった複雑な法的業務を調整しています。"dreaming"(夢見機能)により、エージェントはセッション間で学習した内容を記憶し、ファイル形式の回避策やツール固有のパターンも保持します。テストでは完了率が約 6 倍向上しました。
- Netflix のプラットフォームチームは、異なるソースからの数百ビルドのログを処理する分析エージェントを構築しました。数千ものアプリケーションに影響を与える変更において重要なのは、それらの多くで再発する問題を見つけることです。マルチエージェントオーケストレーションにより、エージェントはバッチを並列に分析し、アクションを起こす価値のあるパターンのみを浮き彫りにします。
- Every の Spiral は、新しい API および CLI 背後のライティングエージェントを駆動するために、マルチエージェントオーケストレーションとアウトカム(成果指標)を活用しています。リードエージェントは Haiku で実行され、 incoming リクエストを受け付け、必要に応じて迅速なフォローアップ質問を行い、その後ドラフト作成を Opus で動作するサブエージェントに委任します。ユーザーが複数のドラフトを要求した場合、サブエージェントは並列で実行されます。ライティングの質は Spiral の中核的価値であるため、アウトカムを用いてそれを強制しています。各ドラフトは、Every の編集原則とユーザーの声(どちらもメモリから取得)に基づく評価基準に対してスコアリングされ、基準を満たしたもののみが返却されます。
- Wisedocs は Managed Agents 上にドキュメント品質チェックエージェントを構築し、アウトカムを用いて各レビューを社内ガイドラインに基づいて採点しています。レビューはチームの基準と整合性を保ちながら、現在 50% 高速化されています。
image
image
始め方
「Dreaming(ドリーミング)」機能は研究プレビュー版として利用可能で、「Managed Agents(マネージドエージェント)」の一部として、アウトカム機能とマルチエージェントオーケストレーション、メモリ機能はパブリックベータ版として提供されています。Dreaming の利用を開始するには、こちらからアクセスリクエストを行ってください。詳細については ドキュメント をご覧ください。または、Claude Console にて最初のエージェントをデプロイすることも可能です。
見つかったアイテムはありません。
原文を表示
Today we're launching dreaming in Claude Managed Agents as a research preview. Dreaming extends memory by reviewing past sessions to find patterns and help agents self-improve. We're also making outcomes, multiagent orchestration, and webhooks available to developers building with Managed Agents. Together, these updates make agents more capable at handling complex tasks with minimal steering.
Build self-improving agents with dreaming
Dreaming is a scheduled process that reviews your agent sessions and memory stores, extracts patterns, and curates memories so your agents improve over time. You decide how much control you want: dreaming can update memory automatically, or you can review changes before they land.

Dreaming surfaces patterns that a single agent can’t see on its own, including recurring mistakes, workflows that agents converge on, and preferences shared across a team. It also restructures memory so it stays high-signal as it evolves. This is especially useful for long-running work and multiagent orchestration.
Together, memory and dreaming form a robust memory system for self-improving agents. Memory lets each agent capture what it learns *as it works*. Dreaming refines that memory *between sessions*, pulling shared learnings across agents and keeping it up-to-date.
Dreaming is available in Managed Agents on the Claude Platform; developers can request access here.
Deliver better outcomes
With outcomes, you write a rubric describing what success looks like and the agent works toward it. A separate grader evaluates the output against your criteria in its own context window, so it isn't influenced by the agent's reasoning. When something isn't right, the grader pinpoints what needs to change and the agent takes another pass.
Agents do their best work when they know what "good" looks like. For example, a structural framework, a presentation standard, or a set of requirements that need to be met. With outcomes, agents can check their work against that bar and self-correct until the output is good enough, without a human needing to review each attempt.
Outcomes is particularly useful for tasks that require attention to detail and exhaustive coverage. It also works for subjective quality, like whether copy matches a brand voice or a design follows visual guidelines. In testing, outcomes improved task success by up to 10 points over a standard prompting loop, with the largest gains on the hardest problems. Outcomes also improved file generation quality, with +8.4% task success on docx and +10.1% on pptx in our internal benchmarks.
You can also now define an outcome, let the agent run, and get notified by a webhook when it's done.
Handle complex tasks with multiple agents
When there is too much work for a single agent to do well, multiagent orchestration lets a lead agent break the job into pieces and delegate each one to a specialist with its own model, prompt, and tools. For example, a lead agent can run an investigation while subagents fan out through deploy history, error logs, metrics, and support tickets.
These specialists work in parallel on a shared filesystem and contribute to the lead agent's overall context. The lead agent can check back in with other agents mid-workflow because events are persistent and every agent remembers what it's done. You can also trace every step in the Claude Console: which agent did what, in what order, and why, giving you full visibility into how your task was delegated and executed.

What teams are building
Teams are using dreaming, outcomes, and multiagent orchestration to ship agents that verify their own work, learn across sessions, and parallelize complex jobs:
- Harvey uses Managed Agents to coordinate complex legal work like long-form drafting and document creation. With dreaming, their agents remember what they learned between sessions, including filetype workarounds and tool-specific patterns. Completion rates went up ~6x in their tests.
- Netflix's platform team built an analysis agent that processes logs from hundreds of builds across different sources. With changes that affect thousands of applications, what matters is finding the issues that recur across many of them. Multiagent orchestration lets the agent analyze batches in parallel and surface only the patterns worth acting on.
- Spiral by Every is using multiagent orchestration and outcomes to power the writing agent behind their new API and CLI. The lead agent runs on Haiku: it fields incoming requests, poses quick follow-up questions when needed, then delegates the drafting to subagents running on Opus. When a user asks for multiple drafts, the subagents run in parallel. Writing quality is Spiral's core value, so they use outcomes to enforce it. Each draft is scored against a rubric of Every's editorial principles and the user's voice, both pulled from memory. Only drafts that clear the bar are returned.
- Wisedocs built a document quality check agent on Managed Agents, using outcomes to grade each review against their internal guidelines. Reviews now run 50% faster, while staying aligned with their team's standards.
eBook
Getting started
Dreaming is available in research preview, outcomes, multiagent orchestration, and memory are available in public beta as part of Managed Agents. To get started with dreaming, request access here. Explore our documentation to learn more or visit the Claude Console to deploy your first agent.
No items found.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み