A harness for every task: dynamic workflows in Claude Code｜Claude Code における全タスク対応のハッチ：動的ワークフローの実装 | AIニュース最前線

先週、Claude Code で [動的ワークフロー](https://code.claude.com/docs/en/workflows) をリリースしました。これにより、Claude は現在、その場でタスクに合わせた独自のカスタム [ハネス](https://code.claude.com/docs/en/glossary#agentic-harness) を作成できるようになりました。 デフォルトの Claude Code ハネスはコーディング向けに設計されていますが、実際には多くのタスクがコーディングタスクと類似しているため、他の多くの種類のタスクにも有用です。ただし、[リサーチ](https://support.claude.com/en/articles/11088861-using-research-on-claude)、[セキュリティ分析](https://support.claude.com/en/articles/11932705-automated-security-reviews-in-claude-code)、[エージェントチーム](https://code.claude.com/docs/en/agent-teams)、または [コードレビュー](https://code.claude.com/docs/en/code-review) のように、最高パフォーマンスを達成するために Claude Code 上にカスタムハネスを構築する必要のある特定のタスククラスも存在します。 ワークフローを使用すると、Claude がこれらの問題をよりネイティブに解決できるようにする、Claude Code を基盤とした動的なハネスを作成できます。また、これらのワークフローを他者と共有・再利用することも可能です。 この記事では、私が得た初期のワークフロー体験と教訓について取り上げますので、最大限に活用していただけるよう努めます。ベストプラクティスはまだ発展途上であることを念頭に置いてください：動的ワークフローは多くのトークンを消費する傾向があり、複雑で価値の高いタスクに最も適しています。 ## 例示プロンプト 技術的な詳細に踏み込む前に、ワークフローの可能性について考えていただくために、いくつかの例示プロンプトを紹介しましょう： 「このテストは約 50 回の実行に 1 回の割合で失敗します。これを再現するためのワークフローを設定してください。競合する仮説を複数立て、証拠によって一つの仮説が生き残るまで決して止めないでください。」 「ワークフローを使用して、過去 50 セッションをすべて確認し、私が繰り返し行っている修正点を抽出して、頻繁に発生するものを CLAUDE.md ルールとして定式化してください」 「ワークフローを使用して、過去 6 ヶ月間の Slack の #incidents チャンネルを検索し、誰もチケットを提出していないような再発する根本原因を見つけてください。」 「私のビジネスプランを持ってきて、投資家、顧客、競合他社のそれぞれの視点から異なるエージェントがそれを徹底的に分析・批判するワークフローを実行してください。」 「ここに 80 枚の履歴書が入ったフォルダがあります。バックエンド職種の採用に向けてワークフローでランク付けを行い、上位 10 件をダブルチェックしてください。AskUserQuestion ツールを使用して、評価基準に基づいて私に面接を行ってください。」 「この CLI ツールの名前が必要です。ワークフローを使って多数の候補名をブレインストーミングし、トーナメント方式で上位 3 つを選出してください。」 「ワークフローを使用して、私たちの User モデルという名称を、あらゆる場所で Account にリネームしてください。」 「私のブログ記事の下書きを確認し、ワークフローを利用してコードベースと照合してすべての技術的主張を検証してください。間違ったものを公開したくありません。」 ## ダイナミックワークフローの仕組み ダイナミックワークフローは、サブエージェント [subagents](https://code.claude.com/docs/en/sub-agents) の生成と調整を支援するいくつかの特殊関数を含む JavaScript ファイルを実行します： ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f1684f559cc83ff4b465b_image1.png) 動的ワークフローには、データを処理するために役立つ JSON、Math、Array などの標準的な JavaScript 関数も含まれています。 エージェントがどのモデルを使用するかや、サブエージェントを独自の worktree で実行するかどうかを動的ワークフローが決定できることは特に有用です。これにより、Claude は必要な知能レベルと分離性を自ら選択することが可能になります。 例えば、ユーザーの操作やターミナルの終了によってワークフローが中断された場合でも、セッションを再開することで、ワークフローは中断された場所から継続して実行されます。 ## 動的ワークフローが必要な理由 デフォルトの Claude Code ハーネスにタスクの実行を依頼すると、そのコンテキストウィンドウ内で計画と実行の両方を行う必要があります。多くのコーディングタスクにおいてはこれが非常に効果的ですが、長時間実行されるものや、大規模な並列処理が行われるもの、高度に構造化されているもの、あるいは敵対的な性質を持つタスクでは機能しなくなることがあります。 その理由は、Claude が単一のコンテキストウィンドウ内で複雑なタスクに取り組む時間が長くなるほど、特定のいくつかの失敗モードに対して脆弱になるからです。 - エージェントの怠惰とは、Claude が特に複雑で多段階のタスクを完了する前に停止し、部分的な進捗（例えばセキュリティレビューの 50 項目のうち 35 項目への対応など）だけで作業完了と宣言してしまう現象を指します。 - 自己優遇バイアスとは、Claude がルブリックに対して自身の結果や発見を検証・評価するよう求められた際、それらを優先しようとする傾向を指します。 - ゴールドリフトとは、多くのターンにわたって、特にコンパクション（圧縮）の後などに、元の目的に対する忠実度が徐々に失われる現象を指します。各要約ステップは情報損失を伴うため、エッジケースの要件や「X を行わない」といった制約などの詳細情報が失われてしまう可能性があります。 これらの課題に対抗するためには、それぞれ独自のコンテキストウィンドウと焦点を絞った孤立した目標を持つ、複数の Claude サブエージェントをオーケストレーションするワークフローを作成することが有効です。 ## 動的ワークフローと静的ワークフロー 以前、Claude Agent SDK や `claude -p` を使用して、複数の Claude Code インスタンスを協調させるための静的なワークフローを作成したことがあるかもしれません。 しかし、静的なワークフローはあらゆるエッジケースに対応する必要があるため、通常はより汎用的なものになりがちです。[Claude Opus 4.8](https://www.anthropic.com/news/claude-opus-4-8) と動的ワークフローを活用することで、Claude は現在、ユースケースに特化したカスタムハネス（枠組み）を自ら作成できる十分な知能を獲得しました。 ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f3a0e17e2844bed86f22a_image9.png) ## ダイナミック・ワークフローを使用する際の便利なパターン Claude に作成を依頼するか、トリガーワード「ultracode」を使用して Claude Code がワークフローを作成するように指示することで、すぐにダイナミック・ワークフローの使用を開始できます。 しかし、ダイナミック・ワークフローがどのように機能するかというメンタルモデル（心的モデル）を構築しておくことは、いつそれを使用すべきか、またプロンプトを通じて Claude にどのような働きかけができるかを理解する上で役立ちます。 Claude はワークフローを構築する際に、いくつかの一般的なパターンを組み合わせて使用することがあります： ![image](https://cdn.prod.website.com/68a44d4040f98a4adf2207b6/6a1f16d86247e586b929a407_image10.png) ## 分類して実行（Classify-and-act） タスクの種類を決定するために分類器エージェントを使用し、タスクに応じて異なるエージェントや行動へルーティングします。あるいは、出力を決定するために末尾に分類器を使用することもできます。 ## 分散して統合（Fan-out-and-synthesize） タスクを多数の小さなステップに分割し、各ステップでエージェントを実行した後に、それらの結果を統合します。これは、小さなステップが非常に多い場合や、各ステップが独自のクリーンなコンテキストウィンドウ（文脈窓）の恩恵を受けて干渉したり相互汚染されたりしないようにする場合に特に有用です。統合ステップはバリアーとして機能し、すべての分散エージェントの実行を待ってから、それらの構造化された出力を一つの結果にマージします。 ## 敵対的検証（Adversarial verification） 生成された各エージェントに対して、別の生成されたエージェントを実行して、その出力がルブリックや基準に対して敵対的に検証されるようにします。 ## Generate-and-filter トピックについて複数のアイデアを生成し、その後評価基準や検証によってフィルタリングして重複を除き、最高品質でテスト済みのアイデアのみを返します。 ## Tournament 作業を分割するのではなく、エージェント同士に競争させます。N 個のエージェントを起動し、それぞれが異なるアプローチを使って同じタスクに挑戦させます。その後、判定用エージェントを用いてペアごとの比較方式でプロンプトやモデルが結果を評価し、勝者が決まるまで続けます。 ## Loop until done 作業量が未知のタスクの場合、固定された回数ではなく、停止条件（新たな発見がない場合、またはログにエラーが残っていない場合）を満たすまでエージェントを起動し続けるループを実行します。 ## Use cases Claude Code に動的ワークフローを要求するタイミングと方法を創造的に考えてください。私は、ワークフローが非技術的な作業においても、むしろさらに有用であることに気づきました。 ## Migrations and refactors [Bun](https://bun.com/) は、ワークフローを用いて Zig から Rust へ書き換えられました。そのプロセスの詳細については、[Jarred の X スレッド](https://x.com/jarredsumner/status/2060050578026189172)をお読みください。 鍵となるのは、呼び出し元サイト、失敗するテスト、モジュールなど、操作が必要な一連のステップにタスクを分解することです。各修正に対してワークツリー内でサブエージェントを起動して修正を行い、別のエージェントが敵対的にレビューし、マージさせます。リソース集約型のコマンドの使用を避けるようエージェントに指示することで、マシン上のリソース不足を防ぎつつ最大限の並列化を実現できることを考慮してください。 ## Deep research Claude Code 内に、動的ワークフローを活用した「深層調査」スキル（/deep-research）を公開しました。具体的には、ウェブ検索を広範囲に実行し、ソースを取得し、それらの主張に対して敵対的な検証を行い、引用付きのレポートを合成します。 しかし、このような調査はウェブ検索のためだけに行うものではありません。例えば、Slack のコンテキストからステータスレポートをまとめさせたり、コードベースを深く探索することで機能の仕組みを調査したりする際にも活用できます。 ## Deep verification ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f1721824a27cf13da87f4_image2.png) 一方、レポート内のすべての事実上の主張について確認と出典の特定を行いたい場合、一つのエージェントがすべての事実上の主張を特定し、その後サブエージェントを生成してそれぞれを詳細に検証するワークフローを生成することを検討してください。また、検証用エージェントがソース取得用のサブエージェントをチェックし、そのソースが高品質であることを保証させることも可能です。 ## Sorting ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f173ce727a972001584cc_image3.png) Claude Code が評価に優れていると考える定性的な測定基準に基づいて、ソートしたいアイテムのリストがあるかもしれません。例えば、バグの深刻度でソートされたサポートチケットなどです。しかし、1 つのプロンプトで 1000 行以上のデータをソートしようとすると、品質が低下し、コンテキストに収まらなくなります。代わりに、トーナメント方式を実行するか、ペア比較を行うエージェントのパイプライン（絶対的なスコアリングよりも比較判断の方が信頼性が高い）を並列実行してバケットランク付けを行い、その後マージします。各比較は独立したエージェントとして機能するため、決定論的なループがブレイクダウン（対戦表）を管理し、コンテキスト内に残るのは進行中の順序のみとなります。 ## メモリとルール遵守 ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f17517076bb59050d90bb_image8.png) Claude が見落としがち、あるいは CLAUDE.mds に記載しても苦労する特定のルールセットがある場合、検証エージェントがチェックしなければならないルールのリストを含むワークフローを作成してください。ルールは 1 つにつき 1 つの検証エージェントを担当させます。ルールが整合しているかを確認するために懐疑的なペルソナを持つサブエージェントを作成することで、偽陽性（false positives）を減らすのに役立ちます。 逆方向も同様です。最近のセッションやコードレビューコメントから修正内容を抽出し、並列エージェントでクラスタリングします。その後、敵対的検証（このルールがあれば実際のミスを防げたか？）を行い、生き残ったルールを CLAUDE.md に再統合します。 ## 根本原因調査 デバッグは、複数の独立した仮説を立ててそれらを検証する際に最も効果的ですが、コンテキストウィンドウが1つしかない場合、Claude は自己選好バイアスに陥る可能性があります。 この問題を構造的に防ぐために、ワークフローでは不連続な証拠から仮説を生成するためのエージェントを起動することができます。例えば、ログ用、ファイル用、データ用のそれぞれ独立したエージェントを用意します。その後、各仮説は検証者および反証者のパネルによって審査されます。 これはコードに限った話ではありません。ワークフローは、販売（なぜ3 月の売上が落ちたのか？）、データエンジニアリング（なぜこのパイプラインが失敗したのか？）、あるいは事後分析（ポストモーテム）のあらゆる場面で活用できます。 ## スケール対応のトリアージ ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f1778dc00d34cca70819d_image6.png) すべてのチームには、人間が完全に処理しきれないサポートキューやバグレポート、あるいはその他のバックログが存在します。 トリアージワークフローは各項目を分類し、既に追跡されている内容との重複を除き、適切なアクションを実行します。これには、修正を試みるか、または人間のユーザーにエスカレートすることが含まれます。 トリアージワークフローで有用なパターンとして「隔離（クォランティーン）」があります。これは、信頼できない公開コンテンツを読み取るエージェントに対して、高権限のアクションを実行することを禁止し、その代わりに情報を元に行動する担当のエージェントがそれらのアクションを行うという仕組みです。 Claude にこれを継続的に実行させるには、トリアージワークフローを /loop コマンドと組み合わせて使用してください。 ## 探索と審美性 ワークフローは、解決策の異なるアプローチを探索する際に有用です。特にデザインや命名のように審美性が関与し、評価基準（ルブリック）から恩恵を受けるような場合です。 Claude にさまざまな解決策を探索させるよう依頼し、良い解決策がどのようなものかを示す評価基準（ルブリック）をレビューエージェントに与えてみてください。タスクは、レビューエージェントが基準を満たしたと感じた時点で完了となります。また、解決策は評価基準（ルブリック）に基づくトーナメントを通じて順序付けたり選択したりすることもできます。 ## 評価（Evals） 特定のタスクに対して、ワークツリー内で別個のエージェントを起動し、さらに比較エージェントを起動して、特定の出力を評価基準（ルブリック）に基づいて比較・採点することで、軽量な評価（evals）を実行できます。例えば、作成したスキルを特定の基準に対して評価し、その後改善するといったケースです。 ## モデルおよびインテリジェンスのルーティング タスクに最適化された分類エージェントを作成し、どのモデルを使用するかを決定させます。これは、タスクで多くのツール呼び出しが必要となる場合や、実行前に調査を行うことで最適なモデルを特定できる場合に役立ちます。 例えば、「認証モジュールがどのように動作するか説明する」というタスクにおいて最適なモデルは、認証モジュール内のファイル数やコードベースの構造に依存します。分類エージェントはこの調査を行い、タスクの予想される複雑度に基づいて Sonnet または Opus へルーティングすることができます。 ## 動的ワークフローを使用すべきでない場合 ワークフローは新しい機能です。多くのユースケースで大きな成果を生み出す可能性がありますが、すべてのタスクに必要というわけではなく、場合によっては著しく多くのトークンを消費する結果になることもあります。 Claude Code を以前とは異なる方法で活用するために、ワークフローを創造的に使用するのが最善です。通常のコーディングタスクについては、自問してみてください：本当に追加の計算リソースが必要なのか？例えば、従来のコーディングタスクの多くは、5 人のレビューアーによるパネルを必要としません。 ## 動的ワークフロー構築のためのヒント ## プロンプト 動的ワークフローにおいては、上記で説明した特定のテクニックを用いた詳細なプロンプトが、最も良い結果をもたらします。 ワークフローは大規模タスク専用のものではありません。モデルに「クイックワークフロー」を使用するようプロンプトすることも可能です。例えば、仮定に対する迅速な対立レビューを作成することもできます。 ## /goal および /loop との組み合わせ 繰り返し可能なワークフロー（例：トリアージ、調査、検証）を使用する場合は、定期的に実行するために /loop と組み合わせて使用し、確実な完了要件を設定するために /goal を併用してください。 ## トークン使用量の予算管理 動的ワークフローに対して明示的なトークン使用量予算を設定することで、タスクが使用するトークンの数を制限できます。プロンプトで「10k トークンを使用する」といったように予算を指定し、上限を設定することができます。 ## 動的ワークフローの保存と共有 ワークフローメニューで「s」キーを押すことで、ワークフローを保存できます。これらのワークフローは ~/.claude/workflows にチェックイン（格納）したり、スキルとして配布したりすることが可能です。 ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f17b1ca20533e666c867c_image4.png) スキルを通じて共有するには、JavaScript のワークフローファイルをスキルのフォルダに配置し、[SKILL.MD](http://skill.md/) で参照してください。より柔軟性を確保するために、Claude に、スキル内のワークフローを実行するスクリプトとして厳密に実行されるものではなく、テンプレートとして扱うようプロンプトを与えることをお勧めします。 ![image](https://cdn.prod.website-files.com/68a44d4040f98a4adf2207b6/6a1f17cb835cf4f9fd5da921_image7.png) ## 発見のための新たな出発点 ワークフローは、Claude Code を拡張するための有用な新しい方法です。これらを、Claude を活用してタスクを達成する新たな方法を探索するための出発点として捉えるようお勧めします。最適な使用方法については、まだ多くの発見の余地があります。見つけたことをぜひ教えてください。 *この記事は、Anthropic の技術スタッフであり Claude Code に取り組んでいる Thariq Shihipar と Sid Bidasaria によって執筆されました。*

Claude Code における全タスク対応のハッチ：動的ワークフローの実装

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する

調べる

選ぶ

サイト