Better Harness: A Recipe for Harness Hill-Climbing with Evals｜Better Harness: 評価を用いたハーネス山登り法のレシピ | AIニュース最前線

![image](https://storage.ghost.io/c/97/88/97889716-a759-46f4-b63f-4f5c46a13333/content/images/2026/04/74--2-.png)By Vivek Trivedy, Product Manager @ LangChain  TL;DR: より優れたハーネスを構築することで、より優れたエージェントを構築できます。しかし、「より優れた」ハーネスを自律的に構築するには、「山登り法」を行うための強力な学習信号が必要です。本稿では、評価をその信号として活用する方法と、エージェントが過学習ではなく一般化することを助ける設計判断を共有します。Better-Harnessは、評価を用いてハーネスを反復的に調達・改善するシステムです。 評価はエージェントのトレーニングデータである 古典的な機械学習では、トレーニングデータがモデルの学習プロセスを導きます。各トレーニング例は勾配を提供し、モデルの重みを「正しさ」に向けて更新します。エージェントにも同様の学習ループがあります。 ![image](https://storage.ghost.io/c/97/88/97889716-a759-46f4-b63f-4f5c46a13333/content/images/2026/04/langchain_ml_vs_agent_loops_dark-1--1-.png)評価は、エージェントに本番環境で示してほしい振る舞いを符号化します。それらはハーネスエンジニアリングの「トレーニングデータ」です。各評価ケースは、「エージェントが正しいアクションを取ったか」や「正しい結果を生み出したか」といった信号を提供します。その信号が、ハーネスに対する次の提案編集を導きます。 モデルトレーニングのためにデータ品質とキュレーションに注ぐのと同じ厳密さと注意が、評価設計にも注がれるべきです。私たちは以前の投稿で、Deep Agents向けに評価を構築する方法とデータ品質の重要性について論じました。 最近の優れた研究には、スタンフォード大学のMeta-HarnessやDeepMindのAuto-Harnessなど、ハーネスを最適化する手順を形式化したものがあります。私たちも以前、ハーネス層を調整するだけでTerminal Bench 2.0を山登りするHarness Improvement Loopを共有しました。更新アルゴリズム自体に関する将来の優れた研究がなされると考えますが、ハーネス改善は更新アルゴリズムを超えた複合システムであり、本稿で扱うのはその点です。 Better-Harnessは複合システムエンジニアリングへの一つの取り組みです。 データ調達 → 実験設計 —> 最適化 —> レビュー & 承認 したがって、更新ループに加えて、評価をどのように調達するか、過学習を防ぐためにどのように設計するか、時間とともにトレースを保存するか、本番環境にリリースするものを健全性チェックするために更新を手動でレビューするかといった実用的な詳細を含めます。 優れた評価の調達 評価はハーネス山登りプロセスを駆動する基盤です。以下は、評価を調達、キュレーション、使用する実用的な方法です。 手作業によるキュレーション。任意のタスクに対して、チームはエージェントが本番環境で行うべきだと思うことを捉えた例を手動で作成します。これらはしばしば高価値ですが、大規模に生成するのは困難です。 本番環境トレース。すべてのエージェントインタラクションはトレースを生成し、失敗は評価ケースになります。評価材料のためにトレースをマイニングすることは、時間とともに評価を改善するレバレッジの高い、高スループットの方法です。評価に対してエージェントを実行する前でさえ、私たちのエージェントをドッグフーディングするチームが、トレースリンク付きで直接Slackにエラーを報告することがよくあります。エージェントをドッグフーディングし、全員が見られるように直接フィードバックを共有することをお勧めします。それはエージェントの振る舞いに関する共通理解を構築するのに役立ちます。 外部データセット。これらのデータセットは有用ですが、エージェントを改善するために使用されるテストケースが望ましい振る舞いを反映していることを確認するために、手動でキュレーションする必要があります。多くの場合、各タスクは重要な振る舞いを測定できるように調整されます。 すべてにタグ付け。すべての評価に振る舞いカテゴリのタグを付けます：「ツール選択」、「多段階推論」など。タグは意味のあるホールドアウトセットとターゲット実験を可能にします。また、評価のサブセットを実行できるため、多くのコストを節約します。 一般化する学習システムの構築 あらゆる学習システムの理想的な結果は一般化です。私たちは、実際の環境で望む振る舞いの分布を捉えた入力信号を与えます。システムはそれに適合し、それから見たことのない新しい入力に対して「ちょうどうまく」動作します。 明らかな問題：私たちには無制限のデータがありません。 解決策：重要な振る舞いをキュレーションされた評価に符号化します。量より質、あなたが気にする振る舞いをカバーする、よくタグ付けされた小さな評価セットは、数千のノイズの多い高カバレッジの評価に勝ります。 微妙な問題 → エージェントは有名な「チーター」です：あらゆる学習システムは、エージェントが既存の評価を通過させるためにその構造を過学習させる「報酬ハッキング」に陥りやすいです。これは理にかなっています。なぜならループはただ「数字を上げたい」だけで、一般化について知らないからです。私たちは過学習を避けるように促しますが、それは完璧ではありません。 解決策：ホールドアウトセットが真の一般化の代理になります。私たちは人間のレビューを第二の信号として組み合わせ、半自動システムがスコアを改善しながら、本番環境で望まない振る舞いを避けることができるアプローチを目にしてきました。 Better-Harness: ハーネスを山登りするレシピ 私たちは、各ステップで信号として評価を使用してハーネスを自律的に改善するためのスキャフォールドを作成しました。研究バージョンはここでオープンソース化されています。主なステップは以下の通りです： 評価を調達してタグ付け。これは手書き評価、本番環境トレースからのマイニング、外部データセットの使用/適応の組み合わせです。各評価に振る舞いカテゴリ（多段階検索など）のタグを付け、飽和した評価やエージェント＋現在のモデル世代にとって有用でなくなった評価を定期的に削除します。 カテゴリごとにデータを分割。最適化セットとホールドアウトセットを作成。これは非常に重要です！自律的山登りはタスクに過学習する傾向があるため、ホールドアウトセットは学習された最適化が未見のデータでも機能することを保証します（ただし、一般的な分布は既存の評価と一致すべきです）。これは本番環境がどのようになるかを反映しています。 ベースラインを実行。編集前の最適化セットとホールドアウトセットでベースライン実験を実行します。これにより、すべての更新が更新ステップにおいて基礎付けられます。 最適化。各イテレーションはオプションの人間レビュー付きで自律的に実行されます： * トレースから診断。スコアはカテゴリ全体のパフォーマンスを集約し、その後トレースは何がなぜうまくいかなかったかの詳細を示します。 * ターゲットを絞ったハーネス変更を実験。交絡を避けるために一度に一つの変更に範囲を限定しますが、それはシステムがうまく連携するようにプロンプトとツールを同時に更新することを意味するかもしれません。 * 検証：各ステップで、ループは提案された変更が新しい評価を通過させるのに役立ったか、既存の通過ケースでの退行を避けたかを確認します。いくつかの変更がいくつかの退行とともに正味の全体的なスコア向上をもたらすことは一般的です。エージェントはこれらの退行の文脈を得るので、既存の更新からの利益を失うことなく、次の更新でそれらを修正しようとすることができます。 * 人間レビュー。私たちは変更とメトリクスが捉えきれないエッジケースを手動でレビューします。これにはしばしば、最適化セットに過学習した指示が含まれ、一般化を損なわないものの、結局トークンの無駄になります。これは私たちに別の健全性チェックと過学習に対するゲートを与えます。 ![image](https://storage.ghost.io/c/97/88/97889716-a759-46f4-b63f-4f5c46a13333/content/images/2026/04/langchain_better_harness_dark-1--1-.png)ハーネス変更の例 以下は最適化ループが発見・検証できる変更の種類です： プロンプトと指示の更新。最も一般的な変更。エージェントがツールの出力形式を誤解し続ける、または最初に明確化の質問をすべきときにツールを呼び出すのに積極的すぎる。修正は「依存情報を持つ複数のファイルをクエリするとき、ファイルシステムに情報をオフロードし、最終的な答えを与える前に再集約する」のようなターゲットを絞った指示の追加です。 ツールまたはツール説明の追加・更新。エージェントは新しいツールを使用するタイミングを文脈化するのに失敗するかもしれません。編集には、使用方法の例、このツールをチェーンする方法、更新されたツール説明、類似ツールを明確にするための全体的なツールスイートの編集が含まれます。 Better-Harnessループの結果 私たちはこのアプローチをClaude Sonnet 4.6とZ.aiのGLM-5で評価のサブセットを用いてテストしました。注：私たちは、より大きな評価スイートを使用してDeep Agentsの多くのモデルにわたってBetter-Harnessを一般化する他の作業を進行中です。目標は、私たちの評価のために調整された各モデルのニュアンスを捉えた一連のモデルプロファイルを公開成果物として公開することです。 私たちは既存の評価カテゴリから小さな代表サンプルを組み立て、そのサンプルを山登り用セットと一般化評価用ホールドアウトに分割しました。大規模または高価な評価セットでは、代表/層化サンプリングを提案し、山登りするための良いセットを提供します。これがうまく機能したら、より大きなセットに拡大できます。 主な実験目標：評価上の失敗モードを発見・修正。評価パフォーマンスを向上させる一般的な変更をハーネスに反映する。 私たちは以前、過剰なフォローアップ質問や新しいツールを連鎖させる際のエラーなどの失敗モードを観察しました。最適化セットで山登りした後、tool_selectionとfollowup_qualityの2つのカテゴリを使用してホールドアウトで最終ハーネスを評価しました。 モデル フェーズ 最適化ツール使用 最適化フォローアップ ホールドアウトツール使用 ホールドアウトフォローアップ Claude-sonnet-4-6 前 1/2 0/3 7/8 2/6 後 2/2 2/3 7/8 6/6 GLM-5 (baseten) 前 0/2 0/3 6/8 1/6 後 2/2 3/3 7/8 6/6 結果は両モデルで強力でした。両方とも、完全に未見の例で同じ能力をカバーしたホールドアウトセットにほぼ完全に一般化します。 多くの向上は、発見された失敗モードに関するより明示的な指示から来ています。以下は最適化ループが発見した、私たちが興味深いと思った具体的な例です。 共有変更 観察されたタスク モデル 追加された指示 変更後の効果 合理的なデフォルト値を使用する tool_indirect_email_report Sonnet, GLM-5 「リクエストが明らかにデフォルト値を含意している場合は、合理的なデフォルト値を使用してください。」 エージェントは些細な文言の欠落でブロックすることを止め、アクション実行評価をより確実に完了するようになりました。 既に修正された制約を尊重する followup_vague_send_report, followup_detailed_calendar_brief Sonnet, GLM-5 「ユーザーが既に提供した詳細について尋ねないでください。」 繰り返しタスクのフォローアップ評価が、冗長なスケジュールに関する質問で失敗することがなくなりました。 行動前に探索を制限する tool_chain_search_then_email 主に GLM-5 「簡潔な要約を起草するのに十分な情報を得たら、ほぼ重複する検索を発行し続けないでください。」 検索してから配信する評価が、ループする代わりに非常に信頼性の高いものになりました。 まずドメイン定義の質問をする followup_vague_customer_support, followup_vague_monitor_system Sonnet, GLM-5 「実装に関する質問の前に、ドメイン定義の質問をしてください。」 最初のフォローアップがより関連性の高いものになりました。これは計画戦略の一形態です。 検索してからメールするような、デフォルトハーネスに新しいツールを注入する評価では、ループがそれらのツールの使用方法と構成方法についてより良い記述を発見しました。これは、ドメインを横断する垂直エージェントを作成するビルダーにとって有望です。なぜなら、最適化ループは文脈内のタスクの詳細にうまく適応するからです。 評価のメンテナンスと退行 改善と共に、評価は時間の経過に伴う退行を明示的に捕捉し、防止します。一度エージェントがケースを正しく処理したら、その成果を失いたくありません。評価は退行テストになります。これは、テスト駆動開発のような従来のソフトウェア工学の考え方に似ています。時間の経過とともに多くの変更が行われる中で、ある程度の退行は避けられないため、常に合格させたい評価のサブセットを選択し、これらが突然失敗した場合は実行を疑わしく見ます。 評価スイートが単調に増加すべきとは考えていません。評価の春の大掃除は良いことです！よりインテリジェントなモデルや、エージェントに対して望む異なる振る舞いのために、評価がまだ有用かどうかを定期的に評価します。 未来: 自動化されたエラー検出と修正 このアプローチが機能するのは、トレースが高密度のフィードバック信号を提供するからです。評価は、バージョン間で比較し、どの変更がより良いスコア（より良いユーザー体験の良い代理指標となるべきもの）に寄与するかを数値的に根拠付けるためにトレースから恩恵を受けます。 全体として、我々はエージェントの計算をトレースに向けて以下のことに活用します: エラーを自動的に導出する。本番環境でのエージェントのトレースを常に監視し、失敗を分類・クラスタリングしたいと考えています。 本番環境から評価を生成する。エージェントがミスをしたトレースは評価ケースです。ユーザーがエージェントを修正したトレースはさらに良いものです。好循環: より多くの使用 → より多くのトレース → より多くの評価 → より良いハーネス ハーネスのバージョンを比較する。トレースの並列比較は、新しい振る舞いに寄与したハーネスの変更点を示します。 すべてのトレースには、潜在的な評価を生成するための貴重なデータが含まれています。そしてすべての（良い）評価はハーネスをより良くします。これを促進するために、すべてのエージェント実行は完全なトレースと共にLangSmithにログ記録されます。これにより、最適化ループのためのトレースレベルの診断、退行検出のための本番環境監視、評価生成のためのトレースマイニングが可能になります。 我々の主な要点と進行中の作業: 評価は自律的なハーネスエンジニアリングのためのトレーニングデータです。データ品質、トレーニング/テスト分割、一般化チェックなど、機械学習のトレーニングを機能させるのと同じ原則が、エージェント開発にも適用されます。 モデルをハーネスに適合させる。すべてのモデルをそのハーネスに適合させるには、多くの作業が必要です。例えば、Codexのプロンプティングガイドは、そのEditツールに対して特定のフォーマットを提案しています。これにはより大きな検索空間と評価セットが必要であり、これを行おうとするチームにとって、それがどのようなものかの実際の例を共有できることを楽しみにしています。 全体として、トレースを取得することと良い評価を維持することが、このシステムを実際に機能させるものです。チームでこれを早期に投資し、自律的に改善するエージェントの未来を構築してください。我々は、ビルダーが実験できるよう、このスキャフォールドの研究バージョンをオープンソース化しました。

Better Harness: 評価を用いたハーネス山登り法のレシピ

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト