AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
LangChain Blog·2026年4月9日 04:30·約15分で読める

Better Harness: 評価を用いたハーネス山登り法のレシピ

#エージェント#ハーネス#評価(Evals)#LangChain#自律的改善#システムエンジニアリング
TL;DR

LangChainは、エージェントの性能向上のために評価データ(evals)を「トレーニングデータ」として活用し、ハーネスを自律的に改善する「Better-Harness」システムを提案し、その設計思想と実践的アプローチを詳述している。

AI深層分析2026年4月9日 05:43
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

評価データ(Evals)をエージェントの「トレーニングデータ」と位置付け

従来の機械学習におけるトレーニングデータと同様に、評価データがエージェントの学習ループを導き、ハーネス(制御・実行フレーム)の改善信号として機能するという新しいパラダイムを提示している。

2

ハーネスの自律的改善(Hill-Climbing)のためのシステム「Better-Harness」

評価データを基にハーネスを反復的に改善するシステムを提案し、単なる更新アルゴリズムを超えた、データ調達から実験設計、最適化、レビューまでの複合的なシステムエンジニアリングとしてのアプローチを説明している。

3

過学習を防ぐ設計と実践的な評価データの調達方法

システムが特定の評価データに過剰適合(過学習)するのを防ぐ設計上の考慮点と、手動で作成する高価値な評価データから、より実用的な評価データをどのように調達・活用するかについて具体的な方法論を共有している。

4

業界の関連研究との位置付けと将来展望

スタンフォード大学の「Meta-Harness」やDeepMindの「Auto-Harness」など、ハーネス最適化に関する最近の研究を引用しつつ、自社のアプローチの特徴と、更新アルゴリズム自体に関する将来の研究可能性について言及している。

5

学習システムの一般化と過学習防止策

学習システムの目標は一般化であり、少量の適切にタグ付けされた評価データが大量のノイズの多いデータよりも効果的である。過学習を防ぐために、ホールドアウトセットを真の一般化の代理として使用し、人間のレビューと組み合わせる。

6

Better-Harnessの実践的レシピ

評価を信号として活用してハーネスを自律的に改善するための枠組みで、評価データの収集・タグ付け、カテゴリごとのデータ分割、最適化セットとホールドアウトセットの作成が主要なステップである。

7

最適化ループの具体的な変更例

プロンプトやツールの更新、ツールの追加・説明の改善など、エージェントの失敗モードを修正するための具体的な変更が例示されている。

影響分析・編集コメントを表示

影響分析

この記事は、大規模言語モデル(LLM)を基盤としたエージェントの開発・運用において、従来のモデル訓練だけでなく、その実行環境(ハーネス)の改善をデータ駆動で自律化する方法論を提示しており、エージェント開発の効率化と性能向上に寄与する可能性が高い。特に、評価データの設計と管理をシステムエンジニアリングの観点から体系化した点は、実務的な影響が大きい。

編集コメント

エージェント開発の実務において、ハーネス改善を「データ駆動のエンジニアリングプロセス」として具体化した点が画期的。評価データの設計と管理の重要性を再認識させられる内容で、実装者やプロダクトマネージャーにとって特に参考になる。

imageimageBy Vivek Trivedy, Product Manager @ LangChain



TL;DR: より優れたハーネスを構築することで、より優れたエージェントを構築できます。しかし、「より優れた」ハーネスを自律的に構築するには、「山登り法」を行うための強力な学習信号が必要です。本稿では、評価をその信号として活用する方法と、エージェントが過学習ではなく一般化することを助ける設計判断を共有します。Better-Harnessは、評価を用いてハーネスを反復的に調達・改善するシステムです。

評価はエージェントのトレーニングデータである

古典的な機械学習では、トレーニングデータがモデルの学習プロセスを導きます。各トレーニング例は勾配を提供し、モデルの重みを「正しさ」に向けて更新します。エージェントにも同様の学習ループがあります。

imageimage評価は、エージェントに本番環境で示してほしい振る舞いを符号化します。それらはハーネスエンジニアリングの「トレーニングデータ」です。各評価ケースは、「エージェントが正しいアクションを取ったか」や「正しい結果を生み出したか」といった信号を提供します。その信号が、ハーネスに対する次の提案編集を導きます。

モデルトレーニングのためにデータ品質とキュレーションに注ぐのと同じ厳密さと注意が、評価設計にも注がれるべきです。私たちは以前の投稿で、Deep Agents向けに評価を構築する方法とデータ品質の重要性について論じました。

最近の優れた研究には、スタンフォード大学のMeta-HarnessやDeepMindのAuto-Harnessなど、ハーネスを最適化する手順を形式化したものがあります。私たちも以前、ハーネス層を調整するだけでTerminal Bench 2.0を山登りするHarness Improvement Loopを共有しました。更新アルゴリズム自体に関する将来の優れた研究がなされると考えますが、ハーネス改善は更新アルゴリズムを超えた複合システムであり、本稿で扱うのはその点です。

Better-Harnessは複合システムエンジニアリングへの一つの取り組みです。

データ調達 → 実験設計 —> 最適化 —> レビュー & 承認

したがって、更新ループに加えて、評価をどのように調達するか、過学習を防ぐためにどのように設計するか、時間とともにトレースを保存するか、本番環境にリリースするものを健全性チェックするために更新を手動でレビューするかといった実用的な詳細を含めます。

優れた評価の調達

評価はハーネス山登りプロセスを駆動する基盤です。以下は、評価を調達、キュレーション、使用する実用的な方法です。

手作業によるキュレーション。任意のタスクに対して、チームはエージェントが本番環境で行うべきだと思うことを捉えた例を手動で作成します。これらはしばしば高価値ですが、大規模に生成するのは困難です。

本番環境トレース。すべてのエージェントインタラクションはトレースを生成し、失敗は評価ケースになります。評価材料のためにトレースをマイニングすることは、時間とともに評価を改善するレバレッジの高い、高スループットの方法です。評価に対してエージェントを実行する前でさえ、私たちのエージェントをドッグフーディングするチームが、トレースリンク付きで直接Slackにエラーを報告することがよくあります。エージェントをドッグフーディングし、全員が見られるように直接フィードバックを共有することをお勧めします。それはエージェントの振る舞いに関する共通理解を構築するのに役立ちます。

外部データセット。これらのデータセットは有用ですが、エージェントを改善するために使用されるテストケースが望ましい振る舞いを反映していることを確認するために、手動でキュレーションする必要があります。多くの場合、各タスクは重要な振る舞いを測定できるように調整されます。

すべてにタグ付け。すべての評価に振る舞いカテゴリのタグを付けます:「ツール選択」、「多段階推論」など。タグは意味のあるホールドアウトセットとターゲット実験を可能にします。また、評価のサブセットを実行できるため、多くのコストを節約します。

一般化する学習システムの構築

あらゆる学習システムの理想的な結果は一般化です。私たちは、実際の環境で望む振る舞いの分布を捉えた入力信号を与えます。システムはそれに適合し、それから見たことのない新しい入力に対して「ちょうどうまく」動作します。

明らかな問題:私たちには無制限のデータがありません。

解決策:重要な振る舞いをキュレーションされた評価に符号化します。量より質、あなたが気にする振る舞いをカバーする、よくタグ付けされた小さな評価セットは、数千のノイズの多い高カバレッジの評価に勝ります。

微妙な問題 → エージェントは有名な「チーター」です:あらゆる学習システムは、エージェントが既存の評価を通過させるためにその構造を過学習させる「報酬ハッキング」に陥りやすいです。これは理にかなっています。なぜならループはただ「数字を上げたい」だけで、一般化について知らないからです。私たちは過学習を避けるように促しますが、それは完璧ではありません。

解決策:ホールドアウトセットが真の一般化の代理になります。私たちは人間のレビューを第二の信号として組み合わせ、半自動システムがスコアを改善しながら、本番環境で望まない振る舞いを避けることができるアプローチを目にしてきました。

Better-Harness: ハーネスを山登りするレシピ

私たちは、各ステップで信号として評価を使用してハーネスを自律的に改善するためのスキャフォールドを作成しました。研究バージョンはここでオープンソース化されています。主なステップは以下の通りです:

評価を調達してタグ付け。これは手書き評価、本番環境トレースからのマイニング、外部データセットの使用/適応の組み合わせです。各評価に振る舞いカテゴリ(多段階検索など)のタグを付け、飽和した評価やエージェント+現在のモデル世代にとって有用でなくなった評価を定期的に削除します。

カテゴリごとにデータを分割。最適化セットとホールドアウトセットを作成。これは非常に重要です!自律的山登りはタスクに過学習する傾向があるため、ホールドアウトセットは学習された最適化が未見のデータでも機能することを保証します(ただし、一般的な分布は既存の評価と一致すべきです)。これは本番環境がどのようになるかを反映しています。

ベースラインを実行。編集前の最適化セットとホールドアウトセットでベースライン実験を実行します。これにより、すべての更新が更新ステップにおいて基礎付けられます。

最適化。各イテレーションはオプションの人間レビュー付きで自律的に実行されます:

  • トレースから診断。スコアはカテゴリ全体のパフォーマンスを集約し、その後トレースは何がなぜうまくいかなかったかの詳細を示します。
  • ターゲットを絞ったハーネス変更を実験。交絡を避けるために一度に一つの変更に範囲を限定しますが、それはシステムがうまく連携するようにプロンプトとツールを同時に更新することを意味するかもしれません。
  • 検証:各ステップで、ループは提案された変更が新しい評価を通過させるのに役立ったか、既存の通過ケースでの退行を避けたかを確認します。いくつかの変更がいくつかの退行とともに正味の全体的なスコア向上をもたらすことは一般的です。エージェントはこれらの退行の文脈を得るので、既存の更新からの利益を失うことなく、次の更新でそれらを修正しようとすることができます。
  • 人間レビュー。私たちは変更とメトリクスが捉えきれないエッジケースを手動でレビューします。これにはしばしば、最適化セットに過学習した指示が含まれ、一般化を損なわないものの、結局トークンの無駄になります。これは私たちに別の健全性チェックと過学習に対するゲートを与えます。

imageimageハーネス変更の例

以下は最適化ループが発見・検証できる変更の種類です:

プロンプトと指示の更新。最も一般的な変更。エージェントがツールの出力形式を誤解し続ける、または最初に明確化の質問をすべきときにツールを呼び出すのに積極的すぎる。修正は「依存情報を持つ複数のファイルをクエリするとき、ファイルシステムに情報をオフロードし、最終的な答えを与える前に再集約する」のようなターゲットを絞った指示の追加です。

ツールまたはツール説明の追加・更新。エージェントは新しいツールを使用するタイミングを文脈化するのに失敗するかもしれません。編集には、使用方法の例、このツールをチェーンする方法、更新されたツール説明、類似ツールを明確にするための全体的なツールスイートの編集が含まれます。

Better-Harnessループの結果

私たちはこのアプローチをClaude Sonnet 4.6とZ.aiのGLM-5で評価のサブセットを用いてテストしました。注:私たちは、より大きな評価スイートを使用してDeep Agentsの多くのモデルにわたってBetter-Harnessを一般化する他の作業を進行中です。目標は、私たちの評価のために調整された各モデルのニュアンスを捉えた一連のモデルプロファイルを公開成果物として公開することです。

私たちは既存の評価カテゴリから小さな代表サンプルを組み立て、そのサンプルを山登り用セットと一般化評価用ホールドアウトに分割しました。大規模または高価な評価セットでは、代表/層化サンプリングを提案し、山登りするための良いセットを提供します。これがうまく機能したら、より大きなセットに拡大できます。

主な実験目標:評価上の失敗モードを発見・修正。評価パフォーマンスを向上させる一般的な変更をハーネスに反映する。

私たちは以前、過剰なフォローアップ質問や新しいツールを連鎖させる際のエラーなどの失敗モードを観察しました。最適化セットで山登りした後、tool_selectionとfollowup_qualityの2つのカテゴリを使用してホールドアウトで最終ハーネスを評価しました。

モデル

フェーズ

最適化ツール使用

最適化フォローアップ

ホールドアウトツール使用

ホールドアウトフォローアップ

Claude-sonnet-4-6

前

1/2

0/3

7/8

2/6

後

2/2

2/3

7/8

6/6

GLM-5 (baseten)

前

0/2

0/3

6/8

1/6

後

2/2

3/3

7/8

6/6

結果は両モデルで強力でした。両方とも、完全に未見の例で同じ能力をカバーしたホールドアウトセットにほぼ完全に一般化します。

多くの向上は、発見された失敗モードに関するより明示的な指示から来ています。以下は最適化ループが発見した、私たちが興味深いと思った具体的な例です。

共有変更

観察されたタスク

モデル

追加された指示

変更後の効果

合理的なデフォルト値を使用する

tool_indirect_email_report

Sonnet, GLM-5

「リクエストが明らかにデフォルト値を含意している場合は、合理的なデフォルト値を使用してください。」

エージェントは些細な文言の欠落でブロックすることを止め、アクション実行評価をより確実に完了するようになりました。

既に修正された制約を尊重する

followup_vague_send_report, followup_detailed_calendar_brief

Sonnet, GLM-5

「ユーザーが既に提供した詳細について尋ねないでください。」

繰り返しタスクのフォローアップ評価が、冗長なスケジュールに関する質問で失敗することがなくなりました。

行動前に探索を制限する

tool_chain_search_then_email

主に GLM-5

「簡潔な要約を起草するのに十分な情報を得たら、ほぼ重複する検索を発行し続けないでください。」

検索してから配信する評価が、ループする代わりに非常に信頼性の高いものになりました。

まずドメイン定義の質問をする

followup_vague_customer_support, followup_vague_monitor_system

Sonnet, GLM-5

「実装に関する質問の前に、ドメイン定義の質問をしてください。」

最初のフォローアップがより関連性の高いものになりました。これは計画戦略の一形態です。

検索してからメールするような、デフォルトハーネスに新しいツールを注入する評価では、ループがそれらのツールの使用方法と構成方法についてより良い記述を発見しました。これは、ドメインを横断する垂直エージェントを作成するビルダーにとって有望です。なぜなら、最適化ループは文脈内のタスクの詳細にうまく適応するからです。

評価のメンテナンスと退行

改善と共に、評価は時間の経過に伴う退行を明示的に捕捉し、防止します。一度エージェントがケースを正しく処理したら、その成果を失いたくありません。評価は退行テストになります。これは、テスト駆動開発のような従来のソフトウェア工学の考え方に似ています。時間の経過とともに多くの変更が行われる中で、ある程度の退行は避けられないため、常に合格させたい評価のサブセットを選択し、これらが突然失敗した場合は実行を疑わしく見ます。

評価スイートが単調に増加すべきとは考えていません。評価の春の大掃除は良いことです!よりインテリジェントなモデルや、エージェントに対して望む異なる振る舞いのために、評価がまだ有用かどうかを定期的に評価します。

未来: 自動化されたエラー検出と修正

このアプローチが機能するのは、トレースが高密度のフィードバック信号を提供するからです。評価は、バージョン間で比較し、どの変更がより良いスコア(より良いユーザー体験の良い代理指標となるべきもの)に寄与するかを数値的に根拠付けるためにトレースから恩恵を受けます。

全体として、我々はエージェントの計算をトレースに向けて以下のことに活用します:

エラーを自動的に導出する。本番環境でのエージェントのトレースを常に監視し、失敗を分類・クラスタリングしたいと考えています。

本番環境から評価を生成する。エージェントがミスをしたトレースは評価ケースです。ユーザーがエージェントを修正したトレースはさらに良いものです。好循環: より多くの使用 → より多くのトレース → より多くの評価 → より良いハーネス

ハーネスのバージョンを比較する。トレースの並列比較は、新しい振る舞いに寄与したハーネスの変更点を示します。

すべてのトレースには、潜在的な評価を生成するための貴重なデータが含まれています。そしてすべての(良い)評価はハーネスをより良くします。これを促進するために、すべてのエージェント実行は完全なトレースと共にLangSmithにログ記録されます。これにより、最適化ループのためのトレースレベルの診断、退行検出のための本番環境監視、評価生成のためのトレースマイニングが可能になります。

我々の主な要点と進行中の作業:

評価は自律的なハーネスエンジニアリングのためのトレーニングデータです。データ品質、トレーニング/テスト分割、一般化チェックなど、機械学習のトレーニングを機能させるのと同じ原則が、エージェント開発にも適用されます。

モデルをハーネスに適合させる。すべてのモデルをそのハーネスに適合させるには、多くの作業が必要です。例えば、Codexのプロンプティングガイドは、そのEditツールに対して特定のフォーマットを提案しています。これにはより大きな検索空間と評価セットが必要であり、これを行おうとするチームにとって、それがどのようなものかの実際の例を共有できることを楽しみにしています。

全体として、トレースを取得することと良い評価を維持することが、このシステムを実際に機能させるものです。チームでこれを早期に投資し、自律的に改善するエージェントの未来を構築してください。我々は、ビルダーが実験できるよう、このスキャフォールドの研究バージョンをオープンソース化しました。

原文を表示

imageimageBy Vivek Trivedy, Product Manager @ LangChain



TL;DR: We can build better agents by building better harnesses. But to autonomously build a “better” harness, we need a strong learning signal to “hill-climb” on. We share how we use evals as that signal, plus design decisions that help our agent generalize instead of overfit. Better-Harness is a system for iteratively sourcing and improving your harness with evals.

Evals are training data for Agents

In classical machine learning, training data guides the model’s learning process. Each training example contributes a gradient that updates the model’s weights toward “correctness.” We have a similar learning loop for agents.

imageimageEvals encode the behavior we want our agent to exhibit in production. They’re the "training data" for harness engineering. Each eval case contributes a signal like “did the agent take the right action” or “produce the right outcome?” That signal guides the next proposed edit to the harness.

The same rigor and care we put into data quality and curation for model training should also go into eval design. We discuss the importance of data quality in a previous post, how we build evals for Deep Agents.

There’s some great recent work that formalize the steps to optimize harnesses including Meta-Harness from Stanford and Auto-Harness from DeepMind. We also previously shared a Harness Improvement Loop to hill-climb Terminal Bench 2.0 by just tweaking the harness layer. We think there’s great future work to be done around the update algorithm itself, but harness improvement is a compound system that goes beyond the update algorithm which is what we talk about here.

Better-Harness is a take on compound systems engineering.

data sourcing → experiment design —> optimization —> review & acceptance

So we include practical details that go alongside the update loop such as how we source evals in the first place, how we design against overfitting, store Traces over time, and manually review updates to sanity check anything we ship to production.

Sourcing good evals

Evals are the foundation that power the harness hill-climbing process. Here are the practical ways we source, curate, and use them.

Hand-curated. For any given task, the team manually writes examples that capture what we think the agent should do in production. These are often high value, but difficult to generate at scale.

Production traces. Every agent interaction generates a trace where failures become eval cases. Mining traces for eval material is the leverage, high-throughput way to improve evals over time. Even before running an agent over evals, often a team dogfooding our agent will report errors directly in Slack with a Trace link. We recommend dogfooding agents and directly sharing feedback for everyone to see, it helps build shared knowledge of agent behavior.

External datasets. These datasets are useful but need to be manually curated to make sure the test cases used to improve the agent reflect desired behaviors. Often each task is adjusted to make sure they measure the important behavior.

Tag everything. Every eval gets tagged to behavioral categories: "tool selection," "multi-step reasoning," etc. Tags enable meaningful holdout sets and targeted experiments. It also saves a lot of money because we can run subsets of evals.

Building learning systems that generalize

The ideal outcome for any learning system is generalization. We give an input signal that captures the distribution of behaviors we want in the wild. The system fits to it and then “just works” on new inputs it's never seen.

The obvious problem: We don't have unlimited data.

The fix: Encode important behaviors into curated evals. Quality > quantity, a small set of well-tagged evals covering the behaviors you care about beats thousands of noisy but high-coverage evals.

The subtle problem → agents are famous cheaters: Any learning system is prone to reward hacking where the agent overfits its structure to make the existing evals pass that it can see. This makes sense because the loop just wants to “make number go up” and doesn't know about generalization. We prompt to avoid overfitting but it isn’t perfect.

The fix: Holdout sets become a proxy for true generalization. We’ve seen approaches that We pair with human review as a second signal and we get semi-automated systems can improve scores while avoiding behaviors we don’t want in prod.

Better-Harness: a recipe for hill climbing your harness

We created a scaffold for autonomously improving our harness using evals as a signal in each step. A research version is open sourced here, here are the main steps:

Source and tag evals. This is a mix of hand-writing evals, mining them from production traces, and using/adapting external datasets. We tag each eval to behavioral categories (like multi-step retrieval) and regularly remove evals that are saturated or we longer feel are useful for the agent + current generation of models.

Split data per category. Create Optimization and Holdout sets. This is very important! We find that autonomouos hill-climbing has a tendency to overfit to tasks so holdout sets ensure that learned optimizations work on previously unseen data, though the general distirbution should match existing evals. This mirrors what production will look like.

Run a Baseline. Run a baseline experiment on the Optimization & Holdout sets before any edits. This grounds all updates in the update steps.

Optimize. Each iteration runs autonomously with optional human review:Diagnose from traces. Scores aggregate performance over categories and then Traces show the details of what went wrong and why.

Experiment a targeted harness change. We scope to one change at a time to avoid confounding but that may mean updating a prompt and tool simultaneously so the system works well together.

Validate: In each step, the loop checks to make sure that the proposed change helped pass new evals while avoiding regressions on existing passing cases. It’s common that some change results in a net overall score gain with some regressions. The agent gets context of these regressions so it can try to fix them in the next update without losing the gains from the existing update.

Human review. We manually review changes and edge cases metrics miss. This often includes instructions that are overfit to the optimization set and although they don’t hurt generalization, they end up being a waste of tokens. This gives us another sanity check and gate against overfitting.

imageimageExamples of harness changes

Here are the kinds of changes the optimization loop can discover and validate:

Prompt and instruction updates. The most common change. The agent keeps misinterpreting a tool's output format, or it's too aggressive about calling a tool when it should ask a clarifying question first. The fix is a targeted instruction update addition like "when querying multiple files that have dependent information, offload information to the filesystem and re-aggregate before giving a final answer."

Adding or updating a tool or tool description. The agent may fail contextualizing when to use a new tool. Edits include examples on of how to use, how to chain this tool, an updated tool description, and editing the overall tool suite to disambiguate similar tools

Results from the Better-Harness loop

We tested this approach with Claude Sonnet 4.6 and Z.ai’s GLM-5 on a subset of our evals. Note: We have other work underway generalizing Better-Harness across many models in deepagents using a bigger eval suite. The goal is to publish a series of model profiles that capture the nuances of each model tuned for our evals as a public artifact.

We assembled a small representative sample from existing eval categories and split that sample into a set for hill-climbing and holdout to evaluate generalization. With large or expensive eval sets, we suggest representative/stratified sampling to give a good set to hill-climb against. Once this works well, it can be scaled up to the larger set.

Main experiment goal: discover & fix failure modes over our evals. Port general changes that increase eval performance back to the harness.

We previously observed failure modes such as over-asking follow-up questions and errors in chaining together new tools. After hill climbing on the optimization set, we evaluated the final harness on the holdout using two categories, tool_selection and followup_quality.

Model

Phase

Optimization Tool Use

Optimization Followup

Holdout Tool Use

Holdout Followup

Claude-sonnet-4-6

Before

1/2

0/3

7/8

2/6

After

2/2

2/3

7/8

6/6

GLM-5 (baseten)

Before

0/2

0/3

6/8

1/6

After

2/2

3/3

7/8

6/6

The results were strong on both models and both. Both get nearly fully generalization to the holdout set which covered the same capability with totally unseen examples.

Many gains are from more explicit instructions around discovered failure modes. Here are a few concrete examples the optimization loop discovered that we found interesting.

Shared Change

Tasks Observed In

Models

Instruction Added

Effect After Change

Use reasonable defaults

tool_indirect_email_report

Sonnet, GLM-5

"Use reasonable defaults when the request clearly implies them."

The agent stopped blocking on trivial missing wording and completed action-taking evals more reliably.

Respect already-fixed constraints

followup_vague_send_report, followup_detailed_calendar_brief

Sonnet, GLM-5

"Do not ask for details the user already supplied."

Recurring-task followup evals stopped failing on redundant schedule questions.

Bound exploration before acting

tool_chain_search_then_email

Mostly GLM-5

"Do not keep issuing near-duplicate searches once you have enough information to draft a concise summary."

Search-then-deliver evals became much more reliable instead of looping.

Ask domain-defining questions first

followup_vague_customer_support, followup_vague_monitor_system

Sonnet, GLM-5

"Ask domain-defining questions before implementation questions."

The first followup became more relevant, this is a form of planning strategy

For evals that inject new tools into the default harness like search-then-email , the loop discovered better descriptions of how to use and compose those tools. This is promising for builders creating vertical agents across domains, because optimization loops adapt well to the task specifics in context.

Evals maintenance & regressions

Along with hill climbing, evals also explicitly capture and protect against regressions over time. Once our agent handles a case correctly, we don’t want to lose that gain. The eval becomes a regression test. This is similar to ideas in traditional software engineering like Test Driven Development (TDD). Some regressions are bound to happen across many changes over time so we select a subset of evals that we always want to pass and look at our run suspiciously if these suddenly fail.

We don’t think our eval suite should grow monotonically, spring cleaning of evals is good! We regularly assess whether an eval is still useful because of more intelligent models or a different behavior we want for the agent.

The Future: automated error detection & fixes

This approach works because traces give us a dense feedback signal. Evals benefit from traces to compare across versions and numerically ground which changes contribute to a better score (which should be a good proxy for a better user experience).

Overall, we point agentic compute at traces to:

Derive errors automatically. We want to constantly monitor our agent traces to classify and cluster failures in production.

Generate evals from production. A trace where the agent made a mistake is an eval case. A trace where a user corrected the agent is even better. The flywheel: more usage → more traces → more evals → better harness

Compare harness versions. Side-by-side trace comparisons show what changed in the harness that contributed to new behavior

Every trace contains valuable data to produce a potential eval. And every (good) eval makes the harness better. To facilitate this, all agent runs are logged to LangSmith with full traces. This gives us trace-level diagnosis for the optimization loop, production monitoring for regression detection, and trace mining for eval generation.

Our main takeaways and ongoing work:

Evals are training data for autonomous harness engineering. The same principles that make ML training work such as data quality, train/test splits, and generalization checks apply to agent development.

Fitting models to harnesses. There’s a large amount of work that goes into fitting every model to its harness. For example, the codex prompting guide suggests a certain format for their Edit tool. This requires a bigger search search space and eval set, we’re excited to share real examples of what that looks like for any team looking to do this.

Overall, tracing and maintaining good evals is what makes this system work in practice. Invest in this early with your team and come build the future of autonomously improving agents. We open sourced a research version of this scaffold for builders to experiment with.

この記事をシェア

関連記事

LangChain Blog★42026年5月22日 01:45

Auth Proxy が LangSmith エージェントサンドボックスをどのように保護するか

LangChain は、認証プロキシにより LangSmith のエージェント実行環境から機密情報を排除し、外部への通信を制限することでセキュリティリスクを軽減する仕組みを発表した。

Latent Space★42026年6月5日 15:44

[AINews] 今日は何も大きな出来事はありませんでした

Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。

Smol AI News★42026年6月4日 14:44

今日は何も大きな出来事はありませんでした

Smol AI News は、6月3日から4日にかけての期間に、12件のサブレッドや544件のツイートを調査しましたが、AI業界で特筆すべき動きは確認されませんでした。

ニュース一覧に戻る元記事を読む