Harness-1 の紹介:gpt-oss-20b を基盤とし、状態管理型検索ハネス内で強化学習を用いて訓練された 20B パラメータの検索サブエージェント
イリノイ大学アーバナ・シャンペーン校などの研究チームが、検索エージェントの「記憶管理」を外部ハッチスにオフロードする新手法「Harness-1」を発表し、強化学習による効率化を実現した。
キーポイント
状態認知のオフローディング
検索ポリシーが「何を検索するか」という意思決定と、「証拠を管理する」という事務作業を分離し、後者を外部の状態管理ハッチスに任せることでモデルの負荷を軽減した。
20B モデルによる実装
gpt-oss-20b を基盤とした 200 億パラメータの検索サブエージェント「Harness-1」が構築され、強化学習によって最適化された。
構造化された状態管理
候補ドキュメントプール、重要度タグ付け(very_high〜low)、全文ストア、および証拠グラフ(エントリティの抽出と橋渡し文書の特定)を備えた複雑な状態マシンを採用している。
学習効率の向上
初期検索結果による「ウォームスタート」や、重複排除、多様性維持などのインセンティブ設計により、ゼロからの構築ではなく refinement(洗練)のタスクとして学習を可能にした。
報酬設計による多様性の向上
ツール多様性ボーナスを導入することで、エージェントの探索行動が単調化し、リコール率が0.53から0.60に安定して向上した。
未学習タスクへの高い汎化能力
SECクエリのみで強化学習を行った結果、訓練データに含まれない保留済みベンチマークでは、ベースライン比で17.0ポイントも性能が向上した。
オープンモデルにおける最上位性能
平均キュレートド・リコール0.730を達成し、次点のオープンサブエージェント(Tongyi DeepResearch 30B)を11.4ポイント上回った。
影響分析・編集コメントを表示
影響分析
この研究は、複雑な検索タスクを行う AI エージェントの設計パラダイムに大きな転換をもたらす可能性があります。従来のようにモデル内部で全ての情報を保持しようとするアプローチから、外部状態管理と分離するアーキテクチャへ移行することで、より大規模かつ効率的なエージェントの実現が期待されます。特に RAG(検索拡張生成)システムの基盤技術として、今後の実用化におけるボトルネック解決に寄与する重要な一歩です。
編集コメント
検索エージェントの「記憶管理」を外部に委譲するこのアプローチは、モデルのコスト削減と推論精度向上の両立において極めて示唆に富んでいます。技術的な詳細が公開されているため、実装レベルでの検証が進むことが期待されます。
ほとんどの検索エージェントは、成長するトランスクリプト上のポリシーとして訓練されています。モデルはどのように検索するかを決定します。また、自分が何を見たか、どの証拠が重要かを記憶し、どの主張を検証したかも覚えていなければなりません。しかし、イリノイ大学アーバナ・シャンペーン校、カリフォルニア大学バークレー校、および Chroma の研究者チームは、これは要求が多すぎると指摘しています。強化学習(Reinforcement Learning)は結果として、検索の決定と日常的な事務処理の両方を同時に最適化してしまいます。
彼らの答えが Harness-1 です。これは gpt-oss-20b を基盤とした 20B パラメータの検索サブエージェントで、状態保持型の検索ハッチ(Stateful Search Harness)内で強化学習によって訓練されました。このハッチが事務処理を担い、ポリシーは意味的な決定を担当します。重みとハッチのコードは一般公開されています。
imagehttps://arxiv.org/pdf/2606.02373
Harness-1 とは実際何なのか
Harness-1 は、下流の回答モデルに対して文書のランク付けされたセットを生成します。自身で質問に答えるわけではありません。これは、エピソードごとの WORKINGMEMORY(作業記憶)を中心とした状態機械ハッチ内で動作します。
各ターンはループとして機能します。ハッチは最近のアクションとともにコンパクトな検索状態をレンダリングし、モデルは構造化されたアクションを 1 つ出力します。その後、ハッチがそれを実行して状態を更新し、次の観測結果をレンダリングします。
状態保持型ハッチ:ポリシーから外れるもの
研究チームは、この原則を「状態保持型認知オフローディング」と呼んでいます。ポリシーは、何を検索し、キュレーションし、検証するか、そしていつ停止するかを決定します。ハーンズ(harness)は、これらの意思決定の周囲に回復可能な状態を維持します。
その状態にはいくつかの要素が含まれます。候補プールには、圧縮され重複が排除されたドキュメントが保持されます。重要度タグ付けされたキュレーションセットが最終出力となり、30 ドキュメントまでと制限されています。タグは「very_high(非常に高い)」、「high(高い)」、「fair(普通)」、「low(低い)」の 4 つの値を取ります。フルテキストストアには、プロンプト外のすべての取得チャンクが保存されます。
証拠グラフが構造を追加します。正規表現抽出器が各チャンクから固有名詞、年号、日付をスキャンします。ハーンズはその後、頻出エンティティ、橋渡しドキュメント、単一出現エンティティ(singleton)をレンダリングします。橋渡しドキュメントには 2 つ以上の頻出エンティティが含まれています。単一出現エンティティは 1 つのドキュメントにのみ現れ、追加の調査线索を示唆します。
ポリシーは 8 つのツールを通じて機能します。これらは「fan_out_search(扇状検索)」、「search_corpus(コーパス検索)」、「grep_corpus(コーパスグレッピング)」、「read_document(ドキュメント読取)」、「review_docs(ドキュメントレビュー)」、「curate(キュレーション)」、「verify(検証)」、「end_search(検索終了)」です。検索出力は sentence-BM25 で圧縮され、上位 4 つの文のみが保持されます。2 レベルの重複排除により、チャンク ID とコンテンツ指紋に基づいて重複が除去されます。
ある設計上の選択は「コールドスタート」への対応です。最初の成功した検索は、重要度が「fair(普通)」の 8 つの再ランク付け結果でキュレーションセットを自動シードします。その後、ポリシーが強力なドキュメントを昇格させ、弱いドキュメントを削除します。これにより、ゼロからの構築というタスクが、洗練・改良へと転換されます。
研究チームは、訓練可能なハーン(harness)に対して3つの要件を定義しています。これらは、ウォームスタートされたキュレーション、コンパクトな派生状態のレンダリング、そして多様性を維持するインセンティブです。Harness-1 はこの 3 つすべてを実装しています。
How It is Trained
トレーニングはハーンと同じラインに沿って分割されます。教師あり微調整(Supervised fine-tuning)により、モデルがインターフェースを操作する方法を学習します。強化学習(Reinforcement learning)は、維持される状態に基づいて検索判断を改善します。
単一のティーチャーである GPT-5.4 が、フルハーン内でライブ実行されます。フィルタリング後、SFT(Supervised Fine-Tuning)用に 899 のトラジェクトリーが残り、モデルは rank 32 で LoRA を使用して 3 エポック訓練します。RL(Reinforcement Learning)の初期化には step-550 のチェックポイントを使用します。
RL は、40 ターン制限とターミナルのみでの報酬を持つオンポリシー CISPO を使用します。SEC クエリのみで訓練され、同じ報酬を持つグループは勾配から除外されます。訓練は Tinker 上で行われました。
報酬は発見と選択を分離し、さらにツール多様性ボーナスを追加しています。このボーナスがない場合、エージェントは繰り返し検索に収束してしまいます。その結果、キュレーションされたリコール(recall)は約 0.53 で頭打ちになります。一方、ボーナスがある場合は多様性が安定し、リコールは約 0.60 に達します。
The Benchmark Case
Harness-1 は、ウェブ、金融、特許、マルチホップ QA を含む 8 つのベンチマークで評価されました。主要な指標はキュレーションされたリコール(curated recall)であり、最終セット内の関連文書の網羅性を示します。トラジェクトリーリコール(trajectory recall)は、エピソード中のどこかで遭遇した証拠をカウントするものです。
ModelTypeAvg Curated RecallAvg Trajectory Recall
Harness-1 (20B)Open small0.7300.807
Tongyi DeepResearch 30BOpen small0.6160.673
Context-1 (20B)Open small0.6030.756
Search-R1 (32B) Open small 0.289 0.289
GPT-OSS-20B Open small 0.262 0.590
Qwen3 (32B) Open small 0.216 0.446
Opus-4.6 Frontier 0.764 0.794
GPT-5.4 Frontier 0.709 0.752
Sonnet-4.6 Frontier 0.688 0.725
Kimi-K2.5 Frontier 0.647 0.794
GPT-OSS-120B Frontier 0.496 0.769
これは論文の図 1 に基づく 8 つのベンチマークにわたる平均値です。フロンティアモデルは、Context-1 ハーネス(注:検索用環境枠組み)の下でゼロショット検索器として実行されます。
Harness-1 は、0.730 の平均キュレーションされたリコール(注:関連文書の回収率)を達成しました。これは、次のオープンなサブエージェントである Tongyi DeepResearch 30B を 11.4 ポイント上回っています。テストされたフロンティア検索モデルの中で、平均でこれより高いスコアを獲得したのは Opus-4.6 のみです。
転移パターンがメカニズムの最も明確なシグナルとなっています。SFT(注:教師あり微調整)では 4 つのベンチマークファミリーを使用しましたが、RL(注:強化学習)では SEC のみを採用しました。これらのソースファミリータスクにおいて、Harness-1 は最良のオープンベースラインに対して 7.9 ポイント向上しました。一方、4 つのホールドアウト(学習データに含まれない)ベンチマークでは 17.0 ポイント向上しており、これはトレーニングデータから最も遠いタスクにおいて 2.2 倍の大きな改善であることを示しています。
アブレーション実験はハーネスの有効性を支持する結果となりました。すべてのハーネスメカニズムを無効化すると、BrowseComp+ におけるリコール(注:関連文書の回収率)が相対的に 12.2% 低下します。学習済みのポリシーは検索を継続しますが、発見した情報を適切にランク付けすることができなくなります。
image https://arxiv.org/pdf/2606.02373
ユースケース
本手法は、文書が回答を裏付ける証拠探索型検索を対象としています。この形状に適合するいくつかのワークフローが存在します。
一つ目は文献および特許レビューです。証拠グラフと厳選されたセットは、多数のソースを整理するのに役立ちます。二つ目は財務書類分析です。SEC の事例研究では、複数の 8-K 文書にまたがる正確な経営陣交代日を特定しています。
三つ目は多段事実検証です。fan_out_search および verify ツールは、コミットする前に曖昧なエンティティを解決します。四つ目はモジュラー RAG(Retrieval-Augmented Generation)です。厳選されたセットが凍結された生成器に供給され、より質の高いセットが回答精度の向上をもたらします。
Strengths and Weaknesses
Strengths
テストされたオープンモデルの中で最高平均の厳選リコールを達成し、全体では Opus-4.6 に次ぐ成績です。
保持されたベンチマークでも性能が維持され、ドメインに依存しない検索操作が可能であることを示唆しています。
4,352 件のユニークアイテムで訓練されており、これはいくつかのベースラインと比較してはるかに少ない数値です。
オープンなチェックポイントとハーン(harness)コードを提供しており、一般的なランタイムで実行可能です。
Weaknesses
証拠グラフは正規表現抽出を使用しており、完全なエンティティリンキングではありません。
verify ツールは LLM プロキシであり、曖昧な主張に対して誤りを犯す可能性があります。
Sentence-BM25 の圧縮により、談話構造に関連する文脈が失われる恐れがあります。
研究チームは信頼区間を明示せず、点推定値のみを報告しています。
Key Takeaways
Harness-1 は 20B パラメータの検索エージェントであり、検索の事務処理を環境側に移し、意味的な判断をポリシーに委ねています。
8 つのベンチマーク全体で平均 0.730 の厳選リコールを達成し、次点のオープンサブエージェントより 11.4 ポイント上回っています。
テストされた検索エージェントの中で、平均的な厳選リコールにおいて Opus-4.6 より高いスコアを記録したのは Harness-1 だけです。
保持されたベンチマークにおける改善幅は最も大きく(+17.0 ポイント対 +7.9 ポイント)、学習した検索操作が転移していることを示唆しています。
重みとハネスコードは公開されており、vLLM、SGLang、または Transformers を介して提供可能です。
Marktechpost のビジュアル解説
#mtp-harness1-slider *{box-sizing:border-box!important;margin:0;padding:0}
#mtp-harness1-slider hr,#mtp-harness1-slider p:empty,#mtp-harness1-slider del,#mtp-harness1-slider s{display:none!important}
#mtp-harness1-slider{
--mtp-bg:#f4f6f8!important;
--mtp-card:#ffffff!important;
--mtp-ink:#10243a!important;
--mtp-muted:#5a6b7b!important;
--mtp-line:#e2e8ef!important;
--mtp-accent:#0e9f6e!important;
--mtp-accent-dk:#0a7d56!important;
--mtp-soft:#e8f6f0!important;
--mtp-chip:#eef2f6!important;
background:var(--mtp-bg)!important;
color:var(--mtp-ink)!important;
border:1px solid var(--mtp-line)!important;
border-radius:18px!important;
padding:0!important;
max-width:860px!important;
margin:24px auto!important;
font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Helvetica,sans-serif!important;
line-height:1.55!important;
overflow:hidden!important;
box-shadow:0 10px 40px rgba(16,36,58,.08)!important;
}
#mtp-harness1-slider .mtp-h1-head{
display:flex!important;align-items:center;justify-content:space-between;
padding:16px 24px!important;border-bottom:1px solid var(--mtp-line)!important;
background:var(--mtp-card)!important;
}
#mtp-harness1-slider .mtp-h1-kicker{
font-size:11px!important;letter-spacing:.16em;text-transform:uppercase;
font-weight:700;color:var(--mtp-accent-dk)!important;
}
#mtp-harness1-slider .mtp-h1-count{
font-size:13px!important;color:var(--mtp-muted)!important;font-variant-numeric:tabular-nums;font-weight:600
}
#mtp-harness1-slider .mtp-h1-viewport{overflow:hidden!important;background:var(--mtp-bg)!important}
#mtp-harness1-slider .mtp-h1-track{display:flex!important;transition:transform .45s cubic-bezier(.22,.61,.36,1)}
#mtp-harness1-slider .mtp-h1-slide{
min-width:100%!important;padding:32px 36px 30px!important;
}
#mtp-harness1-slider .mtp-h1-eyebrow{
font-size:12px!important;letter-spacing:.08em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:10px
}
#mtp-harness1-slider .mtp-h1-slide h2{
font-family:Georgia,"Times New Roman",serif!important;
font-size:clamp(24px,4.4vw,34px)!important;line-height:1.18;color:var(--mtp-ink)!important;
font-weight:700;margin-bottom:14px!important
}
#mtp-harness1-slider .mtp-h1-slide h3{
font-family:Georgia,serif!important;font-size:clamp(20px,3.4vw,26px)!important;
color:var(--mtp-ink)!important;font-weight:700;margin-bottom:14px!important
}
#mtp-harness1-slider .mtp-h1-slide p{font-size:15.5px!important;color:var(--mtp-muted)!important;margin-bottom:12px}
#mtp-harness1-slider .mtp-h1-lead{font-size:17px!important;color:var(--mtp-ink)!important}
#mtp-harness1-slider .mtp-h1-chips{display:flex!important;flex-wrap:wrap;gap:8px;margin-top:18px}
#mtp-harness1-slider .mtp-h1-chip{
font-size:12.5px!important;background:var(--mtp-chip)!important;color:var(--mtp-ink)!important;
border:1px solid var(--mtp-line)!important;border-radius:999px!important;padding:5px 12px!important;font-weight:600
}
#mtp-harness1-slider .mtp-h1-two{display:grid!important;grid-template-columns:1fr 1fr;gap:16px;margin-top:6px}
#mtp-harness1-slider .mtp-h1-box{
background:var(--mtp-card)!important;border:1px solid var(--mtp-line)!important;border-radius:12px!important;padding:16px 18px!important
}
#mtp-harness1-slider .mtp-h1-box .mtp-h1-lab{
font-size:11px!important;letter-spacing:.1em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:8px
}
#mtp-harness1-slider .mtp-h1-box ul{list-style:none!important}
#mtp-harness1-slider .mtp-h1-box li{font-size:14px!important;color:var(--mtp-muted)!important;padding:3px 0!important}
#mtp-harness1-slider ul.mtp-h1-list{list-style:none!important;margin-top:4px}
#mtp-harness1-slider ul.mtp-h1-list li{
font-size:15px!important;color:var(--mtp-ink)!important;padding:8px 0 8px 22px!important;
border-bottom:1px solid var(--mtp-line)!important;position:relative
}
#mtp-harness1-slider ul.mtp-h1-list li:last-child{border-bottom:none!important}
#mtp-harness1-slider ul.mtp-h1-list li:before{
content:"";position:absolute;left:2px;top:15px;width:7px!important;height:7px!important;
border-radius:50%;background:var(--mtp-accent)!important
}
#mtp-harness1-slider ul.mtp-h1-list li b{color:var(--mtp-ink)!important}
#mtp-harness1-slider ul.mtp-h1-list li span{color:var(--mtp-muted)!important}
#mtp-harness1-slider .mtp-h1-tools{display:grid!important;grid-template-columns:repeat(4,1fr);gap:10px;margin-top:6px}
#mtp-harness1-slider .mtp-h1-tool{
background:var(--mtp-soft)!important;border:1px solid #cdeadd!important;border-radius:10px!important;
padding:12px 10px!important;text-align:center;font-family:ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;
font-size:12.5px!important;color:var(--mtp-accent-dk)!important;font-weight:600
}
#mtp-harness1-slider .mtp-h1-note{
margin-top:16px!important;font-size:13.5px!important;color:var(--mtp-muted)!important;
background:var(--mtp-card)!important;border-left:3px solid var(--mtp-accent)!important;
border-radius:0 8px 8px 0!important;padding:10px 14px!important
}
#mtp-harness1-slider .mtp-h1-stat{display:flex!important;align-items:baseline;gap:12px;margin-bottom:10px}
#mtp-harness1-slider .mtp-h1-bignum{
font-family:Georgia,serif!important;font-size:clamp(40px,8vw,58px)!important;color:var(--mtp-accent-dk)!important;font-weight:700;line-height:1
}
#mtp-harness1-slider .mtp-h1-statlab{font-size:14px!important;color:var(--mtp-muted)!important}
#mtp-harness1-slider .mtp-h1-kv{display:grid!important;grid-template-columns:1fr;gap:8px;margin-top:8px}
#mtp-harness1-slider .mtp-h1-kv div{
font-size:14.5px!important;color:var(--mtp-ink)!important;background:var(--mtp-card)!important;
border:1px solid var(--mtp-line)!important;border-radius:9px!important;padding:9px 13px!important
}
#mtp-harness1-slider .mtp-h1-kv b{color:var(--mtp-accent-dk)!important}
#mtp-harness1-slider .mtp-h1-nav{
display:flex!important;align-items:center;justify-content:space-between;
padding:14px 24px!important;border-top:1px solid var(--mtp-line)!important;background:var(--mtp-card)!important
}
#mtp-harness1-slider .mtp-h1-btn{
background:var(--mtp-accent)!important;color:#fff!important;border:none!important;cursor:pointer;
border-radius:9px!important;padding:9px 16px!important;font-size:14px!important;font-weight:700;
transition:background .2s
}
#mtp-harness1-slider .mtp-h1-btn:hover{background:var(--mtp-accent-dk)!important}
#mtp-harness1-slider .mtp-h1-btn:disabled{background:#c3cdd6!important;cursor:not-allowed}
#mtp-harness1-slider .mtp-h1-dots{display:flex!important;gap:8px}
#mtp-harness1-slider .mtp-h1-dot{
width:9px!important;height:9px!important;border-radius:50%;background:#c9d3dc!important;border:none!important;
cursor:pointer;padding:0!important;transition:all .2s
}
#mtp-harness1-slider .mtp-h1-dot.is-on{background:var(--mtp-accent)!important;width:24px!important;border-radius:5px!important}
#mtp-harness1-slider .mtp-h1-foot{
text-align:center!important;padding:13px 20px!important;background:var(--mtp-ink)!important;
}
#mtp-harness1-slider .mtp-h1-foot span{font-size:12.5px!important;color:#cfe6db!important;letter-spacing:.02em}
#mtp-harness1-slider .mtp-h1-foot b{color:var(--mtp-accent)!important;font-weight:700}
@media (max-width:640px){
#mtp-harness1-slider .mtp-h1-slide{padding:24px 20px 22px!important}
#mtp-harness1-slider .mtp-h1-two{grid-template-columns:1fr!important}
#mtp-harness1-slider .mtp-h1-tools{grid-template-columns:repeat(2,1fr)!important}
#mtp-harness1-slider .mtp-h1-head,#mtp-harness1-slider .mtp-h1-nav{padding-left:16px!important;padding-right:16px!important}
#mtp-harness1-slider .mtp-h1-btn{padding:8px 12px!important;font-size:13px!important}
}
状態管理型検索エージェント
1 / 7
リサーチガイド
Harness-1:帳簿管理を行う状態管理型のハッチを備えた 20B 規模の検索エージェント
本稿では、帳簿管理機能を持つ検索ハッチ内で強化学習によって訓練された検索サブエージェントについて解説します。
20B · gpt-oss-20b ベースモデル
UIUC · UC バークレー · Chroma
arXiv:2606.02373
オープンウェイト & コード
核心となるアイデア
ポリシーとハッチの役割分担
従来の検索エージェントは、検索に関する意思決定と日常的な帳簿管理を一つの成長するトランスクリプトに詰め込んでいます。一方、Harness-1 はこれらを分離します。論文ではこれを「状態管理による認知オフローディング」と呼んでいます。
ポリシーが決定
何を検索するか
どの文書を保持するか
どの主張を検証するか
いつ停止するか
ハッチが維持
候補プール
選別された証拠
検証記録
コンテキスト予算
ハッチ内部の仕組み
環境側のワーキングメモリ
候補プール — 圧縮され重複排除された文書
選別セット — 重要度タグ付き、最大 30 件(very_high / high / fair / low)
証拠グラフ — 正規表現抽出によるエンティティ、ブリッジ、およびシングルトン
検証キャッシュ — 主張から文書への yes/no の判定結果
フルテキストストア — 取得した各チャンクはプロンプト外に保持される
圧縮 — sentence-BM25 が上位 4 つの文を維持する
ポリシーアクション
8 つのツールが状態を編集する
fan_out_search
search_corpus
grep_corpus
read_document
review_docs
curate
verify
end_search
最初の成功した検索は、公平な重要度で 8 つの再ランク付けされたドキュメントをもって、キュレーション済みセットを自動シードします。その後、ポリシーが強力なドキュメントを昇格させ、弱いドキュメントを削除します。
トレーニング
インターフェース操作には SFT(Supervised Fine-Tuning: 教師あり微調整)、検索には RL(Reinforcement Learning: 強化学習)
SFT: ハーネス内の GPT-5.4 ティーチャー · 899 トラジェクトリ · LoRA rank 32 · step-550 チェックポイント
RL: on-policy CISPO(Constrained Importance Sampling Policy Optimization)· SEC クエリのみ · 40 ターン制限 · 終端報酬 · Tinker でトレーニング
データ規模:4,352 個のユニークなトレーニングアイテム(899 SFT + 3,453 RL)
3 つの訓練要件:ウォームスタートされたキュレーション、コンパクトな派生状態レンダリング、多様性を維持するインセンティブ。
結果
数値が示すもの
0.730
8 つのベンチマーク全体での平均キュレーションリコール
次点のオープンサブエージェントである Tongyi DeepResearch 30B より +11.4 ポイント向上
テストされた検索エンジンの中で、平均スコアで Opus-4.6 以外に上回るものはない
転移学習:未見データで +17.0、同族ファミリーで +7.9(2.2 倍の差)
アブレーション:すべてのハーン機構を除去すると、リコールは相対的に 12.2% 低下します
始め方
ご自身で実行する
サーバー: vLLM, SGLang, または Transformers
チェックポイント: pat-jj/harness-1 (Hugging Face, 21B パラメータ, BF16)
コード: github.com/pat-jj/harness-1
論文: arXiv:2606.02373
Harness-1 は、下流の回答モデルのために厳選された文書セットを返します。自身で質問に答えるわけではありません。
← 前へ
次へ →
Marktechpost がキュレーション — エンジニア向けの実践者ファーストな AI/ML 研究、ニュース、および開発ツール。
(function(){
var root=document.getElementById('mtp-harness1-slider');
if(!root||root.dataset.mtpInit)return; root.dataset.mtpInit='1';
var track=root.querySelector('.mtp-h1-track');
var slides=root.querySelectorAll('.mtp-h1-slide');
var dotsWrap=root.querySelector('.mtp-h1-dots');
var prev=root.querySelector('.mtp-h1-prev');
var next=root.querySelector('.mtp-h1-next');
var cur=root.querySelector('.mtp-h1-cur');
var i=0,n=slides.length;
for(var d=0;d45){go(dx
論文、モデルの重み、および GitHub リポジトリをご覧ください。また、Twitter でフォローしていただき、15 万人以上の ML サブレッドに参加し、ニュースレターを購読することを忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でもご参加いただけます。
GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご検討ですか?私たちにご連絡ください
記事 Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b (続き 11/11) は、MarkTechPost で最初に公開されました。
原文を表示
Most search agents are trained as policies over a growing transcript. The model decides how to search. It must also remember what it saw, which evidence matters, and which claims it checked. A team of researchers from University of Illinois Urbana-Champaign, UC Berkeley, and Chroma argues this asks too much. Reinforcement learning ends up optimizing both search decisions and routine bookkeeping at once.
Their answer is Harness-1, a 20B retrieval subagent built on gpt-oss-20b. It was trained with reinforcement learning inside a stateful search harness. The harness holds the bookkeeping. The policy keeps the semantic decisions. The weights and harness code are publicly released.
imagehttps://arxiv.org/pdf/2606.02373
What is Harness-1 Actually
Harness-1 produces a ranked set of documents for a downstream answering model. It does not answer questions itself. It runs inside a state-machine harness centered on a per-episode WORKINGMEMORY.
Each turn works as a loop. The harness renders compact search state along with recent actions. The model emits one structured action. The harness executes it, updates state, and renders the next observation.
The Stateful Harness: What Moves Out of the Policy
The research team calls its principle stateful cognitive offloading. The policy decides what to search, curate, and verify, and when to stop. The harness maintains the recoverable state around those decisions.
That state includes several pieces. A candidate pool holds compressed, deduplicated documents. An importance-tagged curated set is the final output, capped at 30 documents. Tags take four values: very_high, high, fair, or low. A full-text store keeps every retrieved chunk outside the prompt.
An evidence graph adds structure. A regex extractor scans each chunk for proper nouns, years, and dates. The harness then renders frequent entities, bridge documents, and singletons. Bridge documents contain two or more frequent entities. Singletons appear in one document and suggest follow-up leads.
The policy works through eight tools. These are fan_out_search, search_corpus, grep_corpus, read_document, review_docs, curate, verify, and end_search. Search outputs are compressed with sentence-BM25, keeping the top four sentences. Two-level deduplication removes repeats by chunk ID and content fingerprint.
One design choice addresses cold starts. The first successful search auto-seeds the curated set with eight reranked results at fair importance. The policy then promotes strong documents and removes weak ones. This turns the task from building from scratch into refinement.
The research team names three requirements for a trainable harness. These are warm-started curation, compact derived-state rendering, and diversity-preserving incentives. Harness-1 implements all three.
How It is Trained
Training splits along the same line as the harness. Supervised fine-tuning teaches the model to operate the interface. Reinforcement learning improves search decisions over the maintained state.
A single teacher, GPT-5.4, runs live inside the full harness. After filtering, 899 trajectories remain for SFT. The model uses LoRA at rank 32 for three epochs. The step-550 checkpoint initializes RL.
RL uses on-policy CISPO with a 40-turn cap and terminal-only reward. It trains only on SEC queries. Groups with identical rewards are dropped from the gradient. Training ran on Tinker.
The reward separates discovery from selection. It also adds a tool-diversity bonus. Without that bonus, the agent collapses to repeated search. Curated recall then plateaus near 0.53. With the bonus, diversity stabilizes and recall reaches about 0.60.
The Benchmark Case
Harness-1 was evaluated on eight benchmarks spanning web, finance, patents, and multi-hop QA. The main metric is curated recall: coverage of relevant documents in the final set. Trajectory recall counts evidence encountered anywhere in the episode.
ModelTypeAvg Curated RecallAvg Trajectory Recall
Harness-1 (20B)Open small0.7300.807
Tongyi DeepResearch 30BOpen small0.6160.673
Context-1 (20B)Open small0.6030.756
Search-R1 (32B)Open small0.2890.289
GPT-OSS-20BOpen small0.2620.590
Qwen3 (32B)Open small0.2160.446
Opus-4.6Frontier0.7640.794
GPT-5.4Frontier0.7090.752
Sonnet-4.6Frontier0.6880.725
Kimi-K2.5Frontier0.6470.794
GPT-OSS-120BFrontier0.4960.769
Averages across eight benchmarks, from Figure 1 of the paper. Frontier models run as zero-shot retrievers under the Context-1 harness.
Harness-1 reaches 0.730 average curated recall. That beats the next open subagent, Tongyi DeepResearch 30B, by 11.4 points. Among the frontier searchers tested, only Opus-4.6 scores higher on average.
The transfer pattern is the clearest signal of the mechanism. SFT used four benchmark families; RL used only SEC. On those source-family tasks, Harness-1 gained 7.9 points over the closest open baseline. On four held-out benchmarks, it gained 17.0 points. That is a 2.2x larger gain on tasks furthest from training data.
Ablations support the harness claim. Disabling all harness mechanisms drops Recall by 12.2 percent relative on BrowseComp+. The trained policy keeps searching but cannot rank what it sees.
imagehttps://arxiv.org/pdf/2606.02373
Use Cases
The method targets evidence-seeking retrieval where documents support an answer. Several workflows fit this shape.
One is literature and patent review. The evidence graph and curated set help organize many sources. Another is financial-filing analysis. The SEC case study recovers an exact executive-transition date across multiple 8-Ks.
A third is multi-hop fact-checking. The fan_out_search and verify tools resolve ambiguous entities before committing. A fourth is modular RAG. The curated set feeds a frozen generator, and better sets yield higher answer accuracy.
Strengths and Weaknesses
Strengths
Highest average curated recall among the open models tested, and behind only Opus-4.6 overall.
Gains hold on held-out benchmarks, suggesting domain-general search operations.
Trained on 4,352 unique items, far fewer than several baselines.
Open checkpoint and harness code, servable with common runtimes.
Weaknesses
The evidence graph uses regex extraction, not full entity linking.
The verify tool is an LLM proxy that can err on ambiguous claims.
Sentence-BM25 compression may drop context tied to discourse structure.
The research team reports point estimates without full confidence intervals.
Key Takeaways
Harness-1 is a 20B search agent that moves search bookkeeping into the environment, leaving semantic decisions to the policy.
It hits 0.730 average curated recall across eight benchmarks, beating the next open subagent by 11.4 points.
Among the searchers tested, only Opus-4.6 scores higher on average curated recall.
Gains are largest on held-out benchmarks (+17.0 vs +7.9 points), suggesting the learned search operations transfer.
Weights and harness code are public, servable via vLLM, SGLang, or Transformers.
Marktechpost’s Visual Explainer
#mtp-harness1-slider *{box-sizing:border-box!important;margin:0;padding:0}
#mtp-harness1-slider hr,#mtp-harness1-slider p:empty,#mtp-harness1-slider del,#mtp-harness1-slider s{display:none!important}
#mtp-harness1-slider{
--mtp-bg:#f4f6f8!important;
--mtp-card:#ffffff!important;
--mtp-ink:#10243a!important;
--mtp-muted:#5a6b7b!important;
--mtp-line:#e2e8ef!important;
--mtp-accent:#0e9f6e!important;
--mtp-accent-dk:#0a7d56!important;
--mtp-soft:#e8f6f0!important;
--mtp-chip:#eef2f6!important;
background:var(--mtp-bg)!important;
color:var(--mtp-ink)!important;
border:1px solid var(--mtp-line)!important;
border-radius:18px!important;
padding:0!important;
max-width:860px!important;
margin:24px auto!important;
font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Helvetica,sans-serif!important;
line-height:1.55!important;
overflow:hidden!important;
box-shadow:0 10px 40px rgba(16,36,58,.08)!important;
}
#mtp-harness1-slider .mtp-h1-head{
display:flex!important;align-items:center;justify-content:space-between;
padding:16px 24px!important;border-bottom:1px solid var(--mtp-line)!important;
background:var(--mtp-card)!important;
}
#mtp-harness1-slider .mtp-h1-kicker{
font-size:11px!important;letter-spacing:.16em;text-transform:uppercase;
font-weight:700;color:var(--mtp-accent-dk)!important;
}
#mtp-harness1-slider .mtp-h1-count{
font-size:13px!important;color:var(--mtp-muted)!important;font-variant-numeric:tabular-nums;font-weight:600
}
#mtp-harness1-slider .mtp-h1-viewport{overflow:hidden!important;background:var(--mtp-bg)!important}
#mtp-harness1-slider .mtp-h1-track{display:flex!important;transition:transform .45s cubic-bezier(.22,.61,.36,1)}
#mtp-harness1-slider .mtp-h1-slide{
min-width:100%!important;padding:32px 36px 30px!important;
}
#mtp-harness1-slider .mtp-h1-eyebrow{
font-size:12px!important;letter-spacing:.08em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:10px
}
#mtp-harness1-slider .mtp-h1-slide h2{
font-family:Georgia,"Times New Roman",serif!important;
font-size:clamp(24px,4.4vw,34px)!important;line-height:1.18;color:var(--mtp-ink)!important;
font-weight:700;margin-bottom:14px!important
}
#mtp-harness1-slider .mtp-h1-slide h3{
font-family:Georgia,serif!important;font-size:clamp(20px,3.4vw,26px)!important;
color:var(--mtp-ink)!important;font-weight:700;margin-bottom:14px!important
}
#mtp-harness1-slider .mtp-h1-slide p{font-size:15.5px!important;color:var(--mtp-muted)!important;margin-bottom:12px}
#mtp-harness1-slider .mtp-h1-lead{font-size:17px!important;color:var(--mtp-ink)!important}
#mtp-harness1-slider .mtp-h1-chips{display:flex!important;flex-wrap:wrap;gap:8px;margin-top:18px}
#mtp-harness1-slider .mtp-h1-chip{
font-size:12.5px!important;background:var(--mtp-chip)!important;color:var(--mtp-ink)!important;
border:1px solid var(--mtp-line)!important;border-radius:999px!important;padding:5px 12px!important;font-weight:600
}
#mtp-harness1-slider .mtp-h1-two{display:grid!important;grid-template-columns:1fr 1fr;gap:16px;margin-top:6px}
#mtp-harness1-slider .mtp-h1-box{
background:var(--mtp-card)!important;border:1px solid var(--mtp-line)!important;border-radius:12px!important;padding:16px 18px!important
}
#mtp-harness1-slider .mtp-h1-box .mtp-h1-lab{
font-size:11px!important;letter-spacing:.1em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:8px
}
#mtp-harness1-slider .mtp-h1-box ul{list-style:none!important}
#mtp-harness1-slider .mtp-h1-box li{font-size:14px!important;color:var(--mtp-muted)!important;padding:3px 0!important}
#mtp-harness1-slider ul.mtp-h1-list{list-style:none!important;margin-top:4px}
#mtp-harness1-slider ul.mtp-h1-list li{
font-size:15px!important;color:var(--mtp-ink)!important;padding:8px 0 8px 22px!important;
border-bottom:1px solid var(--mtp-line)!important;position:relative
}
#mtp-harness1-slider ul.mtp-h1-list li:last-child{border-bottom:none!important}
#mtp-harness1-slider ul.mtp-h1-list li:before{
content:"";position:absolute;left:2px;top:15px;width:7px!important;height:7px!important;
border-radius:50%;background:var(--mtp-accent)!important
}
#mtp-harness1-slider ul.mtp-h1-list li b{color:var(--mtp-ink)!important}
#mtp-harness1-slider ul.mtp-h1-list li span{color:var(--mtp-muted)!important}
#mtp-harness1-slider .mtp-h1-tools{display:grid!important;grid-template-columns:repeat(4,1fr);gap:10px;margin-top:6px}
#mtp-harness1-slider .mtp-h1-tool{
background:var(--mtp-soft)!important;border:1px solid #cdeadd!important;border-radius:10px!important;
padding:12px 10px!important;text-align:center;font-family:ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;
font-size:12.5px!important;color:var(--mtp-accent-dk)!important;font-weight:600
}
#mtp-harness1-slider .mtp-h1-note{
margin-top:16px!important;font-size:13.5px!important;color:var(--mtp-muted)!important;
background:var(--mtp-card)!important;border-left:3px solid var(--mtp-accent)!important;
border-radius:0 8px 8px 0!important;padding:10px 14px!important
}
#mtp-harness1-slider .mtp-h1-stat{display:flex!important;align-items:baseline;gap:12px;margin-bottom:10px}
#mtp-harness1-slider .mtp-h1-bignum{
font-family:Georgia,serif!important;font-size:clamp(40px,8vw,58px)!important;color:var(--mtp-accent-dk)!important;font-weight:700;line-height:1
}
#mtp-harness1-slider .mtp-h1-statlab{font-size:14px!important;color:var(--mtp-muted)!important}
#mtp-harness1-slider .mtp-h1-kv{display:grid!important;grid-template-columns:1fr;gap:8px;margin-top:8px}
#mtp-harness1-slider .mtp-h1-kv div{
font-size:14.5px!important;color:var(--mtp-ink)!important;background:var(--mtp-card)!important;
border:1px solid var(--mtp-line)!important;border-radius:9px!important;padding:9px 13px!important
}
#mtp-harness1-slider .mtp-h1-kv b{color:var(--mtp-accent-dk)!important}
#mtp-harness1-slider .mtp-h1-nav{
display:flex!important;align-items:center;justify-content:space-between;
padding:14px 24px!important;border-top:1px solid var(--mtp-line)!important;background:var(--mtp-card)!important
}
#mtp-harness1-slider .mtp-h1-btn{
background:var(--mtp-accent)!important;color:#fff!important;border:none!important;cursor:pointer;
border-radius:9px!important;padding:9px 16px!important;font-size:14px!important;font-weight:700;
transition:background .2s
}
#mtp-harness1-slider .mtp-h1-btn:hover{background:var(--mtp-accent-dk)!important}
#mtp-harness1-slider .mtp-h1-btn:disabled{background:#c3cdd6!important;cursor:not-allowed}
#mtp-harness1-slider .mtp-h1-dots{display:flex!important;gap:8px}
#mtp-harness1-slider .mtp-h1-dot{
width:9px!important;height:9px!important;border-radius:50%;background:#c9d3dc!important;border:none!important;
cursor:pointer;padding:0!important;transition:all .2s
}
#mtp-harness1-slider .mtp-h1-dot.is-on{background:var(--mtp-accent)!important;width:24px!important;border-radius:5px!important}
#mtp-harness1-slider .mtp-h1-foot{
text-align:center!important;padding:13px 20px!important;background:var(--mtp-ink)!important;
}
#mtp-harness1-slider .mtp-h1-foot span{font-size:12.5px!important;color:#cfe6db!important;letter-spacing:.02em}
#mtp-harness1-slider .mtp-h1-foot b{color:var(--mtp-accent)!important;font-weight:700}
@media (max-width:640px){
#mtp-harness1-slider .mtp-h1-slide{padding:24px 20px 22px!important}
#mtp-harness1-slider .mtp-h1-two{grid-template-columns:1fr!important}
#mtp-harness1-slider .mtp-h1-tools{grid-template-columns:repeat(2,1fr)!important}
#mtp-harness1-slider .mtp-h1-head,#mtp-harness1-slider .mtp-h1-nav{padding-left:16px!important;padding-right:16px!important}
#mtp-harness1-slider .mtp-h1-btn{padding:8px 12px!important;font-size:13px!important}
}
Stateful Search Agents
1 / 7
Research Guide
Harness-1: a 20B search agent with a stateful harness
A retrieval subagent trained with reinforcement learning inside a search harness that holds the bookkeeping.
20B · gpt-oss-20b base
UIUC · UC Berkeley · Chroma
arXiv:2606.02373
Open weights & code
The Core Idea
Split the work between policy and harness
Most search agents pack search decisions and routine bookkeeping into one growing transcript. Harness-1 separates the two. The paper calls this stateful cognitive offloading.
Policy decides
What to search
Which documents to keep
What claims to verify
When to stop
Harness maintains
Candidate pool
Curated evidence
Verification records
Context budget
Inside the Harness
Environment-side working memory
Candidate pool — compressed, deduplicated documents
Curated set — importance-tagged, capped at 30 (very_high / high / fair / low)
Evidence graph — entities, bridges, and singletons via regex extraction
Verification cache — claim to document to yes/no verdict
Full-text store — every retrieved chunk kept outside the prompt
Compression — sentence-BM25 keeps the top four sentences
Policy Actions
Eight tools edit the state
fan_out_search
search_corpus
grep_corpus
read_document
review_docs
curate
verify
end_search
The first successful search auto-seeds the curated set with eight reranked documents at fair importance. The policy then promotes strong documents and removes weak ones.
Training
SFT to operate the interface, RL to search
SFT: GPT-5.4 teacher inside the harness · 899 trajectories · LoRA rank 32 · step-550 checkpoint
RL: on-policy CISPO · SEC queries only · 40-turn cap · terminal reward · trained on Tinker
Data scale: 4,352 unique training items (899 SFT + 3,453 RL)
Three trainability requirements: warm-started curation, compact derived-state rendering, and diversity-preserving incentives.
Results
What the numbers show
0.730
average curated recall
across eight benchmarks
+11.4 pts over the next open subagent, Tongyi DeepResearch 30B
Among the searchers tested, only Opus-4.6 scores higher on average
Transfer: +17.0 on held-out vs +7.9 on source-family (2.2x gap)
Ablation: removing all harness mechanisms drops Recall 12.2% relative
Get Started
Run it yourself
Serve: vLLM, SGLang, or Transformers
Checkpoint: pat-jj/harness-1 (Hugging Face, 21B params, BF16)
Code: github.com/pat-jj/harness-1
Paper: arXiv:2606.02373
Harness-1 returns a curated set of documents for a downstream answering model. It does not answer questions itself.
← Prev
Next →
Curated by Marktechpost — practitioner-first AI/ML research, news, and dev tooling for engineers.
(function(){
var root=document.getElementById('mtp-harness1-slider');
if(!root||root.dataset.mtpInit)return; root.dataset.mtpInit='1';
var track=root.querySelector('.mtp-h1-track');
var slides=root.querySelectorAll('.mtp-h1-slide');
var dotsWrap=root.querySelector('.mtp-h1-dots');
var prev=root.querySelector('.mtp-h1-prev');
var next=root.querySelector('.mtp-h1-next');
var cur=root.querySelector('.mtp-h1-cur');
var i=0,n=slides.length;
for(var d=0;d45){go(dx
Check out the Paper, Model weights and GitHub Repo. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b appeared first on MarkTechPost.
関連記事
LiteParse v2.0(1 分で読める)
スタンドアロン型オープンソース PDF 解析ツール「LiteParse」がバージョン 2.0 に更新され、ローカル環境で高速なテキスト抽出やスクリーンショット生成が可能になった。
Amazon SageMaker AI で NVIDIA Isaac Lab を活用し、ロボット強化学習のスケールアップを実現
AWS は、物理的AIの実用化に向け、Amazon SageMaker AI上でNVIDIA Isaac Labを活用することで、複雑なロボットの強化学習を高速化するソリューションを発表した。
OpenAI のデータベース変更分析(28 分読)
OpenAI は SchemaFlow を公開し、構造化されたリクエストの解析から影響分析、SQL 生成、ガードレール、評価までを支援する AI 活用ワークフローを示した。小売業の例だが、企業全体のデータ処理に適用可能である。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み