AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月7日 15:25·約15分で読める

Harness-1 の紹介:gpt-oss-20b を基盤とし、状態管理型検索ハネス内で強化学習を用いて訓練された 20B パラメータの検索サブエージェント

#RAG#Reinforcement Learning#Search Agents#Stateful AI#Open Source
TL;DR

イリノイ大学アーバナ・シャンペーン校などの研究チームが、検索エージェントの「記憶管理」を外部ハッチスにオフロードする新手法「Harness-1」を発表し、強化学習による効率化を実現した。

AI深層分析2026年6月9日 14:13
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

状態認知のオフローディング

検索ポリシーが「何を検索するか」という意思決定と、「証拠を管理する」という事務作業を分離し、後者を外部の状態管理ハッチスに任せることでモデルの負荷を軽減した。

2

20B モデルによる実装

gpt-oss-20b を基盤とした 200 億パラメータの検索サブエージェント「Harness-1」が構築され、強化学習によって最適化された。

3

構造化された状態管理

候補ドキュメントプール、重要度タグ付け(very_high〜low)、全文ストア、および証拠グラフ(エントリティの抽出と橋渡し文書の特定)を備えた複雑な状態マシンを採用している。

4

学習効率の向上

初期検索結果による「ウォームスタート」や、重複排除、多様性維持などのインセンティブ設計により、ゼロからの構築ではなく refinement(洗練)のタスクとして学習を可能にした。

5

報酬設計による多様性の向上

ツール多様性ボーナスを導入することで、エージェントの探索行動が単調化し、リコール率が0.53から0.60に安定して向上した。

6

未学習タスクへの高い汎化能力

SECクエリのみで強化学習を行った結果、訓練データに含まれない保留済みベンチマークでは、ベースライン比で17.0ポイントも性能が向上した。

7

オープンモデルにおける最上位性能

平均キュレートド・リコール0.730を達成し、次点のオープンサブエージェント(Tongyi DeepResearch 30B)を11.4ポイント上回った。

影響分析・編集コメントを表示

影響分析

この研究は、複雑な検索タスクを行う AI エージェントの設計パラダイムに大きな転換をもたらす可能性があります。従来のようにモデル内部で全ての情報を保持しようとするアプローチから、外部状態管理と分離するアーキテクチャへ移行することで、より大規模かつ効率的なエージェントの実現が期待されます。特に RAG(検索拡張生成)システムの基盤技術として、今後の実用化におけるボトルネック解決に寄与する重要な一歩です。

編集コメント

検索エージェントの「記憶管理」を外部に委譲するこのアプローチは、モデルのコスト削減と推論精度向上の両立において極めて示唆に富んでいます。技術的な詳細が公開されているため、実装レベルでの検証が進むことが期待されます。

ほとんどの検索エージェントは、成長するトランスクリプト上のポリシーとして訓練されています。モデルはどのように検索するかを決定します。また、自分が何を見たか、どの証拠が重要かを記憶し、どの主張を検証したかも覚えていなければなりません。しかし、イリノイ大学アーバナ・シャンペーン校、カリフォルニア大学バークレー校、および Chroma の研究者チームは、これは要求が多すぎると指摘しています。強化学習(Reinforcement Learning)は結果として、検索の決定と日常的な事務処理の両方を同時に最適化してしまいます。

彼らの答えが Harness-1 です。これは gpt-oss-20b を基盤とした 20B パラメータの検索サブエージェントで、状態保持型の検索ハッチ(Stateful Search Harness)内で強化学習によって訓練されました。このハッチが事務処理を担い、ポリシーは意味的な決定を担当します。重みとハッチのコードは一般公開されています。

imageimagehttps://arxiv.org/pdf/2606.02373

Harness-1 とは実際何なのか

Harness-1 は、下流の回答モデルに対して文書のランク付けされたセットを生成します。自身で質問に答えるわけではありません。これは、エピソードごとの WORKINGMEMORY(作業記憶)を中心とした状態機械ハッチ内で動作します。

各ターンはループとして機能します。ハッチは最近のアクションとともにコンパクトな検索状態をレンダリングし、モデルは構造化されたアクションを 1 つ出力します。その後、ハッチがそれを実行して状態を更新し、次の観測結果をレンダリングします。

状態保持型ハッチ:ポリシーから外れるもの

研究チームは、この原則を「状態保持型認知オフローディング」と呼んでいます。ポリシーは、何を検索し、キュレーションし、検証するか、そしていつ停止するかを決定します。ハーンズ(harness)は、これらの意思決定の周囲に回復可能な状態を維持します。

その状態にはいくつかの要素が含まれます。候補プールには、圧縮され重複が排除されたドキュメントが保持されます。重要度タグ付けされたキュレーションセットが最終出力となり、30 ドキュメントまでと制限されています。タグは「very_high(非常に高い)」、「high(高い)」、「fair(普通)」、「low(低い)」の 4 つの値を取ります。フルテキストストアには、プロンプト外のすべての取得チャンクが保存されます。

証拠グラフが構造を追加します。正規表現抽出器が各チャンクから固有名詞、年号、日付をスキャンします。ハーンズはその後、頻出エンティティ、橋渡しドキュメント、単一出現エンティティ(singleton)をレンダリングします。橋渡しドキュメントには 2 つ以上の頻出エンティティが含まれています。単一出現エンティティは 1 つのドキュメントにのみ現れ、追加の調査线索を示唆します。

ポリシーは 8 つのツールを通じて機能します。これらは「fan_out_search(扇状検索)」、「search_corpus(コーパス検索)」、「grep_corpus(コーパスグレッピング)」、「read_document(ドキュメント読取)」、「review_docs(ドキュメントレビュー)」、「curate(キュレーション)」、「verify(検証)」、「end_search(検索終了)」です。検索出力は sentence-BM25 で圧縮され、上位 4 つの文のみが保持されます。2 レベルの重複排除により、チャンク ID とコンテンツ指紋に基づいて重複が除去されます。

ある設計上の選択は「コールドスタート」への対応です。最初の成功した検索は、重要度が「fair(普通)」の 8 つの再ランク付け結果でキュレーションセットを自動シードします。その後、ポリシーが強力なドキュメントを昇格させ、弱いドキュメントを削除します。これにより、ゼロからの構築というタスクが、洗練・改良へと転換されます。

研究チームは、訓練可能なハーン(harness)に対して3つの要件を定義しています。これらは、ウォームスタートされたキュレーション、コンパクトな派生状態のレンダリング、そして多様性を維持するインセンティブです。Harness-1 はこの 3 つすべてを実装しています。

How It is Trained

トレーニングはハーンと同じラインに沿って分割されます。教師あり微調整(Supervised fine-tuning)により、モデルがインターフェースを操作する方法を学習します。強化学習(Reinforcement learning)は、維持される状態に基づいて検索判断を改善します。

単一のティーチャーである GPT-5.4 が、フルハーン内でライブ実行されます。フィルタリング後、SFT(Supervised Fine-Tuning)用に 899 のトラジェクトリーが残り、モデルは rank 32 で LoRA を使用して 3 エポック訓練します。RL(Reinforcement Learning)の初期化には step-550 のチェックポイントを使用します。

RL は、40 ターン制限とターミナルのみでの報酬を持つオンポリシー CISPO を使用します。SEC クエリのみで訓練され、同じ報酬を持つグループは勾配から除外されます。訓練は Tinker 上で行われました。

報酬は発見と選択を分離し、さらにツール多様性ボーナスを追加しています。このボーナスがない場合、エージェントは繰り返し検索に収束してしまいます。その結果、キュレーションされたリコール(recall)は約 0.53 で頭打ちになります。一方、ボーナスがある場合は多様性が安定し、リコールは約 0.60 に達します。

The Benchmark Case

Harness-1 は、ウェブ、金融、特許、マルチホップ QA を含む 8 つのベンチマークで評価されました。主要な指標はキュレーションされたリコール(curated recall)であり、最終セット内の関連文書の網羅性を示します。トラジェクトリーリコール(trajectory recall)は、エピソード中のどこかで遭遇した証拠をカウントするものです。

ModelTypeAvg Curated RecallAvg Trajectory Recall

Harness-1 (20B)Open small0.7300.807

Tongyi DeepResearch 30BOpen small0.6160.673

Context-1 (20B)Open small0.6030.756

Search-R1 (32B) Open small 0.289 0.289

GPT-OSS-20B Open small 0.262 0.590

Qwen3 (32B) Open small 0.216 0.446

Opus-4.6 Frontier 0.764 0.794

GPT-5.4 Frontier 0.709 0.752

Sonnet-4.6 Frontier 0.688 0.725

Kimi-K2.5 Frontier 0.647 0.794

GPT-OSS-120B Frontier 0.496 0.769

これは論文の図 1 に基づく 8 つのベンチマークにわたる平均値です。フロンティアモデルは、Context-1 ハーネス(注:検索用環境枠組み)の下でゼロショット検索器として実行されます。

Harness-1 は、0.730 の平均キュレーションされたリコール(注:関連文書の回収率)を達成しました。これは、次のオープンなサブエージェントである Tongyi DeepResearch 30B を 11.4 ポイント上回っています。テストされたフロンティア検索モデルの中で、平均でこれより高いスコアを獲得したのは Opus-4.6 のみです。

転移パターンがメカニズムの最も明確なシグナルとなっています。SFT(注:教師あり微調整)では 4 つのベンチマークファミリーを使用しましたが、RL(注:強化学習)では SEC のみを採用しました。これらのソースファミリータスクにおいて、Harness-1 は最良のオープンベースラインに対して 7.9 ポイント向上しました。一方、4 つのホールドアウト(学習データに含まれない)ベンチマークでは 17.0 ポイント向上しており、これはトレーニングデータから最も遠いタスクにおいて 2.2 倍の大きな改善であることを示しています。

アブレーション実験はハーネスの有効性を支持する結果となりました。すべてのハーネスメカニズムを無効化すると、BrowseComp+ におけるリコール(注:関連文書の回収率)が相対的に 12.2% 低下します。学習済みのポリシーは検索を継続しますが、発見した情報を適切にランク付けすることができなくなります。

imageimage https://arxiv.org/pdf/2606.02373

ユースケース

本手法は、文書が回答を裏付ける証拠探索型検索を対象としています。この形状に適合するいくつかのワークフローが存在します。

一つ目は文献および特許レビューです。証拠グラフと厳選されたセットは、多数のソースを整理するのに役立ちます。二つ目は財務書類分析です。SEC の事例研究では、複数の 8-K 文書にまたがる正確な経営陣交代日を特定しています。

三つ目は多段事実検証です。fan_out_search および verify ツールは、コミットする前に曖昧なエンティティを解決します。四つ目はモジュラー RAG(Retrieval-Augmented Generation)です。厳選されたセットが凍結された生成器に供給され、より質の高いセットが回答精度の向上をもたらします。

Strengths and Weaknesses

Strengths

テストされたオープンモデルの中で最高平均の厳選リコールを達成し、全体では Opus-4.6 に次ぐ成績です。

保持されたベンチマークでも性能が維持され、ドメインに依存しない検索操作が可能であることを示唆しています。

4,352 件のユニークアイテムで訓練されており、これはいくつかのベースラインと比較してはるかに少ない数値です。

オープンなチェックポイントとハーン(harness)コードを提供しており、一般的なランタイムで実行可能です。

Weaknesses

証拠グラフは正規表現抽出を使用しており、完全なエンティティリンキングではありません。

verify ツールは LLM プロキシであり、曖昧な主張に対して誤りを犯す可能性があります。

Sentence-BM25 の圧縮により、談話構造に関連する文脈が失われる恐れがあります。

研究チームは信頼区間を明示せず、点推定値のみを報告しています。

Key Takeaways

Harness-1 は 20B パラメータの検索エージェントであり、検索の事務処理を環境側に移し、意味的な判断をポリシーに委ねています。

8 つのベンチマーク全体で平均 0.730 の厳選リコールを達成し、次点のオープンサブエージェントより 11.4 ポイント上回っています。

テストされた検索エージェントの中で、平均的な厳選リコールにおいて Opus-4.6 より高いスコアを記録したのは Harness-1 だけです。

保持されたベンチマークにおける改善幅は最も大きく(+17.0 ポイント対 +7.9 ポイント)、学習した検索操作が転移していることを示唆しています。

重みとハネスコードは公開されており、vLLM、SGLang、または Transformers を介して提供可能です。

Marktechpost のビジュアル解説

#mtp-harness1-slider *{box-sizing:border-box!important;margin:0;padding:0}

#mtp-harness1-slider hr,#mtp-harness1-slider p:empty,#mtp-harness1-slider del,#mtp-harness1-slider s{display:none!important}

#mtp-harness1-slider{

--mtp-bg:#f4f6f8!important;

--mtp-card:#ffffff!important;

--mtp-ink:#10243a!important;

--mtp-muted:#5a6b7b!important;

--mtp-line:#e2e8ef!important;

--mtp-accent:#0e9f6e!important;

--mtp-accent-dk:#0a7d56!important;

--mtp-soft:#e8f6f0!important;

--mtp-chip:#eef2f6!important;

background:var(--mtp-bg)!important;

color:var(--mtp-ink)!important;

border:1px solid var(--mtp-line)!important;

border-radius:18px!important;

padding:0!important;

max-width:860px!important;

margin:24px auto!important;

font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Helvetica,sans-serif!important;

line-height:1.55!important;

overflow:hidden!important;

box-shadow:0 10px 40px rgba(16,36,58,.08)!important;

}

#mtp-harness1-slider .mtp-h1-head{

display:flex!important;align-items:center;justify-content:space-between;

padding:16px 24px!important;border-bottom:1px solid var(--mtp-line)!important;

background:var(--mtp-card)!important;

}

#mtp-harness1-slider .mtp-h1-kicker{

font-size:11px!important;letter-spacing:.16em;text-transform:uppercase;

font-weight:700;color:var(--mtp-accent-dk)!important;

}

#mtp-harness1-slider .mtp-h1-count{

font-size:13px!important;color:var(--mtp-muted)!important;font-variant-numeric:tabular-nums;font-weight:600

}

#mtp-harness1-slider .mtp-h1-viewport{overflow:hidden!important;background:var(--mtp-bg)!important}

#mtp-harness1-slider .mtp-h1-track{display:flex!important;transition:transform .45s cubic-bezier(.22,.61,.36,1)}

#mtp-harness1-slider .mtp-h1-slide{

min-width:100%!important;padding:32px 36px 30px!important;

}

#mtp-harness1-slider .mtp-h1-eyebrow{

font-size:12px!important;letter-spacing:.08em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:10px

}

#mtp-harness1-slider .mtp-h1-slide h2{

font-family:Georgia,"Times New Roman",serif!important;

font-size:clamp(24px,4.4vw,34px)!important;line-height:1.18;color:var(--mtp-ink)!important;

font-weight:700;margin-bottom:14px!important

}

#mtp-harness1-slider .mtp-h1-slide h3{

font-family:Georgia,serif!important;font-size:clamp(20px,3.4vw,26px)!important;

color:var(--mtp-ink)!important;font-weight:700;margin-bottom:14px!important

}

#mtp-harness1-slider .mtp-h1-slide p{font-size:15.5px!important;color:var(--mtp-muted)!important;margin-bottom:12px}

#mtp-harness1-slider .mtp-h1-lead{font-size:17px!important;color:var(--mtp-ink)!important}

#mtp-harness1-slider .mtp-h1-chips{display:flex!important;flex-wrap:wrap;gap:8px;margin-top:18px}

#mtp-harness1-slider .mtp-h1-chip{

font-size:12.5px!important;background:var(--mtp-chip)!important;color:var(--mtp-ink)!important;

border:1px solid var(--mtp-line)!important;border-radius:999px!important;padding:5px 12px!important;font-weight:600

}

#mtp-harness1-slider .mtp-h1-two{display:grid!important;grid-template-columns:1fr 1fr;gap:16px;margin-top:6px}

#mtp-harness1-slider .mtp-h1-box{

background:var(--mtp-card)!important;border:1px solid var(--mtp-line)!important;border-radius:12px!important;padding:16px 18px!important

}

#mtp-harness1-slider .mtp-h1-box .mtp-h1-lab{

font-size:11px!important;letter-spacing:.1em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:8px

}

#mtp-harness1-slider .mtp-h1-box ul{list-style:none!important}

#mtp-harness1-slider .mtp-h1-box li{font-size:14px!important;color:var(--mtp-muted)!important;padding:3px 0!important}

#mtp-harness1-slider ul.mtp-h1-list{list-style:none!important;margin-top:4px}

#mtp-harness1-slider ul.mtp-h1-list li{

font-size:15px!important;color:var(--mtp-ink)!important;padding:8px 0 8px 22px!important;

border-bottom:1px solid var(--mtp-line)!important;position:relative

}

#mtp-harness1-slider ul.mtp-h1-list li:last-child{border-bottom:none!important}

#mtp-harness1-slider ul.mtp-h1-list li:before{

content:"";position:absolute;left:2px;top:15px;width:7px!important;height:7px!important;

border-radius:50%;background:var(--mtp-accent)!important

}

#mtp-harness1-slider ul.mtp-h1-list li b{color:var(--mtp-ink)!important}

#mtp-harness1-slider ul.mtp-h1-list li span{color:var(--mtp-muted)!important}

#mtp-harness1-slider .mtp-h1-tools{display:grid!important;grid-template-columns:repeat(4,1fr);gap:10px;margin-top:6px}

#mtp-harness1-slider .mtp-h1-tool{

background:var(--mtp-soft)!important;border:1px solid #cdeadd!important;border-radius:10px!important;

padding:12px 10px!important;text-align:center;font-family:ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;

font-size:12.5px!important;color:var(--mtp-accent-dk)!important;font-weight:600

}

#mtp-harness1-slider .mtp-h1-note{

margin-top:16px!important;font-size:13.5px!important;color:var(--mtp-muted)!important;

background:var(--mtp-card)!important;border-left:3px solid var(--mtp-accent)!important;

border-radius:0 8px 8px 0!important;padding:10px 14px!important

}

#mtp-harness1-slider .mtp-h1-stat{display:flex!important;align-items:baseline;gap:12px;margin-bottom:10px}

#mtp-harness1-slider .mtp-h1-bignum{

font-family:Georgia,serif!important;font-size:clamp(40px,8vw,58px)!important;color:var(--mtp-accent-dk)!important;font-weight:700;line-height:1

}

#mtp-harness1-slider .mtp-h1-statlab{font-size:14px!important;color:var(--mtp-muted)!important}

#mtp-harness1-slider .mtp-h1-kv{display:grid!important;grid-template-columns:1fr;gap:8px;margin-top:8px}

#mtp-harness1-slider .mtp-h1-kv div{

font-size:14.5px!important;color:var(--mtp-ink)!important;background:var(--mtp-card)!important;

border:1px solid var(--mtp-line)!important;border-radius:9px!important;padding:9px 13px!important

}

#mtp-harness1-slider .mtp-h1-kv b{color:var(--mtp-accent-dk)!important}

#mtp-harness1-slider .mtp-h1-nav{

display:flex!important;align-items:center;justify-content:space-between;

padding:14px 24px!important;border-top:1px solid var(--mtp-line)!important;background:var(--mtp-card)!important

}

#mtp-harness1-slider .mtp-h1-btn{

background:var(--mtp-accent)!important;color:#fff!important;border:none!important;cursor:pointer;

border-radius:9px!important;padding:9px 16px!important;font-size:14px!important;font-weight:700;

transition:background .2s

}

#mtp-harness1-slider .mtp-h1-btn:hover{background:var(--mtp-accent-dk)!important}

#mtp-harness1-slider .mtp-h1-btn:disabled{background:#c3cdd6!important;cursor:not-allowed}

#mtp-harness1-slider .mtp-h1-dots{display:flex!important;gap:8px}

#mtp-harness1-slider .mtp-h1-dot{

width:9px!important;height:9px!important;border-radius:50%;background:#c9d3dc!important;border:none!important;

cursor:pointer;padding:0!important;transition:all .2s

}

#mtp-harness1-slider .mtp-h1-dot.is-on{background:var(--mtp-accent)!important;width:24px!important;border-radius:5px!important}

#mtp-harness1-slider .mtp-h1-foot{

text-align:center!important;padding:13px 20px!important;background:var(--mtp-ink)!important;

}

#mtp-harness1-slider .mtp-h1-foot span{font-size:12.5px!important;color:#cfe6db!important;letter-spacing:.02em}

#mtp-harness1-slider .mtp-h1-foot b{color:var(--mtp-accent)!important;font-weight:700}

@media (max-width:640px){

#mtp-harness1-slider .mtp-h1-slide{padding:24px 20px 22px!important}

#mtp-harness1-slider .mtp-h1-two{grid-template-columns:1fr!important}

#mtp-harness1-slider .mtp-h1-tools{grid-template-columns:repeat(2,1fr)!important}

#mtp-harness1-slider .mtp-h1-head,#mtp-harness1-slider .mtp-h1-nav{padding-left:16px!important;padding-right:16px!important}

#mtp-harness1-slider .mtp-h1-btn{padding:8px 12px!important;font-size:13px!important}

}

状態管理型検索エージェント

1 / 7

リサーチガイド

Harness-1:帳簿管理を行う状態管理型のハッチを備えた 20B 規模の検索エージェント

本稿では、帳簿管理機能を持つ検索ハッチ内で強化学習によって訓練された検索サブエージェントについて解説します。

20B · gpt-oss-20b ベースモデル

UIUC · UC バークレー · Chroma

arXiv:2606.02373

オープンウェイト & コード

核心となるアイデア

ポリシーとハッチの役割分担

従来の検索エージェントは、検索に関する意思決定と日常的な帳簿管理を一つの成長するトランスクリプトに詰め込んでいます。一方、Harness-1 はこれらを分離します。論文ではこれを「状態管理による認知オフローディング」と呼んでいます。

ポリシーが決定

何を検索するか

どの文書を保持するか

どの主張を検証するか

いつ停止するか

ハッチが維持

候補プール

選別された証拠

検証記録

コンテキスト予算

ハッチ内部の仕組み

環境側のワーキングメモリ

候補プール — 圧縮され重複排除された文書

選別セット — 重要度タグ付き、最大 30 件(very_high / high / fair / low)

証拠グラフ — 正規表現抽出によるエンティティ、ブリッジ、およびシングルトン

検証キャッシュ — 主張から文書への yes/no の判定結果

フルテキストストア — 取得した各チャンクはプロンプト外に保持される

圧縮 — sentence-BM25 が上位 4 つの文を維持する

ポリシーアクション

8 つのツールが状態を編集する

fan_out_search

search_corpus

grep_corpus

read_document

review_docs

curate

verify

end_search

最初の成功した検索は、公平な重要度で 8 つの再ランク付けされたドキュメントをもって、キュレーション済みセットを自動シードします。その後、ポリシーが強力なドキュメントを昇格させ、弱いドキュメントを削除します。

トレーニング

インターフェース操作には SFT(Supervised Fine-Tuning: 教師あり微調整)、検索には RL(Reinforcement Learning: 強化学習)

SFT: ハーネス内の GPT-5.4 ティーチャー · 899 トラジェクトリ · LoRA rank 32 · step-550 チェックポイント

RL: on-policy CISPO(Constrained Importance Sampling Policy Optimization)· SEC クエリのみ · 40 ターン制限 · 終端報酬 · Tinker でトレーニング

データ規模:4,352 個のユニークなトレーニングアイテム(899 SFT + 3,453 RL)

3 つの訓練要件:ウォームスタートされたキュレーション、コンパクトな派生状態レンダリング、多様性を維持するインセンティブ。

結果

数値が示すもの

0.730

8 つのベンチマーク全体での平均キュレーションリコール

次点のオープンサブエージェントである Tongyi DeepResearch 30B より +11.4 ポイント向上

テストされた検索エンジンの中で、平均スコアで Opus-4.6 以外に上回るものはない

転移学習:未見データで +17.0、同族ファミリーで +7.9(2.2 倍の差)

アブレーション:すべてのハーン機構を除去すると、リコールは相対的に 12.2% 低下します

始め方

ご自身で実行する

サーバー: vLLM, SGLang, または Transformers

チェックポイント: pat-jj/harness-1 (Hugging Face, 21B パラメータ, BF16)

コード: github.com/pat-jj/harness-1

論文: arXiv:2606.02373

Harness-1 は、下流の回答モデルのために厳選された文書セットを返します。自身で質問に答えるわけではありません。

← 前へ

次へ →

Marktechpost がキュレーション — エンジニア向けの実践者ファーストな AI/ML 研究、ニュース、および開発ツール。

(function(){

var root=document.getElementById('mtp-harness1-slider');

if(!root||root.dataset.mtpInit)return; root.dataset.mtpInit='1';

var track=root.querySelector('.mtp-h1-track');

var slides=root.querySelectorAll('.mtp-h1-slide');

var dotsWrap=root.querySelector('.mtp-h1-dots');

var prev=root.querySelector('.mtp-h1-prev');

var next=root.querySelector('.mtp-h1-next');

var cur=root.querySelector('.mtp-h1-cur');

var i=0,n=slides.length;

for(var d=0;d45){go(dx

論文、モデルの重み、および GitHub リポジトリをご覧ください。また、Twitter でフォローしていただき、15 万人以上の ML サブレッドに参加し、ニュースレターを購読することを忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でもご参加いただけます。

GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご検討ですか?私たちにご連絡ください

記事 Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b (続き 11/11) は、MarkTechPost で最初に公開されました。

原文を表示

Most search agents are trained as policies over a growing transcript. The model decides how to search. It must also remember what it saw, which evidence matters, and which claims it checked. A team of researchers from University of Illinois Urbana-Champaign, UC Berkeley, and Chroma argues this asks too much. Reinforcement learning ends up optimizing both search decisions and routine bookkeeping at once.

Their answer is Harness-1, a 20B retrieval subagent built on gpt-oss-20b. It was trained with reinforcement learning inside a stateful search harness. The harness holds the bookkeeping. The policy keeps the semantic decisions. The weights and harness code are publicly released.

imageimagehttps://arxiv.org/pdf/2606.02373

What is Harness-1 Actually

Harness-1 produces a ranked set of documents for a downstream answering model. It does not answer questions itself. It runs inside a state-machine harness centered on a per-episode WORKINGMEMORY.

Each turn works as a loop. The harness renders compact search state along with recent actions. The model emits one structured action. The harness executes it, updates state, and renders the next observation.

The Stateful Harness: What Moves Out of the Policy

The research team calls its principle stateful cognitive offloading. The policy decides what to search, curate, and verify, and when to stop. The harness maintains the recoverable state around those decisions.

That state includes several pieces. A candidate pool holds compressed, deduplicated documents. An importance-tagged curated set is the final output, capped at 30 documents. Tags take four values: very_high, high, fair, or low. A full-text store keeps every retrieved chunk outside the prompt.

An evidence graph adds structure. A regex extractor scans each chunk for proper nouns, years, and dates. The harness then renders frequent entities, bridge documents, and singletons. Bridge documents contain two or more frequent entities. Singletons appear in one document and suggest follow-up leads.

The policy works through eight tools. These are fan_out_search, search_corpus, grep_corpus, read_document, review_docs, curate, verify, and end_search. Search outputs are compressed with sentence-BM25, keeping the top four sentences. Two-level deduplication removes repeats by chunk ID and content fingerprint.

One design choice addresses cold starts. The first successful search auto-seeds the curated set with eight reranked results at fair importance. The policy then promotes strong documents and removes weak ones. This turns the task from building from scratch into refinement.

The research team names three requirements for a trainable harness. These are warm-started curation, compact derived-state rendering, and diversity-preserving incentives. Harness-1 implements all three.

How It is Trained

Training splits along the same line as the harness. Supervised fine-tuning teaches the model to operate the interface. Reinforcement learning improves search decisions over the maintained state.

A single teacher, GPT-5.4, runs live inside the full harness. After filtering, 899 trajectories remain for SFT. The model uses LoRA at rank 32 for three epochs. The step-550 checkpoint initializes RL.

RL uses on-policy CISPO with a 40-turn cap and terminal-only reward. It trains only on SEC queries. Groups with identical rewards are dropped from the gradient. Training ran on Tinker.

The reward separates discovery from selection. It also adds a tool-diversity bonus. Without that bonus, the agent collapses to repeated search. Curated recall then plateaus near 0.53. With the bonus, diversity stabilizes and recall reaches about 0.60.

The Benchmark Case

Harness-1 was evaluated on eight benchmarks spanning web, finance, patents, and multi-hop QA. The main metric is curated recall: coverage of relevant documents in the final set. Trajectory recall counts evidence encountered anywhere in the episode.

ModelTypeAvg Curated RecallAvg Trajectory Recall

Harness-1 (20B)Open small0.7300.807

Tongyi DeepResearch 30BOpen small0.6160.673

Context-1 (20B)Open small0.6030.756

Search-R1 (32B)Open small0.2890.289

GPT-OSS-20BOpen small0.2620.590

Qwen3 (32B)Open small0.2160.446

Opus-4.6Frontier0.7640.794

GPT-5.4Frontier0.7090.752

Sonnet-4.6Frontier0.6880.725

Kimi-K2.5Frontier0.6470.794

GPT-OSS-120BFrontier0.4960.769

Averages across eight benchmarks, from Figure 1 of the paper. Frontier models run as zero-shot retrievers under the Context-1 harness.

Harness-1 reaches 0.730 average curated recall. That beats the next open subagent, Tongyi DeepResearch 30B, by 11.4 points. Among the frontier searchers tested, only Opus-4.6 scores higher on average.

The transfer pattern is the clearest signal of the mechanism. SFT used four benchmark families; RL used only SEC. On those source-family tasks, Harness-1 gained 7.9 points over the closest open baseline. On four held-out benchmarks, it gained 17.0 points. That is a 2.2x larger gain on tasks furthest from training data.

Ablations support the harness claim. Disabling all harness mechanisms drops Recall by 12.2 percent relative on BrowseComp+. The trained policy keeps searching but cannot rank what it sees.

imageimagehttps://arxiv.org/pdf/2606.02373

Use Cases

The method targets evidence-seeking retrieval where documents support an answer. Several workflows fit this shape.

One is literature and patent review. The evidence graph and curated set help organize many sources. Another is financial-filing analysis. The SEC case study recovers an exact executive-transition date across multiple 8-Ks.

A third is multi-hop fact-checking. The fan_out_search and verify tools resolve ambiguous entities before committing. A fourth is modular RAG. The curated set feeds a frozen generator, and better sets yield higher answer accuracy.

Strengths and Weaknesses

Strengths

Highest average curated recall among the open models tested, and behind only Opus-4.6 overall.

Gains hold on held-out benchmarks, suggesting domain-general search operations.

Trained on 4,352 unique items, far fewer than several baselines.

Open checkpoint and harness code, servable with common runtimes.

Weaknesses

The evidence graph uses regex extraction, not full entity linking.

The verify tool is an LLM proxy that can err on ambiguous claims.

Sentence-BM25 compression may drop context tied to discourse structure.

The research team reports point estimates without full confidence intervals.

Key Takeaways

Harness-1 is a 20B search agent that moves search bookkeeping into the environment, leaving semantic decisions to the policy.

It hits 0.730 average curated recall across eight benchmarks, beating the next open subagent by 11.4 points.

Among the searchers tested, only Opus-4.6 scores higher on average curated recall.

Gains are largest on held-out benchmarks (+17.0 vs +7.9 points), suggesting the learned search operations transfer.

Weights and harness code are public, servable via vLLM, SGLang, or Transformers.

Marktechpost’s Visual Explainer

#mtp-harness1-slider *{box-sizing:border-box!important;margin:0;padding:0}

#mtp-harness1-slider hr,#mtp-harness1-slider p:empty,#mtp-harness1-slider del,#mtp-harness1-slider s{display:none!important}

#mtp-harness1-slider{

--mtp-bg:#f4f6f8!important;

--mtp-card:#ffffff!important;

--mtp-ink:#10243a!important;

--mtp-muted:#5a6b7b!important;

--mtp-line:#e2e8ef!important;

--mtp-accent:#0e9f6e!important;

--mtp-accent-dk:#0a7d56!important;

--mtp-soft:#e8f6f0!important;

--mtp-chip:#eef2f6!important;

background:var(--mtp-bg)!important;

color:var(--mtp-ink)!important;

border:1px solid var(--mtp-line)!important;

border-radius:18px!important;

padding:0!important;

max-width:860px!important;

margin:24px auto!important;

font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Helvetica,sans-serif!important;

line-height:1.55!important;

overflow:hidden!important;

box-shadow:0 10px 40px rgba(16,36,58,.08)!important;

}

#mtp-harness1-slider .mtp-h1-head{

display:flex!important;align-items:center;justify-content:space-between;

padding:16px 24px!important;border-bottom:1px solid var(--mtp-line)!important;

background:var(--mtp-card)!important;

}

#mtp-harness1-slider .mtp-h1-kicker{

font-size:11px!important;letter-spacing:.16em;text-transform:uppercase;

font-weight:700;color:var(--mtp-accent-dk)!important;

}

#mtp-harness1-slider .mtp-h1-count{

font-size:13px!important;color:var(--mtp-muted)!important;font-variant-numeric:tabular-nums;font-weight:600

}

#mtp-harness1-slider .mtp-h1-viewport{overflow:hidden!important;background:var(--mtp-bg)!important}

#mtp-harness1-slider .mtp-h1-track{display:flex!important;transition:transform .45s cubic-bezier(.22,.61,.36,1)}

#mtp-harness1-slider .mtp-h1-slide{

min-width:100%!important;padding:32px 36px 30px!important;

}

#mtp-harness1-slider .mtp-h1-eyebrow{

font-size:12px!important;letter-spacing:.08em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:10px

}

#mtp-harness1-slider .mtp-h1-slide h2{

font-family:Georgia,"Times New Roman",serif!important;

font-size:clamp(24px,4.4vw,34px)!important;line-height:1.18;color:var(--mtp-ink)!important;

font-weight:700;margin-bottom:14px!important

}

#mtp-harness1-slider .mtp-h1-slide h3{

font-family:Georgia,serif!important;font-size:clamp(20px,3.4vw,26px)!important;

color:var(--mtp-ink)!important;font-weight:700;margin-bottom:14px!important

}

#mtp-harness1-slider .mtp-h1-slide p{font-size:15.5px!important;color:var(--mtp-muted)!important;margin-bottom:12px}

#mtp-harness1-slider .mtp-h1-lead{font-size:17px!important;color:var(--mtp-ink)!important}

#mtp-harness1-slider .mtp-h1-chips{display:flex!important;flex-wrap:wrap;gap:8px;margin-top:18px}

#mtp-harness1-slider .mtp-h1-chip{

font-size:12.5px!important;background:var(--mtp-chip)!important;color:var(--mtp-ink)!important;

border:1px solid var(--mtp-line)!important;border-radius:999px!important;padding:5px 12px!important;font-weight:600

}

#mtp-harness1-slider .mtp-h1-two{display:grid!important;grid-template-columns:1fr 1fr;gap:16px;margin-top:6px}

#mtp-harness1-slider .mtp-h1-box{

background:var(--mtp-card)!important;border:1px solid var(--mtp-line)!important;border-radius:12px!important;padding:16px 18px!important

}

#mtp-harness1-slider .mtp-h1-box .mtp-h1-lab{

font-size:11px!important;letter-spacing:.1em;text-transform:uppercase;color:var(--mtp-accent-dk)!important;font-weight:700;margin-bottom:8px

}

#mtp-harness1-slider .mtp-h1-box ul{list-style:none!important}

#mtp-harness1-slider .mtp-h1-box li{font-size:14px!important;color:var(--mtp-muted)!important;padding:3px 0!important}

#mtp-harness1-slider ul.mtp-h1-list{list-style:none!important;margin-top:4px}

#mtp-harness1-slider ul.mtp-h1-list li{

font-size:15px!important;color:var(--mtp-ink)!important;padding:8px 0 8px 22px!important;

border-bottom:1px solid var(--mtp-line)!important;position:relative

}

#mtp-harness1-slider ul.mtp-h1-list li:last-child{border-bottom:none!important}

#mtp-harness1-slider ul.mtp-h1-list li:before{

content:"";position:absolute;left:2px;top:15px;width:7px!important;height:7px!important;

border-radius:50%;background:var(--mtp-accent)!important

}

#mtp-harness1-slider ul.mtp-h1-list li b{color:var(--mtp-ink)!important}

#mtp-harness1-slider ul.mtp-h1-list li span{color:var(--mtp-muted)!important}

#mtp-harness1-slider .mtp-h1-tools{display:grid!important;grid-template-columns:repeat(4,1fr);gap:10px;margin-top:6px}

#mtp-harness1-slider .mtp-h1-tool{

background:var(--mtp-soft)!important;border:1px solid #cdeadd!important;border-radius:10px!important;

padding:12px 10px!important;text-align:center;font-family:ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;

font-size:12.5px!important;color:var(--mtp-accent-dk)!important;font-weight:600

}

#mtp-harness1-slider .mtp-h1-note{

margin-top:16px!important;font-size:13.5px!important;color:var(--mtp-muted)!important;

background:var(--mtp-card)!important;border-left:3px solid var(--mtp-accent)!important;

border-radius:0 8px 8px 0!important;padding:10px 14px!important

}

#mtp-harness1-slider .mtp-h1-stat{display:flex!important;align-items:baseline;gap:12px;margin-bottom:10px}

#mtp-harness1-slider .mtp-h1-bignum{

font-family:Georgia,serif!important;font-size:clamp(40px,8vw,58px)!important;color:var(--mtp-accent-dk)!important;font-weight:700;line-height:1

}

#mtp-harness1-slider .mtp-h1-statlab{font-size:14px!important;color:var(--mtp-muted)!important}

#mtp-harness1-slider .mtp-h1-kv{display:grid!important;grid-template-columns:1fr;gap:8px;margin-top:8px}

#mtp-harness1-slider .mtp-h1-kv div{

font-size:14.5px!important;color:var(--mtp-ink)!important;background:var(--mtp-card)!important;

border:1px solid var(--mtp-line)!important;border-radius:9px!important;padding:9px 13px!important

}

#mtp-harness1-slider .mtp-h1-kv b{color:var(--mtp-accent-dk)!important}

#mtp-harness1-slider .mtp-h1-nav{

display:flex!important;align-items:center;justify-content:space-between;

padding:14px 24px!important;border-top:1px solid var(--mtp-line)!important;background:var(--mtp-card)!important

}

#mtp-harness1-slider .mtp-h1-btn{

background:var(--mtp-accent)!important;color:#fff!important;border:none!important;cursor:pointer;

border-radius:9px!important;padding:9px 16px!important;font-size:14px!important;font-weight:700;

transition:background .2s

}

#mtp-harness1-slider .mtp-h1-btn:hover{background:var(--mtp-accent-dk)!important}

#mtp-harness1-slider .mtp-h1-btn:disabled{background:#c3cdd6!important;cursor:not-allowed}

#mtp-harness1-slider .mtp-h1-dots{display:flex!important;gap:8px}

#mtp-harness1-slider .mtp-h1-dot{

width:9px!important;height:9px!important;border-radius:50%;background:#c9d3dc!important;border:none!important;

cursor:pointer;padding:0!important;transition:all .2s

}

#mtp-harness1-slider .mtp-h1-dot.is-on{background:var(--mtp-accent)!important;width:24px!important;border-radius:5px!important}

#mtp-harness1-slider .mtp-h1-foot{

text-align:center!important;padding:13px 20px!important;background:var(--mtp-ink)!important;

}

#mtp-harness1-slider .mtp-h1-foot span{font-size:12.5px!important;color:#cfe6db!important;letter-spacing:.02em}

#mtp-harness1-slider .mtp-h1-foot b{color:var(--mtp-accent)!important;font-weight:700}

@media (max-width:640px){

#mtp-harness1-slider .mtp-h1-slide{padding:24px 20px 22px!important}

#mtp-harness1-slider .mtp-h1-two{grid-template-columns:1fr!important}

#mtp-harness1-slider .mtp-h1-tools{grid-template-columns:repeat(2,1fr)!important}

#mtp-harness1-slider .mtp-h1-head,#mtp-harness1-slider .mtp-h1-nav{padding-left:16px!important;padding-right:16px!important}

#mtp-harness1-slider .mtp-h1-btn{padding:8px 12px!important;font-size:13px!important}

}

Stateful Search Agents

1 / 7

Research Guide

Harness-1: a 20B search agent with a stateful harness

A retrieval subagent trained with reinforcement learning inside a search harness that holds the bookkeeping.

20B · gpt-oss-20b base

UIUC · UC Berkeley · Chroma

arXiv:2606.02373

Open weights & code

The Core Idea

Split the work between policy and harness

Most search agents pack search decisions and routine bookkeeping into one growing transcript. Harness-1 separates the two. The paper calls this stateful cognitive offloading.

Policy decides

What to search

Which documents to keep

What claims to verify

When to stop

Harness maintains

Candidate pool

Curated evidence

Verification records

Context budget

Inside the Harness

Environment-side working memory

Candidate pool — compressed, deduplicated documents

Curated set — importance-tagged, capped at 30 (very_high / high / fair / low)

Evidence graph — entities, bridges, and singletons via regex extraction

Verification cache — claim to document to yes/no verdict

Full-text store — every retrieved chunk kept outside the prompt

Compression — sentence-BM25 keeps the top four sentences

Policy Actions

Eight tools edit the state

fan_out_search

search_corpus

grep_corpus

read_document

review_docs

curate

verify

end_search

The first successful search auto-seeds the curated set with eight reranked documents at fair importance. The policy then promotes strong documents and removes weak ones.

Training

SFT to operate the interface, RL to search

SFT: GPT-5.4 teacher inside the harness · 899 trajectories · LoRA rank 32 · step-550 checkpoint

RL: on-policy CISPO · SEC queries only · 40-turn cap · terminal reward · trained on Tinker

Data scale: 4,352 unique training items (899 SFT + 3,453 RL)

Three trainability requirements: warm-started curation, compact derived-state rendering, and diversity-preserving incentives.

Results

What the numbers show

0.730

average curated recall

across eight benchmarks

+11.4 pts over the next open subagent, Tongyi DeepResearch 30B

Among the searchers tested, only Opus-4.6 scores higher on average

Transfer: +17.0 on held-out vs +7.9 on source-family (2.2x gap)

Ablation: removing all harness mechanisms drops Recall 12.2% relative

Get Started

Run it yourself

Serve: vLLM, SGLang, or Transformers

Checkpoint: pat-jj/harness-1 (Hugging Face, 21B params, BF16)

Code: github.com/pat-jj/harness-1

Paper: arXiv:2606.02373

Harness-1 returns a curated set of documents for a downstream answering model. It does not answer questions itself.

← Prev

Next →

Curated by Marktechpost — practitioner-first AI/ML research, news, and dev tooling for engineers.

(function(){

var root=document.getElementById('mtp-harness1-slider');

if(!root||root.dataset.mtpInit)return; root.dataset.mtpInit='1';

var track=root.querySelector('.mtp-h1-track');

var slides=root.querySelectorAll('.mtp-h1-slide');

var dotsWrap=root.querySelector('.mtp-h1-dots');

var prev=root.querySelector('.mtp-h1-prev');

var next=root.querySelector('.mtp-h1-next');

var cur=root.querySelector('.mtp-h1-cur');

var i=0,n=slides.length;

for(var d=0;d45){go(dx

Check out the Paper, Model weights and GitHub Repo. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.

Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us

The post Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b appeared first on MarkTechPost.

この記事をシェア

関連記事

TLDR AI★42026年5月28日 09:00

LiteParse v2.0(1 分で読める)

スタンドアロン型オープンソース PDF 解析ツール「LiteParse」がバージョン 2.0 に更新され、ローカル環境で高速なテキスト抽出やスクリーンショット生成が可能になった。

AWS Machine Learning Blog★42026年6月10日 05:07

Amazon SageMaker AI で NVIDIA Isaac Lab を活用し、ロボット強化学習のスケールアップを実現

AWS は、物理的AIの実用化に向け、Amazon SageMaker AI上でNVIDIA Isaac Labを活用することで、複雑なロボットの強化学習を高速化するソリューションを発表した。

TLDR AI★42026年6月9日 09:00

OpenAI のデータベース変更分析(28 分読)

OpenAI は SchemaFlow を公開し、構造化されたリクエストの解析から影響分析、SQL 生成、ガードレール、評価までを支援する AI 活用ワークフローを示した。小売業の例だが、企業全体のデータ処理に適用可能である。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む