AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
LangChain Blog·2026年4月30日 02:00·約9分

異なるモデルと連携するよう深層エージェントを調整

#LLM#Agent Frameworks#Prompt Engineering#LangChain#Model Optimization
TL;DR

LangChain は Deep Agents の汎用性を維持しつつ、主要モデルベンダーに特化したプロファイル機能を追加し、特定ベンチマークで 10〜20 ポイントの性能向上を実現した。

AI深層分析2026年4月30日 02:03
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

モデル固有プロファイルの実装

Deep Agents を単一の汎用設計から脱却させ、各モデルファミリーに最適化されたプロファイルを導入することで、プロンプトやツール、ミドルウェアの調整を可能にした。

2

主要ベンダーへの対応

OpenAI、Anthropic、Google の主要モデルに対して、パッケージングされたプロファイルを標準で提供し、セットアップの手間を大幅に削減した。

3

性能指標の明確な向上

tau2-bench の一部サブセットにおいて、デフォルトのハーンネスと比較して 10〜20 ポイントという顕著なスコアアップを確認している。

影響分析・編集コメントを表示

影響分析

この発表は、LLM エージェント開発において「ワンサイズフィットオール」のアプローチの限界を克服し、各モデルの特性を活かした最適化が標準的なプラクティスになりつつあることを示唆しています。開発者は複雑なチューニング作業を自ら行う必要が減り、より高精度で安定したエージェントを短期間で構築できるようになります。

編集コメント

モデルごとの特性を考慮した最適化は、実運用におけるエージェントの信頼性を高める重要なステップです。LangChain のこのアップデートは、開発者がより深いレベルでパフォーマンスを制御できる道を開くものです。

image
image

主要なポイント

‍💡TL;DR: Deep Agents は以前、異なるモデルファミリー全体で良好に動作するように汎用的に設計されていました。本日、プロンプト、ツール、ミドルウェアを調整するためのモデル固有のプロファイルを追加しました。これにより、各モデルファミリーに特化したプロンプティングガイドにより適切に対応できるようになります。OpenAI、Anthropic、Google のモデル向けのプロファイルを標準で提供しており、デフォルトのハーンチルに対して tau2-bench の一部において 10〜20 ポイントの向上をもたらすことを確認しています。

今日に至るまで、deepagents は *すべての* 大規模言語モデル(LLM)で良好に動作するように設計された単一のプロンプト、ツール、ミドルウェアセットを同梱していました。ビルダーは異なるモデルに差し替えたり、システムプロンプトに追加のツール拡張を加えてハーンチルを拡張したりすることができました。しかし、基本となるプロンプト、ツール、ミドルウェアは固定されており、モデルごとに最適化されていませんでした。

本日、私たちはこれらのパラメータをモデル単位で制御するための手段としてハーンチルプロファイルの公開を発表できることを嬉しく思います。これは以下の理由で重要です:

  • プロンプトガイドはモデルごとに異なります。OpenAI の Codex プロンプトガイドでは、Codex モデルの性能を劇的に向上させる特定のツール実装と名称(apply_patch, shell_command)が規定されています。一方、Anthropic の Claude プロンプトガイダンスは異なる一連の規約を強調しています。同じファミリー内であっても、Opus 4.6 から 4.7 への移行ガイドには、プロンプトレベルで実施する価値のある変更が明記されています。
  • 評価リーダーボードを見ると、同じモデルでも異なるハーン(harness)[注:実行環境・枠組み] に置かれることで、パフォーマンスが大きく異なることが示されています。Terminal-Bench 2.0 はその最も明確な公開例です。Claude Code ハーンでは、Opus 4.6 の提出物の中で最下位となっています。私たちは以前の研究『Improving Deep Agents with harness engineering』でも、慎重なハーンエンジニアリングによる同様の効果を確認しました。ここでは、プロンプトやミドルウェアフック(middleware hooks)[注:中間層フック] といったハーンレイヤーの変更を適用するだけで、Terminal-Bench 2.0 における gpt-5.2-codex のスコアを 52.8% から 66.5% に引き上げました(公開当時のランキングはトップ 30 からトップ 5 へ)。
  • 単一のハーンがすべてのモデルに対して最適であることはありえません。そのため、モデルごとにハーンを変化させることを容易にサポートしています。

これがどれほど重要なのか?

プロファイルの影響を測定した結果

これがどれほど重要かを判断するため、tau2-bench の一部サブセット(多回ツール使用と指示従順性の組み合わせ)においてパフォーマンスを測定しました。フロンティアモデルがまだ飽和していない、より困難なタスクの厳選されたサブセットを使用することで、エージェントに対するハーンレベルの変更の影響をより正確に測定できるようにしています。

モデル

ベースのディープエージェント活用

カスタムプロファイル付き

GPT 5.3 Codex

33%

53%

Claude Opus 4.7

43%

53%

モデルごとの変更点

私たちは、各プロファイルに対して適用した変更の根拠として、Codex および Claude のプロンプティングガイドを参照しました。

Codex における主な変更点は以下の通りです:

  • ツールの変更:deepagents 内のデフォルトの file_edit 実装を上書きし、推奨される apply_patch ツールを使用する。また、deepagents 内の execute ツールの名前を shell_command にエイリアスする。
  • プロンプトの変更:プロンプティングガイドの詳細に基づき、主にツール呼び出しと計画に関するもの。

どのツール呼び出しを行う前にも、必要なすべてのファイルとリソースを事前に決定してください。読み込み、検索、およびその他の独立した操作は、一度に一つずつ発行するのではなく、並列のツール呼び出しとしてバッチ処理してください。

Opus における主な変更点はすべて、ツールの使用と計画に焦点を当てたプロンプトに関するものでした。例えば、以下はプロンプトに追加された2つのスニペットです。

<tool_result_reflection>

ツール結果を受信した後、その品質を慎重に検討し、次に進む前に最適な次のステップを決定してください。この新しい情報に基づいて思考を用いて計画を立て、反復処理を行い、その後最善の次のアクションを実行してください。

</tool_result_reflection>

<tool_usage>

タスクがファイルの状態、テスト結果、またはシステム出力に依存している場合、記憶に基づいて推測するのではなく、ツールを使用してその状態を直接観察してください。記述する前にファイルを読み込み、合格と主張する前にテストを実行し、シンボルが存在するかしないかを断言する前にコードベースを検索してください。ツールを用いた能動的な調査は、 fallback ではなく作業のデフォルトモードです。

</tool_usage>

私たちの結論として、モデルごとにハッチ(harness)をカスタマイズするためのインターフェースを公開することは、ビルダーがエージェントごとのプロファイルを管理し、バージョン管理を行い、設定の違いを容易にテストするための有用なプリミティブとなります。

今日から試してみましょう

今日これを使用するには、単に deepagents を使い始めればよいだけです:uv add deepagents

agent = create_deep_agent(

model="google_genai:gemini-3.1-pro-preview",

tools=[internet_search],

system_prompt=research_instructions,

)

サポートされているモデルに対してプロファイルは自動的に適用されます。各デフォルトプロファイルが今日どのようなものか詳細を確認したい場合は、repo のコードを検索してください。独自のプロファイルを登録する方法については、続きをお読みください。

ハウレスプロファイルの内部仕組み

ハウレスプロファイルは、モデルごとに異なるハウレスの一部(システムプロンプトのプレフィックス/サフィックス、ツールの含め方と命名、ミドルウェアの選択、サブエージェントの設定、スキル)に対する宣言型のオーバーライド層です。モデルまたはプロバイダーに対してプロファイルを登録するか、既存のプロファイルを YAML から読み込むことで、create_deep_agent がモデルを切り替えた際に適応します。重要なのは、呼び出し側のコードを変更する必要がないことです。

OpenAI、Anthropic、Google のモデルについてはデフォルトが用意されています。これらを上書きしたり、独自のレイヤーを重ねたり、プラグインとしてプロファイルを配布することも可能です。

from deepagents import (

HarnessProfile,

register_harness_profile,

)

register_harness_profile(

"openai:gpt-5.4",

HarnessProfile(

system_prompt_suffix="100 語以内で回答してください。",

excluded_tools={"execute"},

excluded_middleware={"SummarizationMiddleware"},

),

)

または、YAML でプロファイルを宣言することもできます:

openai.yaml

base_system_prompt: あなたは親切です。

system_prompt_suffix: 簡潔に回答してください。

excluded_tools:

  • execute
  • grep

excluded_middleware:

  • SummarizationMiddleware
  • my_pkg.middleware:TelemetryMiddleware

general_purpose_subagent:

enabled: false

より詳細なカスタマイズについては、Profiles docs を参照してください。ここではすべてのフィールドの範囲、マージセマンティクス、プラグインのパッケージングについて説明されています。使用するモデルに対して起動時にプロファイルを登録するか、当社が提供する組み込みのプロファイルを利用してください。

⟦CODE_0⟧

⟦CODE_1⟧

Deep Agents を構築してプロファイルの共有を検討されている場合は、PR を作成するか、エントリーポイントを通じて プラグインとして配布 してください。私たちは、モデル間でプロファイルの対応範囲を継続して拡大していきます。目標は、どのモデルを選択しても、Deep Agents がタスクに最適なハーン(枠組み)を作成するためのツールとデフォルト設定を提供することです。ビルダーが自身のタスクに合わせてエージェントのハーンをカスタマイズする方法を示す、より詳細な情報やチュートリアルも今後公開していく予定です。

*注:現在は Python のみで利用可能ですが、TypeScript 版も近日公開予定*

関連コンテンツ

imageimage.png)

エージェントアーキテクチャ

LangSmith

オープンソース

LangSmith と LangChain OSS が EU AI 法(EU Artificial Intelligence Act)の要件達成をどのように支援するか

image
image
image
image

J. タルボット、

B. ウェンク

2026 年 4 月 27 日

image
image

7 分

image
image

概念ガイド

Deep Agents

本番環境におけるディープエージェントのランタイム

image
image
image
image

S. Runkle,

V. Trivedy

2026 年 4 月 20 日

image
image

24 分

imageimage.png)

エージェントアーキテクチャ

パートナー

エージェントエンジニアリング:AI エージェントの群れがソフトウェアエンジニアリングを再定義する

image
image
image
image

R. Kumar,

P. Ramagopal

2026 年 4 月 17 日

image
image

6 分

image
image

エージェントが実際に何をしているかを確認する

LangSmith は、当社のエージェントエンジニアリングプラットフォームであり、開発者がすべてのエージェントの意思決定をデバッグし、変更の評価を行い、ワンクリックでデプロイできるよう支援します。

原文を表示

Key Takeaways

‍💡TL;DR: Deep Agents was previously designed in a generic way to work well across model families. Today we’re adding model-specific profiles to adjust prompts, tools, and middleware. This allows us to better conform to prompting guides specific to model families. We ship profiles for OpenAI, Anthropic, and Google models out of the box, which we see leads to a 10–20 point jump on a subset of tau2-bench over the default harness.

Until today, deepagents shipped with a single set of prompts, tools, and middleware aimed to work well across *all* Large Language Models. Builders could swap in different models or extend the harness with additional tools extensions to the system prompt. But the base prompts, tools, and middleware were fixed and not optimized per model.

As of today, we’re excited to launch harness profiles as a way to control these parameters on a per-model basis. This matters because:

  • Prompting guides differ per model. OpenAI's Codex Prompting Guide prescribes specific tool implementations and names (apply_patch, shell_command) that move the needle on Codex models. Anthropic's Claude prompting guidance emphasizes a different set of conventions. Even within a family, the Opus 4.6 → 4.7 migration guide flags prompt-level changes worth making.
  • Eval leaderboards show that the same model in a different harness can yield much different performance. Terminal-Bench 2.0 is the cleanest public example. The Claude Code harness ranks last among Opus 4.6 submissions. We saw similar effects of careful harness engineering in previous work: Improving Deep Agents with harness engineering. Here we took gpt-5.2-codex from 52.8% to 66.5% on Terminal-Bench 2.0 (Top 30 → Top 5 at the time of publishing) just by applying harness layer changes like prompts and middleware hooks.

A single harness can't be optimal for every model. So we make it easy to support varying the harness per model.

How much does this matter?

Results on measuring the effect of profiles

In order to judge how much this matters, we measured performance on a subset of tau2-bench (multi-turn tool use + instruction following). We use a curated subset of more difficult tasks that frontier models haven’t yet saturated so we can better measure the impacts of harness level changes on agents.

Model

Base Deep Agents Harness

With Custom Profile

GPT 5.3 Codex

33%

53%

Claude Opus 4.7

43%

53%

What changed per model

We use the Codex and Claude prompting guides as the source for what changes we applied per profile.

For Codex the main changes included:

  • Tool changes: overriding the default file_edit implementation in deepagents with the recommended apply_patch tool, and aliasing the execute tool name in deepagents as shell_command
  • Prompt changes: largely around tool calling and planning using details from the prompting guide

Before any tool call, decide ALL files and resources you will need. Batch reads, searches, and other independent operations into parallel tool calls instead of issuing them one at a time.

For Opus the main changes were all prompting focused on tool usage and planning. For example, below are two snippets that were added to the prompt.

<tool_result_reflection>After receiving tool results, carefully reflect on their quality and determine optimal next steps before proceeding. Use your thinking to plan and iterate based on this new information, and then take the best next action.</tool_result_reflection>

<tool_usage>When a task depends on the state of files, tests, or system output, use tools to observe that state directly rather than reasoning from memory about what it probably contains. Read files before describing them. Run tests before claiming they pass. Search the codebase before asserting a symbol does or does not exist. Active investigation with tools is the default mode of working, not a fallback.</tool_usage>

Our takeaway is that exposing an interface for customizing the harness per model is a helpful primitive for builders to manage profiles per agent, version them, and easily test differences in configurations.

Try it today

To use this today, simply start using deepagents: uv add deepagents

code

agent = create_deep_agent(

model="google_genai:gemini-3.1-pro-preview",

tools=[internet_search],

system_prompt=research_instructions,

)

code

The profiles will be automatically applied for supported models. If you want to look into the details of what each default profile looks like today, you can inspect the code in the repo. To learn how to register your own profile, keep reading.

How profiles work under the hood

A harness profile is a declarative override layer for the parts of the harness that vary per model: system prompt prefix/suffix, tool inclusion and naming, middleware selection, subagent configuration, and skills. You register a profile for a model or provider (or load a preexisting one from YAML), and create_deep_agent adapts when you swap the model. Importantly, your call site doesn't change.

We ship defaults for OpenAI, Anthropic, and Google models. You can override them, layer your own on top, or distribute profiles as plugins.

code

from deepagents import (

HarnessProfile,

register_harness_profile,

)

register_harness_profile(

"openai:gpt-5.4",

HarnessProfile(

system_prompt_suffix="Respond in under 100 words.",

excluded_tools={"execute"},

excluded_middleware={"SummarizationMiddleware"},

),

)

code

Or declare a profile in YAML:

code

openai.yaml

base_system_prompt: You are helpful.

system_prompt_suffix: Respond briefly.

excluded_tools:

  • execute
  • grep

excluded_middleware:

  • SummarizationMiddleware
  • my_pkg.middleware:TelemetryMiddleware

general_purpose_subagent:

enabled: false

code

For more custom details read the Profiles docs for the full field surface, merge semantics, and plugin packaging. Register a profile at startup for the models you use, or rely on the built-in profiles we ship.

If you're building on Deep Agents and want to share a profile, open a PR or distribute it as a plugin via entry points. We'll keep extending the profile surface across models. The goal is that whichever model you reach choose, Deep Agents gives you the tools and defaults to create the best harness for your task. We’ll be releasing more information and walkthroughs showing how builders can customize their agent harness for their tasks.

*Note: This is currently only available in Python but is coming soon to TypeScript*

Related content

.png)

Agent Architecture

LangSmith

Open Source

How LangSmith and LangChain OSS Help You Meet EU AI Act Requirements

J. Talbot,

B. Weng

April 27, 2026

7

min

Conceptual Guide

Deep Agents

The runtime behind production deep agents

S. Runkle,

V. Trivedy

April 20, 2026

24

min

.png)

Agent Architecture

Partner

Agentic Engineering: How Swarms of AI Agents Are Redefining Software Engineering

R. Kumar,

P. Ramagopal

April 17, 2026

6

min

See what your agent is really doing

LangSmith, our agent engineering platform, helps developers debug every agent decision, eval changes, and deploy in one click.

この記事をシェア

関連記事

KDnuggets重要度42026年6月27日 00:00

Apple Silicon で MLX を用いた言語モデルのファインチューニング

The Zvi重要度42026年6月26日 23:51

ホワイトハウスが個別に GPT-5.6 のアクセス権をその場しのぎで決定する方針へ

AWS Machine Learning Blog重要度42026年6月26日 23:42

AWS を活用した保険仲介向けドメイン特化型 AI の先駆者、Cara の取り組み

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む