AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
LangChain Blog·2026年4月6日 06:46·約6分で読める

AIエージェントの継続的学習

#継続的学習#AIエージェント#システム設計#モデル最適化#ハーネス#コンテキスト管理
TL;DR

LangChain Blogの記事は、AIエージェントの継続的学習をモデル・ハーネス・コンテキストの3層で捉える新たな枠組みを提案し、従来のモデル重み更新に限定されない学習アプローチの重要性を論じている。

AI深層分析2026年4月6日 07:41
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

3層の学習フレームワーク

AIエージェントの継続的学習を、モデル重み・ハーネス(エージェントを駆動するコードとツール)・コンテキスト(追加の指示やスキル)の3つの層で捉える新たな枠組みを提案している。

2

モデル層の学習課題

モデル重みの更新では破滅的忘却が主要な課題であり、SFTやRLなどの手法が用いられるが、通常はエージェント全体レベルで実施される。

3

ハーネス層の最適化手法

Meta-Harnessなどの研究では、エージェントの実行ログを分析してハーネスコードを改善するエンドツーエンド最適化手法が提案されている。

4

実例による具体化

Claude CodeとOpenClawの2つのエージェントを例に、各層が実際のシステムでどのようにマッピングされるかを具体的に示している。

影響分析・編集コメントを表示

影響分析

この記事は、AIエージェント開発の実践者に対して、継続的学習をより包括的に捉える視点を提供する。従来のモデル中心の議論から脱却し、システム全体の進化を考えることで、より実用的で適応性の高いエージェント構築への道筋を示している。

編集コメント

AIエージェント開発の現場では、モデル更新だけでなくシステム全体の継続的改善が重要であることを明確に示した良記事。実例を交えた説明が理解を深める。

imageimageAIにおける継続的学習に関する議論の多くは、一つの点に集中しています。それはモデル重みの更新です。しかし、AIエージェントにとって学習は、三つの異なる層、すなわちモデル、ハーネス、コンテキストで発生し得ます。この違いを理解することは、時間とともに進化するシステムの構築についての考え方を変えるでしょう。

エージェントシステムの三つの主要な層は以下の通りです。

モデル: モデル重みそのもの。

ハーネス: エージェントの全てのインスタンスを動作させる、モデルを包むハーネス。これはエージェントを駆動するコード、および常にハーネスの一部である指示やツールを指します。

コンテキスト: ハーネスの外部に存在し、それを設定するために使用できる追加のコンテキスト(指示、スキル)。

imageimage例 #1: Claude Codeのようなコーディングエージェントへの当てはめ:

モデル: claude-sonnetなど

ハーネス: Claude Code

ユーザーコンテキスト: CLAUDE.md, /skills, mcp.json

例 #2: OpenClawへの当てはめ:

モデル: 多数

ハーネス: Pi + その他の足場

エージェントコンテキスト: SOUL.md, clawhubからのスキル

継続的学習について語るとき、多くの人はすぐにモデル層を思い浮かべます。しかし実際には、AIシステムはこれら三つの層すべてで学習することが可能です。

モデル層での継続的学習

多くの人が継続的学習について語るとき、最も一般的に言及されるのがこの層、すなわちモデル重みの更新です。

これを更新する技術には、SFT、RL(例:GRPO)などがあります。

ここでの中心的な課題は破滅的忘却です。モデルが新しいデータやタスクで更新されると、以前に獲得した知識の性能が低下する傾向があります。これは未解決の研究課題です。

特定のエージェントシステム向けにモデルを訓練する場合(例えば、OpenAIのCodexモデルはCodexエージェント向けに訓練されたと見なせます)、これは主にエージェントシステム全体に対して行われます。理論的には、より細かい粒度で行うことも可能ですが(例:ユーザーごとにLoRAを用意する)、実際にはほとんどがエージェントレベルで実施されています。

ハーネス層での継続的学習

先に定義したように、ハーネスとはエージェントを駆動するコード、および常にハーネスの一部である指示やツールを指します。

ハーネスが普及するにつれ、その最適化方法について論じた研究論文がいくつか発表されています。

最近の例が 「Meta-Harness: End-to-End Optimization of Model Harnesses」 です。

核心となる考え方は、エージェントがループ内で動作するというものです。まず、多くのタスクに対して実行し、評価します。次に、全てのログをファイルシステムに保存します。その後、コーディングエージェントを実行してこれらのトレースを分析させ、ハーネスコードへの変更を提案させます。

imageimageモデルの継続的学習と同様に、これは通常エージェントレベルで行われます。理論的には、より細かい粒度で行うことも可能です(例:ユーザーごとに異なるコードハーネスを学習する)。

コンテキスト層での継続的学習

「コンテキスト」はハーネスの外部に位置し、それを設定するために使用できます。コンテキストは、指示、スキル、さらにはツールなどの要素で構成されます。これは一般的にメモリとも呼ばれます。

同種のコンテキストはハーネス内部にも存在します(例:ハーネスが基本システムプロンプトやスキルを持つ場合)。その違いは、それがハーネスの一部なのか、設定の一部なのかという点です。

コンテキストの学習は、いくつかの異なるレベルで行うことができます。

コンテキストの学習はエージェントレベルで可能です。エージェントは永続的な「メモリ」を持ち、時間とともに自身の設定を更新します。良い例はOpenClawで、時間とともに更新される独自のSOUL.mdを持っています。

コンテキストの学習は、より一般的にはテナントレベル(ユーザー、組織、チームなど)で行われます。この場合、各テナントは時間とともに更新される独自のコンテキストを保持します。例としては、HexのContext Studio、DecagonのDuet、SierraのExplorerが挙げられます。

組み合わせることも可能です。つまり、エージェントレベルのコンテキスト更新、ユーザーレベルのコンテキスト更新、組織レベルのコンテキスト更新を全て備えたエージェントを構築できます。

これらの更新は、二つの方法で実施できます。

  1. 事後的、オフラインジョブとして行う。ハーネスの更新と同様に、最近の一連のトレースを分析して洞察を抽出し、コンテキストを更新します。これはOpenClawが「夢見る(dreaming)」と呼ぶものです。
  2. エージェントが動作している最中(ホットパス上)で行う。エージェントは、主要タスクに取り組みながら、自身のメモリを更新することを決定できます(またはユーザーが促すこともできます)。

imageimageここで考慮すべきもう一つの次元は、メモリ更新の明示性の度合いです。ユーザーがエージェントに記憶するよう促しているのか、それともエージェントがハーネス自体の基本指示に基づいて自律的に記憶しているのか、という点です。

比較

image
image

トレースが核心

これらのフローは全て、トレース、すなわちエージェントが行ったことの完全な実行パスによって駆動されています。LangSmithは、トレースの収集を支援する当社のプラットフォームです(他の機能も多数あります)。

これらのトレースは、様々な方法で活用できます。

  • モデルを更新したい場合: トレースを収集し、Prime Intellectのようなパートナーと協力して独自モデルを訓練できます。
  • ハーネスを改善したい場合: LangSmith CLIとLangSmith Skillsを使用して、コーディングエージェントにこれらのトレースへのアクセス権を与えることができます。このパターンを用いて、私たちはterminal benchにおいてDeep Agents(当社のオープンソース、モデル非依存、汎用ベースハーネス)を改善しました。
  • 時間とともにコンテキストを学習したい場合(エージェント、ユーザー、組織レベル): エージェントハーネスがこの機能をサポートしている必要があります。私たちが選択するハーネスであるDeep Agentsは、プロダクション環境に対応した形でこの機能をサポートしています。ユーザーレベルメモリ、バックグラウンド学習などの実施例については、該当ドキュメントをご覧ください。
原文を表示

imageimageMost discussions of continual learning in AI focus on one thing: updating model weights. But for AI agents, learning can happen at three distinct layers: the model, the harness, and the context. Understanding the difference changes how you think about building systems that improve over time.

The three main layers of agentic systems are:

Model: the model weights themselves.

Harness: the harness around the model that powers all instances of the agent. This refers to the code that drives the agent, as well as any instructions or tools that are always part of the harness.

Context: additional context (instructions, skills) that lives outside the harness, and can be used to configure it.

imageimageExample #1: Mapping this a coding agent like Claude Code:

Model: claude-sonnet, etc

Harness: Claude Code

User context: CLAUDE.md, /skills, mcp.json

Example #2: Mapping this to OpenClaw:

Model: many

Harness: Pi + some other scaffolding

Agent context: SOUL.md, skills from clawhub

When we talk about continual learning, most people jump immediately to the model. But in reality - an AI system can learn at all three of these levels.

Continual learning at the model layer

When most people talk about continual learning, this is what they most commonly refer to: updating the model weights.

Techniques to update this include SFT, RL (e.g. GRPO), etc.

A central challenge here is catastrophic forgetting — when a model is updated on new data or tasks, it tends to degrade on things it previously knew. This is an open research problem.

When people do train models for a specific agentic system (e.g. you could view the OpenAI codex models as being trained for their Codex agent) they largely do this for the agentic system as a whole. In theory, you could do this at a more granular level (e.g. you could have a LORA per user) but in practice this is mostly done at the agent level.

Continual learning at the harness layer

As defined earlier, the harness refers to the code that drives the agent, as well as any instructions or tools that are always part of the harness.

As harnesses have become more popular, there have been several papers that talk about how to optimize harnesses.

A recent one is Meta-Harness: End-to-End Optimization of Model Harnesses.

The core idea is that the agent is running in a loop. You first run it over a bunch of tasks, and then evaluate them. You then store all these logs into a filesystem. You then run a coding agent to look at these traces, and suggest changes to the harness code.

imageimageSimilar to continual learning for models, this is usually done at the agent level. You could in theory do this at a more granular level (e.g. learn a different code harness per user).

Continual learning at the context layer

“Context” sits outside the harness and can be used to configure it. Context consists of things like instructions, skills, even tools. This is also commonly referred to as memory.

This same type of context exists inside the harness as well (e.g. the harness may have base system prompt, skills). The distinction is whether it is part of the harness or part of the configuration.

Learning context can be done at several different levels.

Learning context can be done at the agent level - the agent has a persistent “memory” and updates its own configuration over time. A great example is OpenClaw which has its own SOUL.md that gets updated over time.

Learning context is more commonly done at the tenant level (user, org, team, etc). In this case each tenant gets their own context that is updated over time. Examples include Hex’s Context Studio, Decagon’s Duet, Sierra’s Explorer.

You can also mix and match! So you could have an agent with agent level context updates, user level context updates, AND org level context updates.These updates can be done in two ways:

After the fact in an offline job. Similar to harness updates - run over a bunch of recent traces to extract insights and update context. This is what OpenClaw calls “dreaming”.

In the hot path as the agent is running. The agent can decided to (or the user can prompt it to) update its memory as it is working on the core task.

imageimageAnother dimension to consider here is how explicit the memory update is. Is the user prompting the agent to remember, or is the agent remembering based on core instructions in the harness itself?

Comparison

image
image

Traces are the core

All of these flows are powered by traces - the full execution path of what an agent did. LangSmith is our platform that (among other things) helps collect traces.

You can then use these traces in a variety of different ways.

If you want to update the model, you can collect traces and then work with someone like Prime Intellect to train your own model.

If you want to improve the harness, you can use LangSmith CLI and LangSmith Skills to give a coding agent access to these traces. This pattern is how we improved Deep Agents (our open source, model agnostic, general purpose base harness) on terminal bench.

If you want to learn context over time (either at the agent, user, or org level) - then your agent harness needs to support this. Deep Agents - our harness of choice - supports this in a production ready way. See the documentation there for examples of how to do user-level memory, background learning, and more.

この記事をシェア

関連記事

Ars Technica AI★42026年5月5日 04:03

教育におけるChatGPTの有用性を主張した研究が撤回される

Springer Nature は、OpenAI の ChatGPT が学習成果にプラスの影響を与えると主張した研究について、分析上の不整合と結論への信頼性欠如を理由に撤回を発表しました。この論文は出版後約1年で数百件の引用を集め、SNS でも話題となりましたが、著者による注目すべき主張には問題があったことが判明しました。

404 Media★42026年5月5日 02:56

Nature が ChatGPT の教育効果に関する論文を撤回

学術誌 Nature は、AI が学生の学習成績や思考力にプラスの影響を与えると主張したメタ分析論文を撤回しました。この論文は 5 月に発表され、ChatGPT の教育的利点を示す根拠として引用されていましたが、調査の結果問題が発覚し取り下げられました。

TLDR AI★32026年5月4日 09:00

OpenAI、Codex にアニメーションペットと設定ファイル自動インポート機能を追加

OpenAI は開発ツール「Codex」を更新し、画面にオーバーレイ表示されるアニメーションペット機能や、他コードエージェントからの設定ファイル自動インポート、音声入力精度向上のための辞書機能を追加した。これによりデスクトップアプリとしての利便性と魅力が強化された。

ニュース一覧に戻る元記事を読む