Continual learning for AI agents｜AIエージェントの継続的学習 | AIニュース最前線

![image](https://blog.langchain.com/content/images/2026/04/HFEylQUaIAAA88g.jpeg)AIにおける継続的学習に関する議論の多くは、一つの点に集中しています。それはモデル重みの更新です。しかし、AIエージェントにとって学習は、三つの異なる層、すなわちモデル、ハーネス、コンテキストで発生し得ます。この違いを理解することは、時間とともに進化するシステムの構築についての考え方を変えるでしょう。 エージェントシステムの三つの主要な層は以下の通りです。 モデル: モデル重みそのもの。 ハーネス: エージェントの全てのインスタンスを動作させる、モデルを包むハーネス。これはエージェントを駆動するコード、および常にハーネスの一部である指示やツールを指します。 コンテキスト: ハーネスの外部に存在し、それを設定するために使用できる追加のコンテキスト（指示、スキル）。 ![image](https://blog.langchain.com/content/images/2026/04/Screenshot-2026-04-04-at-8.22.30---AM.png)例 #1: Claude Codeのようなコーディングエージェントへの当てはめ： モデル: claude-sonnetなど ハーネス: Claude Code ユーザーコンテキスト: CLAUDE.md, /skills, mcp.json 例 #2: OpenClawへの当てはめ： モデル: 多数 ハーネス: Pi + その他の足場 エージェントコンテキスト: SOUL.md, clawhubからのスキル 継続的学習について語るとき、多くの人はすぐにモデル層を思い浮かべます。しかし実際には、AIシステムはこれら三つの層すべてで学習することが可能です。 **モデル層での継続的学習** 多くの人が継続的学習について語るとき、最も一般的に言及されるのがこの層、すなわちモデル重みの更新です。 これを更新する技術には、SFT、RL（例：GRPO）などがあります。 ここでの中心的な課題は**破滅的忘却**です。モデルが新しいデータやタスクで更新されると、以前に獲得した知識の性能が低下する傾向があります。これは未解決の研究課題です。 特定のエージェントシステム向けにモデルを訓練する場合（例えば、OpenAIのCodexモデルはCodexエージェント向けに訓練されたと見なせます）、これは主にエージェントシステム全体に対して行われます。理論的には、より細かい粒度で行うことも可能ですが（例：ユーザーごとにLoRAを用意する）、実際にはほとんどがエージェントレベルで実施されています。 **ハーネス層での継続的学習** 先に定義したように、ハーネスとはエージェントを駆動するコード、および常にハーネスの一部である指示やツールを指します。 ハーネスが普及するにつれ、その最適化方法について論じた研究論文がいくつか発表されています。 最近の例が **「Meta-Harness: End-to-End Optimization of Model Harnesses」** です。 核心となる考え方は、エージェントがループ内で動作するというものです。まず、多くのタスクに対して実行し、評価します。次に、全てのログをファイルシステムに保存します。その後、コーディングエージェントを実行してこれらのトレースを分析させ、ハーネスコードへの変更を提案させます。 ![image](https://blog.langchain.com/content/images/2026/04/Screenshot-2026-04-04-at-9.29.46---AM.png)モデルの継続的学習と同様に、これは通常エージェントレベルで行われます。理論的には、より細かい粒度で行うことも可能です（例：ユーザーごとに異なるコードハーネスを学習する）。 **コンテキスト層での継続的学習** 「コンテキスト」はハーネスの外部に位置し、それを設定するために使用できます。コンテキストは、指示、スキル、さらにはツールなどの要素で構成されます。これは一般的にメモリとも呼ばれます。 同種のコンテキストはハーネス内部にも存在します（例：ハーネスが基本システムプロンプトやスキルを持つ場合）。その違いは、それがハーネスの一部なのか、設定の一部なのかという点です。 コンテキストの学習は、いくつかの異なるレベルで行うことができます。 コンテキストの学習はエージェントレベルで可能です。エージェントは永続的な「メモリ」を持ち、時間とともに自身の設定を更新します。良い例はOpenClawで、時間とともに更新される独自のSOUL.mdを持っています。 コンテキストの学習は、より一般的にはテナントレベル（ユーザー、組織、チームなど）で行われます。この場合、各テナントは時間とともに更新される独自のコンテキストを保持します。例としては、HexのContext Studio、DecagonのDuet、SierraのExplorerが挙げられます。 組み合わせることも可能です。つまり、エージェントレベルのコンテキスト更新、ユーザーレベルのコンテキスト更新、組織レベルのコンテキスト更新を全て備えたエージェントを構築できます。 これらの更新は、二つの方法で実施できます。 1. 事後的、オフラインジョブとして行う。ハーネスの更新と同様に、最近の一連のトレースを分析して洞察を抽出し、コンテキストを更新します。これはOpenClawが「夢見る（dreaming）」と呼ぶものです。 2. エージェントが動作している最中（ホットパス上）で行う。エージェントは、主要タスクに取り組みながら、自身のメモリを更新することを決定できます（またはユーザーが促すこともできます）。 ![image](https://blog.langchain.com/content/images/2026/04/Screenshot-2026-04-04-at-9.28.14---AM.png)ここで考慮すべきもう一つの次元は、メモリ更新の明示性の度合いです。ユーザーがエージェントに記憶するよう促しているのか、それともエージェントがハーネス自体の基本指示に基づいて自律的に記憶しているのか、という点です。 **比較** ![image](https://blog.langchain.com/content/images/2026/04/e0f61fc1-9e93-4008-9042-c0551f05aeee.jpeg) **トレースが核心** これらのフローは全て、**トレース**、すなわちエージェントが行ったことの完全な実行パスによって駆動されています。LangSmithは、トレースの収集を支援する当社のプラットフォームです（他の機能も多数あります）。 これらのトレースは、様々な方法で活用できます。 * モデルを更新したい場合: トレースを収集し、Prime Intellectのようなパートナーと協力して独自モデルを訓練できます。 * ハーネスを改善したい場合: LangSmith CLIとLangSmith Skillsを使用して、コーディングエージェントにこれらのトレースへのアクセス権を与えることができます。このパターンを用いて、私たちはterminal benchにおいてDeep Agents（当社のオープンソース、モデル非依存、汎用ベースハーネス）を改善しました。 * 時間とともにコンテキストを学習したい場合（エージェント、ユーザー、組織レベル）: エージェントハーネスがこの機能をサポートしている必要があります。私たちが選択するハーネスであるDeep Agentsは、プロダクション環境に対応した形でこの機能をサポートしています。ユーザーレベルメモリ、バックグラウンド学習などの実施例については、該当ドキュメントをご覧ください。

AIエージェントの継続的学習

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト