AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年4月8日 23:27·約8分で読める

ALTK-Evolve:AIエージェントのオンザジョブ学習

#AIエージェント#長期記憶#オンザジョブラーニング#転移学習#Hugging Face#信頼性向上
TL;DR

Hugging Faceが発表したALTK-Evolveは、AIエージェントが過去の対話履歴から再利用可能なガイドラインを生成・適用することで、実務中に学習し、信頼性を向上させる長期記憶システムです。

AI深層分析2026年4月9日 00:42
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

「永遠のインターン」問題の解決

従来のAIエージェントは履歴を再読するだけで原則を学習できず、同じ過ちを繰り返す問題があり、ALTK-Evolveはこの学習ギャップを埋める。

2

長期記憶システムの仕組み

対話軌跡を候補ガイドラインに変換し、品質フィルタリングと重複統合を経て、高品質なライブラリを構築し、実行時に適切なガイドラインをコンテキストに注入する。

3

実証された性能向上

ベンチマークでは、特に困難な多段階タスクで信頼性が向上し(AppWorldでΔ14.2%)、コンテキストの肥大化を招かない。

4

判断力の教育と転移学習

一回限りのイベントをポータブルな戦略に変換し、異なるタスク間で教訓を転移できるようにする。

5

評価結果の主な発見

ALTK-Evolveは、特に複雑なタスクで成功率を大幅に向上させ(難しいタスクで74%の相対増加)、シナリオ変種間での一貫性も向上させた。

6

実装方法の選択肢

ノーコード(Claude Codeプラグイン)、ローコード(ReActエージェントへの単一追加)、プロコード(CUGA統合)の3つの統合パスが提供されている。

7

ユーザー参加の促進

リポジトリのスター獲得を呼びかけ、プロジェクトの可視性向上と開発方向性への影響を促している。具体的なフィードバックやユースケースの共有をGitHubイシューやディスカッションで求めている。

影響分析・編集コメントを表示

影響分析

この技術は、AIエージェントが静的なプロンプトに依存するだけでなく、実践経験から継続的に学習・改善する「自律的進化」への道を開く。エージェントの実用性と信頼性を大幅に向上させ、顧客サービス、業務自動化、複雑な意思決定支援など、多様な産業応用の可能性を拡大する。

編集コメント

AIエージェントの実用化における最大の課題の一つである「経験からの学習」に正面から取り組む画期的なアプローチ。実証データに基づく性能向上が示されており、業界の注目を集める可能性が高い。

記事に戻る ALTK-Evolve: AIエージェントのオンザジョブラーニング

Upvote 3

ほとんどのAIエージェントは原則を学ぶ代わりにトランスクリプトを読み返すため、同じ間違いを繰り返し、学んだ教訓を新しい状況に適用できません。

ALTK-Evolveは生のエージェントの行動履歴を再利用可能なガイドラインへと変換します。

ベンチマークでは、このアプローチにより、特に難易度の高いタスク(AppWorldでΔ14.2%向上)やマルチステップタスクにおいて、コンテキストを肥大化させることなく信頼性が向上しました。

「永遠のインターン」問題

すべての料理本を暗記した優秀なラインクックを想像してみてください。しかし彼らは毎朝、あなたのキッチンのことを忘れてしまいます。オーブンが高温になりやすいことや、常連客が塩を多めに好むことを覚えていません。レシピカードには従いますが、レモンが切れていると手が止まってしまいます。これがほとんどのAIエージェントの現状です。プロンプトに従うのは得意でも、あなたの環境についての知恵を蓄積するのは苦手なのです。昨日のログをプロンプトにフィードバックしても、単に履歴を読み返すだけで、そこから一般化して学ぶことはできません。

見習いシェフには「ヴィネグレット」と「カモ・ア・ロランジュ」の別々のレシピが必要です。しかしシェフは「酸味が脂っこさを中和する」という原則を学び、あらゆる場面で応用します。同様に、信頼できるエージェントも、経験から原則を抽出し、過去のタスクの単なる複製ではなく、新しいタスクに適用すべきです。この長期記憶サブシステムはまさにそれを行います。インタラクションの痕跡を候補ガイドラインに変換し、品質でフィルタリングし、行動の瞬間にのみ関連するガイダンスを注入するのです。エージェントに必要なのはトランスクリプトではなく、原則です。

最近のMITの研究では、パイロット(試験的事業)の95%が、エージェントが適応しオンザジョブラーニングしないために失敗することがわかりました。ALTK-Evolveは長期エピソード記憶を利用してこの学習ギャップに対処し、エージェントの推論を改善します。

解決策: ALTK-Evolveによる長期記憶

EvolveはAIエージェントのための記憶システムであり、エージェントが時間とともに改善し、過去の実行から生成されたガイドラインから学び、それを利用できるように支援します。

運用上、このシステムは継続的なループとして動作します。

下方フロー(観察&抽出): インタラクションレイヤー(例: Langfuseやその他のOpenTelemetryベースのオブザーバビリティツール)で、エージェントの完全な行動履歴(ユーザー発話、思考、ツール呼び出し、結果)を捕捉します。プラガブルな抽出器が痕跡から構造的パターンを抽出し、候補エンティティとして保存します。

上方フロー(洗練&検索): バックグラウンドで動作する統合・スコアリングジョブが重複をマージし、弱いルールを刈り込み、実証済みの戦略を強化して、ガイドライン、ポリシー、SOP(標準作業手順)などの高品質なエンティティライブラリを進化させます。検索時には、インタラクションレイヤーを介して関連するアイテムのみが引き出され、アプリケーションレイヤーでコンテキストに注入されます。

このアプローチが機能する主な理由は以下の通りです。

  1. 判断力を養う: 一回限りのイベントを、タスクを超えて転用可能なポータブルな戦略へと変換します。
  2. ノイズを制御: スコアリングにより、記憶を無駄がなく有用な状態に保ち、ただ増え続ける「ガラクタの引き出し」になることを防ぎます。
  3. 段階的開示: 検索はジャストインタイムで行われ、すべてをコンテキストに詰め込むことはありません。

結果: 信頼性の向上、特に難易度の高いタスクで

このフレームワークをAppWorldで評価しました。ここではエージェントがAPIを介して現実的なマルチステップタスクを完了し、平均9.5のAPIを1.8のアプリにまたがって使用します。難しいケースでは、より複雑な制御フローが必要です。ReActエージェントにタスク指示と、前回の実行(トレーニング/開発)で生成された上位5つの検索ガイドラインを提供し、未見のパーティション(テスト-ノーマル)でテストしました。シナリオ目標達成率(SGC) を報告します。これは、バリエーション全体での成功を求める厳密な一貫性指標です。

評価から得られた主な結論は以下の通りです。

  • 一般化: エージェントは未見のテスト-ノーマルタスクで改善を見せ、レシピを暗記するのではなく原則を学習している証拠を示しています。
  • 複雑性スケーリング: タスクが難しくなるほど、エージェントは簡潔な学習済みガイドラインからより多くの利益を得て、より難しいタスクで最大の向上が見られました。ハードタスクでは成功率が74%相対的に増加し、ガイドラインが複雑な制御フローをナビゲートするのに有用であることが示されました。
  • 一貫性: SGCの向上は生の合格率改善を上回り、シナリオのバリエーション間での「不安定な」動作を減少させました。ガイドラインは単にエージェントがタスクを解決するのを助けるだけでなく、バリエーション間で確実に解決するのを助けるのです。

実験の詳細については、論文(https://arxiv.org/abs/2603.10600)をご覧ください。

はじめに(導入方法の選択)

ALTK-Evolveをあなたのエージェントに統合する方法には、以下の選択肢があります。

ノーコードで: Claude Code、Codex、IBM Bob(ライトモード)

Claude Codeにプラグインをインストールします:

code
claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve@evolve-marketplace

以上です!このプラグインは行動履歴からエンティティを抽出し、ファイルシステム上のファイルとして保存します。自動検索にはClaude Codeのフックを利用します。

読むより見る方が好みですか?短いEvolve-Lite Claude Codeウォークスルー(動画)をご覧ください: デモ

Claude Codeでライトモードを使用して学習する方法の例については、こちらのウォークスルーをご覧ください。

ライトモードは簡単に試せますが、制限があります。例えば、エージェントセッションをまたいだ洞察の収集や、エンティティの統合・ガベージコレクションは行いません。以下のローコードおよびプロコード版はこれらの制限に対処しています。

CodexおよびIBM Bobとのワンステップ統合も提供されています。ぜひお試しください!

ローコードで: ReActエージェント

単一のaltk_evolve.autoを追加するだけです。

これが既存プロジェクトにどれだけ簡単に適合するかを確認するには、さまざまなフレームワーク統合を紹介するハンズオン例をご覧ください。設定と機能の詳細については、ローコードトレーシングのドキュメントをお読みください。

プロコードで: CUGA

MCPを介してALTK-EvolveをCUGAに直接統合し、緊密でオーバーヘッドの少ない学習ループを構築しました。各実行前に、get_guidelines関数が…(※原文続きのコード/関数名は省略されているため、そのまま記載)

save_trajectory関数が…(※原文続きのコード/関数名は省略されているため、そのまま記載)

視覚的なツアーが好みですか?CUGA統合ウォークスルー(動画)をご覧ください: 動画

試して、あなたのエージェントが何を学んだか教えてください

あなたのエージェントは、毎朝何も知らないインターンとして目覚めるべきではありません。このアプローチは、オンザジョブラーニングを支援します。Claude Code、Codex、IBM Bobをお使いの場合は、数分で試して、エージェントがどのように改善するか確認してください。

リポジトリにスターを付けてください。他の人がプロジェクトを発見し、次に何を構築すべきかの明確な指標となります。

コード: https://github.com/AgentToolkit/altk-evolve

ドキュメント: https://agenttoolkit.github.io/altk-evolve

クイックスタートチュートリアル: https://agenttoolkit.github.io/altk-evolve/tutorials/

フィードバック&アイデア: GitHubイシューを開くか、ディスカッションにご参加ください。具体的なユースケース、ベンチマーク、統合リクエストは特に歓迎します。

デモ動画を見る

Claude Codeウォークスルー(動画): デモ

OpenAI Codexウォークスルー(動画): デモ

IBM Bobデモウォークスルー(動画): デモ

CUGA統合ウォークスルー: 動画

原文を表示

Back to Articles ALTK‑Evolve: On‑the‑Job Learning for AI Agents

Upvote 3

Most AI agents re‑read transcripts instead of learning principles, so they repeat mistakes and don’t transfer lessons to new situations.

ALTK‑Evolve turns raw agent trajectories into reusable guidelines.

In benchmarks, the approach boosted reliability, especially on hard (Δ 14.2% on AppWorld), multi‑step tasks, without bloating context.

The “eternal intern” problem

Imagine a brilliant line cook who has memorized every cookbook but forgets your kitchen every morning. They don’t remember your oven runs hot, or that regulars like extra salt; they’ll follow a recipe card yet freeze when you’re out of lemons. That’s most AI agents: excellent at following prompts, poor at accumulating wisdom about your environment. Feeding yesterday’s logs back into the prompt just makes them re‑read history; it doesn’t help them generalize from it.

A junior needs different recipes for “vinaigrette” and “duck à l’orange.” A chef learns “acid balances fat” and applies it everywhere. Likewise, reliable agents should distill principles from experience and apply them to new tasks, not just near duplicates of old ones. This long‑term memory subsystem does exactly that: it converts interaction traces into candidate guidelines, filters for quality, and injects only relevant guidance at the moment of action. Agents need principles, not transcripts.

A recent MIT study found that 95% of pilots fail because agents don't adapt and learn on the job. ALTK-Evolve addresses this learning gap using long term episodic memory to help agents reason better.

Solution: long term memory with ALTK-Evolve

Evolve is a memory system for AI agents, that can help agents improve over time, learning from and using guidelines generated from previous executions.

Operationally, the system runs as a continuous loop:

Downward flow (observation & extraction): Capture full agent trajectories (user utterances, thoughts, tool calls, results) in an Interaction Layer (e.g., Langfuse or another OpenTelemetry‑based observability tool). Pluggable extractors mine traces for structural patterns and persist them as candidate entities.

Upward flow (refinement & retrieval): A background consolidate‑and‑score job merges duplicates, prunes weak rules, and boosts proven strategies, evolving a high‑quality library of entities such as guidelines, policies, and SOPs. Retrieval pulls only the relevant items via the Interaction Layer and injects them back into context at the Application Layer.

This approach works for a few key reasons:

Teaches judgment: Converts one‑off events into portable strategies that transfer across tasks.

Controls noise: Scoring keeps memory lean and useful, not a growing junk drawer.

Progressive Disclosure: Retrieval is just‑in‑time, not stuffing everything into the context.

Results: better reliability, especially on hard tasks

We evaluated the framework on AppWorld, where agents complete realistic multi‑step tasks via APIs, averaging 9.5 APIs across 1.8 apps, with hard cases requiring more complex control flow. A ReAct agent received the task instruction plus the top 5 retrieved guidelines generated on a prior run (train/dev) and tested on an unseen partition (test-normal). We report Scenario Goal Completion (SGC), a strict consistency metric requiring success across variants.

Here are some key conclusions from the evaluations:

Generalization: The agent improves on the unseen Test‑Normal tasks, evidence that it’s learning principles, not memorizing recipes.

Complexity scaling: The harder the task, the more the agent benefits from concise learned guidelines, with the largest lift on the more difficult tasks. The Hard tasks saw a 74% relative increase in success, where guidelines are useful to navigate the intricate control flows.

Consistency: SGC gains exceeded raw pass‑rate improvements, reducing “flaky” behavior across scenario variants. The guidelines don’t just help the agent solve tasks, they help them solve them reliably across variants.

Find more details about the experiments in the paper at https://arxiv.org/abs/2603.10600.

Getting started (choose your path)

You have a choice in how to integrate ALTK‑Evolve into your agent.

No‑code with Claude Code, Codex, and IBM Bob (Lite mode)

Install the plugin into Claude Code:

claude plugin marketplace add AgentToolkit/altk-evolve claude plugin install evolve@evolve-marketplace

That’s it! The plugin extracts entities from trajectories and stores them as files on your filesystem. It uses Claude Code’s hooks for automatic retrieval.

Prefer to watch instead of read? See the short Evolve-Lite Claude Code walkthrough (video): Demo

Check out the walkthroughs here for examples of how to learn with Claude Code in Lite mode.

Lite mode is easy to test‑drive but has limitations. For example, it doesn’t glean insights from across agent sessions or perform consolidation and garbage collection of entities. The low‑code and pro‑code versions below address these limitations.

There are also one-step integrations with Codex and IBM Bob. Try them out!

Low‑code with a ReAct agent

Add a single altk_evolve.auto

To see just how easily this fits into existing projects, explore our hands‑on examples showcasing different framework integrations. For full details on configuration and capabilities, read our low‑code tracing documentation.

Pro‑code with CUGA

We integrated ALTK‑Evolve directly into CUGA via MCP to create a tight, low‑overhead learning loop. Before each run, the get_guidelines

save_trajectory

Prefer a visual tour? Watch the CUGA integration walkthrough: video

Try it & tell us what your agent learned

Your agent shouldn’t wake up as an intern every morning. This approach helps it learn on the job. If you're using Claude Code, Codex, and IBM Bob, try it out in minutes and see how it improves your agent.

Star the repo, it helps others discover the project and directly guides what we build next.

Code: https://github.com/AgentToolkit/altk-evolve

Docs: https://agenttoolkit.github.io/altk-evolve

Quick start tutorials: https://agenttoolkit.github.io/altk-evolve/tutorials/

Feedback & ideas: Open a GitHub issue or join the discussions — concrete use cases, benchmarks, and integration requests are especially helpful.

Watch the demos

Claude Code walkthrough (video): Demo

OpenAI Codex walkthrough (video): Demo

IBM Bob demo walkthrough (video): Demo

CUGA integration walkthrough: video

この記事をシェア

関連記事

The Register AI/ML★42026年4月28日 01:20

AIの現実検証:3社がウォレット、住宅、ゲーム構築で学んだこと

シティ、ホームデポ、カプコンの経営陣は、AIエージェントが実験ツールから顧客対応業務へ移行する過程で得た知見を語った。次なる課題は、金銭や創造的出力に関わる際のガバナンスと信頼性の確保である。

The Decoder★42026年4月25日 19:18

アンストロピック「強力なAIモデルはより良い取引を実現し、劣るモデルを使う利用者は気づかない」

アンストロピックは社内市場で69のAIエージェントに取引をさせ、強力なモデルがより良い結果を出した。利用者は劣るモデルの差に気づかず、AIの実取引化は経済格差を拡大させる可能性がある。

The Verge AI★32026年4月24日 07:27

ClaudeがSpotifyやUber Eatsなどの個人アプリに直接接続

AnthropicはClaudeがSpotifyやUber Eats、TurboTaxなどの個人アプリに直接接続できる新機能を提供した。これにより、ユーザーはハikingから grocery shopping まで多様なサービスを利用可能になる。

ニュース一覧に戻る元記事を読む