SkillOpt:エージェントのスキルを学習可能なパラメータとして扱う手法
Microsoft Research は、LLM の重みを変更せずにエージェントのスキルを最適化パラメータとして扱う「SkillOpt」を発表し、プロンプトドリフトを防ぎつつ信頼性を劇的に向上させる手法を確立した。
キーポイント
スキルの最適化パラメータ化
既存の「書き換え」アプローチではなく、スキルファイル自体を凍結されたターゲットモデル外の「学習可能なパラメータ」として扱い、訓練プロセスとして最適化する新しい枠組みを導入した。
制御された最適化ループ
ステップサイズの制御、ホールドアウト検証、失敗した修正の記憶といった深層学習オプティマイザの特徴を取り入れ、無秩序なプロンプトの肥大化(ドリフト)を防止する。
包括的なベンチマークでの優位性
6 つのベンチマーク、7 つのターゲットモデル、3 つの実行モードにわたる 52 の評価セルすべてで最高または同率最高の性能を記録し、モデル重みの更新なしで実用レベルの信頼性を達成した。
汎用性と監査可能性
最適化されたスキルはコンパクトで読みやすく、異なるモデルスケールやエージェントハッチに転移可能であり、バウンデッドテキスト編集と検証ゲートにより監査が容易である。
テキスト空間における制御可能な最適化サイクル
SkillOpt は、フリーズされたモデルによる前向きパス、オプティマイザによる後向きパス、そして厳格な検証ゲートを通じた更新からなるサイクルでスキルを編集し、ドリフトを防ぎつつ収束を実現します。
重み更新なしでの劇的な性能向上
モデルの重みを一切更新しないにもかかわらず、GPT-5.5 における 6 つのベンチマーク平均で +23.5 ポイントもの絶対的改善を達成し、すべての評価セルで既存手法と同等かそれ以上の結果を出しました。
rejected-edits を活用した学習メカニズム
検証ゲートで却下された編集案は破棄されずバッファに蓄積され、同じエポック内の後のオプティマイザ呼び出しにおいて負のフィードバックとして利用され、より効果的な学習を促進します。
影響分析・編集コメントを表示
影響分析
この手法は、AI エージェントの信頼性を高めるための重要な転換点となり、特に大規模な実装においてプロンプトの不安定性を解消する標準的なアプローチとなる可能性があります。モデル重みの更新を伴わないため、迅速なデプロイと監査が容易になり、産業レベルでのエージェント導入におけるボトルネックである「一貫性の欠如」に対する強力な解決策となります。
編集コメント
プロンプトの「書き換え」を「学習」として再定義した発想は、エージェント開発のパラダイムシフトを示唆しており、実務におけるプロンプト管理のあり方を根本から変える可能性があります。

一言で言うと
AI エージェントは、その指示(スキル)が手動で修正されるだけで改善の保証がないために失敗することがよくあります。SkillOpt は、スキルの編集をトレーニングプロセスに変換し、モデルの重みを変更せずにエージェントの動作をより信頼性の高いものにします。
SkillOpt は、凍結されたターゲットモデルの外側にあるエージェントのスキルファイルを訓練可能なパラメータとして扱い、スクリプト作成を一発のプロンプトから制御された最適化プロセスへと転換します。
6 つのベンチマーク、7 つのターゲットモデル、3 つの実行モードにわたる評価において、SkillOpt はすべての 52 の評価セルで最良または同率最良の方法であり、モデルの重みを更新することなくパフォーマンスを向上させます。
SkillOpt は、有界なテキスト編集、検証ゲート、拒否された編集フィードバック、スロー/メタ更新を通じて、スキルをコンパクトかつ監査可能に保ち、制御不能なプロンプトのドリフトを防ぎます。
最適化されたスキルは、モデルのスケーリング、エージェントのハネス、および関連するタスク間でも転移可能であり、これらはベンチマーク固有の指示ではなく再利用可能なワークフロー知識を捉えていることを示唆しています。
大規模言語モデル(LLM)は、証拠を集め、ツールを呼び出し、多段階のタスクを実行するエージェントとしてますます展開されています。これらのエージェントにとって、難しい問題はもはやツールを呼び出せるかどうかではなく、タスクを信頼性高く一貫して完了できるかどうかです。現在、エージェントのスキルは主に3つのソースから得られます:専門家が手書きで記述するもの、最前線のモデルがワンショットで生成するもの、または実行後にエージェントが緩やかに修正するものです。これらのアプローチはいずれも深層学習の最適化関数のように動作しません。ステップサイズの制御や、保留された検証、失敗した修正に関する記憶がありません。その結果、スキルは書き換えごとに長くなり、 drifting(ドリフト)し、完璧に合理的に見える修正でも、実際のタスクパフォーマンスを静かに低下させることがあります。この制御されていないスキルの進化は、エージェントのプロトタイプから信頼性の高い本番環境への展開に至る道のりにおける主要な障害となっています。
私たちの最近の論文「SkillOpt: Self-Evolving Agent Skills に対する実行戦略」では、「より良いプロンプトをどう書くか」という問いを、「スキルをどう訓練するか」という問いへと再定義しました。SkillOpt は、スキルフイルを凍結されたターゲットモデルの外に存在する訓練可能なパラメータとして扱い、訓練スタイルの最適化ループをもたらします。これにより、52 の評価セル全体で一貫した改善が得られ、読みやすく、監査可能で、移植可能なコンパクトなスキルフイルを実現しています。
image図 1. 固定されたターゲットモデルがタスクを実行する一方、別のオプティマイザモデルが軌道フィードバックからスキル層を訓練し、検証ゲートを通じて再利用可能なスキルファイル best_ skill.md をエクスポートします。
SkillOpt の仕組み
ビデオ 1. SkillOpt の最適化ループ:軌道収集からエクスポートされたスキルファイルまで。
SkillOpt は、テキスト空間における順伝播・逆伝播・更新のサイクルとしてスキルの編集を構成しています。順伝播パスでは、固定されたターゲットモデルが現在のスキルを用いて一連のトレーニングタスクを実行します。ロールアウトバッチサイズは、各更新にどの程度の証拠が与えられるかを制御します。逆伝播パスでは、別のオプティマイザモデルが結果として得られた軌道をリフレクションミニバッチで読み取り、成功した軌道から維持すべきパターンと失敗から修正すべきパターンを抽出・凝縮します。
更新ステップにおいて、オプティマイザは小さな追加・削除・置換編集を提案します。候補となる編集はマージされ重複が除去された後、テキスト学習率(1 歩あたりの編集予算)によってランク付けおよびクリップされます。すべての候補スキルはその後、厳格な検証ゲートを通過する必要があります。保持された検証分割において現在のスキルよりも厳密に高いスコアを獲得した場合のみ採用されます。却下された編集は破棄されず、同じエポック内の後のオプティマイザ呼び出しに対するネガティブフィードバックとして機能する却下済み編集バッファに入ります。より緩やかな間隔で、エポックごとのスロー/メタ更新が、単一のバッチでは明らかにできない長期的な教訓を統合します(図 2)。これら、制限された編集、検証ゲート、および最良バージョンの選択を組み合わせることで、スキルの最適化は制御可能かつ監査可能に保たれ、スキルはドリフトするのではなく収束します。
image図 2. SkillOpt パイプライン:軌跡収集、ミニバッチ反射、制限されたテキスト更新、検証ゲート、およびエポックごとのスロー/メタ更新が協調してスキルトレーニングを制約します。
ベンチマーク、モデル、実行モードにわたる一貫した改善
SkillOpt を、SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench、ALFWorld の 6 つのベンチマーク、GPT-5.5 から小規模なオープンウェイトモデル Qwen3.5-4B に至る 7 つのターゲットモデル、そしてダイレクトチャット、Codex、Claude Code の 3 つの実行モードに対して評価しました。各組み合わせを 1 つの評価セルと数え、人間が作成したスキル、ワンショット LLM スキル、Trace2Skill、TextGrad、GEPA、EvoSkill と比較した場合、SkillOpt はすべての 52 セルにおいて最良の結果を出し、あるいは同率で最良の結果となりました。モデルの重み(weights)を一切更新しない手法としては、この性能向上は非常に大きいです。GPT-5.5 をダイレクトチャットモードで使用した際、SkillOpt は 6 つのベンチマークの平均スコアを 58.8 から 82.3 に引き上げ、絶対値で +23.5 ポイントの改善をもたらしました。これは、各セルごとに単一の最良競合手法を選択するオラクル(oracle)よりもさらに +5.4 ポイント高い結果です。最も大きな向上が見られたのは手続き型ベンチマークであり、SpreadsheetBench は 41.8 から 80.7 に、OfficeQA は 33.1 から 72.1 に、LiveMathematicianBench は 37.6 から 66.9 にそれぞれ向上しました。同じインターフェースはエージェントループ(agentic loops)にも適用され、スキルなしの場合と比較して Codex 内で GPT-5.5 を +24.8 ポイント、Claude Code 内で +19.1 ポイント引き上げました。
Spotlight: Event Series
image
Microsoft Research Forum
一般 AI の時代における研究に関するアイデアの継続的な交換に参加しましょう。最新のエピソードはオンデマンドで視聴可能です。
オンデマンド視聴
新しいタブで開く
小さなモデルとスキルファイルの組み合わせ
次のモデル階層にアプローチする SkillOpt は、推論時に重みを変更したり追加のモデル呼び出しを行ったりすることなく、小規模またはオープンウェイトモデルと最先端モデルとの間のギャップを縮めます。最適化後、GPT-5.4-mini の 6 つのベンチマーク平均値(64.3)は、より大規模な GPT-5.4 のスキルなしベースライン(59.7)を上回り、GPT-5.4-nano(57.4)も GPT-5.2 のスキルなしベースライン(51.3)を超えます。40 億パラメータのオープンウェイトモデルである Qwen3.5-4B もまた、GPT-5.2 のスキルなしベースラインを上回ります。かつてはより大規模なモデルを必要としていた性能向上が、今では最適化された 1 つのスキルファイルで近似可能になりました。
転移可能なスキル:一度学習すればどこでも再利用可能
最適化されたスキルファイルは、特定のモデルやベンチマーク、実行環境に過剰適合した指示ではなく、再利用可能なタスク解決手順を捉えたものです。これが、同じスキルがモデルの規模やエージェント・ハッチ、関連するタスク間を転送しても性能向上をもたらす理由です。転移実験において、スキルはモデル規模間、実行ハッチ間、および近接する数学ベンチマーク間でも依然として性能向上をもたらしました。最も明確な例はクロスハッチ転移で、Codex 内で訓練されたスプレッドシート・スキルを Claude Code にそのまま投入し、さらなる最適化を行わないだけで、スキルなしのベースラインを 22.1 から 81.8 (+59.7) まで引き上げました。これは、Claude Code 内で直接訓練した場合に達成される 80.4 をわずかに上回る結果です。両方のハッチが異なるツール表面を公開しているため、SkillOpt は単なるハッチ固有のレシピではなく、一般的なワークフロー論理を学習していると示唆されます。
コンパクトで読みやすく、非常に少ない承認された編集から構築されています
デプロイされた成果物 best_skill.md は、非可視のパラメータの塊でもあり、また無限に成長するログでもありません。6 つのケーススタディにおいて、最終的なスキル長の中央値は約 920 トークンであり、検証ゲートが提案のほとんどを拒否するため、最終ファイルに採用される編集は 1 から 4 回のみです。OfficeQA における +39.0 ポイントの向上は、単一の採用された編集によるものです。学習されたルールは、熟練した実践者の助言のように読めます。コンポーネントのアブレーション(除去実験)により、制御機能が実際に機能していることが確認されました。拒否された編集用のバッファを削除すると、3 つすべてのアブレーションベンチマークでスコアが低下し、メタスキルとスローアップデートの両方を削除すると、SpreadsheetBench のスコアは 77.5 から 55.0 に低下します。
エージェント時代のための新たな適応層。SkillOpt は、ドメイン適応を行うエージェントに対する軽量な道筋を示しています:重みのファインチューニングやタスクロジックのハードコーディング、プロンプトの手動調整ではなく、チームは自動評価または信頼できる検証者が存在する wherever で、バージョン管理可能で監査可能な自然言語によるスキル層を訓練できます。
学習率、スケジューリング、検証分割、拒否されたサンプル、スローアップデートといった要素をエージェントスキルに持ち込むことで、SkillOpt はトレーニングがモデルの重みに限定される必要はないことを示唆しています。モデル外の手続的知識も最適化可能です。
このプロセスが制御され、検証され、記録されることで、自然言語によるスキルは、最先端モデルの能力と実世界のワークロードの間を繋ぐ、安定した・転送可能な・可逆的なアダプターとなります。完全な論文を読むか、aka.ms/skillopt(新しいタブで開きます)にあるプロジェクトページを訪れるか、github.com/microsoft/SkillOpt(新しいタブで開きます)にある SkillOpt の GitHub リポジトリを探索してください。エージェントワークフローを構築するチームは、SkillOpt を基盤として、自らのタスクと検証器に対して再利用可能なスキルをトレーニングするために活用できます。また、関連プロジェクトである SkillLens もご覧ください。
論文
GitHub
SkillLens プロジェクトページ
新しいタブで開きます「SkillOpt: エージェントのスキルを学習可能なパラメータ」という投稿は、Microsoft Research で最初に発表されました。
原文を表示

At a glance
AI agents often fail because their instructions, or skills, are manually modified with no guarantee of improvement. SkillOpt turns skill editing into a training process, making agent behavior more reliable without changing model weights.
SkillOpt treats an agent skill file as a trainable parameter outside a frozen target model, turning skill writing from one-shot prompting into a controlled optimization process.
Across six benchmarks, seven target models, and three execution modes, SkillOpt is the best or tied-best method in all 52 evaluation cells, improving performance without updating model weights.
SkillOpt keeps skills compact and auditable through bounded text edits, validation gating, rejected-edit feedback, and slow/meta updates, avoiding uncontrolled prompt drift.
The optimized skills transfer across model scales, agent harnesses, and related tasks, suggesting that they capture reusable workflow knowledge rather than benchmark-specific instructions.
Large language models (LLMs) are increasingly deployed as agents that gather evidence, call tools, and execute multi-step tasks. For these agents, the hard problem is no longer whether they can call a tool, but whether they can complete tasks reliably and consistently. Today, agent skills typically come from three sources: experts write them by hand, a frontier model generates them one-shot, or the agent loosely revises them after execution. None of these approaches behaves like a deep-learning optimizer. They lack step-size control, held-out validation, and any memory of revisions that failed. As a result, skills tend to grow longer and drift with each rewrite, and a revision that seems perfectly reasonable can quietly degrade real task performance. This uncontrolled skill evolution has become a major obstacle on the path from agent prototype to dependable, production-grade deployment.
In our recent paper, SkillOpt: Executive Strategy for Self-Evolving Agent Skills, we reframe the question from “how do we write a better prompt?” to “how do we train the skill?” SkillOpt treats the skill file as a trainable parameter living outside a frozen target model, bringing a training-style optimization loop, consistent gains across 52 evaluation cells, and a compact skill file that stays readable, auditable, and transferable.
imageFigure 1. A frozen target model executes tasks while a separate optimizer model trains the skill layer from trajectory feedback, exporting the reusable skill file best_ skill.md through validation gating.
How SkillOpt works
Video 1. SkillOpt’s optimization loop, from trajectory collection to the exported skill file.
SkillOpt organizes skill editing as a forward–backward–update cycle in text space. In the forward pass, the frozen target model executes a batch of training tasks with the current skill; the rollout batch size controls how much evidence each update receives. In the backward pass, a separate optimizer model reads the resulting trajectories in reflection minibatches, distilling patterns to preserve from successful trajectories and patterns to correct from failures.
In the update step, the optimizer proposes small add, delete, and replace edits; candidate edits are merged, deduplicated, ranked, and clipped by a textual learning rate—a per-step edit budget. Every candidate skill must then pass a strict validation gate: it is adopted only if it scores strictly higher than the current skill on the held-out validation split. Rejected edits are not discarded; they enter a rejected-edit buffer that serves as negative feedback for later optimizer calls in the same epoch. On a slower cadence, an epoch-wise slow/meta update consolidates longer-horizon lessons that single batches cannot reveal (Figure 2). Together, bounded edits, validation gating, and best-version selection keep skill optimization controllable and auditable, so the skill converges instead of drifting.
imageFigure 2. The SkillOpt pipeline: trajectory collection, minibatch reflection, bounded text updates, validation gating, and epoch-wise slow/meta updates jointly constrain skill training.
Consistent gains across benchmarks, models, and execution modes
We evaluated SkillOpt across six benchmarks (SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, and ALFWorld), seven target models from frontier-scale GPT-5.5 to the small open-weight Qwen3.5-4B, and three execution modes (direct chat, Codex, and Claude Code). Counting each combination as one evaluation cell, When measured against human-written skills, one-shot LLM skills, Trace2Skill, TextGrad, GEPA, and EvoSkill, SkillOpt delivered the best or tied for -best results on all 52 cells. These performance improvements are unusually large for a method that updates no model weights. With GPT-5.5 in direct chat, SkillOpt raises the six-benchmark average from 58.8 to 82.3, a +23.5-point absolute improvement—and +5.4 points above an oracle that picks the single best competing method per cell. The largest gains appear on procedural benchmarks: SpreadsheetBench rises from 41.8 to 80.7, OfficeQA from 33.1 to 72.1, and LiveMathematicianBench from 37.6 to 66.9. The same interface carries over to agentic loops, lifting GPT-5.5 by +24.8 points inside Codex and +19.1 inside Claude Code over no skill.
Spotlight: Event Series
image
Microsoft Research Forum
Join us for a continuous exchange of ideas about research in the era of general AI. Watch the latest episodes on demand.
Watch on-demand
Opens in a new tab
A small model plus a skill file
Approaching the next model tier SkillOpt also narrows the gap between small or open-weight models and frontier models—without changing any weights or adding any extra model calls at inference. After optimization, GPT-5.4-mini’s six-benchmark average (64.3) exceeds the no-skill baseline of the larger GPT-5.4 (59.7), and GPT-5.4-nano (57.4) exceeds the no-skill baseline of GPT-5.2 (51.3). Qwen3.5-4B, a 4-billion-parameter open-weight model, surpasses GPT-5.2’s no-skill baseline as well. Gains that once required a larger model can now be approximated by one optimized skill file.
Skills that transfer: train once, reuse everywhere
The optimized skill file captures reusable task-solving procedures rather than instructions overfit to a single model, benchmark, or execution environment. This is why the same skill can still improve performance when transferred across model scales, agent harnesses, and related tasks. In our transfer experiments, skills continued to deliver gains when moved across model scales, across execution harnesses, and to a nearby math benchmark. The clearest example is cross-harness transfer: a spreadsheet skill trained inside Codex, dropped into Claude Code with no further optimization, lifts the no-skill baseline from 22.1 to 81.8 (+59.7)—slightly above the 80.4 achieved by training directly inside Claude Code. Because the two harnesses expose different tool surfaces, this suggests SkillOpt learns general workflow logic, not just harness-specific recipes.
Compact, readable, and built from very few accepted edits
The deployed artifact, best_ skill.md , is neither an opaque parameter blob nor an ever-growing log. Across six case studies, the median final skill length is roughly 920 tokens, and because the validation gate rejects most proposals, only one to four edits are accepted into the final file. OfficeQA’s +39.0-point gain comes from a single accepted edit. The learned rules read like a seasoned practitioner’s advice. Component ablations confirm that the controls do the work: removing the rejected-edit buffer lowers scores on all three ablation benchmarks, and removing both the meta skill and the slow update drops SpreadsheetBench from 77.5 to 55.0. A new adaptation layer for the agent era SkillOpt points to a lighter-weight path for domain-adapting agents: instead of fine-tuning weights, hard-coding task logic, or hand-tuning prompts, teams can train a small, versionable, auditable natural-language skill layer—wherever automatic evaluation or a reliable verifier exists.
By bringing learning rates, schedules, validation splits, rejected samples, and slow updates to agent skills, SkillOpt suggests that training need not be limited to model weights. Procedural knowledge outside the model can also be optimized.
When that process is controlled, validated, and recorded, a natural-language skill becomes a stable, transferable, and reversible adapter between frontier-model capability and real-world workloads. Read the full paper, visit the project page at aka.ms/skillopt (opens in new tab), or explore the SkillOpt GitHub repository at github.com/microsoft/SkillOpt (opens in new tab). Teams building agentic workflows can use SkillOpt as a foundation for training reusable skills against their own tasks and verifiers. See also our companion project, SkillLens.
Paper
GitHub
SkillLens Project Page
Opens in a new tabThe post SkillOpt: Agent skills as trainable parameters appeared first on Microsoft Research.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み