通义大模型·2026年4月21日 18:22·約18分で読める

私のエージェントがまたツールを誤操作した！

#Agentic AI #自動最適化 #AgentScope #プロンプトエンジニアリング #強化学習

TL;DR

通義大模型が公開したAgentScope Tunerは、Agentic AIの設計・最適化・デプロイを一元化する自動最適化エンジンであり、従来の開発と運用の断絶を解消し、エージェントの継続的学習と実用化を支援する。

AI深層分析2026年4月21日 21:14

注目/ 5段階

深度40%

キーポイント

開発と最適化の一元化

AgentScopeエコシステムに深く統合され、既存コードのリファクタリングなしで学習からデプロイまでのワンストップワークフローを実現し、実運用と訓練指標の乖離を解消する。

統一された最適化インターフェース

プロンプト調整、モデル選定、強化学習など多様な最適化戦略を単一APIで統一し、複雑なフレームワークの学習コストを削減して柔軟な戦略切り替えを可能にする。

全ライフサイクル対応の最適化パス

初期の軽量検証から上級者の高度な調整まで段階的なツールを提供し、エージェントの実運用における継続的改善とコスト効率の向上を支援する。

提示词自动化优化

通过自动化搜索算法迭代Prompt模板，无需修改模型即可低成本提升Agent特定任务表现，适合项目早期快速验证。

智能模型选型

结合准确率、时延与Token消耗等多维指标自动评测候选模型，智能推荐高性价比基座以大幅降低长期推理成本。

强化轨迹微调（RFT）

基于真实交互轨迹进行参数级深度优化，支持分布式训练与完整端到端任务规划，专攻复杂多Agent协作场景的性能瓶颈。

多智能体博弈优化

狼人杀案例表明，强化微调能使4B小模型学习伪装与角色分工等复杂策略，有效对抗30B大模型。

影響分析・編集コメントを表示

影響分析

Agentic AIの実用化において、モデルやプロンプトの調整は開発の初期段階だけでなく運用期にも継続的に必要となる。AgentScope Tunerのような一元化ツールは、開発者の負荷を軽減し、エージェントのリアルタイム適応能力を高める上で重要なインフラとなる。ただし、特定フレームワークに依存する形となるため、エコシステム間の互換性や業界標準の動向が今後の鍵となる。

編集コメント

エージェント開発のボトルネックである「運用期の最適化負荷」を解決する実用的なアプローチだが、オープン標準との整合性や他フレームワークへの移植性を注視する必要がある。

原创：通義ラボ 2026-04-21 17:22 浙江

AgentScope Tunerで、Agentは使うほど賢くなる

丹念に作成したAgentが、いざ本番環境でデプロイするとすぐに失敗する？

業界用語を理解できず、APIを無秩序に呼び出し、ビジネスルールが変更されただけで戦略が無効化……プロンプト（Prompt）を手動で修正し、モデルを交換して再デプロイするたびに、保守コストは高騰していく。

静的なエンジニアリングデプロイメントでは、現実のビジネスの複雑で多様な変化に到底耐えられない。Agentに必要なのは「ワンタイム納品」ではなく、システム化された継続的最適化メカニズムだ。

Agentic AI（自律型AIエージェント）専用に設計されたワンストップ自動最適化エンジン「AgentScope Tuner」が正式にアップグレード！コードのリファクタリングは不要、手動での試行錯誤も不要。開発者が「Agentの作成」と「Agentの最適化」をシームレスに切り替えられるようになり、インテリジェントエージェントは使うほど賢くなる。

今すぐAgentScope Tunerを体験

GitHubリンク：https://github.com/agentscope-ai/agentscope/tree/main/src/agentscope/tuner

ModelScope（魔搭）リンク：https://www.modelscope.cn/organization/AgentScope

推奨サンプル：https://github.com/agentscope-ai/agentscope-samples/tree/main/tuner

公式ドキュメント：https://docs.agentscope.io/tune-agent/tune-your-first-agent

従来のAgent開発プロセスでは、開発と最適化はしばしば分断されている：Agentを作成→データをエクスポート→最適化フレームワークを選択→トレーニング→再エクスポートして本番反映……その間のデータ変換、環境構築、フォーマット調整が煩雑で、「トレーニング時のパフォーマンスは良いのに、本番反映後の効果が悪い」という乖離が起きやすい。

AgentScope Tunerは設計当初からAgentのユースケースに焦点を当てて磨き上げられ、3つの体験アップグレードをもたらす：

Agentネイティブ：開発・調整・デプロイメント・本番反映、ワンクリックでクローズドループ

AgentScope TunerはAgentScopeエコシステムに深く統合され、Agentの研究開発からトレーニング、公開までの全プロセスをシームレスにつなぐ。

既存のAgentワークフローでは、コードをほぼ変更せずに直接最適化を開始できる。データを手動でエクスポートし、フォーマットを揃え、環境を切り替えるといった煩雑な手順を省略し、「トレーニング時の指標」と「本番環境での効果」を真に一致させる。コード記述と効果調整が、ついに同じワークフローの自然な延長線上にある。

統一された体験：複数の最適化戦略、単一のデザイン言語

プロンプト最適化、モデル選定（Model Selection）、強化学習によるファインチューニング（Reinforcement Fine-tuning）のいずれにおいても、AgentScope Tunerは統一されたAPIとデザインパターンを提供する。

異なる最適化手法（Agent RL、プロンプトチューニング（Prompt Tuning））ごとに異なるフレームワークを学習し、複雑な概念や詳細を理解する必要はない。簡潔なインターフェース一套（1セット）を使用するだけで最適化戦略を自由に切り替え、異なる最適化のレイヤーで向上を実現できる。

さらに重要なのはシームレスな統合だ：既存のAgentワークフローにコードをほとんど変更せずにTunerを組み込める。これは、既存システムのリファクタリングを行わずとも、最適化による恩恵を即座に享受できることを意味する。

全ライフサイクルサポート：ゼロハードルで最適化を開始、エキスパートレベルの調整と反復

Agentの最適化は一度きりの作業ではなく、研究開発ライフサイクル全体を貫く継続的なプロセスだ。AgentScope Tunerは各段階に合わせた階段式の最適化パスを設計し、どのフェーズでも最適なツールを提供する：

軽量最適化（研究開発初期）：ハードルゼロで、最適化の方向性を迅速に検証。

モデル推薦（Model Selection）：市場に出回るモデルが多すぎて見極められない。あなたのシーンに最も適するのはどれか？Tunerは候補モデルの中から自動で評価・選別をサポートし、最も効果の高いバージョンを見つけてコスト削減と効率向上を実現する。

プロンプト最適化（Prompt Tuning）：少量のデータのみで、自動化された検索によりモデルの能力を最大限に引き出すプロンプトテンプレートを見つけ出し、迅速な反復検証を行います。

ディープチューニング（Deep Tuning）：プロンプトとモデル選択の両方でボトルネックに達した場合、パラメータレベルの最適化に移行します。

強化学習ファインチューニング（RFT Tuning）：Trinity-RFTに基づき、実際のインタラクション軌跡から学習し、複雑なAgentワークフローに対してモデルレベルの深度最適化を行います。クラウドトレーニングサービスまたはローカルクラスターを通じて、大規模な分散強化学習（Reinforcement Learning）を実現し、エンタープライズレベルのビジネスシナリオに適応します。

プロジェクトの最初の1行のプロンプトから分散クラスター（Distributed Cluster）での深度トレーニングまで、AgentScope Tunerはいつでも「Agentの作成」と「Agentの最適化」を自由に切り替えることができます。

AgentScope Tunerは、軽量チューニングから深度トレーニングまでをカバーする3つの最適化機能を提供します。

機能1：プロンプト最適化 —— 低コスト、高リターン

モデルを変更せず、プロンプトのみを調整します。自動化された検索アルゴリズムにより、プロンプト空間を体系的に探索し、モデルの能力を最大限に引き出すプロンプトテンプレートを見つけます。

MIPROv2など複数の検索アルゴリズムをサポートし、効率と効果のバランスを柔軟に選択できます。

自動化された反復フロー：候補プロンプトの生成 → 効果の評価 → 選別と最適化 → 再反復。全体を通して過度な介入は不要です。

単なる1回の質問応答の最適化ではなく、Agentの軌跡を対象としたプロンプト最適化をサポートします。

ほとんどのシナリオにおいて、これはコストパフォーマンス最高の初期アプローチです。GPUは不要で、トレーニングデータの蓄積も不要であり、数回の反復で顕著な向上を確認できます。特にプロジェクトの初期段階で最適化アイデアを迅速に検証する場合に適しています。

「

典型シナリオ：Agentの基礎能力はすでに整っているものの、特定のタスクにおいて少し物足りない場合——例えばツール呼び出しの説明が正確でない、計画ステップの表現が明確でないなど。この場合、プロンプトを調整するだけで効果が見られます。

」

機能2：モデル選択 —— コスト削減と効率向上の両立

最新で最大のモデルが必ずしも最適とは限りません。AgentScope Tunerは候補モデルのグループ内で自動評価を行い、カスタムビジネス指標、レイテンシ、トークン使用量を組み合わせて、ワンクリックで総合コストパフォーマンスが最も高い基盤モデルを選択します：

カスタム目標指向：精度、応答速度、トークン消費などの多様な重みを柔軟に設定でき、選定が本当にあなたのビジネスに貢献します。

ワンクリック評価実行：既存のAgentワークフローに自動連携し、テストケースの手動構築が不要で、現在のタスクに最も適したモデルバージョンを迅速に特定します。

コスト無損失置換：候補モデルの効果が同等の場合、軽量モデルを自動推奨し、精度への影響をほぼゼロに保ちつつ、長期的な推論コストを大幅に削減します。

「

典型シナリオ：Agentが最も高価なMAX級モデルで動作し、thinkingモードを有効化すると大量のトークンを消費しますが、実際には90%のリクエストは安価なモデルで直接回答すれば済みます。Model Selectionが最もコストパフォーマンスの高い選択を自動で行います。

」

機能3：強化学習ファインチューニング —— パフォーマンスの天井突破

プロンプト最適化とモデル選択の両方でボトルネックに達した場合、実際のインタラクション軌跡から直接学習し、強化学習アルゴリズムによってモデルパラメータをファインチューニングします。

Agent専用設計：Trinity-RFTフレームワークに基づき、トレーニングパイプラインがマルチターンツール呼び出し（Multi-turn Tool Calling）と複雑な計画にネイティブに対応します。

完全な軌跡の最適化：Agentのエンドツーエンドインタラクション（End-to-End Interaction）を単位とし、単発の質問応答ではなく、タスク完了率を直接向上させます。

柔軟な報酬設計：OpenJudgeなどの評価フレームワークと連携可能で、多次元スコアをトレーニングシグナルに変換します。

エンタープライズレベルのスケーラビリティ：クラウド上の分散クラスターをサポートし、大規模トレーニングのニーズに応えます。

強化学習ファインチューニング（RFT Tuning）は、Agentがモデルパフォーマンスの天井を突破するのを支援します。ツール呼び出しが密集している場合、計画リンクが長い場合、マルチエージェント協業などの複雑なシナリオでは、モデルパラメータのレベルに深く踏み込むことでのみ顕著な効果が得られます。

「

典型シナリオ：Agentが十数個の内部APIを正確に呼び出し、複雑なビジネスルールに従ってレポートを生成し、他のAgentと協業してエンドツーエンドのフローを完了する必要がある場合。プロンプトでは改善の余地がなくなり、モデルも選定済みという状況で、ここでRFTの出番です。

」

デザイン理念を確認したところで、実際の効果を見てみましょう。以下では3つの実例を通じて、異なるシナリオにおけるAgentScope Tunerの能力を示します。

ケース1：Agent最適化への迅速な入門

本ケースでは、既存のMath AgentをTunerで最適化し、ユーザーの数学的問題をより深く理解して回答を与える方法を示します。既存のAgentワークフローでコードの変更をほぼ行わずに、Tunerの3つの最適化機能に迅速に対応できることがお分かりいただけるでしょう。

✅ 第1ステップ：プロンプトチューニング（Prompt Tuning）によるスコア向上の高速化

Tunerのプロンプトチューニング機能を使用すれば、より優れたプロンプトテンプレートを自動的に検索できます。例えば、数学問題の解決を目的としたシンプルなエージェント（Agent）の場合、そのエージェントを最適化するために初期のsystem_prompt（システムプロンプト）をパラメータとして渡します。その後、学習データと検証データを準備すれば、tune_prompt関数を呼び出すだけでワンクリックで最適化を開始できます：

python

init_prompt = "You are an agent. Please solve the math problem given to you."

optimized_prompt, metrics = tune_prompt(
    workflow=workflow,
    init_system_prompt=init_prompt,
    judge_func=judge_function,
    train_dataset=DatasetConfig(path="train.parquet"),
    eval_dataset=DatasetConfig(path="test.parquet"),
    config=PromptTuneConfig(
        lm_model_name="dashscope/qwen-plus",
        optimization_level="light",  # 軽量最適化
    ),
)

Qwen-Plus上で最適化されたプロンプト：

あなたは綿密な数学家庭教師です。小学から中学レベルの文章題をステップバイステップで解きます。

各問題について、まず物語を推論して主要な数量と関係性を特定します。
次に、整数演算のみを使用して答えを計算する明確で実行可能なPythonコードを記述します。
最後に、\boxed{answer}の形式で解答を表示し、答えが整数であり説明の論理と一致することを確認します。ボックス内の結果を確定する前に、必ず推論とコードを再確認してください。

最適化されたプロンプトは、役割の定義、解答手順（推論→コーディング）、出力仕様（整数演算、フォーマット要件、二重チェック）を明確にし、モデルにより構造化され信頼性の高い解答プロセスの生成を誘導します。✅ 第2ステップ：モデル選択（Model Selection）のコスト权衡

モデル選択の核心は、候補モデルのセットの中から自動評価を行い、現在のアージェント（Agent）とユーザーの目標に最も適合するモデルをエージェントの基盤として選定することです。

※3つのモデルすべてが、第1ステップでQwen-Plus上で特別に最適化されたプロンプトを使用しています

結果によると、選定されたQwen-turboは高精度を維持しつつリソース消費を削減し、Qwen-Maxと比較してトークン（token）数を平均約20.6%節約しています。長期的な運用において、今回のモデル選択は開発者のコストを大幅に削減できます。

✅ 第3ステップ：強化学習ファインチューニング（RFT）による深度微調整

より複雑で挑戦的な数学問題解決のシナリオでは、プロンプトチューニングやモデル選択のみでは、エージェントが複雑な多段階推論ロジックを習得するのは困難な場合があります。そのような場合、強化学習ファインチューニング（RFT：Reinforcement Fine-Tuning）は、「試行錯誤データ」から戦略を自動的に抽出する道筋を提供します。

強化学習ファインチューニング（RFT）を開始する前の準備は、プロンプトチューニングとモデル選択と同じで、以下の3つのステップを完了する必要があります：

エージェントの対話開始点と報酬計算に使用するタスクデータセットの準備；

完全な対話軌跡を生成するためのワークフロー（workflow）関数のカプセル化；

軌跡レベルでの最適化をモデルに指示する評価関数（judge_func）の定義。

設定後、tune()インターフェースを呼び出すだけでエージェントのRFTトレーニングをワンクリックで開始できます。

python

tune(
    workflow_func=run_react_agent,
    judge_func=judge_function,
    model=TunerModelConfig(model_path="Qwen/Qwen3-0.6B", max_model_len=16384),
    train_dataset=DatasetConfig(path="my_dataset", split="train"),
    algorithm=AlgorithmConfig(
        algorithm_type="multi_step_grpo",
        group_size=8,
        batch_size=32,
        learning_rate=1e-6,
    ),
)

Trinity-RFTはMulti-Step GRPOなどのアルゴリズムをサポートし、大規模なGPUクラスター上でエンドツーエンドのトレーニング（End-to-end training）を効率的に実行できます。結果として、RFT（Reinforcement Fine-Tuning：強化学習による微調整）を施した0.6Bの小型モデルは、精度が約10%向上し、クローズドソースの商用モデルに匹敵する性能を達成しました。

以上より、Math Agentの例において、AgentScope Tunerの3つの能力をそれぞれ適用し、以下の成果を達成しました。

ケーススタディ2： werewolf game（マルチエージェント協調ゲーム）

werewolf gameは古典的なマルチエージェントゲームのシナリオです：エージェントは不完全な情報環境下で異なる役割（狼、村人、予言者、魔女）を演じ、推論、偽装、投票を完了させる必要があり、戦略的推論、欺瞞の識別、チーム協働などの能力に対して極めて高い要求が課されます。

実験設定

私たちは2つの陣営に対してそれぞれ強化学習による微調整（Reinforcement Fine-Tuning）を行いました。

狼陣営：Qwen2.5-7B-Instructを学習可能モデル、Qwen3-30B-A3B-Instructを補助モデルとして使用し、完全なインタラクション軌跡（夜間の協議、昼間の発言、投票）を収集して訓練データとします。報酬関数は以下の通りです：狼の勝利 +1.0 / 村人の勝利 0.0 / 実行エラー -0.1。

善陣営：Qwen3-4B-Instructを学習可能モデルとして、Qwen3-30B-A3B-Instructの狼陣営と対抗させ、予言者、魔女、村人の3つの役割を同時に訓練します。

訓練後、狼陣営はランダムな戦略や頻繁な正体露出から、潜伏偽装や味方を犠牲にして信頼を得る高度な欺瞞戦略へと収束しました。善陣営の各役割は、正体を隠す（予言者）、薬を計画する（魔女）、協調分析する（村人）などの専門能力をそれぞれ習得しました。

結果は、4Bの小型モデルがRL（Reinforcement Learning：強化学習）訓練を経て30Bの強力なモデルを効果的に対抗できることを示しており、マルチエージェントゲームにおける強化学習による微調整の顕著な価値を検証しました。

ケーススタディ3： DeepFinance Agent（エンタープライズ級アプリケーション）

エンタープライズ級エージェントの導入においては、より複雑で多ステップかつ高信頼性が求められるタスクに直面します。AgentScope Tunerは、このような高度なAgentic AIのシナリオに対して、信頼性の高いワンストップの最適化体験を提供します。

DeepFinanceの金融研究エージェントを例に、上場企業の財務報告、株主構造、業界比較、株価計算などの金融ツールを自律的に呼び出し、クロスバリデーションを行い、金融レポートを出力するエージェントを訓練します。

最適化ソリューション：エンドツーエンド強化学習トレーニング

AgentScope Tunerは、DeepFinanceの訓練に必要な4つのモジュールに対してそれぞれ有効なサポートを提供します。

訓練データ：ユーザーの質問と正解例を読み込み、System Promptを動的に組み立てます。

ワークフロー：ReAct Agentの完全なインタラクションロジックをカプセル化し、複数回のツール呼び出し、中間サマリー、追加の証拠収集などの複雑なフローをサポートします。

利用可能なツール：19のMCP（Model Context Protocol）プロトコル準拠金融ツールに接続し、実際の研究環境をシミュレートします。

環境報酬：OpenJudgeに接続して5次元の直交スコアリングシステムを構築し、各レポートについて十分性、規範性、真実性、客観性、表現品質の観点から細粒度な評価を行います。

最適化効果

DeepResearch Bench（https://deepresearch-bench.github.io/）のFinanceサブセットにおいて、訓練前後のエージェントのパフォーマンスをテストしました。

より高水準なレポート品質：レポートスコアは18.4から大幅に47.9へ向上し、テーマ適合性、可読性、十分性、洞察の深さにおいて顕著な改善が見られました。

より客観的なデータ引用：ツール呼び出し率が向上し、エージェントが積極的に複数のソースからデータを収集して主張を裏付けるようになりました。データの真実性は8.0%向上しました。

訓練後のQwen3-30B-A3B ReAct Agentは、金融問題に対する回答パフォーマンスにおいて、パラメータ数がより多いClaude 3.7のクローズドソース商用モデルと同等の性能を達成しました。

詳細な技術情報および効果については、以下を参照してください：https://github.com/agentscope-ai/agentscope-samples/blob/main/tuner/deep_finance/README_zh.md

このケーススタディを通じて、AgentScope Tunerが複雑なエンタープライズ級アプリケーションにおける信頼性を十分に検証でき、予測可能かつ納品可能な成果を達成できることが示されました。

エージェントの前半戦が設計（プロンプトのオーケストレーション、ワークフローの構築）で競われるとしたら、後半戦は最適化と継続的な進化で競われます。

AgentScope Tunerはまさにこの後半戦を支えるインフラストラクチャです：すべてのユーザーインタラクションを成長の養分とし、すべての失敗ケースを改善の方向性へと変換します。

最先端の訓練方法を探求する研究者であれ、効率的な導入を追求するエンジニアであれ、安定したエージェントシステムを必要とする企業であれ——Tunerはアイデアの迅速な検証、低コストでのデプロイをサポートし、使用するほど強くなるAIパートナーを提供します。コミュニティへのご参加をお待ちしております。エージェントの無限の可能性を一緒に探求しましょう。

💬 コメントでプレゼント

エージェントの最適化プロセスで最も深かった失敗体験（ハマったポイント）は何ですか？AgentScope Tunerを使って解決したい具体的なシナリオはどれですか？コメント欄へのご投稿をお待ちしております。いいねトップ3の方には通義カスタムコーヒーカップをプレゼントします～（イベント締切：4月24日11:00）

おすすめ記事

Qwen3.6-35B-A3B オープンソース公開！

このAI（人工知能）を故郷の言葉でテストする勇気がありますか？

WeChatにジャンプして開く

原文を表示

原创通义实验室 2026-04-21 17:22 浙江

image

AgentScope Tuner 让 Agent 越用越聪明

精心写好的 Agent，一上线就翻车？

不懂行业黑话、乱调 API、业务规则一变策略就失效……手动改 Prompt、换模型、重新部署，维护成本越来越高。

静态的工程部署，根本扛不住真实业务的复杂多变。Agent 需要的不是“一次性交付”，而是一套系统化的持续优化机制。

专为 Agentic AI 打造的一站式自动优化引擎 AgentScope Tuner 正式升级！无需重构代码，不用手动试错，让开发者在「写 Agent」与「优化 Agent」之间无缝切换，让智能体越用越聪明。

即刻体验 AgentScope Tuner

GitHub 链接：https://github.com/agentscope-ai/agentscope/tree/main/src/agentscope/tuner

魔搭链接：https://www.modelscope.cn/organization/AgentScope

推荐案例：https://github.com/agentscope-ai/agentscope-samples/tree/main/tuner

官方文档：https://docs.agentscope.io/tune-agent/tune-your-first-agent

传统的 Agent 开发流程中，开发与优化往往是割裂的：写好 Agent → 导出数据 → 选优化框架 → 训练 → 再导出回归……中间的数据转换、环境搭建、格式适配繁琐，还极易出现“训练表现好，上线效果差”的脱节问题。

AgentScope Tuner 从设计之初就围绕 Agent 场景打磨，带来三大体验升级：

Agent 原生：开发-调优-部署-回归，一键闭环

AgentScope Tuner 深度融入 AgentScope 生态，打通了 Agent 研发、训练直到发布全流程。

已有的 Agent 工作流几乎不用改代码，即可直接开启优化。省去手动导出数据、对齐格式、切换环境的繁琐步骤，让“训练指标”与“线上效果”真正一致。写代码和调效果，终于变成同一个工作流的自然延续。

统一体验：多种优化策略，一套设计语言

无论是 Prompt 优化、模型选型，还是强化微调，AgentScope Tuner 都提供了统一的 API 和设计范式。

你无需为不同的优化方法（Agent RL、Prompt Tuning）学习不同的框架，理解各种艰难的概念与细节，只需用同一套简洁的接口，就能自由切换优化策略，在不同的优化层面获得提升。

更重要的是无缝接入：已有的 Agent 工作流几乎不需要修改代码，就可以接入 Tuner。这意味着你不用重构现有系统，就能立刻享受优化带来的收益。

全周期支持：零门槛优化起步，专家级调优迭代

Agent 的优化不是一锤子买卖，而是贯穿整个研发生命周期的持续过程。AgentScope Tuner 为不同阶段设计了阶梯式的优化路径，让你在每个阶段都有趁手的工具：

轻量优化（研发初期）：零门槛，快速验证优化方向。

模型推荐（Model Selection）：市面上的模型眼花缭乱，哪个最适合你的场景？Tuner 能协助你在候选模型中自动评测筛选，帮你找到效果最好的版本，实现降本增效。

提示词优化（Prompt Tuning）：只需少量数据，通过自动化搜索找到最能激发模型能力的 Prompt 模板，快速迭代验证。

深度调优（研发后期）：当 Prompt 和模型选择都到达瓶颈，进入参数级优化。

强化微调（RFT Tuning）：基于 Trinity-RFT，从真实交互轨迹中学习，对复杂 Agent 工作流进行模型层面的深度优化。通过云端训练服务或本地集群，可实现大规模分布式强化学习，适配企业级业务场景。

从项目的第一行 Prompt 到分布式集群的深度训练，AgentScope Tuner 可以随时在写 Agent 和优化 Agent 之间自由切换。

AgentScope Tuner 提供三大优化能力，覆盖轻量调优到深度训练。

能力一：提示词优化 —— 低成本、高收益

不改模型，只调 Prompt。通过自动化搜索算法，系统化地探索提示词空间，找到最能激发模型能力的 Prompt 模板。

支持多种搜索算法，包括 MIPROv2 等，在效率和效果之间提供灵活选择。

自动化迭代流程：生成候选 Prompt → 评估效果 → 筛选优化 → 再次迭代，全程无需过多干预。

支持面向 Agent 轨迹的 Prompt 优化，而非仅优化单轮问答。

对于大多数场景，这是性价比最高的起步方案。无需 GPU，无需训练数据积累，几轮迭代就能看到显著提升。尤其适合项目早期快速验证优化思路。

“

典型场景： Agent 的基础能力已经到位，但在特定任务上差点意思——比如工具调用的描述不够精准，规划步骤的表述不够清晰。这时候调一调 Prompt 就能见效。

”

能力二：模型选择 —— 降本与提效并举

最新、最大的模型未必最适合你。AgentScope Tuner 能在一组候选模型中自动评测，结合自定义业务指标、链路时延与 Token 用量，一键选出综合性价比最优的基座：

自定义目标导向：支持按准确率、响应速度、Token 消耗等多维权重灵活配置，让选型真正服务于你的业务。

一键跑评测：自动对接现有 Agent 工作流，无需手动构造测试用例，快速定位最适配当前任务的模型版本。

无损成本替换：当候选模型效果相近时，自动推荐轻量模型，在准确率几乎无损的前提下，大幅降低长期推理开销。

“

典型场景：你的 Agent 跑着最贵的 MAX 级模型，开启 thinking 模式消耗大量 token，但其实 90% 的请求用一个便宜的模型直接回答就能搞定。Model Selection 帮你自动选最具性价比的选择。

”

能力三：强化微调 —— 突破性能天花板

当 Prompt 优化和模型选择都到达瓶颈时，直接从真实交互轨迹中学习，通过强化学习算法微调模型参数。

专为 Agent 设计：基于 Trinity-RFT 框架，训练 Pipeline 原生适配多轮工具调用与复杂规划。

优化完整轨迹：以 Agent 的端到端交互为单位，而非单轮问答，直接提升任务完成率。

灵活奖励设计：可对接 OpenJudge 等评测框架，将多维评分转化为训练信号。

企业级可扩展：支持云上分布式集群，满足大规模训练需求。

强化微调能帮助 Agent 突破模型性能的天花板。对于工具调用密集、规划链路长、多智能体协作等复杂场景，只有深入到模型参数层面才能起到显著效果。

“

典型场景： Agent 需要精准调用十几个内部 API，按照复杂的业务规则生成报告，还要和其他 Agent 协作完成端到端的流程。Prompt 改不动了，模型也选好了，这时候就需要 RFT 出场。

”

看完设计理念，再看实际效果。下面通过三个真实案例，展示 AgentScope Tuner 在不同场景下的能力。

案例一：极速上手 Agent 优化

本案例将展示如何使用 Tuner 优化已有的 Math Agent，更好地理解用户的数学问题、给出回答。您将看到已有的 Agent 工作流几乎不用改动代码，就能快速对接 Tuner 的三种优化能力。

✅ 第一步：Prompt Tuning 快速提分

通过 Tuner 的 Prompt Tuning 功能，能够自动搜索更好的提示词模板。比如，一个用于解决数学问题的简单 Agent，为优化该 Agent，将初始system_prompt 作为参数传入；然后准备好训练和验证数据，就能直接通过tune_prompt函数一键启动优化：

init_prompt = "You are an agent. Please solve the math problem given to you."

optimized_prompt, metrics = tune_prompt(

workflow=workflow,

init_system_prompt=init_prompt,

judge_func=judge_function,

train_dataset=DatasetConfig(path="train.parquet"),

eval_dataset=DatasetConfig(path="test.parquet"),

config=PromptTuneConfig(

lm_model_name="dashscope/qwen-plus",

optimization_level="light", # 轻量级优化

)

在 Qwen-Plus 上优化后的 Prompt：

You are a meticulous math tutor who solves elementary-to-middle-school-level word problems step by step.

For each problem, first reason through the narrative to identify the key quantities and relationships.
Then, write clear, executable Python code that computes the answer using only integer arithmetic.
Finally, present your solution in the format \boxed{answer}, ensuring the answer is an integer and matches the logic of your explanation. Always double-check your reasoning and code before finalizing the boxed result.

优化后的 Prompt 明确了角色定位、解题步骤（先推理再编码）、输出规范（整数运算、格式要求、二次检查）,引导模型生成更结构化、更可靠的解题过程。✅ 第二步：Model Selection 权衡成本

模型选择的核心是在一组候选模型中，自动评测并选出最适配当前 Agent 与用户目标的模型作为 Agent 的基座。

*三个模型均使用了第一步在 Qwen-plus 上特别优化后的 Prompt

结果显示，选出的 Qwen-turbo 在保持高准确率的同时降低了资源消耗，相比 Qwen-Max 平均节省约 20.6% 的 token。在长期运行中，此次模型选择可以为开发者显著降低成本。

✅ 第三步：RFT 深度微调

在更复杂、具有挑战性的数学解题场景中，仅靠 Prompt Tuning 或 Model Selection，往往难以让 Agent 掌握复杂的多步推理逻辑。此时，强化微调（RFT）提供了一条从“试错数据”中自动提炼策略的路径。

启动强化微调（RFT）的前期准备与 Prompt Tuning 和 Model Selection 相同，需完成三步：

准备任务数据集，用于 Agent 交互起点和奖励计算；

封装工作流函数，生成完整交互轨迹；

定义评判函数，指导模型在轨迹级别优化。

配置后，调用 tune() 接口即可一键启动 Agent RFT 训练。

tune(

workflow_func=run_react_agent,

judge_func=judge_function,

model=TunerModelConfig(model_path="Qwen/Qwen3-0.6B", max_model_len=16384),

train_dataset=DatasetConfig(path="my_dataset", split="train"),

algorithm=AlgorithmConfig(

algorithm_type="multi_step_grpo",

group_size=8,

batch_size=32,

learning_rate=1e-6,

)

Trinity-RFT 支持 Multi-Step GRPO 等算法，能在大规模 GPU 集群上高效完成端到端训练。结果显示，经过 RFT 强化微调的 0.6B 小模型，准确率提升约 10% 比肩闭源商业模型。

综上，我们对 Math Agent 这个例子分别使用了 AgentScope Tuner 的三个能力，达成了如下效果：

案例二：狼人杀（多智能体协作博弈）

狼人杀是经典多智能体博弈场景：Agent 需在信息不完全的环境下扮演不同角色（狼人、村民、预言家、女巫），完成推理、伪装与投票，对策略推理、欺骗识别、团队协作等能力要求极高。

实验设置

我们分别对两个阵营进行强化微调：

狼人阵营：以 Qwen2.5-7B-Instruct 为可训练模型，Qwen3-30B-A3B-Instruct 为辅助模型，采集完整交互轨迹（夜间协商、白天发言、投票）作为训练数据，奖励函数为：狼人获胜 +1.0 / 村民获胜 0.0 / 执行错误 -0.1。

好人阵营：以 Qwen3-4B-Instruct 为可训练模型，对抗 Qwen3-30B-A3B-Instruct 狼人，同步训练预言家、女巫、村民三类角色。

训练后，狼人从随机策略、频繁自我暴露，收敛为潜伏伪装、牺牲队友换取信任的高级欺骗策略；好人各角色分别习得隐藏身份（预言家）、规划药水（女巫）、协作分析（村民）等专项能力。

结果表明，4B 小模型经 RL 训练后可有效对抗 30B 强模型，验证了强化微调在多智能体博弈中的显著价值。

案例三：DeepFinance Agent（企业级应用）

在企业级智能体落地中，将面临更加复杂、多步骤、强调高可靠性的任务。AgentScope Tuner 为这类高阶 Agentic AI 场景提供了可靠的一站式优化体验。

以 DeepFinance 金融研究 Agent 为例，我们训练一个能自主调用金融工具（如上市公司财报、股东结构、行业对比、股价计算等）、进行交叉验证、并输出金融报告的 Agent。

优化方案：端到端强化训练

AgentScope Tuner 为 DeepFinance 训练所需的四模块分别提供了有效支持：

训练数据：加载用户问题与参考答案，动态组装 System Prompt；

工作流：封装 ReAct Agent 的完整交互逻辑，支持多轮工具调用、中间小结、追加取证等复杂流程；

可用工具：连接 19 个 MCP 协议金融工具，模拟真实研究环境；

环境奖励：连接 OpenJudge 构建 5 维正交评分器，对每份报告从充分性、规范性、真实性、客观性、表达质量进行细粒度评估。

优化效果

我们在 DeepResearch Bench (https://deepresearch-bench.github.io/) - Finance 子集上测试了训练前后 Agent 的表现：

更高水平的报告质量：报告评分从 18.4 大幅提升至 47.9，在扣题、可读性、充分性、洞察深度上显著改进。

更加客观的数据引用：工具调用率提升，Agent 乐于主动收集多源数据支撑观点；数据真实性提升 8.0%。

经训练后的 Qwen3-30B-A3B ReAct Agent 在金融问题上的回答表现与参数量更大的 Claude 3.7 闭源商业模型持平。

更多技术细节及效果可参考：https://github.com/agentscope-ai/agentscope-samples/blob/main/tuner/deep_finance/README_zh.md

通过此案例，可以充分验证 AgentScope Tuner 在复杂企业级应用中的可靠性，达到可预期可交付的效果。

Agent 的上半场拼的是设计 —— Prompt 编排、工作流搭建。但下半场，拼的是优化与持续演进。

AgentScope Tuner 正是这场下半场的基础设施：让每一次用户交互成为成长的养分，让每一个失败案例转化为改进的方向。

无论你是想探索前沿训练方法的研究者、追求高效落地的工程师，还是需要稳定智能体系统的企业——Tuner 都能帮你快速验证想法、低成本上线，收获一个越用越强的 AI 伙伴。欢迎加入社区，一起探索 Agent 的无限可能。

💬 互动有礼

你在 Agent 优化过程中踩过最深的坑是什么？你最想用 AgentScope Tuner 解决哪个具体场景？欢迎在评论区留言，点赞前 3 名可以获得通义定制咖啡杯～（活动截止时间 4月24日11:00）

私のエージェントがまたツールを誤操作した！

キーポイント

影響分析

編集コメント

関連記事

私のエージェントがまたツールを誤操作した！

キーポイント

影響分析

編集コメント

関連記事