PORTool:多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法
Apple Machine Learning は、ツール使用エージェントの学習における中間ステップの報酬割り当て問題を解決する「PORTool」という重要性認識型ポリシー最適化アルゴリズムを発表した。
キーポイント
信用配分の曖昧さの解消
従来の成果ベースの報酬では、どの中間ステップが成功に寄与したか特定できない「信用配分問題」を、PORTool がステップレベルでの報酬割り当てにより解決する。
重要性認識型最適化アルゴリズム
自然言語推論と外部ツール呼び出しを交互に行うエージェントに対し、成果レベルの監督から学習しつつ、各ステップの重要度を考慮した報酬を付与する手法を提案している。
ツールの統合的推論能力強化
複雑なタスク解決において、ツール使用のcompetence(能力)を効果的に強化し、エージェントの信頼性と成功率を向上させることを目指す。
影響分析・編集コメントを表示
影響分析
この研究は、複雑なタスクを処理する自律エージェントの開発において、学習効率と最終成果の信頼性を劇的に向上させる可能性を秘めています。特に、大規模モデルが外部ツールをどのように活用すべきかを教える際の「なぜその行動をとったのか」という説明責任と最適化プロセスに新たな基準をもたらすでしょう。
編集コメント
ツール使用エージェントの学習における根本的な課題である「信用配分」への直接的なアプローチであり、実用化に向けた重要な一歩となる技術です。
マルチツール統合推論は、LLM を活用したツール使用エージェントが、自然言語による推論と外部ツールへの呼び出しを交互に行うことで複雑なタスクを解決することを可能にします。しかし、結果のみに基づく報酬を用いてこのようなエージェントを訓練すると、信用配分の曖昧さに悩まされ、どの中間ステップ(またはツール使用の意思決定)が成功や失敗につながったのかが見えにくくなります。本論文では、PORTool を提案します。これは、結果レベルの監督からエージェントのツール使用能力を強化しつつ、ステップレベルで報酬を割り当てる重要性認識型の方策最適化アルゴリズムです。具体的には、PORTool は報酬付きの…
原文を表示
Multi-tool-integrated reasoning enables LLM-empowered tool-use agents to solve complex tasks by interleaving natural-language reasoning with calls to external tools. However, training such agents using outcome-only rewards suffers from credit-assignment ambiguity, obscuring which intermediate steps (or tool-use decisions) lead to success or failure. In this paper, we propose PORTool, an importance-aware policy-optimization algorithm that reinforces agents’ tool-use competence from outcome-level supervision while assigning reward at the step level. Specifically, PORTool generates a rewarded…
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み