HiMAP-Travel: 長期間制約付き旅行のための階層型マルチエージェント計画
HiMAP-Travelは、長期制約付き旅行計画においてLLMエージェントのドリフト問題を解決するため、協調者・実行者の階層型マルチエージェント構造と並列処理を採用し、既存手法を大幅に上回る精度と高速化を実現した。
キーポイント
階層型マルチエージェントアーキテクチャ
戦略的なリソース配分を行うCoordinatorと、並列で日次計画を実行するDay Executorsを分離し、長期制約(予算・多様性)への対応力を高めた。
3つの核心メカニズムの導入
トランザクションモニターによる制約強制、バargainingプロトコルによる不可解なサブゴールの拒否と再計画、GRPOで統一トレーニングされた単一ポリシーによる役割条件付けを採用。
ベンチマークでの顕著な性能向上
TravelPlannerでQwen3-8Bを用い、シークエンシャル型ベースラインやATLAS、MTPを大幅に上回るFinal Pass Rate(FPR)を達成した。
マルチターンシナリオでの効率化
FlexTravelBenchにおけるマルチターンシナリオでも高いFPRを維持しつつ、並列化によりレイテンシーを2.5倍削減することに成功した。
影響分析・編集コメントを表示
影響分析
本論文は、LLMエージェントが複雑な制約条件下で長期計画を遂行する際の根本的な課題である「文脈の劣化と制約違反」に対して、アーキテクチャレベルで明確な解決策を示した。特に、単一モデルで役割を条件付けながら並列実行を行う設計は、計算リソースの効率的な活用と高精度な計画立案を両立させるため、実務レベルでのエージェント適用において重要な指針となる。
編集コメント
長期制約付きタスクにおけるLLMエージェントの信頼性向上は実用化の鍵であり、並列処理と階層型制御を組み合わせる本アプローチは、複雑な業務自動化への応用可能性が高い。
arXiv:2603.04750v1 アナウンスタイプ: 新規
アブストラクト: 逐次型LLMエージェントは、予算や多様性要件といった厳しい制約を伴う長期的な計画立案において課題があります。計画が進行し文脈が増大するにつれ、これらのエージェントは全体の制約から逸脱してしまいます。本論文ではHiMAP-Travelを提案します。これは計画立案を戦略的調整と並列的な日次実行に分割する階層型マルチエージェントフレームワークです。Coordinatorが日単位でリソースを配分し、Day Executorが並列的に独立して計画を実行します。これを実現するための主要なメカニズムは3つあります:並列エージェント間で予算と一意性制約を強制するトランザクショナルモニター、エージェントが実行不可能なサブゴールを拒否し再計画を発動させることを可能にするバーゲニングプロトコル、そして役割条件付けにより全てのエージェントを駆動するGRPOで訓練された単一ポリシーです。TravelPlannerにおいて、Qwen3-8Bを用いたHiMAP-Travelは、検証データで52.78%、テストデータで52.65%の最終通過率(FPR)を達成しました。同一モデル、同一訓練、同一ツールを用いた比較実験では、逐次型のDeepTravelベースラインを+8.67パーセンテージポイント上回りました。また、ATLASを+17.65パーセンテージポイント、MTPを+10.0パーセンテージポイント上回りました。FlexTravelBenchのマルチターンシナリオでは、2ターンで44.34%、3ターンで37.42%のFPRを達成し、並列化によりレイテンシを2.5分の1に削減しました。
原文を表示
arXiv:2603.04750v1 Announce Type: new
Abstract: Sequential LLM agents fail on long-horizon planning with hard constraints like budgets and diversity requirements. As planning progresses and context grows, these agents drift from global constraints. We propose HiMAP-Travel, a hierarchical multi-agent framework that splits planning into strategic coordination and parallel day-level execution. A Coordinator allocates resources across days, while Day Executors plan independently in parallel. Three key mechanisms enable this: a transactional monitor enforcing budget and uniqueness constraints across parallel agents, a bargaining protocol allowing agents to reject infeasible sub-goals and trigger re-planning, and a single policy trained with GRPO that powers all agents through role conditioning. On TravelPlanner, HiMAP-Travel with Qwen3-8B achieves 52.78% validation and 52.65% test Final Pass Rate (FPR). In a controlled comparison with identical model, training, and tools, it outperforms the sequential DeepTravel baseline by +8.67~pp. It also surpasses ATLAS by +17.65~pp and MTP by +10.0~pp. On FlexTravelBench multi-turn scenarios, it achieves 44.34% (2-turn) and 37.42% (3-turn) FPR while reducing latency 2.5x through parallelization.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み