ServiceNow Researchが「EnterpriseOps-Gym」を公開:現実的な企業環境におけるエージェント型計画評価の高忠実度ベンチマーク
ServiceNow Researchと学術機関が、エンタープライズ環境でのエージェント計画能力を評価するための高忠実度ベンチマーク「EnterpriseOps-Gym」を発表し、最先端モデルでも40%未満の成功率にとどまる現状を明らかにした。
キーポイント
エンタープライズ向け高忠実度ベンチマークの提供
Dockerコンテナ化された8つの業務ドメインと1,150の専門タスクを備え、複雑なデータベース依存関係や長期計画を評価可能にした。
最先端モデルの性能限界
ClaudeやGPT、Geminiなど14モデルを評価した結果、信頼性40%未満に留まり、特にITSMやハイブリッド領域でのパフォーマンス低下が顕著だった。
計画能力のボトルネック化
ツール実行よりも戦略的計画が性能を左右する主要因であり、外部から最適計画を提供する「Oracle実験」でモデル性能が大幅に向上した。
Thinking Budget Limitations(思考予算の限界)
テスト時の計算資源を増やすことで一部のドメインでは性能が向上するものの、他のドメインでは頭打ちとなり、「思考」トークンの追加だけではポリシー理解や領域知識の根本的なギャップを補いきれないことが示唆されている。
影響分析・編集コメントを表示
影響分析
本ベンチマークは、エンタープライズ領域におけるAIエージェントの実装において「計画能力」が実行能力より重要であることを実証し、業界の評価基準を根本から見直すきっかけとなる。これにより、単なるモデル規模の競争から、戦略的推論と状態管理を最適化した実用的なエージェント開発へ焦点がシフトすると予想される。
編集コメント
エージェント開発の現場では、モデルサイズよりも「計画立案」と「状態管理」の最適化が実装成功のカギとなる。本ベンチマークは、過大評価されがちなLLMの実務適用可能性を冷静に測る重要な指標となるだろう。
大規模言語モデル(LLM)は、対話型から複雑な専門ワークフローを実行可能な自律型エージェントへと移行しています。しかし、その企業環境への導入は、専門的な状況特有の課題——長期にわたる計画策定、永続的な状態変化、厳格なアクセスプロトコル——を捉えたベンチマークの欠如によって制限されています。これに対処するため、ServiceNow Research、Mila、およびモントリオール大学の研究者らは、現実的な企業シナリオにおけるエージェント型計画を評価するために設計された高忠実度サンドボックス「EnterpriseOps-Gym」を発表しました。
imagehttps://arxiv.org/pdf/2603.13594
評価環境
EnterpriseOps-Gym は、8 つのミッションクリティカルな企業ドメインをシミュレートするコンテナ化された Docker 環境(Docker: コンテナ化プラットフォーム)を特徴としています。
運用ドメイン:カスタマーサービス管理(CSM)、人事(HR)、IT サービス管理(ITSM)。
コラボレーションドメイン:メール、カレンダー、Teams、Drive。
ハイブリッドドメイン:複数のシステムにわたる調整された実行を必要とするクロスドメインタスク。
ベンチマークは、164 のリレーショナルデータベーステーブルと 512 の機能的ツールで構成されています。平均外部キー次数が 1.7 と高い関係密度を有するこの環境では、エージェントは参照整合性を維持するために複雑なテーブル間依存関係をナビゲートする必要があります。ベンチマークには、実行軌跡が平均 9 ステップ、最大 34 ステップに達する 1,150 の専門家によるキュレーション済みタスクが含まれています。
パフォーマンス結果:能力のギャップ
研究チームは、パス@1(pass@1)メトリクスを用いて 14 の最先端モデルを評価しました。これは、すべてのアウトカムベースの SQL 検証器が合格した場合のみタスクが成功とみなされる指標です。
モデル平均成功率 (%) タスクあたりのコスト (USD)
Claude Opus 4.537.4%$0.36
Gemini-3-Flash31.9%$0.03
GPT-5.2 (High)31.8%本文に明示的に記載なし
Claude Sonnet 4.530.9%$0.26
GPT-529.8%$0.16
DeepSeek-V3.2 (High)24.5%$0.014
GPT-OSS-120B (High)23.7%$0.015
これらの結果は、最先端モデルであっても、こうした構造化された環境では 40% の信頼性に達していないことを示しています。パフォーマンスはドメインに強く依存しており、モデルはコラボレーションツール(Email, Teams)において最も高い性能を発揮しましたが、ITSM(28.5%)やハイブリッド(30.7%)ワークフローのようなポリシー重視のドメインでは大幅に低下しました。
計画対実行
本研究の重要な発見の一つは、戦略的計画がツール呼び出しよりも主要なパフォーマンスボトルネックとなっていることです。
研究チームは、エージェントに人間が作成した計画を提供する「Oracle」実験を実施しました。この介入により、すべてのモデルにおいてパフォーマンスが 14〜35 ポイント向上しました。驚くべきことに、戦略的推論を外部化することで、Qwen3-4B などの小規模モデルも、はるかに大規模なモデルと互角に戦えるようになりました。一方、検索エラーをシミュレートするために「妨害ツール」を追加しても、パフォーマンスへの影響はほとんどなく、これはツール発見がボトルネックではないことをさらに示唆しています。
失敗モードと安全性の懸念
定性的分析により、4 つの反復する失敗パターンが明らかになりました:
必須前提条件の検索漏れ:必要な前提条件を照会せずにオブジェクトを作成し、「孤立」レコードが生じる現象。
状態変化に伴う連鎖的伝播の失敗:状態変更後にシステムポリシーで要求されるフォローアップアクションを発動できないこと。
ID 解決の誤り:検証されていない、または推測された識別子をツール呼び出しに渡してしまうこと。
完了の早期幻覚:必要なすべてのステップが実行される前にタスク完了を宣言すること。
さらに、エージェントは安全な拒絶において苦戦しています。本ベンチマークには 30 の実行不可能なタスク(アクセスルール違反や非アクティブユーザーを関与させるリクエストなど)が含まれています。最もパフォーマンスが高かったモデルである GPT-5.2 (Low) でさえ、これらのタスクを正しく拒絶したのはわずか 53.9% の場合でした。専門的な環境では、権限のないまたは不可能なタスクを拒絶できないことは、データベース状態の破損やセキュリティリスクにつながります。
オーケストレーションとマルチエージェントシステム (MAS)
研究チームは、より複雑なエージェントアーキテクチャが性能格差を埋められるかも評価しました。プランナーとエグゼキューターを分ける構成(1 つのモデルで計画し、別のモデルで実行する)ではわずかな改善が見られましたが、より複雑な分解アーキテクチャはむしろ性能が低下する傾向がありました。CSM や HR といったドメインではタスクに強い逐次的状態依存性があり、これを別々のエージェント向けのサブタスクに分割すると必要な文脈が断絶し、単純な ReAct ループよりも成功率が低くなる結果となりました。
経済的考察:パレートフロンティア
導入を考慮する際、本ベンチマークは明確なコストと性能のトレードオフを示しています。
Gemini-3-Flash はクローズドソースモデルの中で最も実用的なトレードオフを提供し、GPT-5 や Claude Sonnet 4.5 と比較してコストが 90% 低下する中で 31.9% の性能を発揮します。
DeepSeek-V3.2 (High) と GPT-OSS-120B (High) は主要なオープンソースオプションであり、タスクあたり約 0.015 ドルで約 24% の性能を提供します。
Claude Opus 4.5 は絶対的な信頼性(37.4%)のベンチマークとして残っていますが、そのコストはタスクあたり最高額の 0.36 ドルです。
主な知見
ベンチマークのスケーラビリティと複雑さ:EnterpriseOps-Gym は、8 つのエンタープライズドメインにわたる 164 のリレーショナルデータベーステーブルと 512 の機能ツールを備えた高忠実度評価環境を提供します。
顕著な性能格差:現在の最先端モデルは、自律的な導入にはまだ信頼性が不足しており、最高性能を示す Claude Opus 4.5 でさえ成功率はわずか 37.4% です。
計画が主要なボトルネックである:戦略的推論が実行の制約となっており、人間が作成した計画をエージェントに提供することでパフォーマンスが 14 ポイントから 35 ポイント向上することが示されています。
安全な拒否の不十分さ:モデルは実行不可能またはポリシー違反の要求を特定して拒否することに苦戦しており、最も性能の高いモデルでもクリーンに拒絶するのは全体の 53.9% に過ぎません。
思考予算の限界:テスト時の計算リソースを増やすことで一部のドメインで向上が見られる一方で、他のドメインでは頭打ちとなり、より多くの「思考」トークンを追加してもポリシー理解やドメイン知識における根本的なギャップを完全に克服できないことが示唆されています。
論文、コード、技術詳細をご覧ください。また、Twitter でフォローすることもお気軽にどうぞ。120,000 人以上の ML サブレッドに参加し、ニュースレターも購読することを忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でもご参加いただけます。
本記事「ServiceNow Research Introduces EnterpriseOps-Gym: A High-Fidelity Benchmark Designed to Evaluate Agentic Planning in Realistic Enterprise Settings」は、MarkTechPost で最初に公開されました。
原文を表示
Large language models (LLMs) are transitioning from conversational to autonomous agents capable of executing complex professional workflows. However, their deployment in enterprise environments remains limited by the lack of benchmarks that capture the specific challenges of professional settings: long-horizon planning, persistent state changes, and strict access protocols. To address this, researchers from ServiceNow Research, Mila and Universite de Montreal have introduced EnterpriseOps-Gym, a high-fidelity sandbox designed to evaluate agentic planning in realistic enterprise scenarios.
imagehttps://arxiv.org/pdf/2603.13594
The Evaluation Environment
EnterpriseOps-Gym features a containerized Docker environment that simulates eight mission-critical enterprise domains:
Operational Domains: Customer Service Management (CSM), Human Resources (HR), and IT Service Management (ITSM).
Collaboration Domains: Email, Calendar, Teams, and Drive.
Hybrid Domain: Cross-domain tasks requiring coordinated execution across multiple systems.
The benchmark comprises 164 relational database tables and 512 functional tools. With a mean foreign key degree of 1.7, the environment presents high relational density, forcing agents to navigate complex inter-table dependencies to maintain referential integrity. The benchmark includes 1,150 expert-curated tasks, with execution trajectories averaging 9 steps and reaching up to 34 steps.
Performance Results: A Capability Gap
The research team evaluated 14 frontier models using a pass@1 metric, where a task is successful only if all outcome-based SQL verifiers pass.
ModelAverage Success Rate (%)Cost per Task (USD)
Claude Opus 4.537.4%$0.36
Gemini-3-Flash31.9%$0.03
GPT-5.2 (High)31.8%Not explicitly listed in text
Claude Sonnet 4.530.9%$0.26
GPT-529.8%$0.16
DeepSeek-V3.2 (High)24.5%$0.014
GPT-OSS-120B (High)23.7%$0.015
The results indicate that even state-of-the-art models fail to reach 40% reliability in these structured environments. Performance is strongly domain-dependent; models performed best on collaboration tools (Email, Teams) but dropped significantly in policy-heavy domains like ITSM (28.5%) and Hybrid (30.7%) workflows.
Planning vs. Execution
A critical finding of this research is that strategic planning, rather than tool invocation, is the primary performance bottleneck.
The research team conducted ‘Oracle’ experiments where agents were provided with human-authored plans. This intervention improved performance by 14-35 percentage points across all models. Strikingly, smaller models like Qwen3-4B became competitive with much larger models when strategic reasoning was externalized. Conversely, adding ‘distractor tools’ to simulate retrieval errors had a negligible impact on performance, further suggesting that tool discovery is not the binding constraint.
Failure Modes and Safety Concerns
The qualitative analysis revealed four recurring failure patterns:
Missing Prerequisite Lookup: Creating objects without querying necessary prerequisites, leading to “orphaned” records.
Cascading State Propagation: Failing to trigger follow-up actions required by system policies after a state change.
Incorrect ID Resolution: Passing unverified or guessed identifiers to tool calls.
Premature Completion Hallucination: Declaring a task finished before all required steps are executed.
Furthermore, agents struggle with safe refusal. The benchmark includes 30 infeasible tasks (e.g., requests violating access rules or involving inactive users). The best-performing model, GPT-5.2 (Low), correctly refused these tasks only 53.9% of the time. In professional settings, failing to refuse an unauthorized or impossible task can lead to corrupted database states and security risks.
Orchestration and Multi-Agent Systems (MAS)
The research team also evaluated whether more complex agent architectures could close the performance gap. While a Planner+Executor setup (where one model plans and another executes) yielded modest gains, more complex decomposition architectures often regressed performance. In domains like CSM and HR, tasks have strong sequential state dependencies; breaking these into sub-tasks for separate agents often disrupted the necessary context, leading to lower success rates than simple ReAct loops.
Economic Considerations: The Pareto Frontier
For deployment, the benchmark establishes a clear cost-performance tradeoff:
Gemini-3-Flash represents the strongest practical tradeoff for closed-source models, offering 31.9% performance at a 90% lower cost than GPT-5 or Claude Sonnet 4.5.
DeepSeek-V3.2 (High) and GPT-OSS-120B (High) are the dominant open-source options, offering approximately 24% performance at roughly $0.015 per task.
Claude Opus 4.5 remains the benchmark for absolute reliability (37.4%) but at the highest cost of $0.36 per task.
Key Takeaways
Benchmark Scale and Complexity: EnterpriseOps-Gym provides a high-fidelity evaluation environment featuring 164 relational database tables and 512 functional tools across eight enterprise domains.
Significant Performance Gap: Current frontier models are not yet reliable for autonomous deployment; the top-performing model, Claude Opus 4.5, achieves only a 37.4% success rate.
Planning as the Primary Bottleneck: Strategic reasoning is the binding constraint rather than tool execution, as providing agents with human-authored plans improves performance by 14 to 35 percentage points.
Inadequate Safe Refusal: Models struggle to identify and refuse infeasible or policy-violating requests, with even the best-performing model cleanly abstaining only 53.9% of the time.
Thinking Budget Limitations: While increasing test-time compute yields gains in some domains, performance plateaus in others, suggesting that more ‘thinking’ tokens cannot fully overcome fundamental gaps in policy understanding or domain knowledge.
Check out Paper, Codes and Technical details. Also, feel free to follow us on Twitter and don’t forget to join our 120k+ ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
The post ServiceNow Research Introduces EnterpriseOps-Gym: A High-Fidelity Benchmark Designed to Evaluate Agentic Planning in Realistic Enterprise Settings appeared first on MarkTechPost.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み