AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年5月28日 02:20·約7分で読める

エンタープライズ IT アジェンシータスクの初ベンチマーク「ITBench-AA」で最先端モデルも正答率50%未満

#Agentic AI#Enterprise IT#Benchmarking#Reasoning
TL;DR

Artificial Analysis と IBM が共同開発した「ITBench-AA」ベンチマークにより、最先端の AI モデルでもエンタープライズ IT エージェントタスクで 50% を下回るスコアしか出せないという現実が示された。

AI深層分析2026年6月13日 08:08
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

エンタープライズ IT タスクにおける性能の限界

ITBench-AA という新しいベンチマークテストの結果、最先端モデルであっても複雑なエンタープライズ IT アジェンシータスクでは 50% を下回るスコアしか達成できないことが明らかになった。

2

既存評価指標の限界と新たな課題

従来の単純な QA ベンチマークとは異なり、実際の業務フローや複雑なシステム連携を必要とするタスクでは、現在の AI の能力が十分に発揮できていないことが示された。

3

実用化への道筋と今後の展望

この結果は AI が現場で即戦力となるためには、単なる知識量だけでなく、推論の安定性やエラー処理能力など、より高度なアジェンシー機能の開発が急務であることを示唆している。

影響分析・編集コメントを表示

影響分析

このニュースは、企業における AI 導入の期待値と現実のギャップを浮き彫りにし、開発者や経営層に対して「単なるチャットボットの延長」ではなく「自律的な業務遂行能力」への投資が必要であることを強く示唆しています。今後の AI エージェントの研究開発が、より実社会の複雑な制約条件に耐えうる方向へシフトする重要な転換点となるでしょう。

編集コメント

「最先端」と呼ばれるモデルでも実務では半数以下の成功率しか出せないという衝撃的な結果は、AI の成熟度を測る新たな基準として非常に重要です。企業は AI 導入において過剰な期待を持たず、このベンチマークを参考に現実的なロードマップを描くべきでしょう。

記事一覧に戻る

  • 主な発見:
  • ITBench-AA の SRE(サイト信頼性エンジニアリング)概要:
  • ITBench-AA は、IBM とのパートナーシップに基づき、同社の ITBench ベンチマークを元に構築されたことを強調。

Artificial Analysis と IBM Software Innovation Lab は、エージェント型エンタープライズ IT タスクにおけるモデル評価のための新シリーズベンチマーク「ITBench-AA」を発表しました。このシリーズの第一弾はサイト信頼性エンジニアリング(SRE)タスクに焦点を当てており、最先端モデルのスコアは 50% を下回っています。

ITBench-AA の SRE タスクでは、Kubernetes インシデント対応におけるモデル性能が評価されます。ここでは、モデルやエージェントが生きているシステムを診断するためにログを読み込み、依存関係をトレースし、複雑なインフラストラクチャ全体で根本原因となるエンティティを特定する必要があります。この基盤となる ITBench データセットは、エンタープライズ IT 運用における深い専門知識を活用して IBM が開発しました。

Artificial Analysis は過去 6 ヶ月間にわたり IBM と緊密に協力し、最先端 AI の評価に向けたデータセットの実装を開発してきました。まずはサイト信頼性エンジニアリング(SRE)から始まり、将来的には財務運用(FinOps)やチーフインフォメーションセキュリティオフィサー(CISO)タスクへと拡大していく予定です。

主な発見:

  • Claude Opus 4.7 (Adaptive Reasoning, Max Effort) が 47% で首位に立ち、次いで GPT-5.5 (xhigh) が 46%、Qwen3.7 Max が 42% です。
  • すべての最先端モデルが 50% を下回っており、ITBench-AA の SRE タスクは当社のベンチマークシリーズの中で最も飽和していないエージェント型ベンチマークの一つとなっています。参考までに、最先端モデルは Terminal-Bench でははるかに高いスコアを記録しています。
  • トーン数はほぼ 3 倍変動し、より長い軌道が必ずしも高い精度につながるわけではありません。GPT-5.5 (xhigh) はタスクあたり平均 31 トーンで 46% の精度を達成していますが、Gemini 3.1 Pro Preview は平均 83 トーンで 30% です。過剰に調査を試みるモデルは、誤ってアップストリームの故障注入メカニズムや併発する症状を陽性反応として検出する傾向があります。
  • GLM-5.1 (Reasoning) がオープンウェイトモデルの中で 40% の精度で首位に立ち、Gemini 3.5 Flash (high) と実質的に同率です。DeepSeek V4 Pro (Reasoning, Max Effort) は 38% で続き、Gemma 4 31B (Reasoning) が 37% で Gemini 3.1 Pro Preview の 30% を上回っています。

ITBench-AA SRE 概要:

  • 合計 59 の SRE タスク: 40 の公開タスクと、新たに作成された 19 の保持済みタスク
  • 各タスクには、アラート、イベント、トレース、メトリクス、ログ、およびアプリケーショントポロジーを含む Kubernetes インシデントのスナップショットが提供されます。モデルは、インシデントの原因となる独立した最小限の Kubernetes エンティティを特定する必要があります。
  • 故障は、リソースクォータの枯渇、ロールアウト失敗、コネクションプール枯渇、ネットワーク分断など、典型的な SRE の障害モード(インフラストラクチャ、サービス、アプリケーション、およびカオス注入によるインシデント)に及びます。

手法の詳細:

  • エージェント型ハネス: 各タスクは、関連するログとスナップショットを含むサンドボックス化されたファイルシステムへのシェルアクセスを備えた、オープンソースの Stirrup リファレンスハネスで実行されるモデルによって解決されます。1 タスクあたり最大 100 トーン、各タスク 3 回反復します。
  • モデルとエージェントは、インシデントの原因であると考える根本原因エンティティ(Kubernetes Deployments, Services, Pods など)のリストを提出します。各提出内容は、IBM が提供する根本原因の正解セットと比較されます。
  • スコアリングは、完全再現率における平均精度を使用します:モデルが根本原因のいずれかを欠落させた場合、その反復に対するスコアは 0.0 となります。すべての根本原因を特定した場合、提出されたエンティティのうち実際の根本原因である割合(真陽性 / (真陽性 + 偽陽性))に等しい精度がスコアとして付与されます。主要なスコアは、59 のタスク × 3 回の反復の平均値です。
  • ハーネス(Stirrup)は評価対象となるすべてのモデルで一定に保たれており、モデル間の公平な比較を可能にしています。

ハイライト

  • タスクでは、エージェントが Kubernetes のインシデントスナップショットをシェルスクリプトコマンドで調査し、責任ある根本原因エンティティを特定する構造化された JSON 診断書を提出する必要があります。
  • ある公開された SRE(Site Reliability Engineering)タスクでは、エージェントはフロントエンド経路におけるユーザーFacing の障害を確認します。エージェントはシェルスクリプトコマンドを使用してオフラインスナップショットを検査し、アラートレビューからインシデントの時間窓を特定し、その後トレースやログによって障害がフロントエンドトラフィックに起因することを絞り込みます。トポロジー分析により影響を受けるサービスが特定され、Kubernetes マニフェストからはフロントエンドをブロックするネットワークポリシーが発見されます。この成功した診断では、責任ある根本原因エンティティとして「otel-demo/NetworkPolicy/frontend-block-all-ports」が特定されました。
  • より多くのターンが必ずしもより良い回答を意味するわけではありません。真の根本原因を超えて追加の寄与エンティティを提出したモデルはペナルティを受けます:正しい根本原因を特定しても、上流メカニズム(例:chaos-mesh コントローラー)や併発症状を追加することは、リコールゲート付き精度の下で偽陽性としてカウントされます。これが、長い軌道を持つ一部のモデルがより簡潔なモデルよりも性能が劣る理由です:Gemini 3.1 Pro Preview は平均 83 ターンでスコア 30% ですが、Gemma 4 31B (Reasoning) は平均 58 ターンでスコア 37% です。
  • オープンウェイトモデルは、ITBench-AA SRE のコストフロンティアに位置しています。Gemma 4 31B (Reasoning) はタスクあたり 0.14 ドルでスコア 37% を達成し、スコアとコストの両面で Gemini 3.1 Pro Preview(タスクあたり 2.23 ドル、30%)を上回ります。GLM-5.1 (Reasoning) はタスクあたり 1.23 ドルでスコア 40% を達成し、Gemini 3.5 Flash (high) のスコア(1.70 ドル)と同等ながら、より低いコストで達成しています。Claude Opus 4.7 (Adaptive Reasoning, Max Effort) はリーダーボードをリードする 47% ですが、タスクあたり 5.38 ドルと最も高価です。

ITBench-AA は IBM とのパートナーシップに基づき、ITBench ベンチマークを元に構築されています。

  • 詳細については:arXiv の ITBench ペーパーをご覧ください:https://arxiv.org/abs/2502.05352
  • GitHub: https://github.com/itbench-hub/ITBench
  • ITBench-AA リーダーボード:https://artificialanalysis.ai/evaluations/itbench-aa
  • ITBench-AA HuggingFace リポジトリ:https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre
原文を表示

Back to Articles

  • Key findings:
  • ITBench-AA SRE overview:
  • Highlights ITBench-AA is built in partnership with @IBM based on their ITBench benchmark.

Artificial Analysis and IBM Software Innovation Lab are launching ITBench-AA, the first in a new series of benchmarks evaluating models on agentic enterprise IT tasks, starting with Site Reliability Engineering tasks where frontier models score below 50%

ITBench-AA’s SRE tasks benchmark model performance on Kubernetes incident response, where models and agents must diagnose live systems by reading logs, tracing dependencies, and identifying root-cause entities across complex infrastructure. The underlying ITBench dataset has been developed by IBM, leveraging deep expertise in enterprise IT operations.

Artificial Analysis has worked closely with IBM over the last 6 months to develop an implementation of the dataset for frontier AI evaluation, beginning with Site Reliability Engineering (SRE) and expanding to Financial Operations (FinOps) and Chief Information Security Officer (CISO) tasks over time.

Key findings:

  • Claude Opus 4.7 (Adaptive Reasoning, Max Effort) leads at 47%, followed by GPT-5.5 (xhigh) at 46% and Qwen3.7 Max at 42%.
  • All frontier models score below 50%, making ITBench-AA SRE one of the least saturated agentic benchmarks in our suite. For context, frontier models score considerably higher on Terminal-Bench.
  • Turn counts vary nearly 3x and longer trajectories do not translate to higher accuracy. GPT-5.5 (xhigh) averages 31 turns per task at 46%, while Gemini 3.1 Pro Preview averages 83 turns at 30%. Models that over-investigate tend to surface upstream fault-injection mechanisms or co-occurring symptoms as false positives.
  • GLM-5.1 (Reasoning) leads open weights models at 40%, effectively tied with Gemini 3.5 Flash (high). DeepSeek V4 Pro (Reasoning, Max Effort) follows at 38%, with Gemma 4 31B (Reasoning) at 37%, ahead of Gemini 3.1 Pro Preview at 30%.

ITBench-AA SRE overview:

  • 59 SRE tasks in total: 40 public tasks and 19 brand new, held-out tasks
  • Each task provides a Kubernetes incident snapshot containing alerts, events, traces, metrics, logs, and application topology. The model must identify the minimal set of independent root-cause Kubernetes entities responsible for the incident.
  • Faults span typical SRE failure modes including infrastructure, service, application, and chaos-injected incidents, such as resource quota exhaustion, rollout failures, connection pool exhaustion, and network partitions.

Methodology details:

  • Agentic harness: each task is solved by the model running in our open-source Stirrup reference harness, with shell access to a sandboxed file system containing the relevant logs and snapshots. 100-turn cap per task, 3 repeats per task.
  • Models and agents submit a list of root-cause entities (Kubernetes Deployments, Services, Pods, etc.) they believe caused the incident. Each submission is compared against a ground-truth set of root causes provided by IBM.
  • Scoring uses average precision at full recall: if a model misses any of the ground-truth root causes, it scores 0.0 for that repeat. If it identifies all of them, it is awarded a score equal to its precision - the share of its submitted entities that are actual root causes, i.e. true positives / (true positives + false positives). The headline score is the average across 59 tasks × 3 repeats.
  • The harness (Stirrup) is held constant across all evaluated models, allowing an apples-to-apples comparison between models.

Highlights

  • Tasks require agents to investigate Kubernetes incident snapshots through shell commands and submit a structured JSON diagnosis identifying the responsible root-cause entities.

In one public SRE task, the agent sees user-facing failures in the frontend path. It uses shell commands to inspect the offline snapshot: reviewing alerts shows the incident window, then traces/logs narrow the failure to frontend traffic. Topology pins down the affected services, and Kubernetes manifests reveal a network policy blocking the frontend. The successful diagnosis identifies the responsible root-cause entity: otel-demo/NetworkPolicy/frontend-block-all-ports.

  • More turns do not mean better answers. Models that submit additional contributing entities beyond the true root cause get penalized: identifying the correct root cause but adding upstream mechanisms (e.g., a chaos-mesh controller) or co-occurring symptoms counts as a false positive under recall-gated precision. This is why some models with long trajectories underperform terser ones: Gemini 3.1 Pro Preview averages 83 turns and scores 30%, while Gemma 4 31B (Reasoning) averages 58 turns and scores 37%.
  • Open weights models sit on the cost frontier of ITBench-AA SRE. Gemma 4 31B (Reasoning) scores 37% at $0.14 per task, outperforming Gemini 3.1 Pro Preview ($2.23 per task, 30%) on both score and cost. GLM-5.1 (Reasoning) scores 40% at $1.23 per task, matching Gemini 3.5 Flash (high) ($1.70) on score at lower cost. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) leads the leaderboard at 47% but is the most expensive at $5.38 per task.

ITBench-AA is built in partnership with @IBM based on their ITBench benchmark.

  • For more information see: ITBench paper on arXiv: https://arxiv.org/abs/2502.05352
  • GitHub: https://github.com/itbench-hub/ITBench
  • ITBench-AA leaderboard: https://artificialanalysis.ai/evaluations/itbench-aa
  • ITBench-AA HuggingFace repo: https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre
この記事をシェア

関連記事

NVIDIA Developer Blog★42026年6月13日 06:12

NVIDIA、初のエージェント型 AI ベンチマークでコーディング性能において業界最高を達成

NVIDIA が実施した最初のエージェント型 AI ベンチマークにおいて、同社の技術が他の競合製品を上回るコーディング性能を示し、業界トップの成果を記録しました。

AWS Machine Learning Blog★42026年6月19日 23:05

Adobe Marketing Agent for Amazon Quick によるキャンペーンワークフローの加速

AWS と Adobe は、Amazon Quick と Adobe Marketing Agent を連携させることで、マーケティングチームが自然言語で質問するだけで、ガバナンスされた会話環境内で数秒以内にキャンペーンのパフォーマンスやオーディエンスに関するインサイトにアクセスできるようにした。

AI News★42026年6月19日 23:02

SAP と Google Cloud がエージェント型コマースアーキテクチャを展開

SAP と Google Cloud は、企業規模でのマルチエージェントマーケティングおよび小売業務の自動化を目的として、エージェント型コマースアーキテクチャの展開を開始した。両社は顧客データの共有不足という構造的課題への対応を掲げている。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む