LLM を超える:スケーラブルな企業向け AI 導入がエージェントロジックに依存する理由
IBM Research は、LLM の単なる利用を超え、エンタープライズワークフローの複雑さに対応するためには、高品質なエージェントロジックが不可欠であると指摘し、スケーラブルな AI 導入の鍵を解説している。
キーポイント
LLM 単体では不十分
AI パイロットの失敗事例が多く見られる背景として、LLM のみではエンタープライズの複雑なワークフローに対応できず、スケーラブルな導入が阻害されている現状を指摘。
エージェントロジックの必要性
GPS やコンパスが航海を可能にしたように、AI エージェントには「インテリジェントなガイド(エージェントロジック)」が必要であり、これがコスト効果や信頼性を決定づける。
エンタープライズワークフローの特性
企業の業務プロセスは動的かつ長期にわたり、多数の API やデータベースと連携し、さらにビジネスポリシーや規制によって制約されるという 3 つの主要な特徴を持つ。
影響分析・編集コメントを表示
影響分析
この記事は、現在の AI 業界における「LLM 中心主義」からの脱却を促す重要な転換点を示唆しています。企業が実際に AI を業務に組み込む際、単なるチャットボットの延長ではなく、複雑なシステム連携と規制対応を可能にする高度なロジック設計が求められるという現実的な課題提起は、今後の AI エージェント開発の方向性を決定づけるでしょう。
編集コメント
LLM の能力向上が叫ばれる中、その実装における「制御ロジック」の重要性を再認識させる鋭い指摘です。特に大規模組織での導入を想定した時、技術的な性能以上に、業務フローとの統合や規制対応という文脈での設計思想が問われています。
ガイドは人類の歴史を通じて人々を支えてきました。先史時代の文明では、太陽や月が陸上および海上での広大な距離を航行するために利用できると理解されていました。時を経て、さまざまな旅がより良い計画と繰り返し目的地への移動時間の短縮のために地図を作成する機会をもたらしました。数世紀後、羅針盤の登場により航海者は未開拓の目的地を探す際の精度を高めることができました。そして今日、GPS ナビゲーションアプリが私たちのあらゆる旅路を案内しています。現在のアジェンシー AI の世界において、AI エージェントは確かにスケーラブルな AI 導入を可能にし、私たちが知る業界を変革する可能性を秘めています。しかし、この潜在能力を実現し、高いエージェント品質、コスト効果、そして結果としてのエンドユーザーの信頼を育むためには、インテリジェントなガイドであるアジェンシーロジック(agent logic)が必要です。
エンタープライズワークフローとユースケース
多くの研究が AI パイロットの圧倒的な失敗を指摘しており、一方で他の研究では、スケーラブルな導入を可能にするために AI がエンタープライズワークフローの中核で動作する必要性も強調しています。[1] [2] この現象および関連する主張をよりよく理解するためには、エンタープライズワークフローの分析が必要です。これらのワークフローは以下の通りです:
A. 動的かつ長期にわたって実行される
B. 多数の API、データベース、サービスを持つ
C. 多くの場合、ビジネスポリシーや/または規制によって制約されている
これらの特性を踏まえてエージェントが効果的に機能するためには、当然ながら拡張されたモデルコンテキストが必要となります。これは最先端のフロンティア LLM が確かに備えている能力ですが、その代償は何でしょうか?幻覚(hallucinations)の増加やトークン消費量の増大などです。さらに、ワークフローの中核でエージェント AI の実行を可能にし、より望ましい結果をもたらすために、LLM にインテリジェントなガイド、つまり GPS を備えさせることはできるのでしょうか?これらの仮説を検証するため、上記の特性を完全に考慮した上で、IBM 製品向けに適切なエージェントロジックを備えたエージェントを設計・構築しました。これら IBM の製品は、ミッションクリティカルなワークロードにおける企業ソフトウェアデリバリーライフサイクルの各段階を担う専門家が直面する最も困難な課題の一部に関連しています。具体的には以下の通りです:
- レガシーコード(Cobol / PL/1)で記述されたアプリケーションの理解
- 開発者向けのテスト生成の迅速化
- インシデントへの事前対応と、左側シフト型アプリレジリエンスの実現
- 重要環境におけるコンプライアンス近代化の自動化
これらの各ドメインを詳細に検討する前に、エージェントロジックの特徴を定義しましょう。エージェントロジックとは、知識グラフ、アルゴリズム、プログラム解析ライブラリなどのソフトウェアプリミティブであり、これらはエージェント層(エージェントハネス内)で動作し、意図的に大規模言語モデル(LLM)を企業ワークフローの方向へ誘導することで、コンテキスト空間を削減します。その結果、よりコスト効果の高い方法で、よりパフォーマンスの高い成果を導き出す強い傾向があります。では、上記の4つの各ドメインにおいて、エージェントロジックがどのようにしてそのような成果を実現するのかを考察してみましょう。
- レガシーコード(COBOL / PL/1)で記述されたアプリケーションの理解 - プログラム解析 [3]
IBM watsonx Code assistant for Z (WCA4Z) は、AI と自動化を活用してメインフレームアプリケーションの開発と近代化を加速するために使用されるツールであり、ミッションクリティカルなワークロードを IBM メインフレーム上で実行するエンタープライズクライアントの主要な関心領域であるアプリケーション理解のための App Insights エージェントを搭載しています。このエージェントは、アプリケーション全体にわたる深い静的解析を活用し、複雑なセマンティクスを持つ数百の相互関連テーブルにまたがるデータベーススキーマ内に事前インデックス化された表現を保存します。これにより、エージェントは正確で構造化された既存情報を取得でき、回答精度が向上し、トークン使用量が削減され、言語モデル(本例では Mistral Medium 250B)との往復対話回数が最小限に抑えられます。このアプローチを複数のミッションクリティカルなレガシーシステム(最大 100 万行のコードと 1,000 のプログラム)に適用した場合、ベースラインとなるフロントティア LLM のみのアプローチと比較してトークン消費量が約 30 倍低減されながら、わずかに優れたアプリケーション理解パフォーマンスを維持します。
- Aster(プログラム解析)を活用した開発者向けのテスト生成の迅速化。[4], [5]
Aster は、IBM の独自プログラム解析およびデータ前処理・後処理に基づくライブラリであり、エージェントベースのユニットテスト、統合テスト、API テスト、変更ベーステストの生成に利用されています。このツールは複数の開発者コミュニティを分析した結果、さまざまなオープンソースツールや開発者が作成したテストと比較して、より高い開発者評価を獲得しています。後者の優れたライン、ブランチ、メソッドカバレッジベンチマーク(統合テスト)およびゼロショット LLM およびコーディングエージェント(ユニットテスト)との比較において、これらはすべてオープンソースアプリケーション上でテストされており、Devstral 24B モデルを用いて、75 以上の Java 製 IBM CIO アプリケーション(最大 560 クラス以上、コード行数 67K 行以上)で本番前モードとして運用を続けています。これまでの定常状態の結果では、ライン、ブランチ、メソッドカバレッジが 20% から 45% 向上し、これらのアプリケーションの一部において最先端のコーディングエージェントと比較して優れたパフォーマンスを発揮するとともに、トークン消費量が桁違いに低減(最大 15 倍)されています。これらの結果の根拠は、プログラム解析出力(LLM をプロンプトし「焦点」を当てるために使用)と、カバレッジの拡張およびランタイム・コンパイルエラーの修正を行うサブエージェントを組み合わせたことで、より高性能な成果が得られ、大幅なコスト削減が可能となる点にあります。
- インシデントへの積極的な対応と、左側シフトによるアプリケーションレジリエンスの実現 - 知識グラフ、プログラム解析ライブラリ、調査(観測可能性)を駆使したオーケストレーション。[6],[7]
LLM の文脈は、1 および 2 で記述されたアプリケーション関連のユースケースにおいては「制限」され、アプリケーションソースコードに限定されていますが、展開されたインフラ上でのアプリケーションの実行時管理においては、基盤となる IT フルスタックが関与します。ここでは、エンティティ(マイクロサービス、データベース/ミドルウェアサービス、MELT など)とドメイン専門家からの埋め込まれた「属人的な」知識を結合した知識グラフ (KG: Knowledge Graph) を定義します。このようなグラフを用い、LLM を非確定的な結果に対するローカル範囲内の推論に限定することで、インシデントの根本原因分析(およびその他のユースケース)において IT スタック全体および関連する基盤となるアプリケーションソースコードをまたぐ文脈空間を削減する、観測可能性駆動のアプローチが採用されます。このアプローチでは、同等の Instana データモデルを活用し、Proprietary な Instana「I3」(インテリジェント・インシデント調査 [8])エージェントが、ITBench [9] を用いて測定した結果、GPT-5.1 を使用した ReAct エージェントと比較して最大 4.0 倍の改善を達成しました。Gemini 3 Flash を使用した場合、ReAct エージェントのパフォーマンスは I3 エージェントより 17% 低くなるものの、消費トークン数は 1.6 倍となります。このアプローチは、コード分析用エージェント(プログラム依存グラフを活用)およびバグ修正用エージェント(推論スケーリングを活用)へとソースコード領域にも拡張され、ITBench でもテストされました。その結果、最も culpable なマイクロサービスの特定において 3.0 倍、バグ修復において 1.6 倍の性能向上を示し、それぞれ 3.7 倍および 5.9 倍のトークン消費削減を達成する、ソースコード分析用およびバグ修正用エージェント(Gemini 2.5 Flash)が、最先端のコーディングエージェントを上回ることを示しました。このマルチエージェントシステムは、IBM Think で発表され、左側シフト IT オペレーションのための新たに公開された IBM Concert Platform の一部として位置づけられています。また、IBM CIO とともに社内でもパイロット運用が行われています [10]。
- クリティカル環境における IT コンプライアンスの近代化を自動化する - アルゴリズム、適応的計画、およびオーケストレーション。[11]
企業は、ますます複雑化し分断されたコンプライアンス要件に直面しており、チームは手動で統制措置、評価、および是正計画を作成するために多大な時間を費やすことを余儀なくされています。集中型の知識が存在せず、修正策も手動で作成されるため、エラーやセキュリティの隙間が生じるリスクがあります。コンプライアンス業務は複雑で多段階であるため、単なる手作業や単純な AI プロンプトではなく、専門的なエージェント間で調整されたポリシー駆動型自動化が必要です。当社のマルチエージェントシステムは、適応的計画、動的分解、継続フィードバックを伴うワークフローシーケンシングを用いて、複雑なタスクをアルゴリズム的に調整されたステップに分解することでコンプライアンスを自動化し、是正策を反復的に特定し評価範囲を拡大します。これは、固定された計画戦略を使用する以前のエージェント(Claude 4 Sonnet)と比較して 1.3〜2.0 倍のパフォーマンスを発揮し、ITBench を用いた測定でも確認されています。このアプローチは、コンプライアンスを継続的にガイドされる自己修正プロセスへと変換し、特に複雑なシナリオにおいて成果を劇的に改善し、成功率を単一桁から最高で +80%(Claude 4 Sonnet)まで引き上げます。このマルチエージェントシステムと 16,000 件以上のデジタル化された統制マッピングは、IBM Think における IBM Sovereign Core の一部として発表され、監視機能やドリフト検出(drift detection)と統合されており、自動証拠生成を提供することで、監査証拠が顧客の管理下に安全に留まることを保証しています。[12]
上記の例は、エージェントロジックが LLM のコンテキストを削減し、LLM がワークフローのコア部分を非常にパフォーマンスが高く、コスト効果の高い方法で移動するように導く影響を示しています。さらに、同様のアプローチを 2 つのケーススタディに適用しました。1 つは医療分野における設定可能な一般型エージェントおよびランタイム(CUGA)を用いたものであり、もう 1 つは IBM グローバルリアルエステートとの共同による物理資産に対する状態ベースメンテナンスに関するものです。
ドメイン別ケーススタディ
ケーススタディ 1: 設定可能な一般型エージェント (CUGA) 医療ベンチマーク - アルゴリズムポリシーの強制執行。[13]
以下の健康保険のカスタマーケア事例は、規制環境においてエージェント型システムが LLM のみの対話モデルよりも優れている理由をコンパクトに示したものです。CUGA(構成可能な汎用エージェント)のポリシーシステムは、エージェントガバナンスのためのコードとしてのポリシーを実装しており、これはモデルのプロンプトやファインチューニングに依存せず、ランタイムで強制されます。私たちの実験では、このエージェントのポリシーシステムがタスクの正解率における大きなギャップを埋め、すべてのモデルファミリー(Claude Opus – 4.5, GPT OSS 120B および GPT – 4.1)において構造化されたワークフローの強制、安全な意図処理、信頼性の高いツール使用、制御された出力フォーマットを実現し、精度を 15% から 26% 向上させることが示されました。権限は、最小権限の開示、明示的なコンプライアンスルール、および人間のエスカレーションパスを通じて強制されます。知的なアクションが提案される一方で、権限の行使はポリシーと監視メカニズムによって行われます。推論は自律的ですが、意思決定権は制約されています。CUGA はまた、IBM Think Sovereign Core のローンチにおける重要なコンポーネントでもあります。
ケーススタディ 2: IBM グローバルリアルエステートにおける物理資産の条件ベースメンテナンス - 有向非巡回グラフ [14],[15]
エンタープライズ維持管理システムは膨大な量の資産データを収集していますが、それらを効果的に統合できず、専門家が断片的な信号を手作業でつなぎ合わせ、統一された根拠に基づく洞察なしに意思決定を下すことを余儀なくされています。最近リリースした Maximo Condition Insights [16] エージェントは、数千の資産と場所(センサー、作業指示書、故障モードおよびイベント分析)にわたる大規模な資産データを分析し、構造化された証拠と検証ループを用いて問題を確実に特定し、アクションを優先順位付けし、一貫性があり追跡可能な洞察で意思決定をサポートします。このエージェントは IBM グローバルリアルエステート(GRE)との社内パイロット運用(GPT OSS 120B を使用)において、資産分析時間を 15〜20 分から 15〜30 秒に短縮し(97% の改善)、120 サイト以上と 6,000 件の物理資産にわたる資産レビューの網羅性を約 1% から約 30% に引き上げました。AssetOpsBench を用いた評価では、Condition Insights エージェントは根拠のない主張を 57% 削減し、冗長性を 35% 削減し、ルール遵守率を 30% 向上させ、ほぼゼロの矛盾を維持しながら、平均してトークン使用量を 77% 削減し、診断の特定度をわずかに向上させました。このエージェントは有向非巡回グラフ(DAG)を備えており、単純なプロンプトによる根拠のない推論を減らすために構造的エンジニアリングと運用コンテキストを提供します。一方、制約を意識したプロンプティングは、不安定性を導入することなく、ルールの遵守を大幅に改善し、冗長性を削減し、全体のトークン消費量を低下させます。
要約と参考文献:
私たちは何世紀にわたり、ガイドによって恩恵を受けてきました。これらは私たちの生活を簡素化し、向上させてくれました。技術が進化するにつれて、私たちが利用するガイドも進化し、より多くのことを可能にし、さらに地球村を縮小しています。このエージェント型 AI の時代において、規模の経済を通じて社会をさらに強化しようとする中で、私たちはこの傾向を継続し、モデルのコンテキストを簡素化し、中核となるエンタープライズワークフローを知的に横断するためにエージェントロジックを最大限に活用すべきです。そうして初めて、最適な運用コストでのスケーラブルな導入が真に実現可能となります。
[1] 生成 AI の格差:『2025 年ビジネスにおける AI の現状』MIT 研究、https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf
[2] AI プロジェクトから利益へ:エージェント型 AI が財務リターンをどのように持続させるか、IBM IBV 報告書、https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/agentic-ai-profits
[3] IBM Watson Code assistant for Z(Z 用 IBM Watson コードアシスタント)の理解、2026 年 2 月 27 日、https://www.ibm.com/docs/en/watsonx/watsonx-code-assistant-4z/2.x?topic=understand
[4] R. Pan, R. Krishna, R. Pavuluri, その他、ASTER: LLM を用いた自然かつ多言語対応の単体テスト生成 - IBM リサーチ、2025 年 4 月 30 日、https://research.ibm.com/blog/aster-llm-unit-testing
[5] R. Pan, R. Pavuluri, R. Huang, その他、SAINT: プログラム解析と LLM ベースのエージェントを用いたサービスレベル統合テスト生成、2025 年 11 月 17 日、https://arxiv.org/abs/2511.13305
[6] S. Jha, R. Arora, Bhavya, その他、Think Locally, Explain Globally: 局所的推論と信念伝播によるグラフ誘導型 LLM 調査、2026 年 1 月 25 日、https://arxiv.org/abs/2601.17915
[7] S. Cui, R. Krishna, S. Jha, その他、クラウドアプリケーションにおけるコード関連インシデントの根本原因分析のためのエージェント型構造化グラフ走査、2025 年 12 月 26 日、https://arxiv.org/html/2512.22113v1
[8] IBM Instana とインテリジェントインシデント調査エージェントは、IBM Instana インテリジェントインシデント調査を活用したエージェント AI を用いて、インシデントの解決をより迅速に行います。
[9] S. Jha, R. Arora, Y. Watanabe, その他、ITBench: 多様な実世界の IT 自動化タスクにわたる AI エージェントの評価、2025 年 2 月 7 日、https://arxiv.org/abs/2502.05352
[10] IBM Concert プラットフォーム https://www.ibm.com/new/announcements/from-insight-to-action-closing-the-gap-in-modern-it-operations
[11] Y. Watanabe, T. Yanagawa, H. Kitahara, A. Sailer、GenAI CISO アシスタントによる IT コンプライアンス自動化、DZone チュートリアル、2025 年 12 月 12 日 https://dzone.com/articles/itbench-part-3-it-compliance-automation-with-genai
[12] IBM ソブリンコア https://newsroom.ibm.com/2026-05-05-think-2026-ibm-makes-digital-sovereignty-operational-with-general-availability-of-ibm-sovereign-core
[13] S. Shlomov, A. Oved, S. Marreed 他、ベンチマークからビジネスインパクトへ:エンタープライズ生産環境における IBM ジェネラリストエージェントの展開、2025 年 12 月 9 日、https://arxiv.org/pdf/2510.23856
[14] D. Patel, S. Lin, J. Rayfield 他、AssetOpsBench:産業資産運用・保守におけるタスク自動化のための AI エージェントのベンチマーク、2025 年 6 月 4 日、https://arxiv.org/abs/2506.03828
[15] Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, 他。異種データを用いた産業メンテナンスのための証拠駆動型推論 https://arxiv.org/abs/2603.08171
[16] IBM Maximo および Condition Insights エージェント https://www.ibm.com/new/announcements/maximo-condition-insight
原文を表示
Guides have aided humanity throughout history. Prehistoric civilizations understood that the sun and the moon could be used to navigate vast distances on land and the high seas. Over time, various journeys facilitated the production of maps for better planning and faster travel time to repeat destinations. Centuries later, the introduction of the compass enabled seagoers to achieve greater accuracy in seeking unexplored destinations. And today, GPS navigation apps guide our every journey. In today’s world of agentic AI, AI agents, admittedly, have the potential to enable scalable AI adoption, transforming industries as we know them. However, an intelligent guide, agentic logic, is needed to realize this potential by fueling high agent quality, cost-effectiveness, and consequent end-user trust.
Enterprise Workflows & Use Cases
Numerous studies have cited the overwhelming failure of AI pilots, while others have also highlighted the need for AI to operate at the core of enterprise workflows to enable scalable adoption. [1] [2] To better understand this phenomenon and the associated assertion, some analysis of enterprise workflows is required. These workflows are:
A. Dynamic and long-running
B. Possess a plethora of APIs, databases and services
C. Oftentimes are constrained by business policies and/or regulations
For an agent to function effectively, given these above characteristics, naturally demands an expanded model context, which state-of-the-art frontier LLMs certainly possess, but at what tradeoff? Increased hallucinations, token consumption? Further, can LLMs be equipped with an intelligent guide, GPS, to enable agentic AI execution at the core of the workflow, driving more desirable outcomes? We tested these hypotheses by designing and building agents, equipped with pertinent agent logic, for IBM offerings fully considering the above characteristics. These offerings pertain to some of the most challenging tasks confronting subject matter experts who own various stages of the enterprise software delivery lifecycle for mission critical workloads including:
- Understanding applications written in legacy code (Cobol / PL/1)
- Expediting test generation for developers
- Proactively responding to incidents and enabling shift-left app resiliency
- Automating compliance modernization for critical environments
Before examining each of these domains in detail, let us define what characterizes agent logic. Agent logic is software primitives, such as knowledge graphs, algorithms, program analysis libraries, which operate at the agentic layer (within an agent harness) and can intentionally steer the LLM in the direction of the enterprise workflow, reducing the context space. In so doing, have strong tendency to drive more performant outcomes in a more cost-effective manner. Let us now examine how agent logic is able to achieve such outcomes in each of the above four domains.
- Understanding applications written in legacy code (Cobol / PL/1) - program analysis.[3]
IBM watsonx Code assistant for Z (WCA4Z), used to accelerate mainframe application development and modernization with AI and automation, is equipped with an App Insights agent for application understanding - one of the primary focus areas of enterprise clients running mission critical workloads on IBM mainframe. This agent leverages deep static analysis across the application and stores a pre-indexed representation in a database schema that spans hundreds of interrelated tables with complex semantics, allowing the agent to retrieve precise, structured already available information; thereby improving answer accuracy, reducing token usage, and minimizing back-and-forth interactions with the language model (Mistral Medium 250B in this instance). This approach when applied to multiple mission-critical legacy systems (up to 1M lines of code and 1K programs) maintains marginally superior app understanding performance with ~30× lower token consumption than a baseline frontier LLM-only approach.
- Expediting test generation for developers with Aster - program analysis. [4], [5]
Aster is an IBM proprietary program analysis and data pre- and post-processing-based library utilized for agent-based generation of unit, integration, API and change-based tests; which from analysis of multiple developer communities achieves higher developer ratings compared with various open-sourced tools or developer-written tests. Based on the latter and superior line, branch and method coverage benchmarks compared with similar open-sourced tools (integration tests) and zero-shot LLMs and coding agents (unit tests), all tested on open-sourced applications, we have been running Aster in pre-production mode on 75+ java IBM CIO applications (up to 560+ classes and 67K+ lines of code) with Devstral 24B model. Steady-state results to date yield +20% - 45% improvement in line, branch and method coverage coupled with superior performance on a subset of these apps compared with state-of-the-art coding agent with orders of magnitude lower token consumption (up to 15×). The rationale for these results is that the program analysis output (used to prompt and “focus” the LLM) coupled with sub-agents for augmenting coverage and remediating runtime and compilation errors enable a more performant outcome with significant cost reduction.
- Proactively responding to incidents and enabling shift-left app resiliency - knowledge graphs, program analysis libraries and investigation (observability) - driven orchestration. [6],[7]
While LLM context for app-related use cases as described in 1 and 2 are “restricted” to the app source code, for runtime management of apps on deployed infra, the underlying IT full stack comes into play. Here we define a knowledge graph (KG) encompassing entities (microservices, database/middleware services, MELT etc.) coupled with embedded (“tribal”) knowledge from domain experts. With such a graph and bounding the LLM to local bound reasoning for non-deterministic outcomes, an observability-driven approach is used to achieve reduced context space spanning the IT stack and underlying app source code (if relevant) for incident root cause analysis (and other use cases). With this approach, leveraging the equivalent Instana data model, we have seen the proprietary Instana “I3” (intelligent incident investigation [8]) agent achieve up to 4.0× improvement over ReAct agent with GPT-5.1 as measured using ITBench [9]. With Gemini 3 Flash the ReAct agent performance improves to within 17% lower than the I3 agent while consuming 1.6× more tokens, We have extended this approach to source code with agents for code analysis (leveraging program dependency graphs) and bug remediation (leveraging inference scaling), also tested on ITBench, illustrating superior performance for the source code analysis and bug remediation agents (Gemini 2.5 Flash) over state-of-the-art coding agent both for finding the culpable microservice (3.0×) and bug repair (1.6×) while consuming respectively 3.7× and 5.9× less tokens. This multi-agent system was announced at IBM Think as part of the newly unveiled IBM Concert Platform for shift-left IT Operations and is also being piloted internally with IBM CIO. [10]
- Automating IT compliance modernization for critical environments - algorithms and adaptive planning and orchestration. [11]
Enterprises face increasingly complex and fragmented compliance requirements, forcing teams to spend considerable time manually creating controls, assessments and remediation plans. No centralized knowledge exists and fixes are written manually, which introduces a risk of errors and security gaps. Because compliance work is complex and multi-step, it requires coordinated policy-driven automation across specialized agents rather than manual effort or simple AI prompts. Our multi-agent system automates compliance by algorithmically decomposing complex tasks into coordinated steps, using adaptive planning, dynamic decomposition and workflow sequencing with continuous feedback to iteratively identify fixes and expand assessments. It is 1.3 – 2.0× more performant than prior agents (Claude 4 Sonnet) using fixed planning strategies, as also measured using ITBench. This approach transforms compliance into a continuously guided self-correcting process and dramatically improves outcomes, especially in complex scenarios, boosting success rates from single digits to as high as +80% (Claude 4 Sonnet). This multi-agent system and 16K+ digitized controls mappings were unveiled as part of IBM Sovereign Core at IBM Think, integrated with monitoring, drift detection, providing automated evidence generation, ensuring audit evidence stays securely within customer control. [12]
The above examples illustrate the impact of agent logic in reducing LLM context and guiding the LLM to traverse the core of the workflow in a highly performant and cost-effective manner. Additionally, we have employed similar approaches to two case studies, one with a configurable generalist agent and runtime (CUGA) in the healthcare domain and another for the condition-based maintenance for physical assets with IBM Global Real Estate.
Domain Case Studies
Case Study 1: Configurable Generalist Agent (CUGA) Healthcare benchmark - algorithmic policy enforcement. [13]
The following health insurance customer care example is a compact illustration of why agentic systems outperform LLM-only conversational models in regulated environments. CUGA’s (configurable generalist agent) policy system implements policy-as-code for agent governance, which is enforced at runtime independent of model prompts and without fine-tuning. Our experiments show that the agent’s policy system closes large gaps in task correctness, enforcing structured workflows, safe intent handling, reliable tool usage, and controlled output formatting across all model families (Claude Opus – 4.5, GPT OSS 120B and GPT – 4.1) with accuracy improvements ranging from 15% to 26%. Authority is enforced through least-privilege disclosure, explicit compliance rules, and human escalation paths. Intelligent actions are proposed, while authority is exercised by policy and oversight mechanisms. Reasoning is autonomous; decision rights are constrained. CUGA is also a key component in the IBM Think Sovereign Core launch.
Case Study 2: Condition-based Maintenance of Physical Assets for IBM Global Real Estate - directed acyclic graph. [14],[15]
Enterprise maintenance systems collect copious amounts of asset data but are unable to effectively combine them, demanding experts to manually piece together fragmented signals and make decisions without unified, evidence-based insights. Our recently launched Maximo Condition Insights [16] agent analyzes large-scale asset data across thousands of assets and locations (sensors, work orders, failure modes and events analysis), using structured evidence and validation loops to reliably identify issues, prioritize actions and support decision-making with consistent, traceable insights. We have piloted this agent (using GPT OSS 120B) internally with IBM Global Real Estate (GRE), reducing asset analysis time from 15-20 mins to 15-30 sec (a 97% improvement) and increasing asset review coverage from ~1% to ~30% spanning over 120 sites and 6K physical assets. Using AssetOpsBench, the Condition Insights agent reduced unsupported claims by 57%, cut verbosity by 35%, improved rule compliance by 30%, maintained near-zero contradictions, and lowered token usage by on average 77%, while slightly increasing diagnostic specificity. This agent, equipped with a directed acyclic graph, provides structural engineering and operational context to reduce unsupported reasoning under naive prompting, while constraint-aware prompting markedly improves rule adherence, reduces verbosity, and lowers overall token consumption without introducing instability.
Summary and References:
We have benefited from guides for centuries, which have simplified and enhanced our lives. As technology has evolved, so have the guides we use, enabling us to do more and further shrink our global village. With the arrival of this agentic AI era, as we seek to further enhance society in part through economies of scale, we should continue this trend and fully leverage agent logic to simplify model context and intelligently traverse enterprise workflows at the core; only then will scalable adoption at optimal operating costs be truly feasible.
[1] The GenAI Divide: STATE OF AI IN BUSINESS 2025, MIT study, https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf
[2] From AI projects to profits: How agentic AI can sustain financial returns, IBM IBV report, https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/agentic-ai-profits
[3] Understand, IBM Watson Code assistant for Z, Feb 27, 2026, https://www.ibm.com/docs/en/watsonx/watsonx-code-assistant-4z/2.x?topic=understand
[4] R. Pan, R. Krishna, R. Pavuluri, et.al, ASTER: Natural and multi-language unit test generation with LLMs - IBM Research, Apr 30, 2025, https://research.ibm.com/blog/aster-llm-unit-testing
[5] R. Pan, R. Pavuluri, R. Huang, et al., SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents, Nov 17, 2025, https://arxiv.org/abs/2511.13305
[6] S. Jha, R. Arora, Bhavya, et al, Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation, Jan 25, 2026, https://arxiv.org/abs/2601.17915
[7] S. Cui, R. Krishna, S. Jha, et al, Agentic Structured Graph Traversal for Root Cause Analysis of Code-related Incidents in Cloud Applications, Dec 26, 2025, https://arxiv.org/html/2512.22113v1
[8] IBM Instana and Intelligent Incident Investigation agent Use agentic AI to resolve incidents faster with IBM Instana Intelligent Incident Investigation
[9] S. Jha, R. Arora, Y. Watanabe, et al, ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks, Feb 7, 2025, https://arxiv.org/abs/2502.05352
[10] IBM Concert platform https://www.ibm.com/new/announcements/from-insight-to-action-closing-the-gap-in-modern-it-operations
[11] Y. Watanabe, T. Yanagawa, H. Kitahara, A. Sailer, IT Compliance Automation with GenAI CISO Assessment Agent , DZone Tutorial, Dec. 12, 2025 https://dzone.com/articles/itbench-part-3-it-compliance-automation-with-genai
[12] IBM Sovereign Core https://newsroom.ibm.com/2026-05-05-think-2026-ibm-makes-digital-sovereignty-operational-with-general-availability-of-ibm-sovereign-core
[13] S. Shlomov, A. Oved, S. Marreed, et al, From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production, Dec 9, 2025, https://arxiv.org/pdf/2510.23856
[14] D. Patel, S. Lin, J. Rayfield, et al, AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance, Jun 4, 2025, https://arxiv.org/abs/2506.03828
[15] Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, et al.Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data https://arxiv.org/abs/2603.08171
[16] IBM Maximo and Condition Insights agent https://www.ibm.com/new/announcements/maximo-condition-insight
関連記事
OpenAI が企業向け利用分析機能を導入(3 分読了)
OpenAI は、企業が自社の AI サービス利用状況を詳細に把握・管理できるよう、新たな企業向け利用分析機能を発表した。
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み