Databricks が GPT-5.5 をエンタープライズエージェントワークフローに導入
Databricks は、複雑なエンタープライズ文書タスクにおいて新基準を樹立した GPT-5.5 を、AgentBricks や Unity Gateway を通じて生産環境のワークフローに正式導入した。
キーポイント
OfficeQA Pro ベンチマークでの新記録達成
GPT-5.5 は Databricks の OfficeQA Pro ベンチマークで 50% の精度を達成し、スキャン済み PDF やレガシー文書の解析において GPT-5.4 よりも 46% エラーが減少する新 SOTA を記録した。
エンタープライズ文書解析能力の飛躍的向上
数字や文字列の抽出ミスが連鎖するリスクを解消し、スキャン文書の解析精度に段差(step-function)をもたらすことで、複雑なワークフローでの信頼性が大幅に向上した。
生産環境への統合とオーケストレーション改善
AI Unity Gateway を介して AgentBricks や Agent Supervisor API と連携し、不要な検索ループを排除して複雑な多段階タスクを自律的に完遂できる能力が実証された。
影響分析・編集コメントを表示
影響分析
この記事は、LLM が単なるテキスト生成から、実務上の複雑な文書処理や意思決定を担う「エンタープライズエージェント」として成熟した段階に入ったことを示しています。特にレガシーデータへの対応能力向上は、多くの企業が抱えるデジタルトランスフォーメーションのボトルネック解消に寄与し、AI 導入の現実的な適用範囲を大きく広げる意味を持ちます。
編集コメント
2026 年という未来の時点でのニュースですが、エンタープライズ AI の課題である「文書解析の精度」と「ワークフローの安定性」を解決するモデルの登場は、実務導入における最大の障壁を取り除く画期的な出来事と言えます。
Databricks が GPT-5.5 をエンタープライズエージェントワークフローに導入 | OpenAI 2026 年 5 月 15 日
GPT‑5.5 は、複雑なエンタープライズエージェントタスクのための Databricks のベンチマークである OfficeQA Pro において、新たな最高性能(state of the art)を記録しました。
企業規模:エンタープライズ
地域:北米
業界:テクノロジー
製品:Codex
OfficeQA Pro ベンチマークにおける精度:50%(最高性能)
GPT-5.4 に対する OfficeQA Pro ベンチマークでのエラー削減率:46%
Databricks は、同社が複雑なエンタープライズ文書タスクのためのベンチマークとして設定する OfficeQA Pro で新たな最高性能を達成したことを踏まえ、顧客のエージェントワークフロー向けに GPT‑5.5 の利用を開始しました。
OfficeQA Pro は、スキャンされた PDF、レガシーファイル、長文コンテキストドキュメントを含むワークフローにおけるパース(解析)、検索、および根拠に基づく推論の処理能力を評価するものであり、これらは生産環境のエージェントシステムで頻繁に障害を引き起こすタスクです。
エージェント・ハネス(agent-harness)設定において、GPT‑5.5 は GPT-5.4 と比較してエラーを 46% 削減し、OfficeQA Pro で初めて 50% の精度を超えるモデルとなりました。
「Codex を 5.5 にすることで、現在存在するすべてのエージェントおよびモデルの中で最高性能を達成しました。」
–Arnav Singhvi(研究エンジニア)
OfficeQA Pro における SOTA パフォーマンス
OfficeQA Pro には、多数のスキャン済みまたはレガシーのエンタープライズ文書が含まれており、パース時のわずかな抽出エラーがワークフローの後続工程に連鎖する可能性があります。"特定の数字や数値を抽出できなくなると、エージェントが扱う内容全体の方向性が変わってしまいます」と Singhvi は説明しています。
Databricks は、これらの文書解析に重点を置いたワークフローにおいて、GPT‑5.5 から最も大きな恩恵を受けました。"以前のモデルである 5.4 ではすべての数字を正しく解析できませんでしたが、5.5 は古い文書やスキャンされた PDF の解析においてステップ関数的な飛躍的な向上が見られます」とシングヴィ氏は述べています。
チームはまた、多段階タスクにおけるオーケストレーションの改善も確認しました。"5.4 で見られたことの一つに、不要な検索への逸脱が時折起こり、それが非常に非効率的な軌道を引き起こすという点がありました」とシングヴィ氏は言います。
以前のモデルと比較して、GPT‑5.5 は追加の監督なしに関連する文脈をより確実に取得し、複雑なワークフローを完了できることが示されました。
GPT‑5.5 を本番ワークフローへ導入
Databricks では現在、AI Unity Gateway を通じて GPT‑5.5 を利用可能にしており、顧客は AgentBricks と Agent Supervisor API で構築されたワークフロー内でこのモデルを使用しています。これらのシステムでは、GPT‑5.5 が専門的なエージェント間での解析、検索、実行をオーケストレーションします。
"カスタムエージェントワークフローのために、多くの顧客が AgentBricks と Agent Supervisor API を利用するようになるでしょう。GPT‑5.5 がこれらのワークフローを監督できることは非常に楽しみです」とシングヴィ氏は述べています。
"GPT-5.5 は知識の向上という点で素晴らしいです。私たちが行う知識作業において、ステップ関数的な変化をもたらしています。"
—アルナヴ・シングヴィ氏、リサーチエンジニア
続きを読む
原文を表示
Databricks brings GPT-5.5 to enterprise agent workflows | OpenAIMay 15, 2026
GPT‑5.5 set a new state of the art on OfficeQA Pro, Databricks’ benchmark for complex enterprise agent tasks.
Company size: Enterprise
Region: North America
Industry: Technology
Products: Codex
50%
Accuracy on the OfficeQA Pro benchmark (state of the art)
46%
Reduction in errors on the OfficeQA Pro benchmark vs. GPT-5.4
Databricks is making GPT‑5.5 available for customer agent workflows after the model established a new state of the art on OfficeQA Pro, the company’s benchmark for complex enterprise document tasks.
OfficeQA Pro evaluates how models handle parsing, retrieval, and grounded reasoning across workflows involving scanned PDFs, legacy files, and long-context documents, tasks that frequently break production agent systems.
In the agent-harness setting, GPT‑5.5 reduced errors by 46% compared to GPT‑5.4 and became the first model to surpass 50% accuracy on OfficeQA Pro.
“Codex with 5.5 is now state-of-the-art amongst all the agents and models out there.”
–Arnav Singhvi, Research Engineer
SOTA performance on OfficeQA Pro
OfficeQA Pro includes large numbers of scanned or legacy enterprise documents, where small extraction errors during parsing can cascade downstream through the rest of the workflow. “Once you can’t extract a certain digit or number, that changes the entire trajectory of what the agent works with,” Singhvi explains.
Databricks saw the largest gains from GPT‑5.5 in these parsing-heavy workflows. “Earlier models like 5.4 were unable to parse all the digits correctly, but it seems like 5.5 has a step-function lift in parsing older documents and scanned PDFs,” Singhvi says.
The team also saw improvements in orchestration across multi-step tasks. “One thing that we saw with 5.4 is sometimes it would go on these unnecessary search detours, and that would cause very inefficient trajectories,” Singhvi says.
Compared to earlier models, GPT‑5.5 was more reliable at retrieving relevant context and completing complex workflows without additional supervision.
Bringing GPT‑5.5 into production workflows
Databricks now makes GPT‑5.5 available through AI Unity Gateway, where customers use the model inside workflows built with AgentBricks and the Agent Supervisor API. In these systems, GPT‑5.5 orchestrates parsing, retrieval, and execution across specialized agents.
“We’re going to see a lot of customers using AgentBricks and Agent Supervisor API for custom agent workflows,” Singhvi says. “Having GPT‑5.5 supervise these workflows is really exciting.”
“GPT-5.5 has been great in terms of knowledge lift. It's a step size function change in terms of doing knowledge work for us.”
—Arnav Singhvi, Research Engineer
Keep reading
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み