AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
The Decoder·2026年4月24日 04:01·約7分で読める

OpenAI、GPT-5.5を発表、「新クラスの知能」を謳うもAPI料金は倍額

#Agentic AI#LLM#GPT-5.5#OpenAI#Code Generation
TL;DR

OpenAIは自律型ツール連携と高度な推論能力を備えた「エージェント型」モデルGPT-5.5を発表し、競合を上回るベンチマークスコアを達成したが、API価格は倍増している。

AI深層分析2026年4月24日 04:23
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

エージェント型ワークフローの強化

複数のツールを自律的に切り替え、複雑なタスクを完了まで実行する設計となり、コーディングやソフトウェア操作などの実務に最適化されている。

2

競合モデルを上回るベンチマーク性能

Terminal-Bench 2.0やFrontierMathなどの評価でClaude Opus 4.7やGemini 3.1 Proを大きく引き離し、数学推論とコード生成で業界トップクラスのスコアを記録。

3

速度とトークン効率の両立

従来モデル同等のレイテンシを維持しつつ、同じタスクを完了するために必要なトークン数を大幅に削減し、処理コストの最適化を図っている。

4

API価格の倍増と利用制限

性能向上に見合う形でAPI料金が倍増し、現在では有料のChatGPTおよびCodexユーザーに限定して提供されている。

影響分析・編集コメントを表示

影響分析

本リリースはLLM開発の主流を「次トークン予測」から「自律型エージェントワークフロー」へ移行させる転換点となる。高性能と高速処理を両立させた一方、API価格の倍増は企業導入ハードルを高め、コスト管理が厳しい現場では競合モデルとの比較検討が加速する可能性がある。これにより、エージェント機能に特化したAI市場の再編が進むと予想される。

編集コメント

価格が倍増する中での「エージェント型」転換は、開発者にとって機能面での正当性を問われる重要な分岐点となる。実務導入ではAPIコストとセキュリティ監査のバランスを慎重に検証する必要があるだろう。

OpenAIは、複数のツールを横断して複雑なタスクを自律的に処理できるように設計されたエージェント型モデル(agentic model)「GPT-5.5」を発表した。表向き、そのAPI価格(API price)は倍額となっている。

OpenAIはGPT-5.5を公開し、「実際の作業やエージェントの運用を支える『新たな知性のクラス』」と呼んでいる。同社によると、このモデルは複雑な目標を理解し、ツールを使用し、自身の出力を検証し、タスクが完了するまで自律的に作業を進めるように設計されている。現在、有料のChatGPTおよびCodexユーザーが利用可能だ。

*

エージェント型ワークフロー(agentic workflows)が主な売り

OpenAIによると、GPT-5.5はコードの作成とデバッグ、ウェブリサーチ、データ分析、ドキュメントやスプレッドシートの作成、ソフトウェアの操作において特に優れている。このモデルは、タスクが完了するまで自律的に異なるツールを切り替えるように設計されている。

OpenAIは、エージェント型コーディング(agentic coding)、コンピュータ操作(computer use)、ナレッジワーク(knowledge work)、初期の科学的研究という4つの分野で最大の改善を見ている。同社によると、これらの分野には文脈を跨ぐ推論能力と、長時間にわたって一連のアクションを実行する能力が必要となる。

エージェント型ワークフロー向けのコーディングベンチマークであるTerminal-Bench 2.0において、OpenAIによるとGPT-5.5は82.7パーセントのスコアを記録しており、前世代のGPT-5.4(75.1パーセント)を7.6ポイント上回っている。AnthropicのClaude Opus 4.7は69.4パーセント、GoogleのGemini 3.1 Proは68.5パーセントだ。

より高度な数学問題では、この差はさらに広がる。FrontierMath Tier 4において、GPT-5.5は35.4パーセントのスコアを記録したのに対し、Claude Opus 4.7は22.9パーセント、Gemini 3.1 Proは16.7パーセントだった。Pro版であるGPT-5.5 Proはこの数値を39.6パーセントに引き上げる。

OpenAIは、GPT-5.5がこれらのパフォーマンス向上を速度の犠牲なく実現していると述べている。同モデルは、同じCodexタスクを完了するために大幅に少ないトークン数を使用しながらも、GPT-5.4のトークンあたりのレイテンシ(per-token latency)と同等のパフォーマンスを達成していると報告されている。

GPT-5.5

GPT-5.4

GPT-5.5 Pro

GPT-5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (Internal)

73.1%

68.5%

-

-

-

-

GDPval (wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath Tier 1-3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

GPT-5.5のベンチマーク比較。GPT-5.5 Proは選択されたベンチマークのみでテストされている。| 表: OpenAI*

長文コンテキスト(Long-context)でのパフォーマンスも大幅に向上した。非常に長いテキスト内で複数の隠された情報をモデルがどれだけ確実に検索できるかをテストするMRCR v2ベンチマークでは、GPT-5.5はコンテキスト長が512K〜1Mトークンの範囲で74.0%に達し、GPT-5.4の36.6%から大きく向上した。100万トークンのGraphwalks BFSテストでは、GPT-5.5は9.4%(GPT-5.4)から45.4%へと飛躍した。

だが、その優位性は絶対的なものではない。実際のGitHubの課題解決をテストするSWE-Bench Proでは、Claude Opus 4.7が64.3%でGPT-5.5の58.6%を上回った。ただしOpenAIは、Anthropic自身がこれらのタスクの一部で暗記の兆候を認めている点にも言及している。

Scale AIが運営するツール使用(Tool-use)ベンチマークのMCP Atlasでは、GPT-5.5は75.3%を記録し、Claude Opus 4.7(79.1%)とGemini 3.1 Pro(78.2%)に後れを取った。また、ウェブリサーチベンチマークのBrowseCompでは、ベースモデルがGeminiにわずかに及ばず、84.4%対85.9%となった。

また、GPT-5.5は44の職業にわたるGDPval(実際のタスクパフォーマンスを測定するために設計されたベンチマーク)でも、ほとんど進歩を示さなかった。GPT-5.5は84.9%を記録したが、GPT-5.4の83.0%からわずかに改善しただけに留まる。すべてのベンチマークの完全な概要はこちらで確認できる。

GDPvalが主張する通りのものを測定しているとするなら、GPT-5.5は日常の専門的なタスクにおいて大きな飛躍とはならない可能性がある。| Image: OpenAI

本モデルはNVIDIAのGB200およびGB300-NVL72システムと共に開発・最適化された。OpenAIによると、GPT-5.5とCodexは実際同社のサービングインフラストラクチャ(Serving infrastructure)の最適化にも貢献しており、Codexは本番環境のトラフィックパターンを分析し、負荷分散(Load balancing)用のヒューリスティックアルゴリズムを自ら記述した。その結果、トークン生成速度(Token generation speed)が20%以上向上した。「このモデルは、それ自体を提供するインフラストラクチャの改善にも貢献した」とOpenAIは記している。

GPT-5.5 Proは「リサーチパートナー」を目指す

スタンダードモデルに加え、OpenAIはGPT-5.5 Proもリリースする。同社によると、フルスタック推論(Full-stack inference)の改善により、より強力なモデルが重いワークロードに対してはるかに実用的になった。初期テスターからは、ドキュメントやプラグインからの豊富なコンテキストを与えられた場合に最も優れたパフォーマンスを発揮する、反復的な「リサーチパートナー」と評されている。

これまでにOpenAIが公開したGPT-5.5 Proのベンチマーク結果は、9つのテストのうち3つ(BrowseComp、FrontierMath Tier 1-3、FrontierMath Tier 4)のみである。同モデルはこれらすべてでベースモデルを上回っている。

セキュリティ機能の評価は「高」

OpenAIは、準備度フレームワーク(Preparedness Framework)において、GPT-5.5の生物・化学・サイバーセキュリティ関連の能力を「High(高)」と分類しており、これは直近の後継モデルと同じ評価だが、「Critical(重大)」ではない。GPT-5.4と比較するとサイバーセキュリティ性能が向上しており、サイバージム(CyberGym)ベンチマークでは81.8パーセント(GPT-5.4は79.0パーセント)、内部の奪旗戦(capture-the-flag)タスクでは88.1パーセント(同83.7パーセント)を記録している。

同時に、OpenAIは潜在的なサイバーリスクに対するより厳格な分類基準を導入しており、当初は拒否されるケースが増える可能性があると同社は説明している。信頼アクセス・フォー・サイバープログラム(Trusted Access for Cyber program)により、認証されたセキュリティ研究者はサイバーセキュリティ関連機能へのアクセス範囲を拡大できる。またOpenAIは政府パートナーと連携し、重要インフラ(critical infrastructure)の保護に取り組んでいる。追加のセキュリティ詳細を記載したシステムカード(system card)はこちらで公開されている。

有料ユーザーが優先アクセス;API価格はGPT-5.4の2倍

GPT-5.5 Thinkingは、ChatGPTにおいてPlus、Pro、Business、Enterpriseユーザーに提供開始された。GPT-5.5 ProはPro、Business、Enterpriseユーザーに限定される。Codexでは、GPT-5.5はPlus、Pro、Business、Enterprise、Edu、Goユーザー向けに提供され、コンテキストウィンドウ(context window)は40万トークン(tokens)。高速モードではコストが2.5倍になる代わりに、トークン生成速度が1.5倍向上する。

API利用料は、コンテキストウィンドウ100万トークンに対し、入力トークン100万あたり5ドル、出力トークン100万あたり30ドルで、それぞれGPT-5.4の2.50ドルと15ドルのちょうど2倍となっている。GPT-5.5 Proは、入力トークン100万あたり30ドル、出力トークン100万あたり180ドルとなる。

OpenAIは、価格が上昇しているもののGPT-5.5はより効率的であり、同等のタスクにはより少ないトーク数で対応できると主張している。無料ユーザーのアクセス開始時期について、現時点で発表はない。APIについては、OpenAIが「非常に近い将来」に提供開始すると述べている。

過剰な宣伝なしのAIニュース|人間が厳選

THE DECODERに登録して、広告なしでの閲覧、週刊AIニュースレター、年6回の限定「AI Radar」フロンティアレポート、アーカイブ全件へのアクセス、コメント欄への参加を楽しんでください。

今すぐ登録する

原文を表示

OpenAI has announced GPT-5.5, an agentic model designed to handle complex tasks autonomously across multiple tools. On paper, it's double the API price.

OpenAI has unveiled GPT-5.5, calling it a "new class of intelligence for real work and powering agents." The model is built to understand complex goals, use tools, check its own output, and work through tasks independently until they're done, OpenAI says. It's available now for paying ChatGPT and Codex users.

*

Agentic workflows are the main selling point

According to OpenAI, GPT-5.5 is especially strong at writing and debugging code, web research, data analysis, creating documents and spreadsheets, and operating software. The model is designed to switch between different tools on its own until a task is finished.

OpenAI sees the biggest improvements in four areas: agentic coding, computer use, knowledge work, and early scientific research. These areas require reasoning across contexts and the ability to carry out actions over extended periods, the company says.

On Terminal-Bench 2.0, a coding benchmark for agentic workflows, GPT-5.5 scores 82.7 percent according to OpenAI—7.6 percentage points above its predecessor GPT-5.4 (75.1 percent). Anthropic's Claude Opus 4.7 hits 69.4 percent, and Google's Gemini 3.1 Pro lands at 68.5 percent.

The gap gets even wider on harder math problems. On FrontierMath Tier 4, GPT-5.5 scores 35.4 percent, compared to 22.9 percent for Claude Opus 4.7 and 16.7 percent for Gemini 3.1 Pro. The Pro variant, GPT-5.5 Pro, pushes that number to 39.6 percent.

OpenAI says GPT-5.5 delivers these performance gains without sacrificing speed. The model reportedly matches GPT-5.4's per-token latency while also using significantly fewer tokens to complete the same Codex tasks.

GPT-5.5

GPT-5.4

GPT-5.5 Pro

GPT-5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE (Internal)

73.1%

68.5%

-

-

-

-

GDPval (wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath Tier 1-3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

OpenAI's benchmark comparison for GPT-5.5. GPT-5.5 Pro was only tested on selected benchmarks. | Table: OpenAI*

Long-context performance also improved significantly. On the MRCR v2 benchmark, which tests how reliably a model can locate multiple pieces of hidden information across very long texts, GPT-5.5 jumps to 74.0 percent at context lengths of 512K to 1M tokens, up from 36.6 percent for GPT-5.4. On the Graphwalks BFS test with one million tokens, GPT-5.5 leaps from 9.4 percent (GPT-5.4) to 45.4 percent.

The dominance isn't total, though. On SWE-Bench Pro, which tests real GitHub issue resolution, Claude Opus 4.7 beats GPT-5.5 with 64.3 percent versus 58.6 percent. OpenAI notes, however, that Anthropic itself acknowledged signs of memorization in some of those tasks.

On MCP Atlas, a tool-use benchmark run by Scale AI, GPT-5.5 scores 75.3 percent, trailing both Claude Opus 4.7 (79.1 percent) and Gemini 3.1 Pro (78.2 percent). The base model also falls slightly behind Gemini on BrowseComp, a web research benchmark, with 84.4 percent versus 85.9 percent.

And GPT-5.5 barely moved the needle on GDPval, a benchmark designed to measure real-world task performance across 44 occupations. GPT-5.5 scores 84.9 percent, only a marginal improvement over GPT-5.4's 83.0 percent. A full overview of all benchmarks is available here.

The model was developed and optimized alongside NVIDIA GB200 and GB300-NVL72 systems. OpenAI says GPT-5.5 and Codex actually helped optimize the company's own serving infrastructure—Codex analyzed production traffic patterns and wrote its own heuristic algorithms for load balancing, resulting in an over 20 percent boost in token generation speed. "The model helped improve the infrastructure that serves it," OpenAI writes.

GPT-5.5 Pro aims to be a "research partner"

Alongside the standard model, OpenAI is launching GPT-5.5 Pro. The company says full-stack inference improvements make the more powerful model much more practical for heavy workloads. Early testers called it an iterative "research partner" that performs best when given rich context from documents and plugins.

So far, OpenAI has only shared GPT-5.5 Pro benchmark results for three of nine tests: BrowseComp, FrontierMath Tier 1-3, and FrontierMath Tier 4. It beats the base model in all three.

Cybersecurity capabilities rated "High"

OpenAI classifies the biological, chemical, and cybersecurity capabilities of GPT-5.5 as "High" in its Preparedness Framework, the same rating as its recent predecessors, but not "Critical." The model shows improved cybersecurity performance compared to GPT-5.4, scoring 81.8 percent on the CyberGym benchmark (versus 79.0 percent) and 88.1 percent on internal capture-the-flag tasks (versus 83.7 percent).

At the same time, OpenAI is rolling out stricter classifiers for potential cyber risk, which could initially lead to more rejections, the company says. The Trusted Access for Cyber program will give verified security researchers expanded access to cybersecurity capabilities. OpenAI is also working with government partners to protect critical infrastructure. A system card with additional security details is available here.

Paying users get access first; API pricing doubles over GPT-5.4

GPT-5.5 Thinking is now available for Plus, Pro, Business, and Enterprise users in ChatGPT. GPT-5.5 Pro is limited to Pro, Business, and Enterprise users. In Codex, GPT-5.5 is available for Plus, Pro, Business, Enterprise, Edu, and Go users with a 400K context window. A fast mode generates tokens 1.5 times faster at 2.5 times the cost.

For the API, OpenAI is charging 5 dollars per million input tokens and 30 dollars per million output tokens, with a context window of one million tokens, exactly twice what GPT-5.4 costs at 2.50 and 15 dollars, respectively. GPT-5.5 Pro lands at 30 dollars per million input tokens and 180 dollars per million output tokens.

OpenAI argues that despite the higher price tag, GPT-5.5 is more efficient and needs fewer tokens for comparable tasks. There's no word yet on when free users will get access. As for the API, OpenAI says that it's coming "very soon."

AI News Without the Hype – Curated by Humans

Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.

Subscribe now

この記事をシェア

関連記事

MIT ML News★42026年6月4日 06:00

「バトルシップ」ゲームを通じて AI エージェントにより良い質問をさせる方法を教える

MIT の研究者らが、不確実な環境で広範な解決策を尋ねる必要がある医療診断や科学発見の課題に対し、AI エージェントがより効果的な質問を行う能力を向上させる手法として「バトルシップ」ゲームを活用する研究を発表した。

The Verge AI★42026年6月6日 21:00

再び登場する新しいSiri

アップルは過去数年間、AI分野で苦戦を強いられてきたが、WWDCで新Siriの再導入を発表し、逆転を狙う動きを見せた。

Sebastian Raschka★42026年6月6日 20:16

LLM 研究論文:2026 年 1 月から 5 月のリスト

Sebastian Raschka が、2026 年上半期(1 月〜5 月)に注目すべき大規模言語モデル関連の研究論文を選定し、一覧として公開した。

ニュース一覧に戻る元記事を読む