AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
The Decoder·2026年4月25日 00:20·約3分で読める

GPT-5.5はベンチマークで最高スコアを記録するも頻繁に幻覚が発生し、API利用料は20%値上げ

#大規模言語モデル#API価格戦略#ベンチマーク分析#OpenAI#トークン効率化
TL;DR

GPT-5.5は人工知能ベンチマークで首位を記録し、トークン効率の向上により実質コストは約20%増に抑えられているものの、コーディングやエージェント作業では競合モデルと互角以上でありながら頻繁なハルシネーション問題を抱えている。

AI深層分析2026年4月25日 00:50
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

API価格とトークン効率の相殺効果

GPT-5.5のAPI単価はGPT-5.4比で倍増しているが、出力に使用するトークン数が約40%減少したため、実質的なコスト上昇は約20%に収まっている。

2

ベンチマーク首位と競合とのスコア差

Artificial Analysis Intelligence Indexで60点を記録し、Claude Opus 4.7やGemini 3.1 Pro Preview(ともに57点)を3点差で上回り、総合ランキングで首位に返り咲いた。

3

計算規模別のコストパフォーマンス特性

中規模計算(medium compute)では、Claude Opus 4.7の最大スコアを約1/4のコスト($1,200)で達成し、Gemini 3.1 Pro Previewはさらに低コスト($900)で同等のスコアを記録する。

4

用途特化型の性能差と実運用の乖離

ベンチマーク数値だけでは捉えきれず、Geminiは日常業務やビジョンタスクに強く、OpenAIおよびAnthropicの最新モデルはコーディングとエージェント作業で優位にある。

影響分析・編集コメントを表示

影響分析

GPT-5.5の登場は、API単価の上昇をトークン削減で相殺する新たな価格競争を定義づける。ベンチマーク首位の座は維持しているものの、ハルシネーションや用途特化型の性能差を考慮すると、開発者は単なるスコアではなく実際のワークロードとコストパフォーマンスに基づいてモデルを選択する必要がある。

編集コメント

ベンチマーク首位の座を維持しつつも「ハルシネーション」という根本課題が残る点は、実務導入における慎重な検証を促す。開発者はスコアだけでなく、具体的なユースケースとトークン消費量を組み合わせた総コストで評価するべきだろう。

GPT-5.5はAPI経由でGPT-5.4より約20%高価です。このモデルはAIランキングで首位を占めますが、ハルシネーション(hallucination)の問題を抱えています。

紙面上では、GPT-5.5のAPI価格は5.4と比較して、入力・出力トークン(tokens)100万個あたりそれぞれ5ドルと30ドルに倍増している。しかしベンチマークサービス(benchmarking service)Artificial Analysisの分析によると、このモデルは約40%少ないトークン量で動作するため、実質的な価格上昇幅は約20%に抑えられている。これはAnthropicのOpus 4.7よりも低い上昇幅であり、同モデルは前作と同じ価格を提示しながらも35〜40%*多く*のトークンを消費する。GPT-5.5はまた、OpenAIをAIランキングの首位に戻し、Artificial Analysis Intelligence Indexで3ポイント差をつけてリードしている。

GPT-5.5は60ポイントでArtificial Analysis Intelligence Indexの首位に立ち、57ポイントで同率のClaude Opus 4.7とGemini 3.1 Pro Previewを3ポイント上回っている。 | Image: Artificial Analysis

高いコストパフォーマンスだが、ベンチマーク(benchmarks)は物語の一部しか語らない

中程度の計算リソース(compute)において、GPT-5.5はClaude Opus 4.7が最大リソースで出すスコアに、コストの4分の1(約4,800ドルではなく約1,200ドル)で追いつく。GoogleのGemini 3.1 Pro Previewはさらに安価な約900ドルで同等の数値を達成している。ただしベンチマークは全てを物語らない:当社のテストと開発者からのフィードバックによれば、GeminiはGoogle製品全体での日常的な汎用性とビジョンタスク(vision tasks)で特に輝きを放つ一方、最新のOpenAIおよびAnthropicのモデルはコーディングやエージェントワーク(agentic work)においてそれを上回る傾向がある。

GPT-5.5はGPT-5.4と比較して約40%少ないトークン(tokens)を使用し、散布図(scatter plot)において最も魅力的な象限(高知能かつ比較的低いトークン消費)に位置している。Claude Opus 4.7やGPT-5.4 miniは同等の結果を得るために、はるかに多くの出力トークン(output tokens)を必要とする。| Image: Artificial Analysis

Hallucinations remain the weak spot

OpenAIの新モデルは幻覚(hallucinations)において苦戦している。事実の想起を評価し、誤答を減点するArtificial AnalysisのAA Omniscienceベンチマークにおいて、GPT-5.5はどのモデルよりも高い精度である57%を記録している。しかしその幻覚発生率は86%に達しており、Claude Opus 4.7の36%やGemini 3.1 Pro Previewの50%と比較して大幅に高い。このベンチマークにおけるGPT-5.4からの14ポイントの向上は、主に事実想起能力の改善によるものであり、幻覚に関する改善は限定的だった。

GPT-5.5はあらゆるモデルの中で最も高い精度(accuracy)である57%を記録していますが、同時に86%という極めて高い幻覚発生率(hallucination rate)も示しています。Claude Opus 4.7の幻覚発生率は36%であり、はるかに少ない頻度で幻覚(hallucination)を起こします。| 画像:Artificial Analysis

判断を保留するか不確実性を認めるべき時を知ることは、人工知能(AI)モデルに求められる重要な特性です。この基準で測ると、GPT-5.5は前進というより後退に見えるようです。

hype(過熱)のないAIニュース – 人間が厳選

THE DECODERに登録して、広告なしの読書体験、週刊AIニュースレター(newsletter)、年6回の限定「AI Radar」フロンティアレポート(frontier report)、アーカイブへの完全アクセス、そしてコメント欄へのアクセスをお楽しみください。

今すぐ登録する

原文を表示

GPT-5.5 costs about 20 percent more than GPT-5.4 over the API. The model tops the AI rankings, but it has a hallucination problem.

On paper, GPT-5.5's API price has doubled to $5 and $30 per million input and output tokens compared to 5.4. But according to benchmarking service Artificial Analysis, the model uses about 40 percent fewer tokens, bringing the net price hike down to roughly 20 percent. That's still a smaller jump than Anthropic's Opus 4.7, which lists at the same price as its predecessor but burns through 35 to 40 percent *more* tokens. GPT-5.5 also puts OpenAI back on top of the AI rankings, leading the Artificial Analysis Intelligence Index by three points.

GPT-5.5 tops the Artificial Analysis Intelligence Index with 60 points, three points ahead of Claude Opus 4.7 and Gemini 3.1 Pro Preview, which are tied at 57. | Image: Artificial Analysis

Strong price-performance, but benchmarks only tell part of the story

At medium compute, GPT-5.5 matches the score Claude Opus 4.7 puts up at maximum for a quarter of the cost: around $1,200 instead of $4,800. Google's Gemini 3.1 Pro Preview hits comparable numbers even cheaper, at around $900. But benchmarks don't tell the whole story: Our tests and developer feedback suggest Gemini mainly shines at everyday versatility across Google products and at vision tasks, while the latest OpenAI and Anthropic models tend to outperform it on coding and agentic work.

Hallucinations remain the weak spot

OpenAI's new model stumbles on hallucinations. On Artificial Analysis' AA Omniscience benchmark, which rewards factual recall and penalizes wrong answers, GPT-5.5 posts the highest accuracy of any model at 57 percent. But its hallucination rate sits at 86 percent, compared to 36 percent for Claude Opus 4.7 and 50 percent for Gemini 3.1 Pro Preview. The 14-point jump over GPT-5.4 on this benchmark came mostly from better factual recall, with only modest gains on hallucination.

Knowing when to pass or admit uncertainty is a trait you want in an AI model. By that measure, GPT-5.5 looks more like a step backward than a step forward.

AI News Without the Hype – Curated by Humans

Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.

Subscribe now

この記事をシェア

関連記事

TechCrunch AI★42026年4月24日 03:29

OpenAIがGPT-5.5をリリースし、同社のAI「スーパーアプリ」への一歩を前進させる

OpenAIは新モデルGPT-5.5をリリースした。同社は複数の機能を統合し、単一プラットフォームで多様なタスクに対応するAI「スーパーアプリ」の実現に近づけている。

The Verge AI★42026年6月9日 06:38

OpenAI、IPO申請を提出しAnthropicに続く

OpenAIは米国証券取引委員会へ非公開で株式上場届出書を提出し、競合のAnthropicに続いてIPO実現に向けた重要な一歩を踏み出した。

OpenAI News★42026年4月23日 20:00

GPT-5.5システムカード

OpenAIはGPT-5.5の性能基準、安全性対策、使用制限を網羅した技術文書「システムカード」を公開し、モデルの運用ガイドラインを示している。

ニュース一覧に戻る元記事を読む