GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現
OpenAIは、従来モデルより高性能かつ低価格な小型マルチモーダルモデル「GPT-5.4 mini」と「GPT-5.4 nano」を発表し、競合他社のモデルを下回る価格設定で画像記述などの実用タスクにおけるコスト効率の大幅向上を示した。
キーポイント
新モデルの発表と性能向上
OpenAIがGPT-5.4シリーズの小型モデル「mini」と「nano」を発表し、nanoは前世代のminiモデルを最大推論努力時に上回る性能を、miniは2倍の速度向上を実現した。
破格的な低価格設定
GPT-5.4-nanoの価格は入力$0.20/出力$1.25で、競合のGoogle Gemini 3.1 Flash-Lite(入力$0.25/出力$1.50)を下回り、業界の価格競争を激化させる可能性がある。
実用的なコスト効率の実証
著者がGPT-5.4-nanoを使用して博物館の写真(2,751入力トークン/112出力トークン)を記述した実例では、コストは0.069セント(1セント未満)と極めて低く、大規模な画像記述タスクの実用化を後押しする。
競合モデルとの明確な比較
記事はClaude Opus/Sonnet/HaikuやGemini Pro/Flash-Liteなど主要競合モデルとの価格比較表を提示し、OpenAIの価格優位性を明確に示している。
影響分析・編集コメントを表示
影響分析
この発表は、生成AI市場における価格競争の新たな段階を示しており、特にマルチモーダルタスクの大規模な商業利用を現実的なコストで可能にする。OpenAIが小型モデルで競合を価格で圧倒する戦略は、市場シェア拡大と開発者コミュニティの囲い込みを意図していると考えられる。
編集コメント
価格破壊的な小型モデルの登場は、生成AIの民主化と実用化を加速させる重要なマイルストーン。特に画像記述などマルチモーダルタスクのコストが劇的に下がることで、新たなビジネスアプリケーションの創出が期待される。
OpenAI は本日、GPT‑5.4 mini と nano の紹介を行いました。これらのモデルは、2 週間前にリリースされた GPT-5.4 に加わるものです。
OpenAI が自己報告したベンチマークでは、最大推論努力で実行した場合、新しい 5.4-nano は以前の GPT-5 mini モデルを上回る性能を示しました。また、新しい mini モデルは以前のミニモデルよりも 2 倍高速です。
価格体系は以下の通りです - gpt-5.4-nano は、Google の Gemini 3.1 Flash-Lite よりもさらに安価であることが際立っています:
Model
Input
Cached input
Output
gpt-5.4
$2.50
$0.25
$15.00
gpt-5.4-mini
$0.75
$0.075
$4.50
gpt-5.4-nano
$0.20
$0.02
$1.25
比較用の他のモデル
Claude Opus 4.6
$5.00
-
$25.00
Claude Sonnet 4.6
$3.00
-
$15.00
Gemini 3.1 Pro
$2.00
-
$12.00
Claude Haiku 4.5
$1.00
-
$5.00
Gemini 3.1 Flash-Lite
$0.25
-
$1.50
私は GPT-5.4 nano を使用して、John M. Mossman Lock Collection で撮影したこの写真の記述を生成しました:

llm -m gpt-5.4-nano -a IMG_2324.jpeg 'describe image'
Here's the output:
The image shows the interior of a museum gallery with a long display wall. White-painted brick walls are covered with many framed portraits arranged in neat rows. Below the portraits, there are multiple glass display cases with dark wooden frames and glass tops/fronts, containing various old historical objects and equipment. The room has a polished wooden floor, hanging ceiling light fixtures/cords, and a few visible pipes near the top of the wall. In the foreground, glass cases run along the length of the room, reflecting items from other sections of the gallery.
That took 2,751 input tokens and 112 output tokens, at a cost of 0.069 cents (less than a tenth of a cent). That means describing every single photo in my 76,000 photo collection would cost around $52.44.
I released llm 0.29 with support for the new models.
Then I had OpenAI Codex loop through all five reasoning effort levels and all three models and produce this combined SVG grid of pelicans riding bicycles (generation transcripts here). I do like the gpt-5.4 xhigh one the best, it has a good bicycle (with nice spokes) and the pelican has a fish in its beak!
タグ:ai, openai, generative-ai, llms, llm, vision-llms, llm-pricing, pelican-riding-a-bicycle, llm-release
原文を表示
OpenAI today: Introducing GPT‑5.4 mini and nano. These models join GPT-5.4 which was released two weeks ago.
OpenAI's self-reported benchmarks show the new 5.4-nano out-performing their previous GPT-5 mini model when run at maximum reasoning effort. The new mini is also 2x faster than the previous mini.
Here's how the pricing looks - gpt-5.4-nano is notably even cheaper than Google's Gemini 3.1 Flash-Lite:
Model
Input
Cached input
Output
gpt-5.4
$2.50
$0.25
$15.00
gpt-5.4-mini
$0.75
$0.075
$4.50
gpt-5.4-nano
$0.20
$0.02
$1.25
Other models for comparison
Claude Opus 4.6
$5.00
-
$25.00
Claude Sonnet 4.6
$3.00
-
$15.00
Gemini 3.1 Pro
$2.00
-
$12.00
Claude Haiku 4.5
$1.00
-
$5.00
Gemini 3.1 Flash-Lite
$0.25
-
$1.50
I used GPT-5.4 nano to generate a description of this photo I took at the John M. Mossman Lock Collection:

llm -m gpt-5.4-nano -a IMG_2324.jpeg 'describe image'
Here's the output:
The image shows the interior of a museum gallery with a long display wall. White-painted brick walls are covered with many framed portraits arranged in neat rows. Below the portraits, there are multiple glass display cases with dark wooden frames and glass tops/fronts, containing various old historical objects and equipment. The room has a polished wooden floor, hanging ceiling light fixtures/cords, and a few visible pipes near the top of the wall. In the foreground, glass cases run along the length of the room, reflecting items from other sections of the gallery.
That took 2,751 input tokens and 112 output tokens, at a cost of 0.069 cents (less than a tenth of a cent). That means describing every single photo in my 76,000 photo collection would cost around $52.44.
I released llm 0.29 with support for the new models.
Then I had OpenAI Codex loop through all five reasoning effort levels and all three models and produce this combined SVG grid of pelicans riding bicycles (generation transcripts here). I do like the gpt-5.4 xhigh one the best, it has a good bicycle (with nice spokes) and the pelican has a fish in its beak!
Tags: ai, openai, generative-ai, llms, llm, vision-llms, llm-pricing, pelican-riding-a-bicycle, llm-release
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み