AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
The Decoder·2026年4月22日 04:55·約7分で読める

OpenAI「ChatGPT Images 2.0」は生成前に推論し、画像作成に思考機能とウェブ検索を追加

#マルチモーダルAI#画像生成モデル#推論機能#OpenAI#ChatGPT Images 2.0
TL;DR

OpenAIはChatGPT Images 2.0に推論機能とウェブ検索を追加し、単一プロンプトから最大8枚の一貫性のある画像を生成可能にし、特に非ラテン文字のテキスト処理能力を大幅に向上させた。

AI深層分析2026年4月22日 06:10
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

推論機能とウェブ検索の統合

画像生成プロセスに事前推論とリアルタイムウェブ検索を組み込み、プロンプトの意図をより正確に把握する。

2

複数画像の一貫性生成

単一プロンプトから最大8枚の視覚的・構成的に統一された画像を生成できるようになった。

3

テキストレンダリングの大幅改善

一般的な文字処理に加え、漢字やアラビア語などの非ラテンスクリプトの表示精度が著しく向上した。

影響分析・編集コメントを表示

影響分析

画像生成AIに推論と検索を組み込む試みは、単なる視覚的クオリティ向上を超え、プロンプトの文脈理解と事実整合性を重視する次世代マルチモーダルモデルへの転換点を示している。特に非ラテン文字の処理改善は、OpenAIのグローバル市場での実用性を高め、クリエイターや開発者のワークフローを効率化する可能性がある。

編集コメント

画像生成に推論と検索を組み込むのは理にかなった進化だが、実際の出力品質とコスト増のバランスが今後の課題となる。クリエイターは新機能を積極的に試すことで、ワークフローの最適化が可能になるだろう。

OpenAIは、ChatGPT Images 2.0の画像生成モデルに推論(reasoning)機能とウェブ検索(web search)を追加しました。このモデルは、1つのプロンプトから最大8枚の一貫性のある画像を生成できるようになり、テキストの処理能力が大幅に向上しました。特にラテン文字以外のスクリプトにおけるテキストの扱いが改善されています。

Update:

OpenAIの新しい画像モデルが正式公開されました。ChatGPT Images 2.0は新モデル「GPT Image 2」で動作し、GoogleのNano Banana Proと同じ中核機能を共有しています。このモデルは生成前に「考える」プロセスを経るため、選択したモードに応じて推論に費やす時間が異なり、その過程でウェブ検索を実行することさえ可能です。

同社のブログ投稿によると、これにより生成される画像の多様性と精度が向上するとされています。なお、推論機能付きの拡張出力は、ChatGPT Plus、Pro、Businessのユーザーにのみ提供されます。

思考モード(thinking mode)を有効にすると、ChatGPT Images 2.0は1つのプロンプトから最大8枚の画像を一度に生成できます。キャラクター、オブジェクト、スタイルはすべてのシーンで一貫して維持されるよう設計されています。OpenAIは、1枚の画像とテキストプロンプトから生成されたページ数の多いマンガ、ソーシャルメディア用のグラフィックシリーズ、そして家の異なる部屋のデザインプランを、代表的な使用例として挙げています。

すべてのユーザーが画像品質の向上を享受

思考モードの有無にかかわらず、すべてのChatGPTユーザーが画像品質の向上を受け取ります。OpenAIによると、この生成器は現在、「写真の特徴的な特徴」をより正確に捉えるようになり、ピクセルアート(pixel art)、マンガ、フィルムスチール(film stills)、その他の画像タイプにおいて改善がもたらされています。また、このモデルは以前の画像モデルが一貫して苦手としていた細かな要素の処理にも最適化されています。具体的には、小さなテキスト、アイコノグラフィ(iconography)、UI要素(UI elements)、密度の高い構図(dense compositions)、そして微妙なスタイル指示などです。

アスペクト比(Aspect ratio)のサポートは3:1(超ワイド)から1:3(超タテ)まで幅広く、バナーやプレゼンテーションスライドからモバイル画面までのフォーマットをカバーします。APIを通じた解像度は最大2Kまで対応しています。

APIの価格はトークンベースで品質に連動

開発者は「gpt-image-2」という名称でAPI経由し、自社製品にこのモデルを組み込むことができます。OpenAIの課金はトークンベース(token-based)で行われ、画像入力トークンは100万トークンあたり8ドル、画像出力トークンは同30ドルです。テキストトークンの入力は100万トークンあたり5ドル、出力は同10ドルです。キャッシュされた入力(Cached inputs)はより安価に設定されています。

実際、画像あたりのコストは品質と解像度によって大きく異なります。OpenAIの価格表によると、低画質の1024 x 1024画像はわずか0.006ドル、中画質で0.053ドル、高画質で0.211ドルです。1024 x 1536のような大きな解像度は、それぞれ0.005ドル、0.041ドル、0.165ドルと、実はやや安価に設定されています。

モデル

品質

1024 x 1024

1024 x 1536

1536 x 1024

GPT Image 2

低

$0.006

$0.005

$0.005

利用可能な追加サイズ

中

$0.053

$0.041

$0.041

高

$0.211

$0.165

$0.165

GPT Image 1.5

低

$0.009

$0.013

$0.013

中

$0.034

$0.05

$0.05

高

$0.133

$0.2

$0.2

より大きな解像度では、GPT Image 2は過去モデルより安価です。高品質設定の1024 x 1536は0.165ドルで、GPT Image 1.5の0.20ドルやGPT Image 1.5の0.25ドルと比較して低価格です。ただし、標準的な1024 x 1024解像度で高品質設定の場合、新モデルはGPT Image 1.5の0.133ドルに対して0.211ドルと、実際には高価になります。2K以上のAPI(Application Programming Interface)出力は現在ベータ版であり、結果が不安定になる可能性があります。

OpenAIは、地域特化型広告、インフォグラフィックス(情報図表)、教育コンテンツ、デザインツール、クリエイティブプラットフォームを主なユースケースとして挙げています。Codexでは、個別のAPIキーなしでワークスペース内で直接画像生成を利用できます。

当社のベンチマークプロンプトにおけるChatGPT Image 2の性能は素晴らしいものです。インスタンモードと思考(Thinking)モードの両方とも、複雑で抽象的なプロンプトに対して細部への強いこだわりを持って処理しています。

超写実的なデジタル一眼レフカメラ(DSLR)写真。前景にはピンクのバナナを持った猿がトラに乗っています。背景では、馬(HORSE)が宇宙飛行士(ASTRONAUT)に乗っています。宇宙飛行士は生きた「スペーススーツ馬用サドル」のように下に位置し、馬(HORSE)は明らかに上にあり、乗馬者として制御しています。100%明確にしてください:馬(HORSE)が乗馬者で、宇宙飛行士(ASTRONAUT)が乗られている側であり、逆ではありません。高解像度、シャープな焦点、写実的な照明。

インスタンモードの出力は少し人工的な印象がありますが、思考バージョンはDSLR品質の外観をより正確に再現しています。

標準画像生成(Standard Image Generation)

思考画像生成(Thinking Image Generation)

元記事:(Original article:)

OpenAIの新しいChatGPT画像モデルは間もなく登場します。コードネーム「gpt-image-2」で、すでに一部のChatGPTテスターに提供され、リーダーボードにも登場しています。

多くの生成画像が本物の写真と見分けがつかないほどであり、XやRedditで公開されています。

これまでのところ、アクセスは米国在住のテスターまたは米国のアカウントを持つユーザーに限定されているようです。

GPT-Image 2で作成されたフェイク画像:MicrosoftのCEOナデラが、Google ChromeはEdgeを通じて最も頻繁にダウンロードされているとするチャートを誇らしげに見せている。| 画像:via X

このモデルは、詳細なスクリーンショットを含むテキスト付きの複雑な画像や図表において、大幅に強力であると言われています。インフォグラフィックスなど、正確なテキストレンダリングが重要な広告や教育用途に最適です。

OpenAIは、新しい画像モデルのライブ配信(livestream)を、AI生成のスクリーンショットで予告しました。| 画像:OpenAI

また、このモデルは「AI特有の外観」("AI look")を修正するとも言われています。これはGPT-image 1.5で見られた、過度に滑らかな肌と完璧な照明のことで、当時GoogleのNano Banana Proが明確な優位を持っていました。

OpenAIは今夜、午後0時(太平洋時間)から始まるライブ配信でこのモデルを公開します。

過剰な宣伝なしのAIニュース – 人間がキュレーション(AI News Without the Hype – Curated by Humans)

広告なし閲覧、週刊AIニュースレター、年6回の独占「AI Radar」フロンティアレポート、アーカイブフルアクセス、コメント欄へのアクセスを提供するTHE DECODERを購読してください。

今すぐ購読する(Subscribe now)

原文を表示

OpenAI is adding reasoning and web search to its ChatGPT Images 2.0 image generator. The model can now create up to eight consistent images from a single prompt and handles text in general, and especially in non-Latin scripts, significantly better.

Update:

OpenAI's new image model is official. ChatGPT Images 2.0 runs on the new GPT Image 2 model and shares the same core capability as Google's Nano Banana Pro: the model "thinks" before it generates, spending more or less time reasoning depending on the selected mode, and can even search the web during that process.

According to a blog post from the company, this should lead to greater variety and accuracy in generated images. Extended outputs with thinking are only available to ChatGPT Plus, Pro, and Business users, though.

With thinking mode enabled, ChatGPT Images 2.0 can generate up to eight images at once from a single prompt. Characters, objects, and styles are supposed to stay consistent across all scenes. OpenAI lists page-long mangas generated from a single picture and a text prompt, series of social media graphics, and design plans for different rooms in a house as example use cases.

All users get better image quality

Regardless of thinking mode, all ChatGPT users get improvements to image quality. OpenAI says the generator now better captures the "characteristic features of photos" and delivers improvements for pixel art, manga, film stills, and other image types. The model is also designed to handle fine-grained elements that previous image models consistently struggled with: small text, iconography, UI elements, dense compositions, and subtle stylistic instructions.

Aspect ratio support ranges from 3:1 (ultra-wide) to 1:3 (ultra-tall), covering formats from banners and presentation slides to mobile screens. Resolution goes up to 2K through the API.

API pricing is token-based and tied to quality

Developers can plug the model into their own products via the API under the name gpt-image-2. OpenAI charges on a token basis: $8 per million image input tokens and $30 per million image output tokens. Text tokens cost $5 (input) and $10 (output) per million. Cached inputs are cheaper.

In practice, per-image costs vary widely depending on quality and resolution. According to OpenAI's pricing overview, a 1024 x 1024 image at low quality costs just $0.006, at medium quality $0.053, and at high quality $0.211. Larger resolutions like 1024 x 1536 actually come in slightly cheaper at $0.005, $0.041, and $0.165, respectively.

Model

Quality

1024 x 1024

1024 x 1536

1536 x 1024

GPT Image 2

Low

$0.006

$0.005

$0.005

Additional sizes available

Medium

$0.053

$0.041

$0.041

High

$0.211

$0.165

$0.165

GPT Image 1.5

Low

$0.009

$0.013

$0.013

Medium

$0.034

$0.05

$0.05

High

$0.133

$0.2

$0.2

At larger resolutions, GPT Image 2 is cheaper than its predecessors: 1024 x 1536 at high-quality costs $0.165, compared to $0.20 for GPT Image 1.5 and $0.25 for GPT Image 1.5. At the standard 1024 x 1024 resolution in high quality, however, the new model is actually more expensive at $0.211 versus $0.133 for GPT Image 1.5. API outputs above 2K are still in beta and may produce inconsistent results.

OpenAI highlights localized advertising, infographics, educational content, design tools, and creative platforms as target use cases. In Codex, image generation will be available directly in the workspace without a separate API key.

In our own benchmark prompt, ChatGPT Image 2 does a great job. Both modes - instant and thinking - handle the complex, abstract prompt with strong attention to detail.

A hyper-realistic DSLR photo. A monkey holding a pink banana is sitting on a tiger in the foreground. In the background, a HORSE is RIDING AN ASTRONAUT. The astronaut is underneath like a living "spacesuit horse saddle," and the HORSE is clearly on top, in control, as the rider. Make it 100% unambiguous: the HORSE is the rider and the ASTRONAUT is being ridden, NOT the other way around. High-resolution, sharp focus, realistic lighting.

The instant mode output has a slightly artificial look to it, while the thinking version nails the DSLR-quality look much better.

Standard Image Generation

Thinking Image Generation

Original article:

OpenAI's new ChatGPT image model is almost here. Codenamed "gpt-image-2," it's already with select ChatGPT testers and appearing on leaderboards. Recent generations—many nearly indistinguishable from real photos—have surfaced on X and Reddit. So far, access appears limited to testers in the US or with US-based accounts.

A fake image made with GPT-Image 2: Microsoft's CEO Nadella proudly shows off a chart claiming Google Chrome is downloaded most often through Edge. | Image: via X

The model is reportedly much stronger at complex images and diagrams with text, including detailed screenshots; a good fit for advertising and educational use cases like infographics, where reliable text rendering matters.

OpenAI teased the livestream for its new image model with an AI-generated screenshot. | Image: OpenAI

The model is also said to fix the telltale "AI look:" the overly smooth skin and perfect lighting that still showed up in GPT-image 1.5, where Google's Nano Banana Pro held a clear edge. OpenAI will unveil the model tonight in a livestream starting at 12 pm PT.

AI News Without the Hype – Curated by Humans

Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.

Subscribe now

この記事をシェア

関連記事

OpenAI News★42026年4月22日 19:00

Responses APIにおけるWebSockets活用によるエージェントワークフローの高速化

OpenAIはCodexエージェントループにおいてWebSocketsと接続スコープのキャッシュを活用し、APIオーバーヘッドを削減してモデル応答速度を向上させた。

Latent Space★42026年4月28日 14:38

【AIニュース】ImageGenはAGIへの道を進んでいる

AnthropicのようなエンタープライズAI重視の潮流の中で、GPT-Image-2は創造的な応用を推進し、AGI実現への重要な一歩を示している。

AI Business★42026年4月22日 21:44

ChatGPT画像生成ツールが「思考」機能を搭載して強化

ChatGPT開発元のOpenAIは、主力画像生成モデルを「思考」機能を追加して強化し、品質向上を進めている。

ニュース一覧に戻る元記事を読む