ChatGPTの新画像生成モデル「Images 2.0」、テキスト生成能力が驚くほど高い
OpenAIが公開した画像生成モデル「Images 2.0」は、画像内にテキストを正確に描画する能力において顕著な進歩を示しており、近年のAI技術の急速な進化を証明している。
キーポイント
画像内テキスト生成精度の飛躍
従来のAI画像生成モデルが苦手としていた「画像内文字の描画」において、Images 2.0は驚くべき精度と一貫性を実現した。
AI技術の成熟度を象徴する指標
OpenAIは本モデルを通じて、過去数年間で画像生成AIの能力がどのように進化・安定化してきたかを明示的に示している。
実用シーンでの適用可能性向上
テキストの正確な出力により、デザイン制作やマーケティング素材作成など、実務現場でのAIツールの採用ハードルが低下している。
影響分析・編集コメントを表示
影響分析
画像内テキスト生成の精度向上は、AI画像ツールの実用性を決定づける重要な分水嶺である。OpenAIがImages 2.0でこの課題を解決したことは、クリエイティブ業界やマーケティング現場におけるAIツールの採用ハードルを下げ、競争環境をさらに激化させる要因となる。今後は他の主要AIベンダーも同様の機能強化に注力し、マルチモーダル生成の標準化が加速すると予想される。
編集コメント
画像内の文字生成精度は実用化の鍵となる指標であり、Images 2.0の発表は業界標準を再定義する可能性を秘めている。ただし、提供された記事内容が極めて簡潔であるため、詳細なベンチマークや比較データが公開され次第、より深い分析が必要となる。
以前は、人間が作成した画像とAI生成の画像を見分けるのは十分容易だった。ちょうど2年前、メキシコ料理店のメニューを作成しようとして画像モデルを使っても、「エンチータ」「チュリロス」「バート」「マルガリータ」のような新しい料理を勝手に発明する以外に、まともなメニューは作れなかったものだ。
現在、最新のChatGPT Images 2.0モデルにメキシコ料理のメニューを作成してほしいと依頼すると、顧客が何かおかしいことに気づかないまますぐにレストランで使えるようなものを生成する。(ただし、13.50ドルのセビーチェを見ると魚の品質を疑ってしまうかもしれないが。)
Image Credits:ChatGPT Images 2.0
比較のため、2年前にDALL-E 3から得た結果を以下に示す(当時、ChatGPTは画像を生成していなかった):
Image Credits:Microsoft Designer (DALL-E 3)
AI画像生成モデルは歴史的に文字の綴りに苦戦してきた。これは、ノイズから画像を再構築する方式で動作する拡散モデル(diffusion models)が一般的に使用されていたためである。
「拡散モデルは…与えられた入力を再構築しています」と、2024年にTechCrunchの取材に応じたLesan AI創設者兼CEOのアスメラッシュ・テカ・ハドグ氏は語った。「画像内の文字は非常にわずかな部分であるとみなせるため、画像生成モデルはより多くのピクセルをカバーするパターンを学習します。」
その後、研究者たちは画像生成のための他のメカニズム、例えば画像がどのように見えるべきかを予測し、大規模言語モデル(LLM)のように機能する自己回帰モデル(autoregressive models)の探索を進めてきた。
残念ながら、OpenAIは今週の記者説明会で、ChatGPT Images 2.0を動かしているモデルの種類について質問に答えることを拒否した。
Techcrunch event
San Francisco, CA |
October 13-15, 2026
同社はしかし、新モデルに「思考機能」があることを説明した。これによりウェブ検索が可能になり、1つのプロンプトから複数の画像を生成でき、作成物をダブルチェックできる。これによりImages 2.0は、さまざまなサイズのマーケティング素材や、複数パネルのコミックストリップを作成できる。
OpenAIはまた、Imagesが日本語、韓国語、ヒンディー語、ベンガル語などの非ラテン文字のレンダリングをより強く理解していることも明らかにした。このモデルの知識は2025年12月で終了しており、最近のニュースに関する特定のプロンプトを生成する精度に影響を与える可能性がある。
「Images 2.0は、画像作成において前例のないレベルの特定性と忠実性をもたらします。より洗練された画像を概念化するだけでなく、そのビジョンを実際に効果的に具現化し、指示に従い、要求された詳細を保持し、画像モデルがしばしくたびってしまう細かな要素(小さな文字、アイコン、UI要素、密集した構成、微妙なスタイル制約)を最高2K解像度でレンダリングできます」と、OpenAIはプレスリリースで述べた。
これらの機能により、画像生成はChatGPTへの質問入力ほど迅速ではないが、複数パネルのコミックのような複雑なものを生成するにしても、わずか数分で完了する。
今週火曜日より、すべてのChatGPTおよびCodexユーザーがImages 2.0にアクセス可能になります。有料プランのユーザーは、より高度な出力(outputs)を生成できます。同社はまた、gpt-image-2 Application Programming Interface(API)も提供開始し、出力の品質と解像度(resolution)に応じて価格を設定します。
当記事内のリンクを通じてご購入いただいた場合、当社には少額のコミッションが発生する場合があります。これは当社の編集の独立性(editorial independence)に影響しません。
Amanda Silberlingは、テクノロジーと文化の交差点を扱うTechCrunchのシニアライターです。Polygon、MTV、Kenyon Review、NPR、Business Insiderなどの出版物でも執筆経験があります。また、SF作家のIsabel J. Kimと共に、インターネット文化を扱うポッドキャスト「Wow If True」の共同ホストを務めています。TechCrunch入社以前は、草の根活動のオーガナイザー、博物館教育者、映画祭コーディネーターとして活動しました。ペンシルベニア大学から英語の文学士(B.A.)を取得し、ラオスでPrinceton in Asia Fellowを務めました。
Amandaへの連絡、または彼女からのメッセージの真偽確認は、amanda@techcrunch.com へのメール、またはSignal上の暗号化メッセージ @amanda.100 経由で行えます。
プロフィールを表示
原文を表示
It used to be easy enough to distinguish between human-made and AI-generated imagery — just two years ago, you couldn’t use image models to create a menu for a Mexican restaurant without inventing new culinary delights like “enchuita,” “churiros,” “burrto,” and “margartas.”
Now, when I ask the brand new ChatGPT Images 2.0 model for a menu of Mexican food, it creates something that could immediately be used in a restaurant without customers noticing that something’s off. (However, ceviche priced at $13.50 might make me question the quality of the fish.)
Image Credits:ChatGPT Images 2.0
For comparison, here’s the result I got from DALL-E 3 two years ago (at the time, ChatGPT did not generate images):
Image Credits:Microsoft Designer (DALL-E 3)
AI image generators have historically struggled to spell because they generally used diffusion models, which work by reconstructing images from noise.
“The diffusion models […] are reconstructing a given input,” Asmelash Teka Hadgu, founder and CEO of Lesan AI, told TechCrunch in 2024. “We can assume writings on an image are a very, very tiny part, so the image generator learns the patterns that cover more of these pixels.”
Researchers have since explored other mechanisms for image generation, like autoregressive models, which make predictions about what an image should look like and function more like an LLM.
Unfortunately, OpenAI declined to answer a question in a press briefing this week about what kind of model is powering ChatGPT Images 2.0.
Techcrunch event
San Francisco, CA
|
October 13-15, 2026
The company did, however, explain that the new model has “thinking capabilities,” which give it the ability to search the web, make multiple images from one prompt, and double-check its creations — this allows Images 2.0 to create marketing assets in various sizes, as well as multi-paneled comic strips.
OpenAI also says that Images has a stronger understanding of non-Latin text rendering in languages like Japanese, Korean, Hindi, and Bengali. The model’s knowledge cuts off in December 2025, which could impact how accurately it can generate certain prompts involving recent news.
“Images 2.0 brings an unprecedented level of specificity and fidelity to image creation. It can not only conceptualize more sophisticated images, but it actually brings that vision to life effectively, able to follow instructions, preserve requested details, and render the fine-grained elements that often break image models: small text, iconography, UI elements, dense compositions, and subtle stylistic constraints, all at up to 2K resolution,” OpenAI said in a press release.
These capabilities mean that image generation isn’t as rapid as typing a question to ChatGPT, but generating something complex like a multi-paneled comic still takes just a few minutes.
All ChatGPT and Codex users will be able to access Images 2.0 starting Tuesday; paid users will be able to generate more advanced outputs. The company will also make the gpt-image-2 API available, with pricing dependent on the quality and resolution of outputs.
When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.
Amanda Silberling is a senior writer at TechCrunch covering the intersection of technology and culture. She has also written for publications like Polygon, MTV, the Kenyon Review, NPR, and Business Insider. She is the co-host of Wow If True, a podcast about internet culture, with science fiction author Isabel J. Kim. Prior to joining TechCrunch, she worked as a grassroots organizer, museum educator, and film festival coordinator. She holds a B.A. in English from the University of Pennsylvania and served as a Princeton in Asia Fellow in Laos.
You can contact or verify outreach from Amanda by emailing amanda@techcrunch.com or via encrypted message at @amanda.100 on Signal.
View Bio
関連記事
ChatGPT Images 2.0の発表
OpenAIはChatGPT Images 2.0として、テキスト描画精度の向上、多言語対応、高度な視覚推論機能を備えた最新画像生成モデルを発表した。
元OpenAI研究者のジェリー・トゥロレク氏、世界で最も自動化されたAIラボ「Core Automation」を設立
元OpenAI研究者のジェリー・トゥロレク氏は、小規模チームと新学習手法で現在のAIアーキテクチャの限界を突破する目的で、新ラボ「Core Automation」を設立した。
OpenAI、ChatGPTをチャットボットからチーム自動化プラットフォームへ進化させる「ワークスペースエージェント」を発表
OpenAIはChatGPTに「ワークスペースエージェント」を導入し、Codexの技術でチームの複雑な業務を自律的に自動化する。既存のCustom GPTは当面維持し、移行方法は後日公開する。