[AINews] OpenAI launches GPT-Image-2｜【AIニュース】OpenAI、GPT-Image-2を正式リリース | AIニュース最前線

今日、CursorがXaiと交わした600億ドルの取引はほぼ見出しを独占するところでしたが、これは純粋な財務上の話であり（動機に関する妥当な分析はこちら）、私たちは今日のOpenAIによるGPT-Image-2の大きな発表を見出し記事として取り上げます。 Arena（確認済み）でステルスモデルとして数週間にわたる憶測が続いた後、GPT-Image-2がAPIおよびChatGPTで利用可能になり、Thinker（思考型）とNon-thinking（非思考型）の両方のバリアントを備え、Imagegen（画像生成）分野においてNano Banana 2を凌駕するものとなっています。これは、Soraチームの閉鎖と離脱を伴う rumored（噂されている）「集中」スプリントの後にあるため、ImagegenがOpenAIにとって依然として優先事項であることは心強い一方で、ある意味で驚きでもあります。幸いにも、このモデルは非常に、非常に、非常に優れています。本来的に、チームが準備した8つの動画、ならびにブログ投稿、ライブストリーム、およびツイート/ブログ投稿をチェックすることをお勧めします。 ![image](https://substackcdn.com/image/fetch/$s_!Y-b3!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd187fe49-1184-477d-84b8-cbe7d502356e_2188x1604.png) もし単一の最も印象的なデモンストレーションを選ぶなら、それはマトリックスの例におけるテキストの詳細さと一貫性のレベルでしょう。 ![image](https://substackcdn.com/image/fetch/$s_!ZaSz!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5c619373-c1af-4ac0-b85d-f6bb3e4e78fe_1451x2048.png) あるいはカスタム版『どこだウォルドー』： ![image](https://substackcdn.com/image/fetch/$s_!Ba2N!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff5b761b3-ef1e-4fa9-bd8d-7847cf2ac19c_1536x1024.png) 2026年4月20日〜4月21日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、およびDiscordサーバーを調査しましたが、追加の情報は見つかりませんでした。AINewsのウェブサイトでは過去のすべての号を検索できます。念のためお知らせしますが、現在AINewsはLatent Spaceの一部となっています。メール配信頻度のカスタマイズ（購読・解除）が可能です！ AI Twitter 振り返り OpenAIのGPT-Image-2発売と、画像生成が本格的なプロダクトとして再び脚光を浴びる現象 GPT-Image-2は本日最も明確なプロダクト発売と言えます。OpenAIはChatGPT Images 2.0および基盤となるgpt-image-2モデルを、ChatGPT、Codex、API全体に展開しました。このモデルは、テキストレンダリングの強化、レイアウト忠実度、編集機能、多言語サポート、そして画像に対する「思考」能力を強調しています。OpenAIによると、このモデルは「思考」機能を持つモデルと連携させることでウェブ検索が可能になり、複数の候補を生成し、出力を自己検証し、スライド、インフォグラフィック、ダイアグラム、UIモックアップ、QRコードなどのアーティファクトを生成できます（発売スレッド、思考/画像機能の詳細、利用可能性、API投稿参照）。このモデルはすでにFigma、Canva、Firefly、fal、Hermes Agentなどのダウンストリームツールによって統合され始めています。 ベンチマーク結果は、特に実用的な画像タスクにおいて大きな飛躍を示唆しています。Arenaのレポートによると、GPT-Image-2はすべてのImage Arenaリーダーボードで1位を獲得しており、テキストから画像への生成では1512、単一画像の編集では1513、複数画像の編集では1464というスコアを記録し、次のモデルとのテキストから画像への生成におけるElo差は驚くべき+242に達しています（Arenaのまとめ、カテゴリ別内訳、トレンドチャート参照）。独立した反応は同じテーマに収束しました。これは単により美しいアートではなく、UI、モックアップ、ドキュメント、生産性向上のための視覚素材、参照駆動型のデザインループにおいてより実用的なモデルであるという点です（@gdb, @nickaturley, @mark_k, @petergostev）。最も興味深いシステム上の示唆は、画像生成がコーディングエージェントのフロントエンドになりつつあることです。UI仕様を画像として生成し、その後Codexや他のコードエージェントがその視覚的参照に基づいて実装を行います。 エージェントインフラストラクチャ：Hugging Faceのml-intern、Hermes Expansion、そして研究/ランタイムハーネスの台頭 Hugging Faceのml-internは、このセットの中で最も強力なオープンなエージェント・イン・ザ・ループのリリースです。HFはml-internを発表しました。これは、論文の読解、引用グラフの追跡、データセットの収集/整形、トレーニングジョブの実行、実行結果の評価、失敗からの反復といったポストトレーニング研究ループを自動化するオープンソースのエージェントです（発表、@lewtunによるサポート投稿、Clementの枠組み）。報告されている例が注目されるのは、それらが単なるコーディングのデモではなく、エンドツーエンドのループだからです。GPQAの科学的推論は、Qwen3-1.7B上で10時間以内に10%から32%に改善しました。また、医療環境ではCodexをHealthBenchで60%上回る結果を報告しており、数学環境では完全なGRPOスクリプトを作成し、アブレーション（ablation）を通じて報酬崩壊から回復しました。コミュニティのテストでは、自律的にファインチューニングを行い、成果物をHubに公開できることがすぐに示されました（SAMのファインチューニングに関する例の実行）。 Hermesは、より豊かなローカル/オープンなエージェントプラットフォームへと進化しています。複数のツイートが、Hermesを実用的なオープンエージェントスタックとしての勢いを示しています。これには、Hermesエージェント自身によって生成された初心者向けガイド、Skillkitでのネイティブサポート、Scarfという新しいmacOS GUI、そしてローカルワークフローにおける広範な活用が含まれます。最も技術的に意味のある更新は@Tekniumからのものです。Hermesのサブエージェントは、より広いスパン幅と再帰的なスパン深さの両方をサポートするようになり、より深い階層的分解を可能にしました。これは、「単一のチャットループ」エージェントから、メモリ、ツール、権限、再利用可能なスキルを備えたマルチプロセス調整システムへのより広範な移行と一致しています。 ハルネスが第一級のエンジニアリング成果物へと進化している：ツイート全体を通じて recurring theme となっているのは、エージェントシステムの有用な部分は基盤モデル単体ではなく、ランタイムやハルネス increasingly になっているという点だ。DSPy 3.2 は RLM（Reinforcement Learning with human feedback の改良版、または Reinforced Language Model の文脈による）の改善とオプティマイザチェーン、LiteLLM のデカップリング（リリース）を提供した。Isaac Flath は RLM がノートブックを REPL ネイティブのトレース/評価インターフェースとして再び関連性を持たせると主張した（ツイート）。LangChain は deepagents デプロイのカスタム認証を追加した（更新）。また Claude Code に関する論文サマリースレッドでは、システムの大部分が純粋な「知能」ではなくハルネスロジックであることが強調された（サマリー）。 Kimi K2.6、KDA カーネル、オープンウェイトコーディングモデルがよりシステム的に信頼性を獲得 Moonshot はモデル能力とカーネルインフラの両方を推進した：フラッグシップとなる Kimi スレッドによると、K2.6 は長期にわたるコーディングタスクを自律的に完了した。1 つのランでは、4,000 回以上のツール呼び出しと 12 時間以上をかけて Zig で Qwen3.5-0.8B の推論をダウンロード・最適化し、スループットを約 15 tok/s から約 193 tok/s に向上させ、LM Studio より約 20% 高速で完了した（スレッド）。別のランでは、1,000 回以上のツール呼び出しと 4,000 行以上のコード変更を通じて取引エンジンを再構築し、中程度スループットで 185%、ピークスループットで 133% の向上を達成した（2 つ目のスレッド）。これらは依然としてベンダーによるデモだが、ベンチマークのスクリーンショットよりもシステム実装に近いものである。 Kimi もまた、パフォーマンスにクリティカルなインフラをオープンソース化しました。Moonshot は FlashKDA をリリースし、これは Kimi Delta Attention カーネルの CUTLASS 実装です。H20 上で flash-linear-attention ベースラインと比較して 1.72 倍〜2.22 倍のプレフィル速度向上を主張し、flash-linear-attention のドロップインバックエンドとして互換性があるとしています（リリース）。外部のフォローアップ報告では、8x MI300X 環境で K2.6 + DFlash を使用し、508 tok/s の処理速度を達成しました。これはベースラインの自己回帰型セットアップと比較して 5.6 倍のスループット改善となります（HotAisle）。DSA/MLA/KDA のバリアントに関する議論が続く中、重要なシグナルは、中国のラボが単に重み（weights）を公開しているだけでなく、実際のデプロイメントに影響を与える注意機構やカーネルレベルの最適化をますます公開していることです。 オープンウェイトなコーディング品質は向上していますが、同等性については依然として意見が分かれています。一部のユーザーは今や Kimi K2.6 をオープンソース/オープンウェイトのコーディングおよびエージェントモデルの中で最良のものとして扱っています（@scaling01、Windsurf での利用可能）。一方で、フロンティアの独自開発モデルは StillML（WeirdML）、長期タスク、および信頼性において依然として大きなリードを持っていると反論する声もあります（@scaling01 の批判、WeirdML におけるギャップ）。本質的な結論は「オープンソースが追いついた」ではなく、オープンウェイトモデルが実世界の価値の多くを決定するインフラ、ハルネス、デプロイメント品質にとって十分に信頼できる存在になったということです。 ディープリサーチシステム：Google が研究エージェントのフロンティアを拡大 Googleは、より柔軟なAPIプリミティブとしてDeep Researchを強化しました。Gemini APIを通じて、Gemini 3.1 Proを搭載した更新版のDeep ResearchおよびDeep Research Maxがリリースされました。これらは、協調的な計画立案、任意のMCP（Model Context Protocol）サポート、マルチモーダル入力（PDF/CSV/画像/音声/動画）、コード実行、ネイティブなチャートおよびインフォグラフィックの生成、リアルタイムの進捗ストリーミングを特徴としています（Googleスレッド、機能詳細、Sundar Pichaiの投稿、開発者向けAPI投稿参照）。 ベンチマークの数値は商業的に意味のある水準にあります。Googleは、MaxバリアントにおいてDeepSearchQAで93.3%、BrowseCompで85.9%、HLE（Human-Level Evaluation）で54.6%という結果を強調しています（Sundar Pichai、Phil Schmidによるまとめ）。生得点よりも重要なのはワークフローの設計です。Googleは明らかに「一晩かけて行う尽調（デューデリジェンス）／アナリストレポートの生成」という用途を製品化しており、MCPをサポートする社内データアクセスをリサーチエージェントの標準的な機能として位置づけています。これにより、単純なブラウズエージェントと、計画立案、検索、コード実行、視覚データの生成、独自のコーパスに基づく grounding（根拠付け）を行うフルスタックのリサーチエージェントとの間の分断が広がっていることが示されています。 検索、データ、評価：実エンジニアリング価値を持つオープンリリース LightOn による有意義なオープンリリースが Retrieval（情報検索）分野で確認されました。LightOn は Apache 2.0 ライセンスの下、149M パラメータの検索モデル「LateOn」と「DenseOn」をリリースしました。LateOn（マルチベクトル/ColBERT 方式）は BEIR で 57.22 の NDCG@10 を、DenseOn（密ベクトル単一ベクトル）は 56.20 を記録し、最大 4 倍大きなモデルを上回る性能を示しました（モデルリリース、概要）。また、1.4B のクエリ-ドキュメントペアを含む統合データセットリリースと、FineWeb-Edu を基盤とした刷新されたウェブデータセットも公開されました（データセット投稿）。 vLLM が実用的なデプロイメントの知識層を提供しました。recipes.vllm.ai の再設計は、その響き以上に有用です。これはモデルページを実行可能なデプロイメントレシピにマッピングし、インタラクティブなコマンドビルダーを含み、NVIDIA と AMD に対応し、テンソル/エキスパート/データ並列のバリアントをカバーし、エージェント向けの JSON API も公開しています。これは、新しいオープンモデルのサービングにおいて運用者の摩擦を軽減するインフラドキュメンテーション層としてまさに適切なものです。 ベンチマークは単なるタスク出力だけでなく、エージェントの盲点を increasingly 探るようになっています。代表的な例として、実務企業の文書内でのチャート理解を扱う ParseBench（LlamaIndex、Jerry Liu による詳細）や、解決策がファイルやエンドポイントで明示的に公開されている場合でもエージェントが環境の手がかりを無視しがちであることを示す新しい結果（論文スレッド）があります。Google Research の ReasoningBank もこのテーマに適合しており、記憶を成功した軌跡だけでなく失敗した軌跡からの学習として位置づけています（ツイート）。 エンゲージメント数の多いトップツイート OpenAIの画像生成機能発表：「ChatGPT Images 2.0の紹介」が、詳細な機能スレッドや急速なダウンストリーム統合を背景に、最も注目された技術系ツイートとなりました。 Hugging Faceのml-intern：@akseljoonasが、当日の目立つエージェント/研究ループのリリースを行いました。 Gemmaのローカル並列処理デモ：@googlegemmaは、M4 Max上でGemma 4 26B A4Bが1秒あたり約18トークン/リクエストの速度で10以上の並列リクエストを処理する様子を示し、ローカル推論の経済性に関する有用なデータポイントを提供しました。 Deep Research Max：@sundarpichaiと@Googleは、より強力なリサーチエージェントAPIの表面を大幅に強化しました。 Kimiカーネルリリース：FlashKDAは、モデル推論スタックにおける比較的重要なオープンインフラの配布の一つでした。 オープンソースポリシーに関する警告：@ClementDelangueは、オープンソースAIを制限するためのロビー活動が再燃している可能性について警告し、ビルダーに直接的な影響を与える数少ないポリシー系ツイートの一つとなりました。 AI Reddit 振り返り /r/LocalLlama および /r/localLLM 振り返り 1. Kimi K2.6 モデルの発売とベンチマーク Claude Code が Claude Pro プランから削除された - ローカルモデルへの移行がこれまで以上に重要な時期です。（アクティビティ：349）：この画像は、「Claude」と呼ばれるサービスの異なるサブスクリプションプランを比較したチャートを提供しており、Pro プランから「Claude Code」機能が削除されたことを強調しています。この変更は重要であり、Kimi K2.6 や Qwen 3.6 35B A3B などの代替ローカルモデルを検討するようユーザーを促す可能性のある、サービス提供内容の変化を示唆しています。この投稿では、これらのローカルモデルへの移行のコスト効果について議論しており、Claude Pro プランと比較してより低い価格でより多くのトークンを提供する OpenCode Go コーディングプランの価値を強調しています。コメント欄では、Pro プランからの「Claude Code」機能削除に対して不信感や不満の声が上がっており、一部はミステイクではないかという意見や、企業が製品ページでこの問題に対処するよう求める声が見られます。 korino11 氏は、$20 の open code プランと Kimi の $19 プランを比較する費用対効果分析を提起しており、後者がより良い価値を提供する可能性があることを示唆しています。これは、機能の削除や変更がある場合、特に異なる AI モデルのサブスクリプションのコスト効果を見積もる必要性を意味しています。 Apart_Ebb_9867 氏は、公式 Claude 製品ページの情報に潜在的な問題があることを指摘しており、ページが更新または修正される必要がある可能性を示唆しています。これは、特定の機能に依存するユーザーにとって、正確かつ最新の情報提供が重要であることを浮き彫りにしています。 The-Communist-Cat は、Claude Code が Pro プランから削除されたことに関するオンラインでの言及の欠如に触れており、企業からの情報提供に遅れがあるか、誤情報が流れている可能性を示唆しています。これは、ユーザー間の混乱を避けるために、サービス提供者からの明確かつタイムリーなアップデートが必要であることを浮き彫りにしています。 Kimi K2.6 は正当な Opus 4.7 の代替案です（Activity: 1632）：Kimi K2.6 は、Opus 4.7 の実行可能な代替として位置づけられており、Opus が行うタスクの 85% を適切な品質で実行できる能力を持っています。特定の分野において Opus 4.7 を凌駕するものではありませんが、Kimi K2.6 はビジョン機能や効果的なブラウザ操作などの追加機能を備えており、長期タスクに適しています。その巨大なサイズにもかかわらず、Opus 4.7 のような最先端の大規模言語モデル（LLM: Large Language Model）が、著しい新進歩を提供していない可能性を示唆しています。このモデルのローカルデプロイメントが、使用制限などの問題を回避できる利点として強調されています。コメント投稿者たちは、迅速なテストと推奨プロセスに対して懐疑的な見方を示し、徹底的なテストには通常より時間がかかると指摘しています。また、ローカルモデルの費用対効果について議論が行われ、一部のユーザーは高額なコストに対して不満を表明しています。 InterstellarReddit は、Kimi K2.6 の迅速なテストとデプロイメントプロセスを強調し、元の投稿者がわずか 2 時間でモデルのテストを行い、顧客への推奨に至ったことに注目しています。これに対し、彼らの会社では、顧客テストの前に 4 人のエンジニアによる 1 週間の評価プロセスを踏む必要があります。これは、AI モデルのデプロイメントにおいて、小規模チームや個人開発者が持つ効率性と俊敏性を浮き彫りにしています。 Technical-Earth-3254 は、Kimi K2.6 が Opus のパフォーマンスの 85% を達成できれば、Sonnet モデルの完全な代替として機能する可能性があると示唆しています。これは、Kimi K2.6 が既存モデルに対する実用的な代替案として見なされ、同等の能力をより低コストまたは少ないリソースで提供し得るという重要なパフォーマンスベンチマークを示唆しています。 Blablabene は、Kimi K2.6 などのローカル AI モデルが市場に与える影響について議論し、これらが独自開発モデル（プロプライエタリモデル）にコスト削減の圧力をかけ続けていることを強調しています。また、このコメントでは現在ローカルでモデルを実行するコストが高いことに言及しつつも、技術の進歩とコスト低下により、将来的にはアクセシビリティ（利用しやすさ）が高まると予想しています。 Opus 4.7 Max のサブスクリプションユーザー。Kimi 2.6 に切り替え（アクティビティ：386）：この投稿では、パフォーマンスとコストの問題を理由に Opus 4.7 Max から Kimi 2.6 への移行について議論されています。ユーザーは、Opus 4.7 が「怠け」て高価になったため Kimi 2.6 に切り替えたと述べており、Kimi 2.6 はコンテキストサイズが小さいにもかかわらず高速で快適であると評価されています。ユーザーは、Kimi 2.6 が小さなコンテキストを効果的に管理していることを強調し、ツール出力の処理における改善を示唆しています。Kimi の Forge への統合を改善するためのプルリクエストが提出されました（GitHub PR）。コメントでは、Anthropic や OpenAI などの独自モデルへの投資の持続可能性に対する懐疑論が示されており、Kimi のようなオープンソースモデルが競争力を持ちつつあることが指摘されています。また、中国製モデルの可能性をめぐる議論もあり、Opus が 5T（トランジション）であるのに対し Kimi は 1T モデルであることは、競争力学の変化を示しています。 Worried-Squirrel2023 は Opus 4.7 の重大な問題点を指摘し、タスクの途中や実際には完了していない段階で「処理を停止したり、まとめたりする」傾向があることを指摘し、「怠け」と表現しています。これはタスク完了の信頼性に関する問題を示しており、実世界でのアプリケーションにおいて大きな欠点となり得ます。また、Opus のコミットメントに関する問題と比較して Kimi の小さなコンテキストウィンドウはそれほど問題ではないと述べ、特に「ツール呼び出しの信頼性」に注目しており、Kimi と Opus の間に顕著な違いがあることを指摘しています。 sb5550氏は、KimiとOpusのモデルサイズにおける顕著な違いに注目し、Kimiが「1Tモデル」であるのに対し、Opusは「5Tモデル」であると指摘しています。この比較は、Kimiのような小規模モデルの効率性と可能性を浮き彫りにしており、特に中国発のモデルが後れを取っているわけではなく、むしろAI開発において先導している可能性さえあることを考慮すると、その意義は大きいです。これにより、大規模モデルと比較した際の小規模モデルのスケーラビリティとパフォーマンス効率に関する疑問が提起されています。 Ok-Contest-5856氏は、AnthropicやOpenAIのような独自モデルへのプライベートエクイティ投資の財務的影響について議論し、Kimiのようなオープンモデルは「互角であり、かつ大幅に安価」であるため、重大な脅威となり得ると示唆しています。彼らは将来、オープンモデルが独自モデルを凌駕する可能性さえあると推測しており、これはAI開発における競争環境の変化を示しています。 Kimi K2.6 がリリースされた（huggingface）（アクティビティ：1386）：Hugging Face によってリリースされた Kimi K2.6 は、長期にわたるコーディングと自律的なタスクオーケストレーション（task orchestration）に最適化された最先端のオープンソースマルチモーダル AI モデルです。1 兆パラメータを持つ Mixture-of-Experts（MoE）アーキテクチャを採用しており、プロンプトを本番環境対応のインターフェースに変換し、複数の言語にわたる複雑なコーディングタスクを実行することができます。このモデルは最大 300 のサブエージェントをサポートし、並列タスク実行が可能です。ベンチマークでは特に優れたパフォーマンスを示しており、vLLM や SGLang などのプラットフォームでのプロアクティブなオーケストレーション（proactive orchestration）とデプロイメントに優れています。詳細は元記事を参照してください。コメント欄では、1.1 兆パラメータという驚くべき規模について言及されており、モデルのサイズに驚きを隠せない声も見られます。また、Cursor の Composer 2.1 モデルのトレーニングが開始されたという報告もあり、この分野での継続的な進展を示しています。 ResidentPositive4122 は、Kimi K2.6 のリリースには、Modified MIT License（修正 MIT ライセンス）の下でコードリポジトリとモデルの重み（weights）が含まれていることを強調しています。このライセンスは MIT ライセンスのコアである「自由に何でも行ってよい」という精神を維持しつつ、大規模企業によって使用される場合は帰属表示（attribution）を要求するものであり、モデルの統合や修正を検討している開発者にとって重要なポイントです。 LagOps91氏は、Kimi K2.6モデルの実際の運用パフォーマンスの可能性に関心を示しており、ベンチマーク結果は印象的ではあるものの、真の試練はそれらが実用的な応用にどのように結びつくかにかかっていると指摘しています。これは、モデルを理論的な指標だけでなく現実のシナリオでの有用性を評価するために、実世界でのユースケースを超えてモデルを評価することの重要性を浮き彫りにしています。 Kimi K2.6（アクティビティ：570）：この画像は、GPT-5.4、Claude Opus 4.6、Gemini 3.1 Proなどの他のモデルに対して、Kimi K2.6の各種タスクにおけるパフォーマンスを強調したAIモデルのベンチマーク比較を示しています。Kimi K2.6は、特にGeneral Agents（一般エージェント）、Coding（コーディング）、Visual Agents（ビジュアルエージェント）などのカテゴリで強力なパフォーマンスを示しており、これらの分野での競争優位性を示唆しています。このチャートは、「Humanity’s Last Exam（人類最後の試験）」や「DeepSearchQA」といったタスクで高いスコアを記録していることから、Kimi K2.6の能力、特に堅牢なAIモデルとしての可能性を強調しています。コメント投稿者たちは、特にコーディング分野でのKimi K2.6のパフォーマンスの重要性に言及し、クローズドソースモデルとの競争力に対する驚きを表明しています。また、Kimiのベンダー検証機能（vendor verifier）について言及があり、これはサードパーティ製サービスの評価を標準化するものであり、AIエコシステムにおけるその重要性が強調されています。 Kimi K2.6 モデルは、サードパーティ製サービスの評価における標準化された手法を導入しており、これは異なる実装間での一貫したパフォーマンスと信頼性を確保する上で極めて重要です。このアプローチは、クローズドソースのモデルと比較してオープンソースモデルがどのように評価されるかに大きな影響を与え、潜在的に平等な競争条件をもたらす可能性があります。

【AIニュース】OpenAI、GPT-Image-2を正式リリース

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト