[AINews] GPT 5.5 and OpenAI Codex Superapp｜【AIニュース】GPT-5.5とOpenAI Codexのスーパーアプリ化 | AIニュース最前線

Opus 4.7 の発表から1週間後、OpenAI が GPT 5.5 に関する非常に類似のパレート最適 frontier（効率限界）改善チャートで反撃してきました。これは Noam Brown が好む表現ですが、単一の数値による純粋な知能指標から、「1ドルあたりの2次元知能」チャートへと移行しつつあることを示しています。4.7 と 5.5 の比較テストでは、何について言及されていないか（コーディング能力など）を読み解く必要がありますが、全体的な知能の観点では、AA はこれを世界で最も上位に位置する独立して検証されたモデルとして認定しており、さらに…… ![image](https://substackcdn.com/image/fetch/$s_!0uGP!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2f9f5845-e1e6-497a-9bed-f6457169247c_2048x684.png) AA 作成のチャート ……「1ドルあたりの知能」（「GPT-5.5 (medium) は、コストが約4分の1（~$1,200 対 $4,800）で、当社の知能指数において Claude Opus 4.7 (max) と同等のスコアを記録しています。ただし、Gemini 3.1 Pro Preview は ~$900 のコストで同等のスコアを記録しています。」 ![image](https://substackcdn.com/image/fetch/$s_!-taB!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F39e50c45-bc8a-4f60-a562-026d1c7bd14d_1026x662.png) AA 作成の2次元チャート トレーニング用ハードウェアに関する小さな情報、ポジティブな RSI（相対力指数）の雰囲気、そして興味深い代替ベンチマークがいくつかあります。 しかし、もし今日を単なるモデルのバージョン更新（5.9 と呼ぶことを好む人もいるでしょう）として扱ったなら、それは誤りです。これには大規模な Codex のローンチ日も含まれています： ![image](https://substackcdn.com/image/fetch/$s_!BWef!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fec7c1f27-a6ba-4a70-ba86-24eb303591c8_1030x1254.png) twitter 内蔵のブラウザ制御機能、このメガアップデートに含まれるその他の機能、そして現在廃止されたPrism（RIP）の統合を踏まえると、OpenAIはCodexをそのスーパーアプリ戦略の中核に据えるという、批判的に見てそして後から考えれば明白な決断を下したようだ。 ![image](https://substackcdn.com/image/fetch/$s_!F1N8!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fcabd0f35-0766-4080-82b3-c90f52faa849_954x1416.png) 2026年4月22日〜4月23日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿を確認し、Discordについては確認しませんでした。AINewsのウェブサイトでは過去のすべての号を検索できます。念のためお知らせしますが、AINewsは現在Latent Spaceの一部です。メール配信頻度を選択できます！ AI Twitter レビュー OpenAIのGPT-5.5ローンチ：より強力なエージェント型コーディング、広範なコンピュータ操作、そしてトークン効率への注力 本日の主要なリリースはGPT-5.5です。OpenAIは「実務のための新しい知能のクラス」と位置づけるGPT-5.5をChatGPTおよびCodexで展開し、追加の安全対策が整うまでAPIアクセスを延期しました。OpenAIとコミュニティのベンチマーク投稿は、純粋な全般的なベンチマークでの大勝利というよりも、より長いホライズンの実行能力、強化されたコンピュータ使用動作、そして大幅に改善されたトークン効率というプロファイルで一致しています。報告されている数値には、@reach_vb氏によるTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%、GDPvalで84.9%、OSWorld-Verifiedで78.7%、CyberGymで81.8%、BrowseCompで84.4%、FrontierMath Tier 1–3で51.7%が含まれます。Artificial Analysisは、GPT-5.5が複数の主要評価で首位または同位にあり、トークンあたりの価格が高騰しているにもかかわらず、新たなコスト/パフォーマンスのフロンティアに位置していると述べています @ArtificialAnlys, @scaling01。OpenAIはまた、ChatGPTにおいてスタックレベルの推論向上により、GPT-5.5 Proが要求の厳しいタスクに対してより実用的になったことを強調しました @OpenAI。 価格、コンテキスト、インフラストラクチャ、そして実用的な動作：GPT-5.5のAPI価格は、入力/出力100万トークンあたりそれぞれ$5/$30、Pro版は@scaling01によると$30/$180と報告されており、サム・アルトマン氏はAPIにおける1Mのコンテキストウィンドウと、タスクあたりのトークン使用量が5.4より少ないことを指摘しました。複数の初期ユーザーは、このモデルが以前のGPTシリーズよりも「人間らしく」、形式ばっておらず、特に@MatthewBerman氏、@danshipper氏、@omarsar0氏が指摘するCodex内の永続的なエージェントワークフローにより適していると感じていると述べています。OpenAIは、このモデルがNVIDIAのGB200/300システム向けに共同設計されており、モデル自体が自身の推論スタックの改善にも貢献したと主張し、@sama氏は同社をますます「AI推論企業」として位置づけています。ユーザーから繰り返し寄せられる意見：GPT-5.5は自律性においてステップ関数的なアップグレードのように感じられることが多いが、探索的な側面もあり、軌道に乗せるためにはより厳密な指示が必要になる場合がある@theo。 Codexはより包括的なエージェントワークスペースに進化：並行して、OpenAIはCodexの大幅なアップグレードをリリースしました。これにはブラウザ操作、Sheets/Slides、Docs/PDFsの処理、OS全体のDictation（音声入力）、そしてAuto-review mode（自動レビューモード）が含まれます @ajambrosino。OpenAIによると、Codexは現在Webアプリと対話でき、フロー内のクリック操作を行い、スクリーンショットをキャプチャし、タスク完了まで反復処理を行うことができます @OpenAIDevs。また、Auto-reviewは二次的な「ガーディアン」エージェントを使用して、長時間の実行における承認プロセスを削減します @OpenAIDevs, @gdb。ユーザーからの報告によると、これによりCodexは単なるコーディングツールから、QA（品質保証）、スプレッドシート、プレゼンテーション、アプリ構築、研究ループ、そして夜間実験実行をカバーするより広範なコンピュータ操作エージェントへと拡大しています @gdb, @tszzl, @aidan_mclau。 DeepSeek-V4 Preview：1.6TパラメータのMITライセンス準拠オープンモデル、1Mトークンのコンテキスト、そして攻撃的な価格設定 DeepSeekはGPT-5.5に数時間で追いつく：DeepSeekはDeepSeek-V4 Previewをリリースし、V4-ProおよびV4-FlashをMITライセンスの下でオープンソース化しました。主要な仕様は非常に攻撃的です：V4-Proは総パラメータ数1.6T、アクティブパラメータ49B、V4-Flashは総284B、アクティブ13Bで、どちらも1Mトークンのコンテキストをサポートし、思考モード（thinking mode）と非思考モード（non-thinking mode）の両方に対応します @deepseek_ai, @Yuchenj_UW。コミュニティからの反応は、これを前世代のトップクローズドモデルと競合する新しいオープンモデルのフラッグシップ、そしてDeepSeek V3.xシリーズからの大きな飛躍として位置付けています @arena, @scaling01, @kimmonismus。 技術レポートの注目点：長文コンテキストの効率化、ハイブリッドアテンション、そして Muon。今回のリリースは重み（weights）だけでなく、同日公開された技術レポート @scaling01 が注目されました。コミュニティの要約によると、圧縮/ハイブリッドアテンション機構 mHC、Muon ベースのトレーニング、FP4（Float Point 4）量子化 aware トレーニング、そして約 32T トークンでの事前学習が含まれています @scaling01, @iScienceLuvr, @eliebakouch。最も活発な技術議論の中心は、100 万トークン（1M）コンテキストの実用化にあり、以前の DeepSeek スタイルのアーキテクチャと比較して計算効率（compute efficiency）が約 4 倍向上し、KV キャッシュ（Key-Value Cache）のサイズが桁違いに削減されたことが報告されています @Hangsiin。インフラストラクチャへの迅速な対応も注目に値します：vLLM は Day-0 サポートを発表し、新しいアテンションスタックの実装方法を詳述しました。SGLang も Day-0 の最適化と RL（強化学習）パイプラインサポートを提供しました。 モデル自体ほど重要かもしれない価格設定：DeepSeek が提示した価格は極めて攻撃的です。V4-Flash は 100 万入力/出力トークンあたり $0.14/$0.28、V4-Pro は $1.74/$3.48 です @scaling01, @teortaxesTex。複数のコメント投稿者は、サービング品質が維持される限り、非常に低いコスト、1M コンテキスト、オープン重みという組み合わせから、Flash がより破壊的な SKU になる可能性があると指摘しています @Hangsiin, @arena。DeepSeek からの主な注意点として、V4-Pro のスループットは現在ハイエンドの計算リソース制約によって制限されており、同社は価格低下のために将来 Ascend 950 の利用可能性を明確に示しています @teortaxesTex。 エージェントインフラストラクチャとツールリング：メモリ、オーケストレーション、ブラウザ操作、そしてエンタープライズ向けの基盤整備 エージェントはモデルの問題ではなく、システムの問題になりつつある：複数の投稿で、本番環境でのエージェント作業は、モデルそのものよりも、ハッチ（制御装置）、評価（evals）、メモリ、オーケストレーションをいかに活用するかが焦点 increasingly になっていることが強調された。有用な例として、エンタープライズエージェント向けのステートレスな意思決定メモリに関する記事が挙げられた。これは、ミュータブル（可変）なエージェントごとの状態を、イミュータブル（不変）な意思決定ログやイベントソーシングに置き換えることで、水平スケーラビリティ、監査可能性、耐障害性を向上させるものだった @omarsar0。同様の見地から、@Vtrivedy10 は、トレースデータ → 評価/環境 → ハッチエンジニアリング/SFT-RL（Supervised Fine-Tuning with Reinforcement Learning：強化学習による教師あり微調整）が、本番エージェントを改善するための中核的なフライホイール（回転体）であると主張し、その後、Anthropic の Claude Code の回帰現象を事例として、オープンなハッチとオープンな評価がなぜ重要なのかを論じた @Vtrivedy10。 制御面（control surfaces）に関する新しいツールリング：Cua は Cua Driver をオープンソース化した。これは macOS 用のドライバーで、マルチプレイヤー/マルチカーソルのサポート付きで、エージェントがバックグラウンドの任意のアプリを制御できるようにするものだ。Cognition は、クラウドエージェントインフラストラクチャを構築するために必要なものについて投稿し、実用的なスタックとして、VM 分離、セッションの永続化、環境プロビジョニング、オーケストレーション、統合を挙げた。LangChain は LangSmith Fleet を引き続き拡張し、ファイル編集、Web ページ/プレゼンテーション生成、スラッシュコマンドのスキルを追加した @LangChain。また、複数のユーザーが Fleet のプレゼンテーションレンダラー/ビューアーについて言及し、それが予期せず有用なエージェントネイティブなアーティファクト形式であることを強調した @BraceSproul。 マルチエージェントのオーケストレーションが製品化へ：Sakana AIは、最先端モデルを動的に選択・調整するマルチエージェントオーケストレーションAPI「Fugu」のベータ版をリリースしました。SWE-Pro、GPQA-D、ALE-BenchにおいてSOTA（State of the Art：最良の性能）を達成し、さらには自己呼び出しによる再帰的なテスト時スケーリング（test-time scaling）を実現すると主張しています @SakanaAILabs, @hardmaru。また、Hermes Agentはv0.11.0をリリースし、主要なコントリビューターを追加し、プロバイダーの範囲を拡大し、画像生成サポートを提供し、事実上即時にGPT-5.5をサポートしました @Teknium。この方向性は一貫しており、エージェントは単一モデルのループではなく、異種なツールやモデルの上にあるオーケストレーションレイヤーへと進化しています。 ビジョン、ビデオ、マルチモーダルシステム：Vision Banana、Sapiens2、HDR動画、オムニモデル Google DeepMindのVision Bananaは、コンピュータビジョン（CV）を生成として再定義します。技術的に興味深い研究発表の一つであるVision Bananaは、2D/3Dのビジョンタスクを画像生成として扱う統一されたビジョンモデルで、複数のビジョンタスクにおいて専門的なSOTAシステムを上回る性能を発揮していると報告されています。コンピュータビジョン研究者からの反応は、セグメンテーション、深度推定、法線ベクトル、および関連タスクの今後のアプローチ方法において、より広範なシフトを示唆しているというものでした @sainingxie。オープンソースの側面では、MetaもSapiens2をリリースしました。これは10億枚の人間画像で訓練された高解像度のビジョントランスフォーマーのセットで、人間中心の知覚タスク向けです @HuggingPapers。 ビデオスタックのアップデートは、単なる解像度の向上から、本格的な制作フォーマットへの移行へと進んでいます。Klingの「ネイティブ4K」展開は複数のプラットフォームに広がっていますが、技術的により革新的なリリースとして注目されるのはLTX HDRのベータ版です。このモデルは、AI動画制作における真のボトルネックが解像度そのものではなくダイナミックレンジにあると主張し、8ビットSDRの範囲を超えて、カラーグレーディングやコンポジット処理に耐え得る映像素材を生成するものです@ltx_model。これは、単なる「4K」というマーケティング用語を超えた、より実質的な改善と言えます。別件として、World LabsはMarble 1.1とSpark LoDを活用したインタラクティブな3D制作のための「World Jam」をローンチしました@theworldlabs。 より広範なマルチモーダルトレンド：明示的なクロスモーダル推論を持つ統一モデル。新たに公開された「Context Unrolling in Omni Models」は、テキスト、画像、動画、3Dジオメトリ、そして隠れ表現（hidden representations）全体を跨いで訓練された統一モデルを提案しており、出力を生成する前に明示的に各モーダル間での推論を展開します@arankomatsuzaki。Vision Bananaと合わせて、これは繰り返されるモチーフを示しています。すなわち、多様な知覚・生成タスクを fewer な汎用的なマルチモーダルバックボーンに統合し、推論時の処理によってモーダル間の橋渡しを行うというアプローチです。 トレーニング、スケーリング、および研究手法：グローバルに分散された事前学習、自己対戦プレイ、そして長期コンテキストの内部構造 GoogleのDecoupled DiLoCoが堅牢なグローバル事前トレーニングに対処：Google DeepMindとGoogle Researchは、分散低通信トレーニングを分離し、ジョブを中断することなく世界中のデータセンターでのトレーニング、異種ハードウェア、およびハードウェア障害への耐性を実現するDecoupled DiLoCoを発表しました。これは意味のあるシステム上の成果です。なぜなら、クリーンで均一なクラスターを前提とするのではなく、故障した地理的に分散したインフラストラクチャ全体で巨大なトレーニング実行を存続させ、効率的に維持するという、実際の最先端のトレーニングボトルネックを対象としているからです。 brute-forceサンプリングを超えたアルゴリズムスケーリング：@LukeBailey181によって注目された自己対戦に関する論文は、大規模言語モデル（LLM）の長期自己対戦が頭打ちになる理由を研究し、7Bパラメータのモデルが100倍大きいモデルのpass@4と同等の問題数を解くことができるアルゴリズムを提案しています。もう一つの recurring theme（繰り返し見られるテーマ）は、トークン/計算効率こそが真の最先端指標であるという点でした。複数の投稿で、努力レベルと推論予算が能力を大きく再定義する世界において、単一の数値による知能比較は時代遅れになりつつあると論じられています。関連する話題として、Neural Garbage Collection（ニューラルガベージコレクション）に関するスレッドでは、固定されたヒューリスティックではなく強化学習（RL）を通じてモデル自身がKVキャッシュを管理するようにトレーニングする取り組みが紹介され、これは長期エージェントにとって重要な方向性となる可能性があります @cwolferesearch。 インフラ採用の兆候：Together AIは、月間30Bトークンから300Tトークンへの年々（YoY）の成長を報告し、推論需要の拡大を示す大規模な指標を示した。一方、Epoch AIはStargate Abileneの運用電力見積もりを現在の約0.3GWに下方修正し、1.2GWの完全なマイルストーンを2026年第4四半期（Q4 2026）に先送りし、最先端の計算リソース展開を追跡し続ける不確実性を強調した@EpochAIResearch。 トップツイート（エンゲージメント順） OpenAI GPT-5.5の発売：最もエンゲージメントが高かった技術系投稿は、OpenAIによるGPT-5.5の発表であり、それに@sama氏の発売投稿、そしてOpenAI DevRelによるGPT-5.5をこれまでの最先端モデルの中で最も賢いものとして位置づける投稿が続いた@OpenAIDevs。 Claude Codeの回帰テストに関するポストモーテム：Anthropicは、Claude Codeの品質が3つの問題により低下し、v2.1.116以降で修正されたことを認めた。これは当日最もエンゲージメントが高かったエンジニアリング製品系の投稿の一つであり、ハッチング感度（harness sensitivity）や回帰テストに関する大規模な議論を巻き起こした。 DeepSeek-V4プレビュー版のリリース：DeepSeekによる公式V4プレビューの発売は、MITライセンス、1Mコンテキスト、そして積極的な価格設定という組み合わせも相まって、すぐに他の主要な高エンゲージメント技術イベントとなった。 Vision Banana：Google DeepMindによるVision Bananaの発表は、純粋な研究系のビジョン投稿の中で際立ったものだった。 ML-Internと自律型研究ワークフロー：Hugging Faceに隣接するml-internが15分でインターンシップ形式のテストをパスし、その後に報告された非常に高いトークン消費量は、自律型コーディング/研究ハッチがデモではなく独立した製品として強い関心を集めていることを示唆しています。 AI Reddit recap /r/LocalLlama + /r/localLLM recap 続きを読む

【AIニュース】GPT-5.5とOpenAI Codexのスーパーアプリ化

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する

調べる

選ぶ

サイト