OpenAIのCodex-Spark、Cerebrasハードウェアで超高速コーディングを実現
OpenAIは、Nvidia GPUに代わりCerebrasのウェーハースケールチップを採用した新モデル「GPT-5.3-Codex-Spark」を公開し、1秒あたり約1,000トークンの高速推論を実現してリアルタイムコーディング体験を大幅に向上させた。
キーポイント
ハードウェア戦略の転換と新モデル公開
OpenAIは従来のNvidia GPU依存から脱却し、Cerebrasのウェーハースケールエンジン3(WSE-3)上で動作する初の生産用AIモデル「GPT-5.3-Codex-Spark」をリリースした。
リアルタイムコーディングに特化した最適化
深層推論よりも低遅延と対話型ワークフローを重視し、1秒あたり約1,000トークンという従来の15倍の速度を実現。これにより、コードの即時編集やロジック修正へのフィードバックが瞬時に行える。
インフラストラクチャ全体のレイテンシ削減
WebSocket接続の維持やResponses APIの最適化により、クライアントとサーバー間の往復オーバーヘッドを80%削減。これらはすべてのモデルに適用されるデフォルトの改善となる。
GPUとの併用と長期的な運用能力の維持
Cerebrasチップは低遅延推論に特化しているが、GPUとの併用も可能であり、長期的なバックグラウンド処理(数時間から数週間の無介入作業)の能力は維持されている。
速度より精度を重視する意見
一部のユーザーは、結果の品質と信頼性が優先されるべきであり、処理に時間がかかっても正確な結果を待つ価値があると主張している。
実測速度と公式発表の乖離
ベンチマーク調査によると、実際の速度向上は1.37倍程度であり、公式が謳う15倍という数字は比較対象の特定設定(x-high)によるものだと指摘されている。
Codex-Sparkの仕様と今後の計画
現状は128kコンテキストウィンドウとテキストのみをサポートするが、開発者コミュニティからのフィードバックに基づき、より大きなコンテキストを持つ高速モデルの導入が予定されている。
影響分析・編集コメントを表示
影響分析
OpenAIのCerebras採用は、AIインフラにおけるGPU一極集中からの脱却を示す重要な兆候であり、特に低遅延が求められる対話型アプリケーションにおけるハードウェア選定の多様性を促進する。また、開発者体験(DX)の向上を技術競争の中心に置く姿勢は、AIツールの実用化と現場での採用加速に寄与する可能性が高い。
編集コメント
OpenAIがCerebrasの専用ハードウェアを活用して推論速度を15倍に高めたことは、AI開発における「速さ」の価値を再定義するものであり、特にリアルタイムコーディング支援というニッチではあるが高付加価値な領域での競争優位を確固たるものにした。
ハードウェア戦略における大きな転換点として、OpenAI は GPT-5.3-Codex-Spark を発表しました。これは、従来の Nvidia GPU ではなく、Cerebras のウェハスケールチップ上で稼働する同社初の生産用 AI モデルです。同社は、この新モデルによりスループットが向上し、低遅延を実現することで、リアルタイムで対話的なコーディング体験が可能になると述べています。
**
開発者が Cerebras と協力してデータセンターの容量増強を行い、エンドツーエンドのユーザーエクスペリエンスを強化し、より大規模なフロンティアモデルを展開する間、Codex-Spark を ChatGPT Pro ユーザー向けに研究プレビューとして共有します。
Codex-Spark は約 1,000 トークン/秒で動作し、以前のバージョンよりも約 15 倍高速です。これにより、ライブコーディング支援や迅速な反復作業がはるかにレスポンシブになりました。OpenAI は、新モデルは「リアルタイムでの Codex 利用に特化して設計されており、特定の編集を行ったり、ロジックを再構築したり、インターフェースを洗練させたりしても、即座に結果を確認できる」と述べています。
リアルタイムコーディングを実現するため、OpenAI は Codex-Spark を深い推論や汎用タスクではなく、低遅延と対話的なコーディングワークフロー向けに最適化しました。この速度重視の設計にもかかわらず、同モデルは前世代が持つ長期プロセスを処理する能力を維持しており、「介入なしで数時間、数日、あるいは数週間稼働可能」です。
OpenAI は、GPT‑5.3‑Codex‑Spark がソフトウェアエンジニアリングタスク向けに特別に設計された 2 つのベンチマークである SWE-Bench Pro と Terminal-Bench 2.0 でその性能を実証したと発表しました。このモデルは GPT-5.1-Codex-mini と GPT-5.3-Codex の間の結果を達成しましたが、所要時間はごく一部で済みました。同社はまた、フルリクエストレスポンスパイプライン全体にわたってレイテンシを削減するために実装されたエンドツーエンドの改善が、すべてのモデルにとって恩恵をもたらすと指摘しています。
内部では、クライアントからサーバーへ、そして再び戻る際のレスポンスストリーミング方法を合理化し、推論スタックの重要な部分を再構築し、セッションの初期化方法を見直しました。これにより、最初に可視化するトークンがより早く表示され、ユーザーが反復処理を行う間も Codex が応答性を維持できるようになりました。
その他の改善点として、OpenAI は永続的な WebSocket 接続と Responses API におけるいくつかの最適化を導入しました。全体として、これらの改善により、クライアント/サーバー間の往復オーバーヘッドが 80% 削減され、トークンあたりの処理時間が 30% 短縮され、最初のトークンまでの時間(time-to-first-token)が 50% 短縮されました。OpenAI によると、これらの変更はすべてのモデルのデフォルト設定となります。
Codex-Spark は Cerebras のウェーファスケールエンジン 3(Wafer Scale Engine 3)アクセラレータ上で動作しており、これは低レイテンシかつ高速な推論に特に適しています。しかし、OpenAI によれば、これはトレーニングおよび推論パイプラインの中核として GPU を放棄する兆候ではありません。Cerebras アクセラレータは GPU と組み合わせて使用することもでき、両アーキテクチャの利点を最大限に引き出すことが可能です。
OpenAI の発表により、オンライン上で大きな議論が巻き起こりました。一部の Reddit ユーザーは、速度よりも「最大限の知能と信頼性」を重視する傾向を示し、Tystros 氏 は「結果がより良くなるのであれば、タスク完了に 1 時間かかっても喜んで 1 時間待ちます」とコメントしました。ユーザーの stobak 氏は、高速なモデルが引き起こす可能性のある 反復的な試行錯誤の累積コスト を過小評価しやすい点を指摘しています。
Nicholas Van Landschoot 氏は X.com で、速度向上は主張されているほど劇的ではないと観察し、実用的なベンチマークでは 15 倍ではなく約 1.37 倍に近いと測定しました。彼は、この 15 倍という数値は、Codex-Spark と Codex の特定の構成(x-high)を比較した結果であり、これは精度を高めるために推論時間を長く強制するために使用されている構成であると説明しています。
Codex-Spark は 128k のコンテキストウィンドウとテキストのみのサポートを提供しており、開発者コミュニティから収集された利用状況の洞察に基づき、より大きなコンテキストを持つ高速モデルの導入も計画されています。
著者について
## セルジオ・デ・シモーネ
セルジオ・デ・シモーネはソフトウェアエンジニアです。セルジオは過去 25 年以上にわたり、シーメンスや HP、そして小規模なスタートアップなど、多様なプロジェクトや企業でソフトウェアエンジニアとして活動してきました。特に最近の 10 年以上は、モバイルプラットフォームおよび関連技術の開発に注力しています。現在では BigML, Inc. に勤務し、iOS および macOS の開発を率いています。
もっと見る
表示しない
原文を表示
In a major shift in its hardware strategy, OpenAI launched GPT-5.3-Codex-Spark, its first production AI model deployed on Cerebras wafer-scale chips rather than traditional Nvidia GPUs. The new model offers improved throughput and low-latency, enabling a real-time, interactive coding experience, says the company.
We're sharing Codex-Spark on Cerebras as a research preview to ChatGPT Pro users so that developers can start experimenting early while we work with Cerebras to ramp up datacenter capacity, harden the end-to-end user experience, and deploy our larger frontier models.
Codex-Spark runs at roughly 1,000 tokens per second, about 15× faster than earlier versions, making live coding assistance and rapid iteration much more responsive. OpenAI says the new model was designed "specifically for working with Codex in real-time—making targeted edits, reshaping logic, or refining interfaces and seeing results immediately".
To enable real-time coding, OpenAI optimized Codex-Spark for low latency and interactive coding workflows rather than deep reasoning or general-purpose tasks. Despite this focus on speed, the model retains its predecessor’s ability to handle long-running processes, operating for "hours, days, and weeks without intervention".
OpenAI says that GPT‑5.3‑Codex‑Spark demonstrated its performance on SWE-Bench Pro and Terminal-Bench 2.0, two benchmarks tailored for software engineering tasks, achieving results between GPT-5.1-Codex-mini and GPT-5.3-Codex but in a fraction of the time. The company also notes that end-to-end improvements implemented to reduce latency across the full request-response pipeline will benefit all their models.
Under the hood, we streamlined how responses stream from client to server and back, rewrote key pieces of our inference stack, and reworked how sessions are initialized so that the first visible token appears sooner and Codex stays responsive as you iterate.
Among other enhancements, OpenAI introduced a persistent WebSocket connection and several optimizations in the Responses API. Overall, these improvements reduced per-client/server round-trip overhead by 80%, per-token processing time by 30%, and time-to-first-token by 50%. These changes will become the default for all models, OpenAI says.
Codex-Spark runs on Cerebras’ Wafer Scale Engine 3 accelerators, which are particularly suited to low-latency, high-speed inference. However, this does not signal a departure from GPUs as the core of their training and inference pipeline, according to OpenAI. Cerebras accelerators can also be combined with GPUs to achieve the best of both architectures.
OpenAI's announcement sparked significant online discussion. Some Reddit users emphasized a preference for "maximum intelligence and reliability" over speed, with Tystros commenting: "If the results are better when it takes one hour to complete a task, I happily wait one hour". User stobak highlighted that it is easy to underestimate the cumulative cost of repeated iterations that faster models can incur.
Nicholas Van Landschoot observed on X.com that speed improvements are not as dramatic as claimed, measuring closer to 1.37x rather than 15x in practical benchmarks. He explains that the 15x figure comes from comparing Codex-Spark to a specific configuration of Codex, x-high, which is used to force longer reasoning time to increase accuracy.
Codex-Spark provides a 128k context window and text-only support, with plans to introduce faster models featuring larger contexts based on usage insights gathered from the developer community.
About the Author
Sergio De Simone
Sergio De Simone is a software engineer. Sergio has been working as a software engineer for over twenty five years across a range of different projects and companies, including such different work environments as Siemens, HP, and small startups. For the last 10+ years, his focus has been on development for mobile platforms and related technologies. He is currently working for BigML, Inc., where he leads iOS and macOS development.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み