AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Smol AI News·2026年5月7日 14:44·約15分

GPT-Realtime-2、-Translate、-Whisper:新SOTAリアルタイム音声APIの登場

#Realtime API#Voice AI#LLM Reasoning#Agent#OpenAI
TL;DR

OpenAI は、GPT-5 クラスの推論能力を備えた「GPT-Realtime-2」および翻訳・音声認識専用モデルを含む新リアルタイム音声 API を発表し、対話の自然さやツール連携能力を大幅に強化した。

AI深層分析2026年5月9日 09:03
5
最重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

GPT-5 クラスの推論能力と性能向上

「GPT-Realtime-2」は GPT-5 クラスの推論能力を持ち、Big Bench Audio で前作より +15.2% のスコア向上を達成し、複雑な対話や中断への対応が可能になった。

2

開発者向け機能の強化

プリアンブル(「確認します」など)の追加、並列ツール呼び出しの可視化、文脈に応じたトーン調整、および推論レベルの細かな制御が可能となり、実用性が向上した。

3

コンテキスト長とドメイン理解の拡大

コンテキストウィンドウが 32K から 128K に拡張され、医療用語や固有名詞など専門的なドメイン知識の保持能力も強化された。

4

専用モデルの同時リリース

音声対話モデルに加え、リアルタイム翻訳(GPT-Realtime-Translate)と文字起こし(GPT-Realtime-Whisper)に特化した 2 つのコンパニオンモデルも同時に公開された。

影響分析・編集コメントを表示

影響分析

この発表は、音声 AI が単なる通話ツールから、高度な推論と自律的なタスク実行が可能な「エージェント」へと進化する転換点となる。特に GPT-5 クラスの推論能力と 128K のコンテキスト長により、医療や法律などの専門分野におけるリアルタイム音声アシスタントの実用性が飛躍的に高まり、業界全体の音声 AI アプリケーションの基準を再定義する可能性が高い。

編集コメント

「音声の質」よりも「使いやすさ」と「推論能力」に焦点を当てた設計は、実社会での AI エージェント導入における最大の課題である信頼性と応答性の解決に向けた明確な方向性を示しています。

静かな一日。

**2026年5月6日〜7日のAIニュース。12のサブレッド、544 のツイート、およびさらに多くのDiscordサーバーを確認しました。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メールの頻度を選択的に設定することも可能です!

OpenAI は3か月前に realtime-1.5 をリリースしましたが、これはまだ 4o ベースの知能(Big Bench Audio で +5% の向上)に基づいていたため、相対的には小さな出来事でした。しかし、今日の realtime-2 リリースにおける圧倒的な自信(BBA で +15.2% の向上)は明らかで、適切に高く評価されました:

ブログ記事によると、3 つのモデルがリリースされますが、これらを「音声入力・音声出力」および「音声対音声」と簡略化して理解できます:

焦点は「音声品質」よりも「使いやすさ」にあります。要約すると:

事前フレーズ:開発者は、メインの応答の前に短いフレーズを有効にできます。例えば、「確認します」や「少しお待ちください」などです。

並列ツール呼び出しとツールの透明性:モデルは複数のツールを同時に呼び出すことができ、「カレンダーを確認中」「今すぐ検索しています」といったフレーズでその動作を音声化することで、エージェントがタスクを完了しながらも応答性を保つのを助けます。

より強力な回復挙動:モデルは「現在それがうまくいかない」といった発言を行うことで、失敗や破綻ではなく、より滑らかに回復できるようになりました。

より長いコンテキスト:32K → 128K

ドメイン理解の強化:専門用語、固有名詞、医療用語、その他の語彙をよりよく保持します。

制御可能なトーンと発話:文脈に応じて、冷静に、共感的に、あるいは前向きに話すなど、トーンをより適切に調整できます。

推論努力の調整可能化:開発者は最小、低、中、高、超高の推論レベルから選択できるようになり、デフォルトは「低」です。

デモ動画では、メインスピーカーが他者と話している際に音声モデルがよりよくチューニングされ、割り込みが減っている様子が示されました:

AI Twitter レビュー

トップニュース:GPT-Realtime-2 と OpenAI 音声 AI の解説**

何が起きたか

OpenAI は、Realtime API にて 3 つの新しいストリーミング音声モデルを発表しました:GPT-Realtime-2、GPT-Realtime-Translate、そして GPT-Realtime-Whisper です。 OpenAI は GPT-Realtime-2 を「これまでにない最も知的な音声モデル」と位置づけ、聴取、推論、割り込みへの対応、ツール使用、および進行中の会話の維持が可能で、「GPT-5 クラスの推論能力」を備えたリアルタイム音声エージェントを実現すると述べています @OpenAI。補完モデルはライブ音声翻訳と文字起こしを対象としており、GPT-Realtime-Translate は 70 以上の入力言語から 13 の出力言語へのストリーミング翻訳をサポートし、GPT-Realtime-Whisper は発話が生じる際にストリーミング形式で文字起こし/字幕を生成します @OpenAI、@OpenAIDevs。OpenAI によると、これらのモデルは現在 Realtime API で利用可能ですが、ChatGPT の音声機能アップグレードはまだ未定です:「続報をお待ちください、準備中ですよ」@OpenAI。サム・アルトマン氏は、この発表を行動様式の変化の文脈で位置づけました:ユーザーは大量のコンテキストを「吐き出す」必要がある際に AI と音声での対話を増やしており、OpenAI はまた ChatGPT の音声機能についても改善に取り組んでいます @sama。

事実と意見の区別

OpenAI および評価者によって事実として直接主張されている内容

  • モデルファミリー:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper は、本日リアルタイム API で利用可能になりました @OpenAIDevs。
  • GPT-Realtime-2 の機能:生産環境向け音声エージェントのための推論指向ネイティブ音声対音声モデル;ツール使用・アクション、中断からの回復、より長い会話、および OpenAI の表現では「GPT-5 クラスの推論」をサポート @OpenAI, @reach_vb。
  • コンテキストウィンドウ:コミュニティおよび OpenAI 開発者によるコメントで、GPT-Realtime-2 音声エージェントのコンテキストが 128K と報告されています @reach_vb;Artificial Analysis は独立して、コンテキストウィンドウが 32K から 128K に拡大し、最大出力トークン数は 32K であると報告しています @ArtificialAnlys。
  • 翻訳:GPT-Realtime-Translate は、70 以上の入力言語から 13 の出力言語へのライブ音声翻訳をサポートします @OpenAI, @reach_vb。
  • 文字起こし:GPT-Realtime-Whisper は、リアルタイム API において低遅延のストリーミング文字起こしを提供し、キャプション、ノート、継続的な音声理解に対応します @OpenAIDevs。
  • プロンプト・制御:OpenAI は、推論努力、前置き、ツールの動作、不明瞭な音声への対応、正確なエンティティの捕捉、長時間セッションにおける状態維持をカバーする音声プロンプトガイドを発表しました @OpenAIDevs。
  • 独立ベンチマーク:Scale AI は、GPT-Realtime-2 がその Audio MultiChallenge S2S リーダーボードで首位を獲得したと報告し、GPT-Realtime-1.5 と比較して指示保持率が 36.7% から 70.8% に向上(APR)し、音声編集・リアルタイム修復においても強力なパフォーマンスを発揮しました @ScaleAILabs。
  • 独立したベンチマーク:Artificial Analysis は、Big Bench Audio の音声対音声推論タスクで 96.6%、会話ダイナミクスベンチマークで 96.1% を報告。高レベルの推論設定では初回音声までの平均時間が 2.33 秒、最小限の推論設定では 1.12 秒であった。また、入力料金は時間あたり 1.15 ドル、出力料金は時間あたり 4.61 ドルと従来通り据え置かれている(@ArtificialAnlys)。
  • 推論エフォート制御:Artificial Analysis は、推論レベルを最小限、低、中、高、超高の 5 つに調整可能であると報告。デフォルトは「低」設定となっている(@ArtificialAnlys)。
  • エンタープライズ/製品評価:Glean は、リアルタイム組織内音声対話に関する内部評価において、GPT-Realtime-2 が前バージョンと比較して有用性が相対的に 42.9% 向上したと報告(@glean)。Genspark は、「Call for Me Agent」を GPT-Realtime-2 に移行し、有効な会話率が 26% 増加し、通話切断が減少したことを確認(@genspark_ai)。

意見・解釈・解説

  • 支持派は、この発表を音声エージェントにとっての「大きな前進」(@sama)、「完全なるリアルタイム勝利」(@reach_vb)、そして複雑な音声エージェントにおいて「実務に耐えうる」最初の音声対音声モデルであると評価した (@kwindla)。
  • より慎重な見方:Simon Willison は、今回の発表が ChatGPT の音声モード自体が既にアップグレードされたことを意味するものではないと指摘。ChatGPT のアップグレードは「まもなく到来するだろう」と述べている(@simonw)。
  • インターフェースへの懐疑:Will Depue はオーディオを VR に例え、「頻繁に興奮を呼ぶが、歴史的にはインターフェースとして定着しにくい」と指摘しつつ、リアルタイムツール使用、発話中の推論、ライブ翻訳といった機能が、ついにオーディオインターフェースの爆発的普及をもたらす可能性のある機能であると主張しています @willdepue。
  • より広範な UX への楽観視:複数のコメント投稿者が、音声は人間にとってより自然で帯域幅効率的であるという見方を示し、@BorisMPower はこれを Jarvis のような常時利用可能なコンピュータエージェントへの道筋と捉え、@willdepue は最終的にはさらに高帯域幅の脳コンピュータインターフェース (BCI) に置き換わるとも述べています @iScienceLuvr。
  • 競争環境:Elon Musk が顧客サポート向けに Grok Voice を推進し、@elonmusk、リアルタイム音声によるサポート/カスタマーサービス自動化が現在、各研究機関間での競争の場となっていることを強調しました。

技術詳細とベンチマークデータ

GPT-Realtime-2

  • OpenAI の Realtime API を通じてリリースされた、ネイティブな音声対音声/リアルタイム音声モデル @OpenAI。
  • 音声エージェント向けに「GPT-5 クラスの推論能力」を謳っています @OpenAI。
  • 以下のような機能を持つエージェントのために設計されています:

会話中の推論、

  • ツールの使用・アクションの実行、
  • 割り込みへの対応、
  • ユーザーが発話を修正または修復した際の回復処理、
  • 拡張されたコンテキストによるより長いセッションの維持 @OpenAI, @reach_vb。
  • 報告されているコンテキスト長:32K から 128K トークンへ拡大 @ArtificialAnlys。
  • 報告されている最大出力:32K トークン @ArtificialAnlys。
  • Artificial Analysis による入力情報の報告:テキスト、オーディオ、画像 @ArtificialAnlys。
  • 推論努力レベル:最小、低、中、高、超高;デフォルトは低 @ArtificialAnlys。
  • 初回音声までの時間:

最小推論時 1.12 秒、

高推論設定時 @ArtificialAnlys で 2.33 秒。

  • 料金体系:

オーディオ入力あたり 1 時間 1.15 ドル、

オーディオ出力あたり 1 時間 4.61 ドル、

Artificial Analysis @ArtificialAnlys によると従来モデルと変更なし。

  • 対話機能: メインレスポンス前の短い前置き(例:「確認します」)や、ツール呼び出し時の可聴的な透明性(例:「カレンダーを確認中」)をサポート @ArtificialAnlys。

ベンチマーク

  • Scale AI Audio MultiChallenge S2S: GPT-Realtime-2 が第 1 位を獲得。指示保持率が GPT-Realtime-1.5 から APR で 36.7% から 70.8% に改善、ユーザーがリアルタイムで発話を修正・訂正する際の音声編集性能も優れている @ScaleAILabs。
  • Artificial Analysis Big Bench Audio: GPT-Realtime-2 の高推論バリアントは 96.6% を記録。Gemini 3.1 Flash Live Preview High と同等、かつ前回の最高結果より約 13% 上回ると報告 @ArtificialAnlys。
  • Justin Uberti は別途、Big Bench Audio において GPT-Realtime-1.5 よりも 15 ポイントの改善があり、ほぼ飽和状態に達していると要約 @juberti。
  • 対話ダイナミクス / フルデュプレックスベンチサブセット: GPT-Realtime-2 の最小バリアントは 96.1% を記録し、ポーズ処理とターンテイクにおいて強みを発揮 @ArtificialAnlys。

GPT-Realtime-Translate

  • 70 以上の入力言語から 13 の出力言語へのライブストリーミング音声翻訳 @OpenAI。
  • OpenAI の共同創設者である Greg Brockman は、リアルタイムの音声対音声翻訳は同社の初期から期待されていたアプリケーションであり、現在は誰でも @gdb を使って構築できるようになったと述べました。
  • Vimeo は、事前ロードされた字幕なしでライブ吹き替えを実演し、翻訳が完全にリアルタイムで生成される様子を示しました @Vimeo。
  • Junling Zhang は新しいリアルタイム翻訳モデルを強調し、API の利用を促しました @jxnlco。
  • Boris Power はライブ翻訳が「実際に非常にうまく機能する」と述べ、定期的に使用する計画があると語りました @BorisMPower。

GPT-Realtime-Whisper

  • 話している人の音声に対してストリーミング形式で文字起こしを行い、リアルタイムの字幕、メモ、および音声理解を実現します @OpenAI。
  • Justin Uberti はこれを「リアルタイムストリーミング機能を備えた Whisper」と表現し、新しいモデルを使用したデモを更新しました @juberti。
  • また、Uberti は遅延セレクターを構築し、リアルタイムタイピングデモにおけるレイテンシと精度のトレードオフを可視化しました @juberti。

Product integrations and demos

  • Glean: GPT-Realtime-2 を搭載したリアルタイム音声機能をリリース。組織内の文脈に基づいて動作します。内部評価では、前バージョンと比較して有用性が相対的に 42.9% 向上しました @glean。
  • Vimeo: GPT-Realtime-Translate を使用したライブ吹き替えを実演。翻訳はリアルタイムで生成され、事前ロードされた字幕は不要です @Vimeo。
  • Genspark: Call for Me Agent を GPT-Realtime-2 へアップグレードしました。Genspark Realtime Voice が次期機能として登場します。より鋭い推論能力、厳格な指示の遵守、有効会話率が +26% 向上し、通話切断も減少したと主張しています @genspark_ai
  • Gradient Bang / game-agent デモ:Kyle Windland氏は、GPT-Realtime-2 が「実務」を行う音声エージェントにとって十分な性能を持つ最初の OpenAI 音声対音声モデルであると述べ、ツール呼び出しやサブエージェントを備えた複雑なエージェントにおける船長 AI として機能していることを示しました @kwindla。
  • 音声制御型マーケットダッシュボード:Levin Stanley氏は、GPT-Realtime-2 が意図に基づいてインターフェースを制御するデモを行いました。「Apple に焦点を当てる」「過去 30 日間の成績はどうだった?」「戻る」といった指示により、リアルタイムの割り込みと推論が UI ループをナビゲーションから方向付けへと変えるものであると主張しました @levinstanley。
  • リアルタイムデモ:Justin Uberti氏は GPT-Realtime-2 向けに hello-realtime を更新し、電話でのデモ番号を提供しました @juberti; Diego Cabezas氏は簡易的な GPT-Realtime-2 デモを投稿しました @diegocabezas01; Ray Fernando氏は「ライブ翻訳機の構築」というブロードキャストをホストしました @RayFernando1337。
  • Reachy Mini / ロボティクス音声インターフェースへの関心:Clement Delangue氏は、Gradium、Kyutai、ElevenLabs といった音声 AI ラボに対し、ロボット音声ユースケースの支援が可能か以前に質問した後に、誰が新しい音声機能を Reachy Mini に追加するかを尋ねました @ClementDelangue。

なぜこれが重要なのか

この発表により、音声エージェントは「チャットボットの周りを囲む音声入出力ラッパー」から、フルデュプレックス、ツール使用可能、長文脈、推論能力を備えたエージェントへと進化します。技術的な転換点は、単に ASR や TTS が向上するだけでなく、低遅延のターンテイク、割り込み処理、長いコンテキスト、ツール呼び出しの透明性、調整可能な推論努力が、一つのリアルタイムループ内で統合される点にあります。これは、顧客サポート、会議、アクセシビリティ、ライブ翻訳、ロボティクス、ブラウザ/コンピュータ制御、テキストチャットが遅すぎたり不自然だったりするハンズフリーワークフローにおいて重要です。

最も重要な工学的示唆は、音声アプリが状態を保持するリアルタイムシステムとして設計される必要があることであり、単なるプロンプト応答エンドポイントではないということです。OpenAI のプロンプティングガイドでは、開発者に対して推論努力の調整、前書き、ツールの動作、不明瞭な音声からの回復、エンティティキャプチャ、長セッションの状態管理 @OpenAIDevs へと導くよう明示されています。これは、音声エージェントの品質が、単なる生モデルの選択だけでなく、ハッチング設計(遅延予算、割り込みセマンティクス、ツール呼び出し UX、会話メモリ、障害回復)にますます依存するようになることを示唆しています。

残る不確実性は配布に関するものです。API モデルは現在利用可能ですが、Simon Willison の指摘 @simonw によると、ChatGPT の音声モードはまだアップグレードを受けていません。ChatGPT Voice が同様の機能を獲得するかどうか、またその時期は不明ですが、実現すれば消費者への影響ははるかに大きくなる可能性があります。それまでは、今回の発表の主な受益者は、専門的なリアルタイムエージェントを構築する開発者とプラットフォームです。

OpenAI の音声、Codex、およびサイバーセキュリティに関するリリース

GPT-Realtime-2 と新しいオーディオスタック: OpenAI は API で GPT-Realtime-2 をリリースしました。これは、GPT-5 クラスの推論能力、ツール使用、割り込み処理、およびより長い会話を実現する最も高性能な音声モデルとして説明されています。これには、70 以上の入力言語 / 13 の出力言語に対応したストリーミング翻訳のための GPT-Realtime-Translate と、低遅延のストリーミング文字起こしのための GPT-Realtime-Whisper が同梱されます @OpenAI。OpenAI は ChatGPT の音声アップデートも今後発表される予定であると述べています @OpenAI。Artificial Analysis によると、GPT-Realtime-2 は Big Bench Audio で 96.6% を達成し、会話ダイナミクスベンチマークでは 96.1% で首位に立ち、コンテキストを 32K から 12

原文を表示

a quiet day.

AI News for 5/6/2026-5/7/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!

OpenAI launched realtime-1.5 3 months ago, but it was a relative drop in the bucket because it was still 4o based intelligence (a +5% bump in Big Bench Audio). You could tell the sheer confidence in today’s realtime-2 release (with a +15.2% bump in BBA), and it was appropriately well received:

As the blogpost explains, 3 models are being released, which one might simplify to “voice-in, voice-out, and voice-to-voice”:

The focus is less about “voice quality”, and more on usability. TLDR:

Preambles: Developers can enable short phrases before a main response, like “let me check that” or “one moment while I look into it”.

Parallel tool calls and tool transparency: The model can call multiple tools at once and make those actions audible with phrases like “checking your calendar” or “looking that up now,” helping agents stay responsive while completing tasks.

Stronger recovery behavior: The model can recover more gracefully by saying things like “I’m having trouble with that right now,” instead of failing or breaking.

Longer context: 32K → 128K

Stronger domain understanding: The model better retains specialized terminology, proper nouns, healthcare terms, and other vocabulary

More controllable tone and delivery: The model can better adjust its tone—speaking calmly, empathetically, or upbeat, based on context

Adjustable reasoning effort: Developers can now select from minimal, low, medium, high, and xhigh reasoning levels, with low as the default.

The Demo video showed off how the audio model is better tuned when the main speaker is speaking to someone else, so it stops interrupting so much:

AI Twitter Recap

Top Story: GPT-Realtime-2 and OpenAI voice AI commentary

What happened

OpenAI launched three new streaming audio models in the Realtime API: GPT-Realtime-2, GPT-Realtime-Translate, and GPT-Realtime-Whisper. OpenAI positioned GPT-Realtime-2 as its “most intelligent voice model yet,” bringing “GPT-5-class reasoning” to real-time voice agents that can listen, reason, handle interruptions, use tools, and sustain longer conversations as they unfold @OpenAI. The companion models target live speech translation and transcription: GPT-Realtime-Translate supports streaming translation from 70+ input languages into 13 output languages, while GPT-Realtime-Whisper streams transcription/captions as speech is produced @OpenAI, @OpenAIDevs. OpenAI said the models are available in the Realtime API now, while ChatGPT voice upgrades are still pending: “Stay tuned, we’re cooking” @OpenAI. Sam Altman framed the launch around a behavioral shift: users increasingly use voice with AI when they need to “dump” lots of context, and OpenAI is also working on improvements to ChatGPT voice @sama.

Facts vs. opinions

Factual / directly claimed by OpenAI and evaluators

  • Model family: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper are available in the Realtime API today @OpenAIDevs.
  • GPT-Realtime-2 capabilities: reasoning-oriented native speech-to-speech model for production voice agents; supports tool use/action, interruption recovery, longer conversations, and “GPT-5-class reasoning” per OpenAI’s wording @OpenAI, @reach_vb.
  • Context window: community/OpenAI-dev commentary reported 128K context for GPT-Realtime-2 voice agents @reach_vb; Artificial Analysis independently reported the context window increased from 32K to 128K, with 32K max output tokens @ArtificialAnlys.
  • Translation: GPT-Realtime-Translate supports live speech translation from 70+ input languages into 13 output languages @OpenAI, @reach_vb.
  • Transcription: GPT-Realtime-Whisper provides low-latency streaming transcription in the Realtime API for captions, notes, and continuous speech understanding @OpenAIDevs.
  • Prompting/control: OpenAI published a voice prompting guide covering reasoning effort, preambles, tool behavior, unclear audio handling, exact entity capture, and state maintenance in long sessions @OpenAIDevs.
  • Independent benchmarks: Scale AI reported GPT-Realtime-2 took the top spot on its Audio MultiChallenge S2S leaderboard, with instruction retention rising from 36.7% to 70.8% APR versus GPT-Realtime-1.5 and strong performance on voice editing/real-time repair @ScaleAILabs.
  • Independent benchmarks: Artificial Analysis reported 96.6% on Big Bench Audio speech-to-speech reasoning, 96.1% on its Conversational Dynamics benchmark, average time-to-first-audio of 2.33s at high reasoning and 1.12s at minimal reasoning, and unchanged audio pricing of $1.15/hour input and $4.61/hour output @ArtificialAnlys, @ArtificialAnlys.
  • Reasoning-effort controls: Artificial Analysis reported adjustable reasoning levels: minimal, low, medium, high, xhigh, with low as default @ArtificialAnlys.
  • Enterprise/product evals: Glean said GPT-Realtime-2 delivered a 42.9% relative increase in helpfulness over the previous version in internal evals for real-time organizational voice interactions @glean. Genspark said its Call for Me Agent moved to GPT-Realtime-2 and saw +26% effective conversation rate and fewer dropped calls @genspark_ai.

Opinions / interpretation / commentary

  • Supporters described the launch as a “big step forward” for voice agents @sama, “total realtime victory” @reach_vb, and the first speech-to-speech model good enough for “real work” in complex voice agents @kwindla.
  • A more cautious view: Simon Willison noted the announcement does not mean ChatGPT Voice Mode itself has upgraded yet; the ChatGPT upgrade “sounds” like it is coming soon @simonw, @simonw.
  • Interface skepticism: Will Depue compared audio to VR—frequently exciting, but historically not sticky as an interface—while arguing that real-time tool use, reasoning while speaking, and live translation are the kinds of capabilities that could make audio interfaces finally take off @willdepue.
  • Broader UX optimism: several commenters framed voice as more natural and bandwidth-efficient for humans @BorisMPower, a path toward Jarvis-like always-available computer agents @willdepue, or eventually displaced by even higher-bandwidth BCIs @iScienceLuvr.
  • Competitive context: Elon Musk pushed Grok Voice for customer support @elonmusk, underscoring that real-time voice support/customer-service automation is now a competitive surface across labs.

Technical details and benchmark data

GPT-Realtime-2

  • Native speech-to-speech / real-time voice model, released via OpenAI’s Realtime API @OpenAI.
  • Framed as “GPT-5-class reasoning” for voice agents @OpenAI.
  • Designed for agents that can:

reason mid-conversation,

  • use tools/take actions,
  • handle interruptions,
  • recover when users revise or repair speech,
  • sustain longer sessions with expanded context @OpenAI, @reach_vb.
  • Reported context: 128K tokens, up from 32K @ArtificialAnlys.
  • Reported max output: 32K tokens @ArtificialAnlys.
  • Inputs reported by Artificial Analysis: text, audio, and image @ArtificialAnlys.
  • Reasoning effort levels: minimal, low, medium, high, xhigh; default low @ArtificialAnlys.
  • Time-to-first-audio:

1.12s at minimal reasoning,

  • 2.33s at high reasoning @ArtificialAnlys.
  • Pricing:

$1.15/hour audio input,

  • $4.61/hour audio output,
  • unchanged versus prior model according to Artificial Analysis @ArtificialAnlys.
  • Conversational features: supports short preambles before main responses—e.g. “let me check that”—and audible transparency during tool calls—e.g. “checking your calendar” @ArtificialAnlys.

Benchmarks

  • Scale AI Audio MultiChallenge S2S: GPT-Realtime-2 placed #1; instruction retention improved from 36.7% to 70.8% APR versus GPT-Realtime-1.5; strong voice editing when users repair/revise speech in real time @ScaleAILabs.
  • Artificial Analysis Big Bench Audio: GPT-Realtime-2 high variant scored 96.6%, reported as equal to Gemini 3.1 Flash Live Preview High and about ~13% above the previous highest result @ArtificialAnlys.
  • Justin Uberti separately summarized the improvement as 15 percentage points vs. GPT-Realtime-1.5 on Big Bench Audio, near saturation @juberti.
  • Conversational Dynamics / Full Duplex Bench subset: GPT-Realtime-2 minimal variant scored 96.1%, with strengths in pause handling and turn-taking @ArtificialAnlys.

GPT-Realtime-Translate

  • Live streaming speech translation from 70+ input languages to 13 output languages @OpenAI.
  • OpenAI cofounder Greg Brockman said real-time voice-to-voice translation has been an anticipated OpenAI application since the company’s early days and is now available for anyone to build with @gdb.
  • Vimeo demonstrated live dubbing with no pre-loaded captions, showing translations generated fully live @Vimeo.
  • Junling Zhang highlighted the new real-time translation model and encouraged API usage @jxnlco.
  • Boris Power said live translation “actually works incredibly well” and plans to use it regularly @BorisMPower.

GPT-Realtime-Whisper

  • Streaming transcription as people speak, for real-time captions, notes, and speech understanding @OpenAI.
  • Justin Uberti described it as “Whisper, but now with realtime streaming” and updated demos to use the new model @juberti.
  • Uberti also built a delay selector to expose the latency/accuracy tradeoff in a real-time typing demo @juberti.

Product integrations and demos

  • Glean: shipped real-time voice powered by GPT-Realtime-2, grounded in organizational context; internal evals showed 42.9% relative helpfulness increase over the previous version @glean.
  • Vimeo: demonstrated live dubbing using GPT-Realtime-Translate, with translations generated live and no pre-loaded captions @Vimeo.
  • Genspark: upgraded its Call for Me Agent to GPT-Realtime-2; Genspark Realtime Voice is next; claimed sharper reasoning, tighter instruction following, +26% effective conversation rate, and fewer dropped calls @genspark_ai.
  • Gradient Bang / game-agent demo: Kyle Windland said GPT-Realtime-2 is the first OpenAI speech-to-speech model good enough for his voice agents that do “real work,” showing it as the ship AI in a complex agent with tool calls and subagents @kwindla.
  • Voice-controlled market dashboard: Levin Stanley demoed GPT-Realtime-2 controlling an interface by intent—“Focus on Apple,” “How did it do over the last 30 days?”, “Go back”—arguing that real-time interruption and reasoning change the UI loop from navigation to direction @levinstanley.
  • Realtime demos: Justin Uberti updated hello-realtime for GPT-Realtime-2 and provided a phone demo number @juberti; Diego Cabezas posted a quick GPT-Realtime-2 demo @diegocabezas01; Ray Fernando hosted a “Building a Live Translator” broadcast @RayFernando1337.
  • Reachy Mini / robotics voice interface interest: Clement Delangue asked who would add the new voice capabilities to Reachy Mini @ClementDelangue, after earlier asking voice AI labs such as Gradium, Kyutai, and ElevenLabs who could help with a robot voice use case @ClementDelangue.

Why this matters

The launch pushes voice agents from “speech I/O wrapper around a chatbot” toward full-duplex, tool-using, long-context, reasoning agents. The technical shift is not just better ASR or TTS; it is the combination of low-latency turn-taking, interruption handling, longer context, tool-call transparency, and adjustable reasoning effort in a single real-time loop. That matters for customer support, meetings, accessibility, live translation, robotics, browser/computer control, and hands-free workflows where text chat is too slow or awkward.

The most important engineering implication is that voice apps now need to be designed as stateful real-time systems, not prompt-response endpoints. OpenAI’s prompting guide explicitly points developers toward reasoning-effort tuning, preambles, tool behavior, unclear-audio recovery, entity capture, and long-session state management @OpenAIDevs. This suggests voice-agent quality will increasingly depend on harness design: latency budgets, interruption semantics, tool-call UX, conversational memory, and failure recovery—not just raw model selection.

The remaining uncertainty is distribution. The API model is available now, but ChatGPT voice mode has not yet received the upgrade, per Simon Willison’s observation @simonw. If and when ChatGPT Voice gets the same capabilities, the consumer impact could be much larger. Until then, the launch primarily benefits developers and platforms building specialized real-time agents.

OpenAI Voice, Codex, and Cybersecurity Releases

GPT-Realtime-2 and new audio stack: OpenAI released GPT-Realtime-2 in the API, described as its most capable voice model with GPT-5-class reasoning, tool use, interruption handling, and longer conversations; it ships alongside GPT-Realtime-Translate for streaming translation across 70+ input languages / 13 output languages and GPT-Realtime-Whisper for low-latency streaming transcription @OpenAI. OpenAI says ChatGPT voice updates are still forthcoming @OpenAI. Artificial Analysis reports GPT-Realtime-2 reaches 96.6% on Big Bench Audio, leads its Conversational Dynamics benchmark at 96.1%, expands context from 32K to 12

この記事をシェア

関連記事

Latent Space重要度52026年5月8日 16:11

OpenAI が新 SOTA リアルタイム音声 API「GPT-Realtime-2」などを発表

The Zvi重要度42026年6月26日 23:51

ホワイトハウスが個別に GPT-5.6 のアクセス権をその場しのぎで決定する方針へ

TechCrunch AI重要度42026年6月26日 08:34

ホワイトハウス、安全性の懸念から OpenAI の新モデルリリースを徐々に行うよう要請

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む