OpenAI がリアルタイム音声モデルを公開
OpenAI は、GPT-5 クラスの推論能力を持つ音声モデルやリアルタイム翻訳機能を備えた新 API を発表し、単なる通話対応から実際の業務を遂行できる次世代音声エージェントの実現に向けた重大な進展を示した。
キーポイント
GPT-Realtime-2 の登場と GPT-5 クラス推論
複雑なリクエスト処理や文脈の維持が可能で、会話の流れを自然に先読みする、初の GPT-5 クラス推論能力搭載音声モデルが公開された。
リアルタイム多言語翻訳機能の強化
70 以上の入力言語から 13 の出力言語へ、話者のペースに同期しながら行うライブ翻訳モデル「GPT-Realtime-Translate」が新設された。
ストリーミング音声認識の導入
話者が発声している最中に逐次文字起こしを行う「GPT-Realtime-Whisper」により、遅延のないリアルタイムな対話環境が構築可能となった。
音声インターフェースの進化と実用化
単純な呼び出し応答から、ツール使用や状況に応じた行動が可能になり、運転中や移動中でも自然にタスクを完了できる新しいクラスの声アプリが実現する。
影響分析・編集コメントを表示
影響分析
この発表は、音声 AI の分野において「反応するツール」から「自律的に行動するエージェント」への転換点を示す画期的な出来事です。特に GPT-5 クラスの推論能力とリアルタイム処理を組み合わせることで、運転中や移動中などハンズフリー環境での複雑なタスク実行が現実的なレベルに達し、開発者コミュニティにおける音声アプリの質と用途範囲が劇的に拡大すると予想されます。
編集コメント
音声 AI の実用性が飛躍的に向上し、単なるチャットボットの延長ではなく、実際の業務を遂行するエージェントとしての可能性が開かれました。開発者は今すぐ、より自然で知的な音声体験の実装を検討すべきタイミングです。
API に3 つの音声モデルを導入し、開発者が新しいクラスの音声アプリを構築できるようにします。これらのモデルを使用すれば、より自然に感じられ、より賢く反応し、リアルタイムでアクションを実行できる音声体験を開発できます。
- GPT‑Realtime‑2:GPT‑5 クラスの推論能力を備えた最初の音声モデルで、難しいリクエストにも対応し、会話を自然に継続できます。
- GPT‑Realtime‑Translate:70 以上の入力言語から 13 の出力言語へ、話者のペースに合わせてリアルタイムで翻訳を行う新しいライブ翻訳モデルです。
- GPT‑Realtime‑Whisper:話者が話す内容をその場で書き起こす、新しいストリーミング音声認識(speech-to-text)モデルです。
GPT-Realtime-2 を試す
セッションを開始し、GPT-Realtime-2 と自然に会話してください。
何を聞けますか?セッション開始後、以下のいずれかを発言してみてください:
- 今夜は直前の夕食会をホストすることになりました。30 分しかなく、ベジタリアンの友人が 2 人、キノコが苦手な人が 1 人、そして小さなキッチンです。簡単なメニューの計画を手伝ってください。
- 日本でのライブイベントにゲストを迎えます。特別なイベントの開始を告げるホストのように、温かみのある自然な日本語で歓迎の言葉を述べてください。
- 私の注文番号は Orbit-742Q です。正確に確認できるよう、はっきりと繰り返してください。
- チームに「ローンチマイルストーンを達成した」と伝える練習を手伝ってください。最初は静かな自信を持って言い、次により興奮気味に言ってみてください。
- 長距離ドライブのためのクイズ大会を計画しています。一見単純そうだが実はトリッキーな質問を 3 つ出し、それぞれの答えを 1 文で説明してください。
このデモは時間制限付きです。これを利用することにより、OpenAI の利用規約に同意し、当社のプライバシーポリシーを承認したものとみなされます。
音声は、人々がソフトウェアを利用する最も自然な方法の一つになりつつあります。これにより、運転中に助けを求めること、空港内を歩きながら旅行計画を変更すること、好みの言語でサポートを受けること、タイピングせずにタスクを進めることが可能になります。
しかし、有用な音声製品を構築するには、単に素早いターンテイクや自然な発声だけでは不十分です。音声エージェントは、相手の意図を理解し、文脈を追跡し、要求が変更された際に回復し、会話が続く中でツールを使用し、その瞬間に適した方法で応答する必要があります。
今回発表するモデル群は、リアルタイムオーディオを単純な呼び出しと応答から、実際に作業を行うことができる音声インターフェースへと進化させます。つまり、会話が進行するにつれて、聴取し、推論し、翻訳し、文字起こしし、行動を起こすことができます。
人と製品をつなぐインターフェースとしての音声
音声の利用がより自然なものとなるにつれ、開発者は音声 AI において以下の 3 つの新たなパターンを中心に構築するようになっています:
- ヴォイス・トゥ・アクション:ユーザーが必要なものを説明すると、システムがその要求を推論し、ツールを活用してタスクを完了する仕組み。例えば Zillow は、聴取・推論・実行ができるアシスタントを開発中で、「私の購入可能範囲内の家を探し、混雑した道路を避け、土曜日の見学ツアーを予約してください」といったリクエストに応えます。
- システム・トゥ・ヴォイス:ソフトウェアが文脈を生きた音声ガイダンスに変換する仕組み。例えば旅行アプリは旅行者に対して「出発便が遅延していますが、乗り継ぎにはまだ間に合います。新しいゲートを見つけ、ターミナル内の最速ルートを地図に表示し、手荷物は引き続き転送される見込みです」と事前に案内できます。
- ヴォイス・トゥ・ヴォイス:AI が言語やタスク、変化する文脈を跨いで生きた会話を支援する仕組み。例えば Deutsche Telekom は、顧客が最も慣れ親しんだ言語で話せる音声サポート体験を提供しており、モデルが会話内容をリアルタイムで翻訳します。
これらのパターンは相互に連携して機能することもあります。Priceline では、旅行者が音声だけで旅行全体を管理できる未来を目指しています。具体的には、会話形式で飛行機やホテルを検索し、フライト遅延後のホテル予約変更や TSA の待ち時間に関するリアルタイム更新に対応し、現地到着後は会話を翻訳するといった機能です。
リアルタイム・ボイス:音声モデルの推論と行動支援を可能に
GPT-Realtime-2 は、モデルがリクエストの推論中やツールの呼び出し、修正や中断への対応を行いながら会話を継続させ、その瞬間にふさわしい方法で応答するライブ音声対話のために構築されています。
- プリアンブル:開発者は、主要な応答の前に「確認します」や「少しお待ちください」といった短いフレーズを有効化でき、ユーザーにエージェントがリクエスト処理中であることを知らしめることができます。
- 並列ツール呼び出しとツールの透明性:モデルは複数のツールを同時に呼び出すことができ、「カレンダーを確認しています」「今すぐ検索しています」といったフレーズでその動作を音声化します。これにより、タスク完了中でもエージェントの応答性を維持できます。
- より強力な回復機能:モデルは「現在それがうまくいかないようです」などの発言を通じて、沈黙して失敗したり会話を中断したりするのではなく、より滑らかに回復できるようになります。
- エージェントワークフロー向けの長いコンテキスト:より長く一貫性のあるセッションや複雑なタスクフローをサポートするため、コンテキストウィンドウを 32K から 128K に拡大します。
- より強力なドメイン理解力:モデルは、生産環境で重要な専門用語、固有名詞、医療用語、その他の語彙をよりよく保持できるようになります。
- より制御可能なトーンと発話:モデルは状況に応じてトーンを調整できます。問題解決中は冷静に、ユーザーがイライラしているときは共感的に、成功したアクションを確認する際は前向きな口調で話すことができます。
- 調整可能な推論努力度:開発者は now、最小、低、中、高、超高の推論レベルから選択できるようになりました(デフォルトは「低」)。これにより、単純な対話では遅延を低減し、複雑なリクエストではより慎重な推論を行うバランスを実現します。
これらの成果は、生産現場の音声エージェントに密接に対応するオーディオ評価において確認できます。GPT‑Realtime‑2 (high) は、オーディオ知能に関する Big Bench Audio で GPT‑Realtime‑1.5 よりも 15.2% 高いスコアを記録しました。また、GPT‑Realtime‑2 (xhigh) は、指示の遵守において Audio MultiChallenge で 13.8% 向上し、GPT‑Realtime‑1.5 を上回るとともに、ライブ会話における推論能力、文脈管理、制御力においてより強力なパフォーマンスを示しました。
Big Bench Audio は、オーディオ入力に対応する言語モデルの困難な推論能力を評価します。Audio MultiChallenge (opens in a new window) は、音声対話システムにおける多段階会話知能を評価し、指示の遵守、文脈の統合、自己一貫性、自然な発話の修正への対応などを含みます。
GPT‑Realtime‑2 の真価は、さまざまな異なるユースケースにおいて発揮されます:
ユーザー
通勤鉄道駅の隣に 900 平方フィートのインディーズコーヒーショップを構えることを検討しています。歩行者数は火曜日から木曜日の午前 7 時から 10 時にピークを迎え、月曜日、金曜日、午後には大幅に減少します。家賃は高額ですが、居心地の良い座席、スロー・ポアオーバー、地元産のペストリーというアイデアが気に入っています。戦略的な事前分析(プレモルテム)を行ってください:1 年後に失敗した場合、何が起きた可能性が高いでしょうか?また、本格的なカフェを始める前にテストすべき最も小規模なビジネス形態を提案してください。
0:001:04
0:000:51
初期テスト段階では、企業は GPT-Realtime-2 を活用して、自然な会話を通じて顧客や従業員がタスクを完了できるよう支援する音声エージェントを構築しました。
「GPT-Realtime-2 が際立っていたのは、複雑な音声対話に持ち込む知能とツール呼び出しの信頼性です。最も困難な敵対的ベンチマークにおいて、プロンプト最適化後の通話成功率が 26 ポイント向上(95% vs. 69%)しました。また、GPT-Realtime-2 は公平住宅法(Fair Housing compliance)への準拠面でも大幅に堅牢であり、これは当社の事業にとって極めて重要です。エージェントとしての能力とガードレールの強度を組み合わせることで、Zillow における本番環境での音声利用が可能になります。」
— Josh Weisberg, Zillow 最高責任者兼 AI 部門長
リアルタイム翻訳:ライブな多言語音声体験の構築
GPT-Realtime-Translate は、開発者がライブな多言語音声体験を構築できるよう支援します。各参加者は各自が好む言語で話せ、会話はリアルタイムで翻訳され、同時にリアルタイム文字起こしも表示されます。70 以上の入力言語と 13 の出力言語をサポートしており、顧客サポート、国境を越えた販売、教育、イベント、メディア、グローバルな聴衆を対象とするクリエイタープラットフォームなどにおいて有用です。
開発者にとって、ライブ翻訳は、人々が自然に話したり、文脈を切り替えたり、地域特有の発音やドメイン固有の言語を使用する場合でも、意味を保ちながら話者のペースに追いつく必要があります。例えば、ドイツ・テレコム(Deutsche Telekom)は、低遅延と高い流暢性が異言語間の会話をより自然なものにするため、多言語音声対話においてこのモデルをテストしています。
この動画では、Vimeo が GPT-Realtime-Translate を使用して、製品教育ビデオが再生される際にライブで翻訳する様子を披露しており、グローバルな顧客は別バージョンの制作を待たずに、好みの言語でアップデートを聞くことができます。
「インド向けの音声 AI を構築するには、多様な地域的な音韻に対応する必要があります。ヒンディー語、タミル語、テルグ語での評価において、GPT-Realtime-Translate はテストした他のどのモデルよりも単語誤り率(Word Error Rates)が 12.5% 低く、フォールバック率の低下、タスク完了率の上昇、自然な会話を維持できる遅延を実現しました。これは多言語音声 AI の新たな基準を設定するものです。」
— Prateek Sachan, BolnaAI 共同創設者兼 CTO
リアルタイム文字起こし:低遅延の文字起こし体験を構築する
GPT-Realtime-Whisper は、低遅延の音声からテキストへの変換(speech-to-text)のために構築された新しいストリーミング型文字起こしモデルです。人々が話す瞬間に音声を文字起こしするため、ライブ製品はより速く、より応答性が高く、より自然なものになります。これは、その場で表示されるキャプションや、会話に合わせて更新される会議メモなどにも当てはまります。
このモデルは、ビジネスワークフロー内でリアルタイムに発生する生きた音声の利用を可能にします。チームは、会議・教室・放送・イベントでのキャプション機能を提供したり、会話が進行中であってもノートや要約を生成したり、ユーザーを継続的に理解する必要のあるボイスエージェントを構築したり、カスタマーサポート・医療・営業・採用・その他の高ボリュームの音声対話におけるより迅速なフォローアップワークフローを作成したりできます。
セーフティ
Realtime API は、誤用の防止に役立つ複数の層のセーフガードと緩和策を組み込んでいます。私たちは Realtime API のセッションに対してアクティブな分類器を採用しており、有害コンテンツガイドラインに違反すると検出された場合、特定の会話を停止させることができます。開発者はまた、Agents SDK.(新しいウィンドウで開く) を使用して、独自の追加のセーフティガードレールを簡単に実装できます。
私たちの 利用ポリシー では、当社のサービスの出力をスパム・欺瞞・その他の有害な目的のために再利用または配布することを禁止しています。また、文脈からすでに明白でない限り、開発者はエンドユーザーが AI と対話していることを明確に示す必要があります。
価格設定と利用状況
GPT‑Realtime‑2、GPT‑Realtime‑Translate、および GPT‑Realtime‑Whisper が Realtime API で利用可能です。GPT‑Realtime‑2 の料金は、音声入力トークン 1M あたり $32(キャッシュされた入力トークンの場合 $0.40)、音声出力トークン 1M あたり $64 です。GPT‑Realtime‑Translate は 1 分あたり $0.034、GPT‑Realtime‑Whisper は 1 分あたり $0.017 です。
始め方
構築を開始するには、このプロンプトを Codex で開く ことで、既存のアプリに GPT‑Realtime‑2 を追加するか、新しいアプリを立ち上げることができます。Codex がまだない場合は、まず Codex アプリ をダウンロードしてください。
原文を表示
We’re introducing three audio models in the API that unlock a new class of voice apps for developers. With these models, developers can build voice experiences that feel more natural, respond more intelligently, and take action in real time:
- GPT‑Realtime‑2, our first voice model with GPT‑5‑class reasoning that can handle harder requests and carry the conversation forward naturally.
- GPT‑Realtime‑Translate, a new live translation model that translates speech from 70+ input languages into 13 output languages while keeping pace with the speaker.
- GPT‑Realtime‑Whisper, a new streaming speech-to-text that transcribes speech live as the speaker talks.
Try GPT-Realtime-2
Start the session, then talk naturally with GPT-Realtime-2.
What can I ask?After you start the session, try saying one of these:
- I’m hosting a last-minute dinner tonight. I have 30 minutes, two vegetarian friends, one mushroom-hater, and a tiny kitchen. Help me plan a simple menu.
- I’m welcoming guests to a live event in Japan. Say a warm, natural welcome in Japanese — like a host kicking off something special.
- My order number is Orbit-742Q. Repeat it back clearly so I can confirm it’s right.
- Help me practice telling my team we hit our launch milestone. First say it with quiet confidence, then with more excitement.
- I’m planning trivia for a road trip. Give me three trick questions that sound deceivingly simple, then explain each answer in one sentence.
This demo is time-limited. By using it, you agree to OpenAI's Terms and acknowledge our Privacy Policy.
Voice is becoming one of the most natural ways for people to use software. It lets someone ask for help while driving, change a travel plan while walking through an airport, get support in their preferred language, or move through a task without stopping to type.
But building useful voice products takes more than fast turn-taking or a natural-sounding voice. A voice agent needs to understand what someone means, keep track of context, recover when a request changes, use tools while the conversation continues, and respond in a way that feels appropriate to the moment.
Together, the models we are launching move realtime audio from simple call-and-response toward voice interfaces that can actually do work: listen, reason, translate, transcribe, and take action as a conversation unfolds.
Voice as an interface between people and products
As voice becomes a more natural way to use software, we’re seeing developers build around three emerging patterns in voice AI:
- Voice-to-action, where people can describe what they need and the system can reason through the request, use tools, and complete the task. For example, Zillow is building an assistant that can listen, reason, and act on requests like: “find me homes within my BuyAbility, avoid busy streets, and schedule a tour for Saturday.”
- Systems-to-voice, where software can turn context into live spoken guidance. For example, a travel app could proactively tell a traveler: “Your inbound flight is delayed, but you can still make your connection. I found the new gate, mapped the fastest route through the terminal, and your bag is still expected to transfer.”
- Voice-to-voice, where AI can help live conversations continue across languages, tasks, or changing context. For example, Deutsche Telekom is building voice support experiences where customers can speak in the language they’re most comfortable using, while the model translates the conversation in real time.
These patterns can also work together. Priceline is working toward a future where travelers can manage entire trips by voice: searching for flights and hotels conversationally, handling changes like adjusting a hotel reservation after a flight delay or getting real-time updates on TSA wait times, and translating conversations once travelers are on the ground.
Realtime voice: helping voice models reason and take action
GPT‑Realtime‑2 is built for live voice interactions where the model keeps the conversation moving while it reasons through a request, calls tools, handles corrections or interruptions, and responds in a way that fits the moment.
- Preambles: Developers can enable short phrases before a main response, like “let me check that” or “one moment while I look into it,” so users know the agent is working on the request.
- Parallel tool calls and tool transparency: The model can call multiple tools at once and make those actions audible with phrases like “checking your calendar” or “looking that up now,” helping agents stay responsive while completing tasks.
- Stronger recovery behavior: The model can recover more gracefully by saying things like “I’m having trouble with that right now,” instead of failing silently or breaking the conversation.
- Longer context for agentic workflows: We’re increasing the context window from 32K to 128K to support longer, more coherent sessions and more complex task flows.
- Stronger domain understanding: The model better retains specialized terminology, proper nouns, healthcare terms, and other vocabulary that matters in production settings.
- More controllable tone and delivery: The model can better adjust its tone—speaking calmly while resolving an issue, empathetically when a user is frustrated, or upbeat when confirming a successful action.
- Adjustable reasoning effort: Developers can now select from minimal, low, medium, high, and xhigh reasoning levels, with low as the default, balancing lower latency for straightforward interactions with more deliberate reasoning for complex requests.
The gains show up on audio evals that map closely to production voice agents: GPT‑Realtime‑2 (high) scores 15.2% higher on Big Bench Audio for audio intelligence than GPT‑Realtime‑1.5. GPT‑Realtime‑2 (xhigh) scores 13.8% higher on Audio MultiChallenge for instruction following, improving over GPT‑Realtime‑1.5 and showing stronger reasoning, context management, and control in live conversations.
The magic of GPT‑Realtime‑2 shows up across a variety of different use cases:
User
I'm considering a 900-square-foot indie coffee shop beside a commuter rail station. Foot traffic peaks Tuesday through Thursday from 7 to 10 a.m.; Mondays, Fridays, and afternoons are much softer. The lease is expensive, but I love the idea of cozy seating, slow pour-overs, and local pastries. Give me a strategic pre-mortem: if this fails after a year, what probably happened? Then suggest the smallest version of the business I should test before committing to the full cafe.
0:001:04
0:000:51
During early testing, businesses used GPT‑Realtime‑2 to build voice agents that help customers and employees get things done through natural conversation:
“What stood out about GPT-Realtime-2 was the intelligence and tool-calling reliability it brings to complex voice interactions. On our hardest adversarial benchmark, this translates to a 26-point lift in call success rate after prompt optimization (95% vs. 69%). GPT-Realtime-2 is also materially more robust on Fair Housing compliance, which is critical for our business. The combination of agentic competence and guardrail strength is what makes it viable for production voice at Zillow.”
— Josh Weisberg, SVP and Head of AI at Zillow
Realtime translation: build live multilingual voice experiences
GPT‑Realtime‑Translate helps developers build live multilingual voice experiences where each person can speak in their preferred language and hear the conversation translated in real time and read the real time transcriptions. It supports more than 70 input languages and 13 output languages, making it useful for customer support, cross-border sales, education, events, media, and creator platforms serving global audiences.
For developers, live translation needs to preserve meaning while keeping pace with the speaker, even when people speak naturally, switch context, or use regional pronunciation and domain-specific language. For example, Deutsche Telekom is testing the model for multilingual voice interactions, where lower latency and stronger fluency can make cross-language conversations feel more natural.
In this video, Vimeo shows how GPT‑Realtime‑Translate can translate a product education video live as it plays, so global customers can hear updates in their preferred language without waiting for a separately produced version.
“Building voice AI for India means handling diverse regional phonetics. In our evals across Hindi, Tamil, and Telugu, GPT-Realtime-Translate delivered 12.5% lower Word Error Rates than any other model we tested, along with lower fallback rates, higher task completion, and latency that sustained natural conversation. It sets a new standard for multilingual voice AI.”
— Prateek Sachan, Co-founder & CTO at BolnaAI
Realtime transcription: build low-latency transcription experiences
GPT‑Realtime‑Whisper is a new streaming transcription model built for low-latency speech-to-text. It transcribes audio as people speak, so live products can feel faster, more responsive, and more natural—from captions that appear in the moment, to meeting notes that keep up with the conversation.
The model makes live speech usable inside business workflows as it happens. Teams can power captions for meetings, classrooms, broadcasts, and events; generate notes and summaries while conversations are still in progress; build voice agents that need to understand users continuously; and create faster follow-up workflows for customer support, healthcare, sales, recruiting, and other high-volume spoken interactions.
Safety
The Realtime API incorporates multiple layers of safeguards and mitigations to help prevent misuse. We employ active classifiers over Realtime API sessions, meaning certain conversations can be halted if they are detected as violating our harmful content guidelines. Developers can also easily add their own additional safety guardrails using the Agents SDK.(opens in a new window)
Our usage policies prohibit repurposing or distributing outputs from our services for spam, deception, or other harmful purposes. Developers must also make it clear to end users when they’re interacting with AI, unless it’s already obvious from the context.
Pricing & availability
GPT‑Realtime‑2, GPT‑Realtime‑Translate and GPT‑Realtime‑Whisper are available in the Realtime API. GPT‑Realtime‑2 is priced at $32 / 1M audio input tokens ($0.40 for cached input tokens) and $64 / 1M audio output tokens. GPT‑Realtime‑Translate is priced at $0.034 per minute. GPT‑Realtime‑Whisper is priced at $0.017 per minute.
Get started
To start building, open this prompt in Codex to add GPT‑Realtime‑2 to an existing app or start a new one. If you don’t have Codex yet, download the Codex app first.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み