OpenAI、API に新音声知能機能を追加
OpenAI は、GPT-5 クラスの推論能力を備えた新モデル「GPT-Realtime-2」や多言語翻訳機能などを追加し、API を通じてリアルタイム音声対話・通訳・文字起こしが可能な高度なインテリジェンス機能をリリースした。
キーポイント
GPT-5 クラスの推論能力搭載モデルの登場
新モデル「GPT-Realtime-2」は、前世代よりも複雑なユーザー要求に対応できるよう、GPT-5 クラスの推論機能を組み込んだリアルタイム音声対話モデルとして発表された。
多言語対応のリアルタイム翻訳機能
「GPT-Realtime-Translate」により、70 以上の入力言語と 13 の出力言語に対応した、会話の流れを妨げないリアルタイム通訳サービスが提供されるようになった。
ライブ文字起こし機能の強化
「GPT-Realtime-Whisper」により、対話が発生している最中にリアルタイムで音声からテキストへ変換する機能が API に統合された。
悪用防止と課金モデルの明確化
スパムや詐欺を防ぐためのガードレールが実装され、翻訳・文字起こしは分単位、推論機能はトークン消費量に基づいて課金される仕組みとなった。
新機能の統合先
すべての新しい音声モデルは、OpenAI のリアルタイム API (Realtime API) に含まれています。
課金体系の違い
Translate および Whisper は分単位で請求される一方、GPT-Realtime-2 はトークン消費量に基づいて請求されます。
影響分析・編集コメントを表示
影響分析
今回のアップデートは、音声 AI を単なる通話ツールから、推論・翻訳・文字起こしを統合した自律的な業務遂行エージェントへと進化させる転換点となる。特に GPT-5 クラスの推論能力が組み込まれたことで、複雑な対話シナリオや教育・メディア分野での実用性が飛躍的に高まり、開発者がより高度な音声インターフェースを迅速に構築できる環境が整った。
編集コメント
GPT-5 クラスの推論能力を音声モデルに統合した点は、業界全体における「音声 AI の知能化」への大きな一歩であり、開発者が即座に実用的なアプリケーションを構築できる可能性を開いた画期的な発表です。
OpenAI は木曜日、開発者がユーザーとの会話に話しかけ、書き起こし、翻訳できるアプリを作成できるよう支援する一連の新しい音声知能機能を API に追加すると発表しました。
同社の new GPT‑Realtime‑2 は、ユーザーと対話可能なリアルな音声シミュレーションを生成するために構築されたもう一つの音声モデルです。しかし、その前身である GPT-Realtime-1.5 とは異なり、このモデルは OpenAI によると、より複雑なユーザーの要求に対応できるよう GPT‑5 クラスの推論能力で設計されています。
同社はまた、名前の通り会話形式でユーザーに「追いつく」リアルタイム翻訳サービスを提供することを目的とした GPT‑Realtime‑Translate も発表しました。この機能には、70 以上の入力言語(理解可能な言語)と 13 の出力言語(話者に伝える言語)が含まれています。
最後に、同社は会話の進行中にキャプチャされるライブ音声からテキストへの変換機能を備えた新しい書き起こし機能 GPT-Realtime-Whisper も発表しました。
「今回発表するモデル群は、単なる呼び出しと応答の形式から、実際に作業を行うことができる音声インターフェースへとリアルタイムオーディオを進化させます。それは、会話が進行する中で聴き取り、推論し、翻訳し、書き起こし、そして行動を起こすことを可能にします」と同社は述べています。
これらのアップデートは誰にとって有益なのでしょうか?顧客サービス機能を拡大したい企業は明白なターゲットです。しかし、OpenAI はまた、新しい機能が教育、メディア、イベント、クリエイタープラットフォームなど、幅広い分野を支援する可能性があると指摘しています。
これらのツールが企業視点から有用であることは確かですが、誤用される可能性も十分にあります。同社は、スパムや詐欺、その他のオンライン虐待の作成に新機能が悪用されないよう、ガードレール(安全装置)を構築したと述べています。「有害なコンテンツガイドラインに違反していると検出された場合、会話を停止できるよう」システム内に特定のトリガーが組み込まれていると OpenAI は説明しています。
Techcrunch event
San Francisco, CA
October 13-15, 2026
すべての新しい音声モデルは OpenAI の Realtime API に含まれています。Translate と Whisper は分単位で課金され、GPT-Realtime-2 はトークン消費量に基づいて課金されます。
*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは当社の編集の独立性には影響しません。
Lucas は TechCrunch のシニアライターで、人工知能、消費者向けテクノロジー、スタートアップを担当しています。以前は Gizmodo で AI とサイバーセキュリティを報道していました。
Lucas への連絡先は、lucas.ropek@techcrunch.com までメールを送信してください。
OpenAI は本日、API における音声インテリジェンス機能を強化する新アップデートを発表しました。これにより、開発者はより高度な音声処理能力をアプリケーションに統合できるようになります。
今回の更新では、リアルタイムの音声認識精度が大幅に向上し、複雑な発話や背景ノイズのある環境でも安定した認識が可能となりました。また、多言語対応も拡充され、これまで以上に多くの言語での自然な対話が実現します。
OpenAI のエンジニアリングチームは、この機能強化により、カスタマーサポートボットから教育用 AI アシスタントまで、幅広いユースケースで音声インターフェースの品質を向上させると期待しています。詳細なドキュメントと API 仕様は、公式開発者ポータルにて公開されています。
開発者は、新しいエンドポイントを使用して、音声入力からテキストへの変換や、音声ベースのクエリ処理をシームレスに実装できます。これにより、ユーザー体験がより直感的で没入感のあるものへと進化します。
OpenAI は今後も、音声技術の革新を通じて、人間と機械の対話体験をさらに深化させる取り組みを継続していく方針です。
原文を表示
OpenAI said Thursday that its API will now include a number of new voice intelligence features designed to help developers create apps that can talk, transcribe, and translate conversations with users.
The company’s new GPT‑Realtime‑2 is another voice model, built to create a realistic vocal simulation that can converse with users. However, unlike its predecessor (GPT-Realtime-1.5) this one is built with GPT‑5‑class reasoning that OpenAI says was created to deal with more complicated requests from users.
The company is also launching GPT‑Realtime‑Translate, which, just as it sounds, is designed to provide real-time translation services that “keep pace” with the user, conversationally. The feature includes more than 70 input languages (that is, the languages that it can comprehend) and 13 output languages (the languages it relays to the speaker).
Finally, the company has also launched a new transcription capability, GPT-Realtime-Whisper, which gives users live speech-to-text capabilities that are captured as interactions occur.
“Together, the models we are launching move real-time audio from simple call-and-response toward voice interfaces that can actually do work: listen, reason, translate, transcribe, and take action as a conversation unfolds,” the company said.
Who will these updates be good for? Companies that want to expand customer service capabilities are an obvious target. However, OpenAI also notes that its new features will assist with a wide array of areas, including education, media, events, and creator platforms, among others.
As useful as these tools seem from an enterprise perspective, it also seems plausible that they could be misused. The company said it has built guardrails to stop its new features from being abused to create spam, fraud, or other forms of online abuse. Certain triggers have been embedded in the system so that “conversations can be halted if they are detected as violating our harmful content guidelines,” OpenAI said.
Techcrunch event
San Francisco, CA
|
October 13-15, 2026
All of the new voice models are included in OpenAI’s Realtime API. Translate and Whisper are billed by the minute, while GPT-Realtime-2 is billed by token consumption.
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Lucas is a senior writer at TechCrunch, where he covers artificial intelligence, consumer tech, and startups. He previously covered AI and cybersecurity at Gizmodo.
You can contact Lucas by emailing lucas.ropek@techcrunch.com.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み