OpenAI、ChatGPT向け双方向音声モードの展開を準備
OpenAI が ChatGPT の音声モードに、同時に話しかけ・聴取・応答が可能な次世代モデル「Bidi 1」を導入する準備を進めている。
キーポイント
次世代音声モデル「Bidi 1」の登場
OpenAI は ChatGPT の音声機能に、双方向(bidirectional)設計を採用した新モデル「Bidi 1」を投入する予定である。
同時処理による自然な対話の実現
この新設計により、アシスタントが話すと同時に聞き続けることが可能になり、従来の一方通行的な音声対話から抜本的に改善される。
限定的なベータテストの開始
ウェブインターフェースでの言及やアプリ内での一部ユーザーへの展開が始まっており、今週のリリースも視野に入れている。
双方向音声モデル「Bidi 1」の導入
アシスタントが同時に話しかけ、聞き、理解できる次世代音声モデルで、会話中の自然な合図や即座のタスク切り替えが可能になります。
文脈維持と会話の流暢さの向上
以前のバージョンの問題点であった文脈の喪失が解消され、長い沈黙中に割り込まないようになり、会話の流れを保持します。
クリエイティブ機能と著作権対応
歌唱やビートボックスなどのクリエイティブ機能が継承される一方、人気曲の再生は拒否し、代わりに指定したアーティスト風のオリジナル楽曲を作成するようになります。
影響分析・編集コメントを表示
影響分析
この技術革新により、AI アシスタントとの対話体験が人間同士の会話に近い自然さへと進化し、音声インターフェースの普及に大きな弾みがつくでしょう。特に、ユーザーが発言中にアシスタントが即座に応答できる機能は、教育や顧客対応など実用領域での利用価値を大幅に高める可能性があります。
編集コメント
「話す」「聞く」「聴く」を同時に行う双方向設計は、音声 AI の遅延問題を解消する決定的な転換点であり、今後の対話型AIの標準仕様になり得る重要な技術です。
OpenAI は、ChatGPT の音声モードに数ヶ月ぶりの最大規模のアップグレードを施す準備を整えているようです。次世代オーディオモデル「Bidi 1」Bidi 1 が登場しており、これは双方向型(bidirectional)設計を指す略称で、アシスタントが同時に話しかけ、聞き取り、聴取できる機能を実現しています。今週中のリリースの可能性に先駆けて、ChatGPT の Web インターフェースでの言及が始まり、すでにアプリ内の一部のユーザーにも配信され始めています。
機械学習 & 人工知能
初期テストでは、現在の先進的な音声モードとの差は明白です。Bidi 1 は設定のモデル選択画面にあり、「標準」や「高度」オプションの隣に配置されており、選択すると音声バブルが黄色くなります。話者が一時停止したり速度を落としたりした際、割り込まずに「はい」や短い頷きといった自然な応答を示します。また、タスクもその場で切り替えることができます。「10 まで数えて」と指示し、途中で中断して逆数を数えさせると、即座に対応します。
より実用的なのは、会話の文脈を維持できる点です。以前のコンテキストを失うことなく、一連の会話を継続的に保持します。これは長年現在の音声スタックの弱点として指摘されてきた部分であり、また、長い一時停止中に割り込んでくることもなくなりました。
image創造的な振る舞いは、最初の高度な音声ロールアウトから引き継がれており、歌唱やビートボックスも含まれます。ただし、著作権の扱いについてはより厳格化されており、人気のある楽曲は明確に拒否する一方で、指定されたアーティストのスタイルでオリジナル曲を創作しようとする試みは継続されます。
この動きは、OpenAI が、その能力の高いテキストモデルと古くからの音声レイヤーとの距離を縮め、会話を ChatGPT への主要な入口として位置づけていることを示唆しています。同社はこれを正式に発表していません。ウェブおよびモバイルプラットフォームを通じて段階的かつオプトイン形式でリリースされる可能性が高く、欧州経済領域(EEA)ではより長い待機期間が設けられる可能性があります(未確認)。Codex は、このローンチの数週間後に独自の音声アップグレードを予定しており、これは本件とは別に実施されます。API アクセスはさらに後になる見込みですが、具体的なタイムラインは確定していません。
機械学習 & 人工知能
原文を表示
OpenAI looks set to hand ChatGPT's voice mode its biggest upgrade in months, with a next-generation audio model surfacing as Bidi 1, shorthand for the bidirectional design that lets the assistant speak, hear, and listen at once. References to it began appearing in the ChatGPT web interface ahead of a possible release this week, and it has already begun reaching a subset of users in the app.
MachineLearning & Artificial Intelligence
In our early testing, the gap from today's advanced voice mode is plain. Bidi 1 sits in the model selector under settings, beside the standard and advanced options, and turns the voice bubble yellow once picked. It offers small, natural acknowledgments — an "okay" or a brief nod — when you pause or slow down, without cutting across you. It also switches tasks on the fly: ask it to count to ten, interrupt to reverse the count, and it adjusts immediately.
More usefully, it holds the thread of a whole conversation rather than dropping earlier context, the weak point that has long dogged the current voice stack, and it no longer jumps in during longer pauses.

Creative behavior carries over from the first advanced voice rollout, singing and beatboxing included, though copyright handling is tighter; it declines popular songs outright while still attempting an original piece in a chosen artist's style.
The move reads as OpenAI closing the distance between its capable text models and an older voice layer, treating conversation as a core route into ChatGPT. The company has not formally announced it. A gradual, opt-in release across web and mobile looks likely, with the European Economic Area possibly waiting longer (not confirmed). Codex appears set for its own voice upgrade in the weeks after this launch, separate from it, and API access may follow later still (timeline is not confirmed).
MachineLearning & Artificial Intelligence
関連記事
OpenAI、Broadcomと共同開発した初のAI専用プロセッサ「Jalapeño」を発表
OpenAIは Broadcom と共同で開発した AI サーバー用専用チップ「Jalapeño」を公開しました。この ASIC は大規模言語モデルの推論処理に特化しており、同社の次世代モデルを支える基盤となります。
サムスン、AI 制限解除後 ChatGPT Enterprise と Codex の利用を従業員に開放
サムスン電子は韓国全社および DX 部門の全世界従業員に対し、技術・非技術業務で AI ツールの利用範囲を広げるため、ChatGPT Enterprise と Codex のアクセス権限を開放した。
OpenAI と Broadcom が LLM 最適化推論チップを発表
OpenAI と Broadcom は、大規模言語モデルの推論処理に特化した新しい半導体チップを共同で発表しました。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み