OpenAI WebRTC オーディオセッション、文書コンテキスト機能を追加
Simon Willison が OpenAI の最新音声モデル「GPT-Realtime-2」を活用し、文書コンテキストを付与してブラウザ上で対話型音声セッションを行うツールを更新した。
キーポイント
新モデル GPT-Realtime-2 の実装
GPT-5 クラスの推論能力を持つ「GPT-Realtime-2」が API に導入され、ブラウザベースの音声セッションで利用可能になった。
文書コンテキスト機能の追加
ユーザーが任意のドキュメントを貼り付けることで、AI がその内容を理解した上で対話的な音声分析を行える機能が強化された。
実用的なユースケースの提示
DuckDB と SQLite の安全性比較など、具体的な技術文書を対象にした音声による探索的対話の実例が示されている。
影響分析・編集コメントを表示
影響分析
この記事は、単なる音声認識を超えて、特定の文脈情報を保持したまま高度な推論を行う「コンテキスト・アウェア」な AI 音声インタラクションの実現可能性を示しています。特に、技術ドキュメントなどの非構造化データを音声対話で分析できる点は、開発者や研究現場における情報探索のワークフローを革新する可能性があります。
編集コメント
音声モデルが単なる通話ツールから、文脈を理解して分析を行う知的パートナーへと進化していることを示す好例です。開発者コミュニティによる実装事例は、新機能の真価を早く知る上で貴重な情報源となります。
OpenAI WebRTC オーディオセッション、ドキュメントコンテキスト対応版
私はこのツールの最初のバージョンを 2024 年 12 月 に構築し、当時新しく登場した OpenAI の WebRTC API を試すために、リアルタイム音声モデルとの対話を行いました。
先月、OpenAI はその API に GPT‑Realtime‑2 という全く新しいモデルを導入しました。これは「GPT‑5 クラスの推論能力を備えた最初の音声モデル」として宣伝されており、知識のカットオフ日は 2024 年 9 月 30 日です。
私はこのモデルが ChatGPT の iPhone アプリに登場するのを待っていましたが、まだ実装されていません。そこで、以前使っていたプレイグラウンドを再訪しました。
現在はより優れたモデルを選択できるようになり、また大量のドキュメントコンテキストを貼り付けることも可能です。これにより、ブラウザ上で会話形式で探索したい情報について、音声対話を行うことができます。

Tags: audio, tools, ai, openai, generative-ai, llms, multi-modal-output, webrtc
OpenAI は、WebRTC を使用した音声セッションに文脈(ドキュメントコンテキスト)のサポートを追加しました。これにより、AI エージェントはユーザーが参照しているドキュメントの内容を理解し、より正確で関連性の高い回答を提供できるようになります。
この機能は、開発者が WebRTC 経由でリアルタイムの音声ストリームを処理する際に、ドキュメントのコンテキスト情報をセッションに含めることを可能にします。具体的には、ユーザーが特定のファイルやページを参照している場合、その内容が AI に渡され、文脈に基づいた対話が可能になります。
技術的には、この機能は OpenAI の API 拡張の一部として実装されており、既存の WebRTC セッション構造と互換性があります。開発者は、ドキュメントコンテキストを送信する際に、特定のフォーマットに従ってデータを準備する必要があります。
このアップデートにより、音声ベースの AI アプリケーションがより高度なタスクを処理できるようになり、ユーザー体験が大幅に向上することが期待されています。特に、技術文書やマニュアルの参照が必要なシナリオにおいて、その効果が顕著です。
詳細は OpenAI の公式ドキュメントおよび GitHub リポジトリで確認できます。開発者は、新しい機能を活用して、より柔軟で強力な音声 AI アプリケーションを構築できるようになります。
原文を表示
OpenAI WebRTC Audio Session, now with document context
I built the first version of this tool in December 2024 to try out the then-new OpenAI WebRTC API for interacting with their realtime audio models.
Last month OpenAI introduced a brand new model to that API called GPT‑Realtime‑2, which they promoted as "our first voice model with GPT‑5‑class reasoning" - with a Sep 30, 2024 knowledge cut-off.
I've been waiting for that model to show up in the ChatGPT iPhone app but it still hasn't, so I revisited my old playground.
You can now pick the better model, and you can also paste in a big chunk of document context so you can have as audio conversation in your browser about whatever information you think would be useful to explore in a conversational way.

Tags: audio, tools, ai, openai, generative-ai, llms, multi-modal-output, webrtc
関連記事
スーパーチャージャー構築:Rocket Close がエージェント型 AI でタイトル業務を最適化する方法
ロケット・カンパニーズ傘下のデトロイト拠点タイトル代理店 Rocket Close は、住宅購入プロセスのボトルネックとなっていた時間のかかる州固有のタイトル調査を、エージェント型 AI を活用することで効率化しました。
Amazon Quick と Cisco Webex MCP サーバーを用いた会議準備・フォローアップ支援アシスタントの構築
AWS は、Amazon Quick と Cisco Webex の MCP サーバーを連携させることで、会議の準備や事後処理を単一の会話型ワークフローで完結させる方法を公開した。これにより、ユーザーは複数のツールを行き来せずとも必要な情報を一元的に取得できる。
Moonshot AI、Kimi K2.6搭載のローカルデスクトップエージェント「Kimi Work」を発表
北京のAI企業Moonshot AIは、ユーザーのPC上で動作するローカル型AIエージェント「Kimi Work」をリリースした。同製品はKimi K2.6モデルを搭載し、300ものサブエージェントからなる群れで構成され、ローカルファイルの閲覧やブラウザ操作、スケジュールタスクの実行を可能にする。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み