OpenAI WebRTC Audio Session, now with document context｜OpenAI WebRTC オーディオセッション、文書コンテキスト機能を追加 | AIニュース最前線

**[OpenAI WebRTC オーディオセッション、ドキュメントコンテキスト対応版](https://tools.simonwillison.net/openai-webrtc)** 私はこのツールの最初のバージョンを [2024 年 12 月](https://simonwillison.net/2024/Dec/17/openai-webrtc/) に構築し、当時新しく登場した OpenAI の WebRTC API を試すために、リアルタイム音声モデルとの対話を行いました。 先月、OpenAI はその API に [GPT‑Realtime‑2](https://developers.openai.com/api/docs/models/gpt-realtime-2) という全く新しいモデルを導入しました。これは「GPT‑5 クラスの推論能力を備えた最初の音声モデル」として宣伝されており、知識のカットオフ日は 2024 年 9 月 30 日です。 私はこのモデルが ChatGPT の iPhone アプリに登場するのを待っていましたが、まだ実装されていません。そこで、以前使っていたプレイグラウンドを再訪しました。 現在はより優れたモデルを選択できるようになり、また大量のドキュメントコンテキストを貼り付けることも可能です。これにより、ブラウザ上で会話形式で探索したい情報について、音声対話を行うことができます。 ![image](https://static.simonwillison.net/static/2026/openai-webrtc-document-context.jpg) Tags: [audio](https://simonwillison.net/tags/audio), [tools](https://simonwillison.net/tags/tools), [ai](https://simonwillison.net/tags/ai), [openai](https://simonwillison.net/tags/openai), [generative-ai](https://simonwillison.net/tags/generative-ai), [llms](https://simonwillison.net/tags/llms), [multi-modal-output](https://simonwillison.net/tags/multi-modal-output), [webrtc](https://simonwillison.net/tags/webrtc) OpenAI は、WebRTC を使用した音声セッションに文脈（ドキュメントコンテキスト）のサポートを追加しました。これにより、AI エージェントはユーザーが参照しているドキュメントの内容を理解し、より正確で関連性の高い回答を提供できるようになります。 この機能は、開発者が WebRTC 経由でリアルタイムの音声ストリームを処理する際に、ドキュメントのコンテキスト情報をセッションに含めることを可能にします。具体的には、ユーザーが特定のファイルやページを参照している場合、その内容が AI に渡され、文脈に基づいた対話が可能になります。 技術的には、この機能は OpenAI の API 拡張の一部として実装されており、既存の WebRTC セッション構造と互換性があります。開発者は、ドキュメントコンテキストを送信する際に、特定のフォーマットに従ってデータを準備する必要があります。 このアップデートにより、音声ベースの AI アプリケーションがより高度なタスクを処理できるようになり、ユーザー体験が大幅に向上することが期待されています。特に、技術文書やマニュアルの参照が必要なシナリオにおいて、その効果が顕著です。 詳細は OpenAI の公式ドキュメントおよび GitHub リポジトリで確認できます。開発者は、新しい機能を活用して、より柔軟で強力な音声 AI アプリケーションを構築できるようになります。

OpenAI WebRTC オーディオセッション、文書コンテキスト機能を追加

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト