xAI の Grok オーディオモデルが Vercel AI Gateway で利用可能に
Vercel AI Gateway の新機能により、xAI の音声モデルがリアルタイム通話や音声合成・認識として SDK を介して開発者に利用可能になった。
キーポイント
xAI モデルの Vercel AI Gateway 統合完了
xAI の音声関連モデル(リアルタイム音声、TTS、STT)が Vercel AI Gateway に正式に公開され、既存のルーティングや監視機能と同等の管理が可能になった。
AI SDK 7 を介した実装サポート
新しい音声機能を @ai-sdk/react の useRealtimehook や generateSpeech などの関数を通じて、サーバーサイドのトークン発行とクライアント側の WebSocket 接続を簡潔に実装できる。
具体的なモデルリストの公開
リアルタイム音声には「xai/grok-voice-think-fast-1.0」、テキスト読み上げには「xai/grok-tts」、音声認識には「xai/grok-stt」がそれぞれ割り当てられている。
ブラウザベースのプレイグラウンド提供
開発者は AI Gateway のプレイグラウンド上で、API キーを直接扱わずにブラウザから即座に xAI 音声エージェントと対話するテストが可能になった。
影響分析・編集コメントを表示
影響分析
この発表は、xAI の技術力を Vercel の堅牢なインフラストラクチャと組み合わせることで、開発者が音声 AI アプリケーションをより安全かつ効率的に構築できる道を開いた点で重要です。特に、リアルタイム通信におけるセキュリティ(API キーの非公開化)と開発体験の向上は、音声エージェント分野での採用加速に寄与するでしょう。
編集コメント
xAI の音声モデルが Vercel の標準的なルーティングや監視機能と統合されたことで、開発者はセキュリティを気にせず即座に音声 AI アプリケーションのプロトタイピングが可能になりました。これは音声エージェント分野における開発のハードルを大幅に下げる重要な一歩です。
xAI の音声モデルが AI Gateway で利用可能になりました。リアルタイム音声、テキストから音声への変換、音声からテキストへの変換はすべて、他のモデルと同じルーティング、観測性、支出管理機能を持つ AI SDK を通じて利用可能です。
これらの機能は、AI SDK 7 リリースで利用可能です。
利用可能なモデル
機能
モデル
リアルタイム音声
xai/grok-voice-think-fast-1.0
テキストから音声へ
xai/grok-tts
音声からテキストへ
xai/grok-stt
リアルタイム
音声エージェントには 2 つの構成要素が必要です。1 つは、API キーがクライアントに到達しないように短期有効なトークンを発行するサーバールートです。もう 1 つは、それと接続するブラウザコンポーネントです。
トークンルートを追加します:この例ではモデルを xai/grok-voice-think-fast-1.0 に設定しています:
次に、ブラウザから接続します。@ai-sdk/react の useRealtimehook はそのルートをフェッチし、WebSocket 接続、マイクキャプチャ、オーディオ再生を管理します:
テキストから音声へ
generateSpeech を使用してテキストから音声付きオーディオを生成します。ボイスと出力形式を指定し、xai/grok-tts で結果をファイルに書き込みます:
音声からテキストへ
transcribe を使用して録音をテキストに変換します。この例では xai/grok-stt を使用しています:
プレイグラウンド
AI Gateway プレイグラウンドで xAI 音声モデルを直接試すこともできます。モデルリストを開き、任意のモデルをクリックすると、ブラウザ内で直接使用できます。ここにある xai/grok-voice-think-fast-1.0 のプレイグラウンドでは、エージェントと会話して即座に回答を確認できます:
詳細情報
リアルタイムクイックスタート
音声クイックスタート
すべての xAI モデルを見る
続きを読む
原文を表示
xAI's audio models are now live on AI Gateway. Realtime voice, text to speech, and speech to text are all available through the AI SDK with the same routing, observability, and spend controls as your other models.
These capabilities are available on the AI SDK 7 release.
Available models
Capability
Models
Realtime voice
xai/grok-voice-think-fast-1.0
Text to speech
xai/grok-tts
Speech to text
xai/grok-stt
Realtime
A voice agent has two pieces: a server route that mints a short-lived token, so your API key never reaches the client, and a browser component that connects with it.
Add the token route: this example sets model to xai/grok-voice-think-fast-1.0:
Then connect from the browser. The useRealtimehook from @ai-sdk/react fetches that route and manages the WebSocket connection, microphone capture, and audio playback:
Text to speech
Generate spoken audio from text with generateSpeech. Pass a voice and an output format, then write the result to a file with xai/grok-tts:
Speech to text
Transcribe recordings into text with transcribe. This example uses xai/grok-stt:
Playground
You can also try the xAI audio models directly in the AI Gateway playground. Open the models list and click into any of the models to use them directly in the browser. The xai/grok-voice-think-fast-1.0 playground here allows you to talk to the agent and see responses instantly:
More information
Realtime quickstart
Speech quickstart
See all xAI models
Read more
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み