Reachy Mini が完全ローカル動作へ
Hugging Face は、Reachy Mini ロボットが音声入力をクラウドサーバーに依存せず、ローカル環境で完結する「speech-to-speech」パイプラインの導入方法を公開した。
キーポイント
完全なローカル実行の実現
従来のクラウドサーバーへの音声送信が必要だった構成から脱却し、ユーザーがローカル環境で音声処理スタック全体を完結して実行できるようになった。
Cascaded Pipeline 技術の採用
VAD(音声検出)→ STT(音声認識)→ LLM(言語モデル)→ TTS(音声合成)というカスケード型パイプラインを採用し、リアルタイム API に準拠した WebSocket を提供する。
オープンソースの柔軟性
特定のコンポーネントに縛られず、新しいモデルが毎週登場するオープンソース環境において、ユーザーが最適な構成を自由に組み替えられる設計となっている。
ローカル LLM サーバーの構成
Hugging Face の llama.cpp を使用し、Gemma-4-E4B モデルを 64k コンテキストウィンドウとフラッシュアテンションで高速に実行するコマンドが提示されています。
音声対話機能のセットアップ
speech-to-speech ライブラリを導入し、ローカル LLM サーバーを宛先として指定することで、端末上で即時に音声による対話が可能になります。
ローカル実行のメリット
独自のSpeech-to-Speechサーバーを運用することで、プライバシーの確保(音声データがネットワーク外に出ない)、APIコストの削減、およびパイプライン全体への完全な制御が可能になります。
デフォルト設定とカスタマイズ
VAD、STT、TTSには堅牢なデフォルトが用意されていますが、ユーザーは言語数や品質・速度のバランスに応じて各モジュールを自由に交換・最適化できます。
影響分析・編集コメントを表示
影響分析
この発表は、エッジデバイスやパーソナルロボットにおけるデータプライバシーと応答速度の課題を解決する重要なステップです。クラウド依存からの脱却により、ネットワーク接続が不安定な環境でも安定した対話が可能になり、開発者が独自のモデルを組み合わせてカスタマイズするハードルを大幅に下げます。
編集コメント
クラウド依存からの脱却は、ロボット開発におけるプライバシーと応答性の両立において極めて重要な転換点です。特に Hugging Face のエコシステムを活用したローカル実装の具体例として、開発者コミュニティへの示唆に富む内容となっています。
Reachy Mini の組み立てが終わったら、会話アプリ をインストールして、ロボットと会話を始めます。これまで音声データはサーバーに送信する必要がありましたが、もうそんなことはありません。今日は、この全体スタックをローカル環境で実行する方法をご案内します。
このスタックは、Speech-to-Speech(VAD → STT → LLM → TTS のカスケード型パイプラインを実装し、リアルタイム API 互換の /v1/realtime WebSocket を提供する技術)によって駆動されています。バックエンドを起動したら、UI からロボットをそのサーバーに接続してください。
カスケード方式は、現在オープンソースの世界で最も柔軟な選択肢であり、適切なコンポーネントを選べば最速の実装も可能です。私たちは推奨するコンポーネントをご紹介しますが、カスケードの真価はその構成要素を自由に交換できる点にあります。新しいモデルは毎週のように登場します。
**
要約(TL;DR)**
- Reachy Mini 用のローカル音声バックエンドを展開してください。
- 私たちは、カスケードアプローチを採用した「speech-to-speech」ライブラリを使用しています。
- 推奨構成:llama.cpp と Gemma 4、Silero VAD、Parakeet-TDT STT、Qwen3-TTS。
クイックスタート
このブログ記事では、Reachy Mini の会話をクラウドも API キーも使用せず、完全にローカル環境で実行する方法を解説します。データがあなたのマシンから外部に流出することはありません。以下は、その様子を実演した動画です:
LLM のローカル提供
LLM を活用するために、Hugging Face の llama.cpp を使用します。インストールが必要な場合は、最も簡単な方法は brew install llama.cpp または winget install llama.cpp です。より詳しい情報は ドキュメント をご確認ください。
まず、以下を実行します:
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full
これで完了です!初回実行時はモデルのダウンロードが行われますが、以降の実行は高速になります。
これらのフラグは何をするのでしょうか?
-hf ggml-org/gemma-4-E4B-it-GGUF— Hub から直接モデルをプルします。初回実行でダウンロードされ、以降の実行ではキャッシュが使用されます。
-np 2— 並列スロットを 2 つ用意します。これにより、サーバーは最初のリクエスト(例えば、簡単な中断)にブロックされることなく、第 2 のリクエストも処理できます。
-c 65536— スロット全体で共有される 64k のコンテキストウィンドウです。長い会話にも十分な余裕があります。
-fa on— フラッシュアテンション(Flash Attention)を有効化します。より高速でメモリ使用量が少なく、現代のハードウェアではほぼ無料の機能と言えます。
--swa-full— 再計算するのではなく、完全なスライディングウィンドウアテンションキャッシュを保持します。Gemma において、わずかな RAM の増大と引き換えに、プロンプト処理が劇的に高速化されます。
音声から音声への設定
まずはライブラリをインストールすることから始めます。
uv pip install speech-to-speech
その後、別のターミナルで LLM サーバーを稼働させたまま、以下を実行するだけで済みます:
speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local
そして、ターミナルを通じてモデルと会話を開始することもできます!初回実行時には Parakeet と Qwen3TTS のダウンロードが必要ですが、その後の起動は高速です。
ローカル会話モードを示す動画はこちら:
さて、--mode local で試した後、オプションを指定せずにコマンドを再度実行すれば、ロボットへの音声対話(speech-to-speech)サービスを開始できます。
Reachy Mini を音声対話に接続する
llama.cpp と音声対話システムが稼働していれば、デスクトップアプリでロボットを起動し、会話アプリを起動できます。会話アプリの UI では、「HF backend」内の「edit connection」をクリックしてローカルモードを選択する必要があります。その手順を示す動画はこちら:
これで完了です。ロボットとの会話を開始できます。パイプラインの各段階にはトレードオフが存在します:より高速だが品質が低い TTS モデルや、より低速だが高品質な STT モデルもあります。私たちは多言語対応を最適化しましたが、特定の言語に特化した最適化も可能です。ブログの後半ではカスタマイズ方法について解説します。
さらに深く掘り下げる
なぜ独自の音声対話サーバーを実行するのか?
ホスト型のリアルタイムバックエンドは便利ですが、自前でエンジンを稼働させることで以下の 3 つが可能になります:
- プライバシー。オーディオデータがネットワーク外に出ることはなく、パイプライン全体をあなたが管理するハードウェア上で実行できます。
- API コストの不要化。分単位やトークン単位の課金はありません。
- パイプラインへの完全な制御。VAD(音声活動検出)、STT(音声認識)、LLM(大規模言語モデル)、TTS(音声合成)のいずれも自由に交換可能です。より優れたコンポーネントが Hub 🤗 に登場した際に、いつでも差し替えられます。
音声対話リポジトリは、これらすべてを単一の CLI で提供します。この CLI は /v1/realtime で WebSocket サーバーを起動し、Reachy Mini がすでに会話できるのと同じプロトコルで通信を行います。
私たちの意見に基づくデフォルト設定:VAD, STT, TTS
カスケード型音声パイプラインには 4 つの段階があります:VAD(音声活動検出)、STT(音声認識)、LLM(大規模言語モデル)、そして TTS(音声合成)です。そのうち 3 つについては、堅牢なデフォルト値を採用し、ユーザーが LLM に集中できるようにしています。
| Stage | Choice | Why |
|---|---|---|
| VAD | Silero VAD v5 | 軽量で高精度、CPU で動作。オープンソースの音声エージェント界隈における事実上のデフォルトです。 |
| STT | Parakeet-TDT | ストリーミングに最適化され、非常に高速、英語での品質も優れています。 |
| TTS | Qwen3-TTS | 表現力豊か、低遅延、多言語対応、カスタム音声にも対応しています。 |
これらの選択については明確な意見を持っていますが、ご自身の好みに応じて自由に差し替えてください。
LLM の選定
LLM は、システムのレイテンシと全体的なパフォーマンスに最も大きな影響を与える層です。私たちは 2 つのオプションをサポートしています:ローカルでモデルを実行する(llama.cpp, MLX, Transformers, vLLM など)か、Responses API を備えたサーバーを利用する(OpenAI, Gemini, HF Inference Endpoints, llama.cpp, vLLM など)です。
Responses API:脳と音声ループの分離
システムにおける主なボトルネックは LLM 推論のレイテンシです。これを解決するため、私たちは Responses API プロトコルを通じて公開された外部推論エンジンのサポートを提供しています。
したがって、音声対話エンジンには、LLM がレスポンス API プロトコルを話している限り別プロセスとして動作する第 2 のモードがサポートされています。モデルサーバーは 1 つのターミナルで起動し、音声ループは別のターミナルで起動し、両者は HTTP を介して通信します。
オプション 1: llama.cpp を一方のターミナルに、音声対話を他方のターミナルに配置する
ターミナル 1: llama.cpp サーバー:
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full
ターミナル 2: 音声対話クライアント:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "unsloth/Qwen3-4B-Instruct-2507-GGUF" \
--responses_api_base_url "http://127.0.0.1:8080/v1"
オプション 2:1 つのターミナルで vLLM を実行し、別のターミナルで音声から音声への変換を行う
vLLM ≥ 0.21.0 の要件。 Responses API プロトコルに対する完全なサポート、特に音声から音声へのバックエンドで使用されるツール呼び出しストリーミング機能は、vLLM 0.21.0 で実装されました。それ以前のバージョンでは起動は可能ですが、アシスタントがツールの呼び出しを試みた瞬間にエラーが発生します。
このパイプラインで vLLM を通じてモデルをサーブする際、以下の 3 つのフラグが事実上必須となります:
- --enable-auto-tool-choice(自動ツール選択の有効化)
- --tool-call-parser <tool_parser_name> — モデルの生出力を構造化されたツール呼び出しに変換するための、ファミリーごとのパーサーを選択します(例:Qwen3 インストラクションモデルには qwen3_coder、Llama 3 には llama3_json、Hermes スタイルのモデルには hermes など)。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等)は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
- --default-chat-template-kwargs '{"enable_thinking":false}' : 思考機能に対応するモデルにおいて、<thinking>推論チャネルを無効化します。より複雑なエージェントタスクではこれを true に切り替えてモデルに推論を行わせることも可能ですが、自然な会話を実現するには強くオフにするよう推奨されます:思考トークン一つひとつが、ロボットが発話を開始する前にユーザーが聴く沈黙としての遅延となるためです。
ターミナル 1: vLLM 推論サーバー (Qwen/Qwen3-4B-Instruct-2507):
vllm serve Qwen/Qwen3-4B-Instruct-2507 \
--port 8000 \
--host 127.0.0.1 \
--max-model-len 32768 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":1}'
**
--speculative-config 行は、マルチトークン予測 (MTP: Multi-Token Prediction) を有効化します。これはオプションですが、エンドツーエンドの遅延に大きな影響を与えます。モデルが対応している限り、常にオンにしておくことをお勧めします。
ターミナル 2: スピーチ・トゥ・スピーチクライアント:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "Qwen/Qwen3-4B-Instruct-2507" \
--responses_api_base_url "http://127.0.0.1:8000/v1"
オプション 3: Hugging Face Inference Endpoints
同じプロトコルですが、モデルは Hugging Face 上の管理された GPU で実行されます。任意のチャットモデルを Inference Endpoint としてデプロイし、音声ループをそのエンドポイント URL に指向させます:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "Qwen/Qwen3-4B-Instruct-2507" \
--responses_api_base_url "https://<your-endpoint>.endpoints.huggingface.cloud/v1" \
--responses_api_api_key "$HF_TOKEN"
Option 4: Hugging Face Inference Providers
ご自身のエンドポイントを管理したくない場合は、Inference Provider をご利用ください。Hugging Face は単一の URL を介して、リクエストをサードパーティのバックエンド(Together、Fireworks、Replicate など)にルーティングします:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "Qwen/Qwen3.6-35B-A3B:deepinfra" \
--responses_api_base_url "https://router.huggingface.co/v1" \
--responses_api_api_key "$HF_TOKEN"
Option 5: OpenAI (or any OpenAI-compatible provider)
インフラを一切用意せずに最先端モデルでテストを行いたい場合は、同じフラグを OpenAI に向けてください:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "gpt-5.4" \
--responses_api_api_key "$OPENAI_API_KEY"
--responses_api_* フラグは、このプロトコルを実装するあらゆるプロバイダー(OpenRouter、Together、Fireworks など)で同じように機能します。ベース URL と API キーを差し替え、パイプラインの残りの部分は同一のままにしてください。
Running the LLM in-process
Option 1: Local LLM on MLX (Apple Silicon)
Mac をお使いの場合は、MLX が、現実的なレイテンシで実際のモデルを実行するための最も摩擦の少ない方法です。私たちはQwen3-4B-Instruct-2507をお勧めします。これは M シリーズチップ上で瞬時に動作するほど小さく、会話を成立させるのに十分な能力を持っています。
speech-to-speech \
--llm_backend mlx-lm \
--model_name "mlx-community/Qwen3-4B-Instruct-2507-bf16"
サーバーはデフォルトで ws://127.0.0.1:8765/v1/realtime で待機しています。これを起動したまま、会話アプリをローカルバックエンドに接続すれば、ロボットと対話できるようになります。
オプション 2:Transformers を使用したローカル LLM(CUDA / CPU / MPS)
考え方は同じですが、バニラの transformers を使用します。CUDA 対応の環境や Linux で動作している場合、または MLX のために重み付けを再変換することなく自由にモデルを切り替えたい場合にこれを使用してください。
speech-to-speech \
--llm_backend transformers \
--model_name "Qwen/Qwen3-4B-Instruct-2507"
**
ヒント。** Qwen3-4B-Instruct-2507 は、単一のコンシューマー GPU で優れた速度と品質のバランスを提供するため、LLM としてももう一つの優れた選択肢です。--model_name パラメータは、バックエンドがサポートする任意の HF モデルを指すことができます — 例えば、より大きな Gemma、Qwen、または Mistral などです。
エンジンをノート PC で実行し、アプリをロボット上で動作させる
音声エンジンをノート PC で実行し、会話アプリを Reachy Mini Wireless 上で実行している場合、変更されるのは URL のみです。エンジンが LAN アドレス(127.0.0.1 のみに限定されない)にバインドされていることを確認し、UI で IP を選択する際にロボットの側からノート PC の IP を使用してください。
IP がわからない場合は、以下の手順で確認できます:
macOS
ipconfig getifaddr en0 # wifi
ipconfig getifaddr en1 # ethernet (sometimes en0, varies)
Linux
hostname -I
Windows
ipconfig
アクティブなアダプターの下にある「IPv4 アドレス」を探してください。
192.168.x.x または 10.x.x.x のものが必要です。もし 169.254.x.x を見た場合は、実際にはネットワークに接続されていません。
まとめ
これで完全にローカルで動作する音声ループが完成しました:
- Silero で聴覚を担当するロボット、
- Parakeet-TDT で文字起こしを行う機能、
- 選択した任意の LLM(ローカルの MLX、ローカルの Transformers、隣にある vLLM または llama.cpp サーバー、あるいはホストされた Responses API エンドポイントなど)で思考する部分、
- Qwen3-TTS で応答を生成する機能。
huggingface/speech-to-speech と pollen-robotics/reachy_mini_conversation_app にスターをつけてください。そして、ディスカッションであなたのロボット上で実行したオープンソースの連鎖(cascade)について教えてください。
原文を表示
After building your Reachy Mini, you'll install the conversation app and start talking to it. Until now, you had to send your audio to a server. But not anymore. Today we'll walk you through running the whole stack locally.
This stack is powered by speech-to-speech, our cascaded VAD → STT → LLM → TTS pipeline that exposes a Realtime API-compatible /v1/realtime WebSocket. Once you launch the backend, point the robot at it from the UI.
Cascades are the most flexible option in the open-source landscape today, and with the right pieces they're also the fastest. We'll recommend the components we like best, but the whole point of a cascade is that you can swap them. New models drop every week.
TL;DR
Deploy a local speech backend for your Reachy Mini.
We use our speech-to-speech library, a cascade approach.
Recommended: llama.cpp with Gemma 4, Silero VAD, Parakeet-TDT STT, Qwen3-TTS.
Quick start
This blog walks you through running conversations with Reachy Mini fully locally. No cloud, no API keys, no data leaving your machine. Here's a video showing this live:
Locally serving the LLM
To serve the LLM, we'll use Hugging Face's llama.cpp. If you need to install it, the simplest way is brew install llama.cpp or winget install llama.cpp, for more help, check the docs.
First, we'll run:
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full
And done! The first time it will download the model, subsequent launches are fast.
What do those flags do?
- -hf ggml-org/gemma-4-E4B-it-GGUF — pulls the model straight from the Hub. First run downloads it, subsequent runs use the cache.
- -np 2 — two parallel slots. Lets the server handle a second request (e.g. a quick interruption) without blocking on the first.
- -c 65536 — 64k context window, shared across slots. Plenty of headroom for long conversations.
- -fa on — flash attention. Faster and lower memory, basically free on modern hardware.
- --swa-full — keeps the full sliding-window attention cache instead of recomputing it. Trades a bit of RAM for noticeably faster prompt processing on Gemma.
Setting up speech-to-speech
We'll begin by simply installing the library
uv pip install speech-to-speech
Then, while we are serving the LLM in another terminal, we can simply run:
speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local
And you can start talking to the model through your terminal! The first time it will need to download Parakeet and Qwen3TTS, but subsequent launches are fast.
Here's a video showing the local conversation mode:
Now, after you've tried it in --mode local, you can run again the command without that option to serve speech-to-speech to the robot.
Connecting Reachy Mini to speech-to-speech
Once you have llama.cpp and speech-to-speech running, you can start the robot with the desktop app and launch the conversation app. In the UI from the conversation app, you need to choose the local mode by clicking on "edit connection" in the HF backend. Here's a video showing how to do it:
And you're done. You can start talking to your robot. Every stage of the pipeline is a trade-off: there are faster TTS models with lower quality, slower STT models with higher quality. We optimized for multilingual, you might want to optimize for a single language. The rest of the blog covers how to customize.
Going deeper
Why run your own Speech-to-Speech server?
Hosted realtime backends are convenient, but running your own engine unlocks three things:
- Privacy. Audio never leaves your network, the entire pipeline runs on hardware you control.
- No API costs. No per-minute or per-token fees.
- Full control over the pipeline. Swap any piece: VAD, STT, LLM, TTS. Whenever something better lands on the Hub 🤗.
The speech-to-speech repo gives you all of that in a single CLI. It boots a WebSocket server at /v1/realtime that speaks the same protocol Reachy Mini already knows how to talk to.
Our opinionated defaults: VAD, STT, TTS
A cascaded voice pipeline has four stages: VAD, STT, LLM, and TTS. For three of them, we pick solid defaults so you can focus on the LLM:
Stage
Choice
Why
VAD
Silero VAD v5
Tiny, accurate, runs on CPU. The de-facto default in the open-source voice-agent world.
STT
Parakeet-TDT
Streaming-friendly, very fast, great quality on English.
TTS
Qwen3-TTS
Expressive, low-latency, multilingual, supports custom voices.
We are opinionated about these choices, feel free to swap them out for your own if you have a preference.
Choosing your LLM
The LLM is the layer with the most impact on latency and overall performance of the system. We support two options: run a model locally (llama.cpp, MLX, Transformers, vLLM), or use a server with a Responses API (OpenAI, Gemini, HF Inference Endpoints, llama.cpp, vLLM, etc).
The Responses API: decouple the brain from the voice loop
The main bottleneck in the system is LLM inference latency. To address that, we support external inference engines exposed through the Responses API protocol.
The speech-to-speech engine therefore supports a second mode where the LLM lives in a separate process as long as it speaks the Responses API protocol. You launch your model server in one terminal, you launch the voice loop in another terminal, and the two talk over HTTP.
Option 1: llama.cpp in one terminal, speech-to-speech in the other
Terminal 1: llama.cpp server:
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full
Terminal 2: speech-to-speech client:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "unsloth/Qwen3-4B-Instruct-2507-GGUF" \
--responses_api_base_url "http://127.0.0.1:8080/v1"
Option 2: vLLM in one terminal, speech-to-speech in the other
Requires vLLM ≥ 0.21.0. Full support for the Responses API protocol, including tool-call streaming used by the speech-to-speech backend, landed in vLLM 0.21.0. Older versions will boot but trip up as soon as the assistant tries to call a tool.
When serving a model through vLLM for this pipeline, three flags are effectively required:
- --enable-auto-tool-choice
- --tool-call-parser <tool_parser_name> — picks the per-family parser that turns the model's raw output into structured tool calls (e.g. qwen3_coder for Qwen3 instruct models, llama3_json for Llama 3, hermes for Hermes-style models, ...).
- --default-chat-template-kwargs '{"enable_thinking":false}' : disables the <think> reasoning channel for models that support it. For harder agentic tasks you can flip this to true and let the model reason, but for a natural-feeling conversation we strongly recommend keeping it off: every thinking token is latency the user hears as silence before the robot starts speaking.
Terminal 1: vLLM inference server (Qwen/Qwen3-4B-Instruct-2507):
vllm serve Qwen/Qwen3-4B-Instruct-2507 \
--port 8000 \
--host 127.0.0.1 \
--max-model-len 32768 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":1}'
The --speculative-config line enables Multi-Token Prediction (MTP). It is optional, but it has a great impact on end-to-end latency. Leave it on whenever the model supports it.
Terminal 2: speech-to-speech client:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "Qwen/Qwen3-4B-Instruct-2507" \
--responses_api_base_url "http://127.0.0.1:8000/v1"
Option 3: Hugging Face Inference Endpoints
Same protocol, but the model runs on a managed GPU on Hugging Face. Deploy any chat model as an Inference Endpoint, then point the voice loop at the endpoint URL:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "Qwen/Qwen3-4B-Instruct-2507" \
--responses_api_base_url "https://<your-endpoint>.endpoints.huggingface.cloud/v1" \
--responses_api_api_key "$HF_TOKEN"
Option 4: Hugging Face Inference Providers
If you don't want to manage your own endpoint, use an Inference Provider. Hugging Face routes your request to a third-party backend (e.g. Together, Fireworks, Replicate) with a single URL:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "Qwen/Qwen3.6-35B-A3B:deepinfra" \
--responses_api_base_url "https://router.huggingface.co/v1" \
--responses_api_api_key "$HF_TOKEN"
Option 5: OpenAI (or any OpenAI-compatible provider)
When you want to test against a frontier model with zero infra, point the same flag at OpenAI:
speech-to-speech \
--mode realtime \
--stt parakeet-tdt \
--tts qwen3 \
--llm_backend responses-api \
--model_name "gpt-5.4" \
--responses_api_api_key "$OPENAI_API_KEY"
The --responses_api_* flags work the same for any provider that implements the protocol (OpenRouter, Together, Fireworks, …). Swap the base URL and the API key, keep the rest of the pipeline identical.
Running the LLM in-process
Option 1: Local LLM on MLX (Apple Silicon)
If you are on a Mac, MLX is the lowest-friction way to run a real model with sane latency. We recommend Qwen3-4B-Instruct-2507, which is small enough to feel instant on M-series chips and capable enough to hold a conversation.
speech-to-speech \
--llm_backend mlx-lm \
--model_name "mlx-community/Qwen3-4B-Instruct-2507-bf16"
The server listens on ws://127.0.0.1:8765/v1/realtime by default. Leave it running, connect the conversation app to the local backend, and you are talking to your robot.
Option 2: Local LLM on Transformers (CUDA / CPU / MPS)
Same idea, but using vanilla transformers. Use this if you are on a CUDA box, on Linux, or if you want to swap models freely without re-converting weights for MLX.
speech-to-speech \
--llm_backend transformers \
--model_name "Qwen/Qwen3-4B-Instruct-2507"
Tip. Qwen3-4B-Instruct-2507 is another good option for LLM because it gives a good speed/quality balance on a single consumer GPU. You can point --model_name at any HF model the backend supports — for example a larger Gemma, Qwen, or a Mistral.
Running the engine on your laptop, the app on the robot
If you are running the voice engine on your laptop and the conversation app on a Reachy Mini Wireless, the only thing that changes is the URL. Make sure the engine binds to a LAN address (not just 127.0.0.1) and use the laptop's IP from the robot when you select the IP in the UI.
If you don't know your IP, here's how to find it:
macOS
ipconfig getifaddr en0 # wifi
ipconfig getifaddr en1 # ethernet (sometimes en0, varies)
Linux
hostname -I
Windows
ipconfig
Look for "IPv4 Address" under your active adapter.
You want the 192.168.x.x or 10.x.x.x one. If you see 169.254.x.x, you're not actually on the network.
Wrap up
You now have a fully local voice loop:
- A robot listening with Silero,
- transcribing with Parakeet-TDT,
- thinking with whichever LLM you picked, whether that's local MLX, local Transformers, a vLLM or llama.cpp server next door, or a hosted Responses API endpoint,
- and answering with Qwen3-TTS.
Star huggingface/speech-to-speech and pollen-robotics/reachy_mini_conversation_app, and come tell us in the discussions which open-source cascade you ended up running on your robot.
関連記事
Datasette Apps:カスタム HTML アプリケーションを Datasette 内でホスト可能に
Simon Willison が開発した Simon Willison Blog は、Datasette に新しいプラグイン「datasette-apps」を追加し、自己完結型の HTML と JavaScript で構成されるアプリケーションを同プラットフォーム上で実行できる機能を公開しました。
datasette-acl 0.6a0 のリリース
Alex Garcia 氏らが中心となり、データセットのテーブル単位での権限管理から、一般リソース共有システムへと拡張された「datasette-acl」バージョン 0.6a0 が公開されました。これにより、複数ユーザー環境でリソースへのアクセス制御が細かく行えるようになります。
GLM-5.2 はおそらく最も強力なテキスト専用オープンウェイト大規模言語モデルである
中国の AI ラボ Z.ai が、7530億パラメータ(アクティブ400億)を持つテキスト専用モデル「GLM-5.2」を MIT ライセンスで公開した。これは同社が提供するオープンウェイト大規模言語モデルの中で最も強力なものである。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み