OpenClaw 2026.4.25-beta.1:音声応答のTTS大幅強化
OpenClawの2026.4.25-beta.1アップデートでは、TTS機能の大幅な強化とプラグイン管理の最適化、およびOpenTelemetryによる観測範囲の拡大が行われた。
キーポイント
TTS機能の包括的アップグレード
/tts latestコマンドの実装、チャットスコープの自動TTS制御、ペルソナ機能に加え、Azure SpeechやElevenLabs v3など複数の新規プロバイダーに対応した。
プラグイン管理の最適化
プラグインの起動とインストールパスを「コールド永続レジストリ」へ移行し、広範なマニフェストスキャンを削減して更新やプロバイダー発見の処理を決定論的にした。
OpenTelemetry観測範囲の拡大
モデル呼び出し、トークン使用量、ツールループ、コンテキスト構築など、システム内の主要な処理プロセス全体にわたってOpenTelemetryのカバレッジを拡張した。
注目の引用
“Voice replies get a full TTS upgrade: /tts latest, chat-scoped auto-TTS controls, personas, per-agent/per-account overrides, and new Azure Speech, Xiaomi, Local CLI, Inworld, Volcengine, and ElevenLabs v3 provider coverage.”
“Plugin startup and install paths move to the cold persisted registry, cutting broad manifest scans while making plugin update, repair, provider discovery, and install metadata more deterministic.”
“OpenTelemetry coverage expands across model calls, token usage, tool loops, harness runs, exec processes, outbound delivery, context assembly, and memory pressure with bounded low-cardinality attributes.”
影響分析・編集コメントを表示
影響分析
このアップデートは、エンドユーザー向けの音声インターフェースの利便性を高める一方、バックエンドではプラグイン管理の効率化とシステム観測性の向上に焦点を当てています。これにより、大規模なエージェント運用における安定性とトラブルシューティングの容易さが向上し、開発者体験(DX)とエンドユーザー体験の両面での品質向上が期待されます。
編集コメント
単なる機能追加ではなく、TTSプロバイダーの多様化とシステム内部の可観測性(OpenTelemetry)強化に注力している点が特徴的です。これは、AIエージェントの実運用における「信頼性」と「カスタマイズ可能性」を重視する成熟した開発姿勢を示しています。
2026.4.25
ハイライト
- 音声返信に完全なTTS(Text-to-Speech、テキスト読み上げ)アップグレードが適用されました:
/tts latestコマンド、チャットスコープの自動TTS制御、ペルソナ機能、エージェントごと・アカウントごとのオーバーライド設定に加え、Azure Speech、Xiaomi、ローカルCLI、Inworld、Volcengine、ElevenLabs v3などの新しいプロバイダーがサポートされました。@leonchui、@zoujiejun、@solar2ain、@cshape、@xuruiray、@itsuzef、@barronlrothの皆様に感謝します。
- プラグインの起動およびインストールパスが、永続的なレジストリ(cold persisted registry)へ移行しました。これにより、広範なマニフェストスキャンが削減され、プラグインの更新、修復、プロバイダー検出、インストールメタデータの処理がより決定論的かつ安定しました。@vincentkocおよび@shakkernerdの皆様に感謝します。
- OpenTelemetryのカバレッジが、モデル呼び出し、トークン使用量、ツールループ、ハーネス実行、実行プロセス、アウトバウンド配信、コンテキスト構築、メモリ圧力に拡大しました。これらは低カードinality(低一意性)の属性で制限されています。@vincentkoc、@jlapenna、@Lidang-Jiang、@oc-factusの皆様に感謝します。
- ブラウザ自動化において、安全なタブURL、iframe対応のロールスナップショット、CDP(Chrome DevTools Protocol)準備状態の調整、ヘッドレス環境でのワンショット起動、低速ホスト向けの詳細なブラウザ診断プローブが追加されました。@beat843796および@BenediktSchackenbergの皆様に感謝します。
- コントロールUIとセットアップフローに、PWA(Progressive Web App、プログレッシブウェブアプリ)/Web Pushサポート、Crestodianの初回実行時修復機能、TUI(Text User Interface、テキストユーザーインターフェース)セットアップ、コンテキストモードの選択、短い起動時の挨拶文が追加されました。@eduardocruz、@SebTardif、@kevinlin-openaiの皆様に感謝します。
- Windows、macOS、Linux、Docker、バンドルされたプラグランタイム依存関係、Node サービスの再起動、LaunchAgent トークンのローテーション、およびミックスバージョンのゲートウェイ検証に対するハードニングカバーのインストール/更新。@Kobevictor、@igormf、@abhinas90、@jsompis、@Solvely-Colin、および@gucasbrg に感謝します。
変更点
- TTS/WhatsApp: 重複抑制機能と /tts chat on|off|default セッションスコープの自動 TTS オーバーライドを追加し、現在のチャット返信に対するオンデマンド音声メモ UX を完成させました。Fixes #66032。
- TTS/channels: チャネルとアカウントの TTS オーバーライドを一般的に解決し、Feishu および QQBot アカウントがグローバルおよび各エージェントの TTS 設定に対して channels..accounts..tts をディープマージできるようにしました。@sahilsatralkar に感謝します。
- TTS/agents: agents.list[].tts が各エージェントの音声に対してグローバル messages.tts をオーバーライドできるようにし、/tts audio、/tts status、および tts エージェントツールがアクティブな音声/プロバイダーのオーバーライドを尊重しつつ、既存の TTS 設定インターフェースに共有プロバイダー資格情報と環境設定を保持するようにしました。
- Providers/Azure Speech: Azure Speech をバンドルされた TTS プロバイダーとして追加し、Speech リソース認証、音声リスト表示、SSML エスケープ、ネイティブ Ogg/Opus 音声メモ出力、およびテレフォニー出力をサポートしました。(#51776) @leonchui に感謝します。
- Google Meet: カレンダー連携の出席エクスポートワークフロー、エクスマニフェスト、ドライランプレビュー、および会議記録に対するツール同等性を追加しました。
- Control UI: ゲートチャットに対して PWA インストールサポートと Web Push 通知を追加しました。(#44590) @eduardocruz に感謝します。
- ブラウザ自動化:エージェントのレスポンスに安全なタブURLを追加し、CDPネイティブのロールスナップショットフォールバックをiframe対応参照、カーソルクリック可能検出、ターゲットアタッチ準備、およびopenclaw browser doctor --deepライブスナッププロービング機能で実装しました。
- CLI/画像生成:openclaw infer image generateおよびopenclaw infer image editコマンドで汎用の--backgroundオプションを公開し、--openai-backgroundはOpenAIのエイリアスとして維持しました。また、falによる画像生成において--output-format png|jpegオプションを有効にしました。
- ブラウザ/設定:Raspberry Piなどの低速ホスト向けに、ローカル管理済みChromeの起動検出と起動後のCDP準備タイムアウトを引き上げられるようにしました。これによりIssue #66803を修正し、@beat843796氏に感謝します。
- Discord:channels.discord.voice.model設定により、既存のメディア設定のままSTT(音声認識)およびTTS(テキスト読み上げ)を維持しつつ、ボイスチャンネルのレスポンスに使用されるLLM(大規模言語モデル)を上書き指定できるようになりました。Issue #64368、@mrdavey氏に感謝します。
- ブラウザ/CLI:persisted browser config(永続化されたブラウザ設定)を書き換えずに、ワンショットのローカル管理済みブラウザ起動オーバーライドとしてopenclaw browser start --headlessを追加しました。@BenediktSchackenberg氏に感謝します。
- CLI/Crestodian/TUI:初回セットアップヘルパー、ローカルプランナーフォールバック、フルTUIインタラクティブCrestodian、起動進行状況インジケーター、コンテキストモードセレクター、および短い起動挨拶文を追加しました。Issue #71720、#71760、@SebTardif氏および@kevinlin-openai氏に感謝します。
- プラグイン: パッケージのインストール/更新時にローカルプラグインレジストリを自動的に移行し、既存のプラグマニフェストを新しいコールドレジストリパスでインデックス付けする間に、インストールメタデータをプラグインインデックスに保持します。@vincentkoc と @shakkernerd ありがとう。
- プラグイン/ドクター: openclaw doctor --fix が、プラグインのインストールレコードを承認された設定として扱わずに、必要に応じてプラグインインデックスとコールドレジストリインデックスを更新するようにしました。@vincentkoc と @shakkernerd ありがとう。
- プラグイン/フック: before-agent-finalize フック、cron jobId フックコンテキスト、境界付きネイティブパーミッションフィンガープリント、および Codex MCP フックリレーサポートを追加しました。(#71765, #71758, #71707) @vincentkoc と @pashpashpash ありがとう。
- プラグイン/tokenjuice:バンドルされた tokenjuice ランタイムを 0.6.3 にアップグレードしました。@vincentkoc ありがとう。
- 診断/OTEL: モデル呼び出し GenAI スパン属性を OpenTelemetry の安定性オプトインセマンティクスと整合させ、デフォルトで legacy gen_ai.system を保持しつつ、OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental 設定時に gen_ai.provider.name を出力します。@vincentkoc ありがとう。
- 診断/OTEL: 設定または標準の OTEL 環境変数を通じて、トレース、メトリクス、ログに対してシグナル固有の OTLP エンドポイントオーバーライドをサポートしました。@vincentkoc ありがとう。
- 診断/OTEL: 生エラーテキストをエクスポートせずに、起動時およびログエクスポート失敗に対する境界付きテレメトリエクスプロータのヘルス診断を出力します。@vincentkoc ありがとう。
- 診断/OTEL: QA-lab、Codex、および将来のハルセスが単一のトレース形状を共有できるよう、bounded openclaw.harness.run スパンおよび openclaw.harness.duration_ms メトリクスとしてエージェント ハーネスのライフサイクル テレメトリーをエクスポートします。@vincentkoc さんありがとう。
- 診断/トレース: 信頼できるモデル呼び出しのコンテキストから、呼び出し元が提供した traceparent の値を置き換えながら、W3C traceparent ヘッダーをプロバイダ トランスポートに伝播させます。@vincentkoc さんありがとう。
- 診断/Prometheus: バンドルされた <cod
原文を表示
2026.4.25
Highlights
- Voice replies get a full TTS upgrade: /tts latest, chat-scoped auto-TTS controls, personas, per-agent/per-account overrides, and new Azure Speech, Xiaomi, Local CLI, Inworld, Volcengine, and ElevenLabs v3 provider coverage. Thanks @leonchui, @zoujiejun, @solar2ain, @cshape, @xuruiray, @itsuzef, and @barronlroth.
- Plugin startup and install paths move to the cold persisted registry, cutting broad manifest scans while making plugin update, repair, provider discovery, and install metadata more deterministic. Thanks @vincentkoc and @shakkernerd.
- OpenTelemetry coverage expands across model calls, token usage, tool loops, harness runs, exec processes, outbound delivery, context assembly, and memory pressure with bounded low-cardinality attributes. Thanks @vincentkoc, @jlapenna, @Lidang-Jiang, and @oc-factus.
- Browser automation gets safer tab URLs, iframe-aware role snapshots, CDP readiness tuning, headless one-shot launch, and deeper browser doctor probes for slow hosts. Thanks @beat843796 and @BenediktSchackenberg.
- Control UI and setup flows add PWA/Web Push support, Crestodian first-run repair, TUI setup, context mode selection, and a shorter startup greeting. Thanks @eduardocruz, @SebTardif, and @kevinlin-openai.
- Install/update hardening covers Windows, macOS, Linux, Docker, bundled plugin runtime deps, Node service restarts, LaunchAgent token rotation, and mixed-version gateway verification. Thanks @Kobevictor, @igormf, @abhinas90, @jsompis, @Solvely-Colin, and @gucasbrg.
Changes
- TTS/WhatsApp: add /tts latest read-aloud support with duplicate suppression and /tts chat on|off|default session-scoped auto-TTS overrides, completing the on-demand voice-note UX for current-chat replies. Fixes #66032.
- TTS/channels: resolve channel and account TTS overrides generically, enabling Feishu and QQBot accounts to deep-merge channels..accounts..tts over global and per-agent TTS config. Thanks @sahilsatralkar.
- TTS/agents: allow agents.list[].tts to override global messages.tts for per-agent voices, and make /tts audio, /tts status, and the tts agent tool honor the active voice/provider override while keeping shared provider credentials and preferences in the existing TTS config surface.
- Providers/Azure Speech: add Azure Speech as a bundled TTS provider with Speech-resource auth, voice listing, SSML escaping, native Ogg/Opus voice-note output, and telephony output. (#51776) Thanks @leonchui.
- Google Meet: add calendar-backed attendance export workflows, export manifests, dry-run previews, and tool parity for meeting records.
- Control UI: add PWA install support and Web Push notifications for Gateway chat. (#44590) Thanks @eduardocruz.
- Browser automation: add safe tab URLs in agent responses plus a CDP-native role snapshot fallback with iframe-aware refs, cursor-clickable detection, target attach preparation, and openclaw browser doctor --deep live snapshot probing.
- CLI/image generation: expose generic --background on openclaw infer image generate and openclaw infer image edit, keep --openai-background as an OpenAI alias, and let fal image generation honor --output-format png|jpeg.
- Browser/config: allow local managed Chrome launch discovery and post-launch CDP readiness timeouts to be raised for slower hosts such as Raspberry Pi. Fixes #66803. Thanks @beat843796.
- Discord: allow channels.discord.voice.model to override the LLM used for voice channel responses while keeping STT and TTS on their existing media settings. (#64368) Thanks @mrdavey.
- Browser/CLI: add openclaw browser start --headless as a one-shot local managed browser launch override without rewriting persisted browser config. Thanks @BenediktSchackenberg.
- CLI/Crestodian/TUI: add the first-run setup helper, local planner fallback, full-TUI interactive Crestodian, startup progress indicators, context mode selector, and a shorter startup greeting. (#71720, #71760) Thanks @SebTardif and @kevinlin-openai.
- Plugins: migrate the local plugin registry automatically during package install/update, keeping install metadata in the plugin index while indexing existing plugin manifests for the new cold registry path. Thanks @vincentkoc and @shakkernerd.
- Plugins/doctor: make openclaw doctor --fix refresh the plugin index and cold registry index when needed without treating plugin install records as authored config. Thanks @vincentkoc and @shakkernerd.
- Plugins/hooks: add before-agent-finalize hooks, cron jobId hook context, bounded native permission fingerprints, and Codex MCP hook relay support. (#71765, #71758, #71707) Thanks @vincentkoc and @pashpashpash.
- Plugins/tokenjuice: bump the bundled tokenjuice runtime to 0.6.3. Thanks @vincentkoc.
- Diagnostics/OTEL: align model-call GenAI span attributes with OpenTelemetry stability opt-in semantics, keeping legacy gen_ai.system by default while emitting gen_ai.provider.name under OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental. Thanks @vincentkoc.
- Diagnostics/OTEL: support signal-specific OTLP endpoint overrides for traces, metrics, and logs via config or standard OTEL environment variables. Thanks @vincentkoc.
- Diagnostics/OTEL: emit bounded telemetry exporter health diagnostics for startup and log-export failures without exporting raw error text. Thanks @vincentkoc.
- Diagnostics/OTEL: export agent harness lifecycle telemetry as bounded openclaw.harness.run spans and openclaw.harness.duration_ms metrics so QA-lab, Codex, and future harnesses share one trace shape. Thanks @vincentkoc.
- Diagnostics/trace: propagate W3C traceparent headers from trusted model-call trace context to provider transports while replacing caller-supplied traceparent values. Thanks @vincentkoc.
Diagnostics/Prometheus: add a bundled <cod
関連記事
Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール
Google は、単一話者および複数話者の会話モードに対応し、発声指示タグの適用も可能な「Gemini 3.1 Flash TTS」モデルを公開した。このツールにより、テキストから自然な音声を生成してダウンロードできるようになった。
Google、AI エージェントプラットフォーム「Gemini Spark」を発表
Google は Google I/O 2026 で、メール作成やクレジットカード監視などを行う常時稼働型 AI エージェント「Gemini Spark」を発表し、業界で話題となった OpenClaw に匹敵する独自のプラットフォームを立ち上げる。
卒業式で AI アナウンサーが名前を誤読・飛ばす
The Verge は、近年人気を集める卒業式の AI 音声アナウンスシステムが、学生の名前を誤って発音したり読み飛ばしたりする事例が多発していることを報じた。