階躍 StepAudio 2.5 TTS がリリース!誰もが音声監督になれる
阶跃星辰は新一代音声生成モデル「StepAudio 2.5 TTS」を公開し、自然言語による文脈制御やゼロショット音声複製機能により、誰でも高品質な音声制作を行える環境を提供した。
キーポイント
自然言語による文脈制御の実装
感情、リズム、ポーズ、重音などを細かく指定可能。従来のタグベースではなく、自然言語で全局・文中のトーンを直感的に設計できる。
ゼロショット音声複製と音色制御
事前学習や再トレーニング不要で任意のユーザー音声を再現し、感情・スタイル・表現方法を柔軟に調整できる技術を提供。
クリエイター向け低ハードル提供
APIとWebプラットフォームの両方で公開され、有声書・動画制作・ゲーム開発などの分野で専門的な音声編集スキルの必要性を大幅に低下させる。
多シーン・多キャラクター対応
声紋から人格まで構築する「声音角色档案」機能により、没入型コンテンツ制作やプロフェッショナルな音声合成の需要に対応。
影響分析・編集コメントを表示
影響分析
本リリースは、従来のタグベースの制御から自然言語による直感的な音声設計へ移行する業界トレンドを具体化したものである。開発者やクリエイターにとって、専門的な音声編集スキルが不要になるため、ポッドキャスト・ゲーム・動画制作などの分野で生成AIの採用が加速する可能性がある。ただし、PR資料であるため実際のAPIレスポンス速度や商用ライセンスの詳細は別途検証が必要である。
編集コメント
自然言語による細やかな音声制御は実用性が高いが、PR資料であるため実際のAPI性能や商用利用の制限事項については公式ドキュメントで確認する必要がある。生成音声の品質比較ベンチマークが公開されれば、業界標準としての評価がさらに明確になるだろう。
タイトル:階躍 StepAudio 2.5 TTS リリース!誰もが音響監督になれる
オリジナル 階躍 2026-04-16 14:05 北京
声の再現だけでなく、表現の創造へ
STEPFUN
本日、階躍は新世代音声生成モデル「StepAudio 2.5 TTS」を正式にリリースいたしました。
グローバルコンテキスト制御、文中コンテキスト制御、ゼロショット複製と全音声色制御という3つのコア機能により、StepAudio 2.5 TTSは音声生成をより自然で、柔軟で、表現力豊かなものにします。
- グローバルコンテキスト制御:音声全体の感情の基調、キャラクターの状態、シーンの雰囲気をカスタマイズ可能とし、表現をより統一感があり一貫性のあるものにします。
- 文中コンテキスト制御:文の読み方を制御するだけでなく、さらに話し方のトーン、リズム、間、強弱の変化、キャラクター性、臨場感を調整でき、音声表現に細やかなニュアンスを持たせます。
- ゼロショット複製と全音声色制御:目標の音声色の特徴を保ちながら、感情、スタイル、表現方法を柔軟に調整可能。同じ声でさまざまなニュアンスを表現できます。
さらに重要なのは、StepAudio 2.5 TTSを柔軟に制御する方法は複雑ではなく、単に「要件を言葉で伝えるだけ」でよい点です。より簡単に使い始められ、結果も期待に近いものになります。
私たちは、音声合成は「声を再現する」ことだけでなく、「表現を創造する」ことにあると考えています。キャラクターボイス、音声コンテンツ制作、インテリジェント音声インタラクションなど、あらゆる場面でStepAudio 2.5 TTSは、開発者やクリエイターがより効率的に、自然で繊細、真人間に近い音声コンテンツを生成することを支援します。
現在、StepAudio 2.5 TTSは「階躍星辰オープンプラットフォーム」および「Step Plan」にて全ユーザーに公開されています。ぜひお試しください。
階躍星辰オープンプラットフォーム:https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
1. グローバルコンテキスト制御
StepAudio 2.5 TTSは、従来のタグやフレーズの組み合わせによる制御に依存せず、自然言語を用いて音声全体の基調を設定できます。タグ/フレーズの組み合わせと比べ、自然言語による制御はより柔軟で正確です。例えば、タグでは「悲しみ」としか表現できませんが、自然言語では「抑えた悲しみ、泣き声はなく、微かに震える」などと詳細に記述できます。
したがって、同じ音声色、同じテキストであっても、グローバルコンテキストの指示を変えるだけで、合成音声の感情を「怒り」から、多層的な「逆上+不安+切迫感+問題解決への意欲」へと昇華させることが可能です。
2. 文中コンテキスト制御
さらに一歩進んで、StepAudio 2.5 TTSは自然言語を用いて音声の細部まで制御することを可能にします。事前定義されたタグやキーワードに頼ることなく、直感的な記述で、感情、トーン、リズム、強調、間、息づかい、キャラクター特性、シーンの雰囲気を定義できます。さらに、感情の強度、層の変化、文と文の間の展開、人物関係、表現意図を精密に設定でき、キャラクターの心理活動、内面の独白、潜む意図の流れ、思考の転換までも詳細に描写できます。
3. 多様なシーン・キャラクターへの対応
StepAudio 2.5 TTSはZeroshot TTS(ゼロショットTTS) をサポートしており、任意のユーザーの音声色を再学習させることなく、没入型オーディオブックからプロフェッショナルな映像作品の吹き替えまで、あらゆるシーンでの高品質な音声生成ニーズを満たします。同時に、各音声色に対して完全な「音声キャラクターファイル」を構築し、声紋から人格に至るまで包括的に強化することが可能です。
- 多様なシーンへの対応
この多様なシーン対応能力により、プロフェッショナルな音声制作のハードルを下げ、すべてのユーザーが「オーダーメイド」のシーン別音声ソリューションを得られるようにします。
- 豊富なキャラクター性への対応
私たちは単に声を複製するのではなく、それぞれの声に深みを持たせ、それぞれのキャラクターを真に「生き生きと」させ、没入型コンテンツ制作にこれまでにない可能性を提供します。
現在、StepAudio 2.5 TTSは全機能を公開しています。ぜひご利用ください。
階躍星辰オープンプラットフォーム:
https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts
Step Plan:
https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
体験センター:
https://www.stepfun.com/studio/audio
デモページ:
https://stepaudiollm.github.io/step-audio-2.5-tts/
(WeChatで開く)
原文を表示
原创 阶跃 2026-04-16 14:05 北京
image
不止是复刻声音,更是创作表达
STEPFUN
今天,阶跃正式发布新一代语音生成模型 StepAudio 2.5 TTS!
围绕全局语境控制、文中语境控制、零样本复刻与全音色控制三项核心能力, StepAudio 2.5 TTS 让语音生成更自然、更灵活也更有表现力。
全局语境控制:支持自定义整段语音的情绪基调、角色状态与场景氛围,使表达更统一、更连贯。
文中语境控制:不仅能控制一句话怎么说,还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感,让声音表达更有分寸。
零样本复刻与全音色控制:在保留目标音色特征的同时,支持对情感、风格和表达方式进行灵活调节,让同一种声音说出更多不同感觉。
更重要的是,想要灵活调控 StepAudio 2.5 TTS,上手方式并不复杂,只要你“说出需求”就行。上手更简单,结果也更贴近预期。
我们始终认为,语音合成不止于“复现声音”,更在于“创造表达”。无论是角色配音、有声内容创作,还是智能语音交互,StepAudio 2.5 TTS 都能帮助开发者和创作者更高效地生成自然、细腻、接近真人的语音内容。
目前 StepAudio 2.5 TTS 已全量上线「阶跃星辰开放平台」和 Step Plan,欢迎大家前往体验!
阶跃星辰开放平台:https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
1、全局语境控制
StepAudio 2.5 TTS 不再依赖传统标签或短语组合式控制,而是支持用自然语言为整段语音设定基调。相比标签/短语组合,自然语言控制更灵活、更精准。比如标签只能表达“悲伤”,自然语言却可以进一步描述为“克制的悲伤、没有哭腔、轻轻发颤”。
因此,同一音色、同一段文本仅通过改变全局语境引导,合成语音的情绪就能从“生气”升级为多层次的“抓狂+焦虑+急切+解决问题”情绪。
2、文中语境控制
更进一步,StepAudio 2.5 TTS 支持使用自然语言控制语音的每一处细节。无需依赖预设标签或关键词,即可用直观的描述定义情绪、语气、节奏、重音、停顿、呼吸感、角色特质与场景氛围。还能精准设定情绪强度、层次变化、句间递进、人物关系与表达意图,甚至细致刻画角色的心理活动、内心独白、潜台词流动与思绪转折。
3、适配多场景、多人设
StepAudio 2.5 TTS 支持 Zeroshot TTS,任意用户音色无需重新训练,即可满足从沉浸式有声书到专业影视配音全场景高品质语音生成需求。同时也可为每个音色构建完整的“声音角色档案”,实现从声纹到人格的全面提升。多场景适配
通过多场景适配能力,我们将专业语音制作的门槛不断降低,让每个用户都能获得“量身定制”的场景化语音解决方案。
丰富人设适配
我们不是简单复刻声音,而是让每个声音都能拥有深度、让每个角色都能真正“活”起来,为沉浸式内容创作提供前所未有的可能性。
目前 StepAudio 2.5 TTS 已全量上线,欢迎使用:
阶跃星辰开放平台:
https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
体验中心:https://www.stepfun.com/studio/audio
Demo Page:https://stepaudiollm.github.io/step-audio-2.5-tts/
跳转微信打开
関連記事
Qwen3.5-Omniが音声指示と映像からコードを書く方法を誰にも教わらずに習得
アリババが音声・映像・画像・テキストを処理する多モーダルAIモデル「Qwen3.5-Omni」を発表した。同モデルは音声タスクでGemini 3.1 Proを上回り、訓練なしに音声指示と映像入力からコードを生成する能力を獲得した。
Fun-CineForge:初の映画・テレビ級音声合成マルチモーダル大規模モデル
通義実験室が、映画・テレビ級の音声合成をサポートする初のマルチモーダル大規模モデル「Fun-CineForge」を発表・オープンソース化した。このモデルは、キャラクターの感情や口の動きに合わせた高品質な音声合成を実現し、AI音声合成技術の新たな進展を示している。
Together AIでリアルタイム音声エージェントを構築
Together AIは、STT、LLM、TTSを一体化したインフラを提供し、DeepgramやCartesiaとのネイティブ連携により、500ms未満の低遅延でリアルタイム音声エージェントの実装を可能にする。