阶跃(StepFun)「StepAudio 2.5 ASR」リリース!500TPSの超高速推論、30分音声を「数秒で文字起こし」
階躍星辰(StepFun)が発表した音声認識モデル「StepAudio 2.5 ASR」は、LLMの推論加速技術MTPを適用し、500TPSの高速処理と32Kコンテキストによる長尺音声の高精度変換を実現した。
キーポイント
MTP技術のASR領域への本格適用
従来の逐次トークン生成方式を排し、LLMのマルチトークン予測(MTP-5)アーキテクチャを移植。これにより推論速度400%向上、遅延60%削減、コスト80%削減を達成した。
32Kコンテキストを活用した長尺音声処理
従来の「分割・結合」ワークアラウンドを廃止し、LLMの32Kコンテキスト窓を直接活用。最大30分の音声データをエンドツーエンドで一度に読み込み、文脈切れを解消した。
複数環境下でのSOTA精度達成
ニュース、会議、強ノイズ環境を含む5つの中国語およびLibriSpeechなどの英語ベンチマークで総合エラー率を競合モデルより低減。30分満荷状態でも精度低下(衰减)が発生しないことを実証した。
開発者向けプラットフォームへの公開
StepAudio 2.5 ASRを階躍星辰開放プラットフォームおよびStep Plan APIで全量公開。Studio体験センターとデモページも提供され、実装・検証が容易な状態にある。
影響分析・編集コメントを表示
影響分析
本リリースはLLMの推論最適化技術をASRへ適用した先駆的な事例であり、音声認識市場の標準アーキテクチャを「逐次生成」から「並列予測・検証」へシフトさせる契機となる。特に30分単位の長尺音声をリアルタイムかつ高精度に処理可能にした点は、企業向け会議システムやメディア制作現場のワークフロー刷新に直結する。ただしプレスリリース上の数値は独立検証が必要であり、実際の業務環境でのロバスト性が実装普及の成否を分けるだろう。
編集コメント
マルチトークン予測をASRに適用したアーキテクチャ革新は注目すべき方向性だが、プレスリリース上のベンチマーク結果については独立した再現テストによる検証が不可欠である。実運用でのノイズ耐性と専門用語処理精度が課題解決の鍵となるだろう。
提供:阶跃 2026-04-24 11:39 北京
速度と精度の両立
今日、阶跃(StepFun)は新世代の自動音声認識モデル「StepAudio 2.5 ASR」を正式にリリースしました!
このモデルの核心的な突破は、速度と精度の両立にあります。私たちは大規模言語モデル(LLM: Large Language Model)の推論加速技術を音声認識領域に先駆的に導入し、ASR+MTP-5 深層融合アーキテクチャ(ASR+MTP-5 Deep Fusion Architecture)に基づき、実測で推論速度を400%向上させ、レイテンシ(Latency)を60%削減しました。推論ピークは500 tokens/sに達し、推論コストは80%直減しています。
約5分間の音声・動画コンテンツも、「瞬く間」に転写が完了します。
精度面では、StepAudio 2.5 ASR は複数の主要な評価ベンチマークにおいて同種モデルを凌駕し、業界のSOTA(State of the Art: 最先端)水準に達しています。
また、本モデルはLLMが持つネイティブな32Kコンテキストウィンドウ(Context Window)を再利用することで、単一リクエストで最大30分間の音声を完全に転写可能とし、従来の「スライシング(分割)転写」方式に起因するコンテキストの断絶問題を彻底解決しました。
現在、StepAudio 2.5 ASR は「阶跃星辰(StepFun)オープンプラットフォーム」と Step Plan にフルラインアップで公開されています。ぜひご体験ください!
阶跃星辰オープンプラットフォーム:https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
超高速転写、SOTA(State of the Art)精度
StepAudio 2.5 ASR は、ニュース放送、会議インタビュー、強ノイズ環境をカバーする5つの権威ある中国語オープンソーステストセットにおいて、競合製品と比較して総合文字誤り率(CER: Character Error Rate)で顕著な優位性を確保しています。
また、LibriSpeech clean/other などの5つの権威ある英語オープンソーステストセットにおいても、総合単語誤り率(WER: Word Error Rate)は同種モデルを下回り、より少ない計算資源でより高い転写上限を実現しています。長尺音声の特別テストでは、30分間のフルロード入力に対してもモデルの総合転写精度はSOTA水準を維持し、よくある「後半になるほど精度が低下する」という減衰問題が発生していません。
いかにして高速かつ高精度を実現したか?
従来の音声認識モデルは自己回帰生成メカニズム(Autoregressive Generation Mechanism)の制約を受け、トークン(Token)を一つずつ順番に出力する必要があり、まるでタイピストが一文字ずつキーボードを叩くような状態でした。StepAudio 2.5 ASR は、Step 3.5 Flash と同等のMTP(Multi-Token Prediction: 複数トークン予測)技術を音声認識領域に移植し、モデルが一度に複数の候補トークンを予測可能とし、並列検証メカニズム(Parallel Verification Mechanism)によって結果を迅速に確認できるようにしました。
このアーキテクチャがもたらす具体的な向上は、スループット(Throughput)の400%向上、レイテンシの60%削減、推論コストの80%直減です。
長尺音声の処理において、業界では通常「スライシング(分割)-転写-結合」方式に依存しています。これは音声を複数の小さなセグメントに分割して個別に認識し、後で結合する手法です。この方式の問題点は、セグメント間でコンテキストが断絶していることです。モデルは10分目の内容を転写する時点で、すでに1分目に話された内容を「忘れて」しまっています。
StepAudio 2.5 ASR は、LLMが持つネイティブな32Kコンテキストウィンドウを直接再利用し、エンドツーエンド(End-to-End)で最大30分間の完全な音声を一度に読み込みます。つまり、29分目の会話を転写する際にも、1分目に確立された会議の背景を明確に「回想」できるのです。
現在、StepAudio 2.5 ASR はフルラインアップで公開されています。ぜひご活用ください:
阶跃星辰オープンプラットフォーム:https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
体験センター:https://www.stepfun.com/studio/audio?tab=speech-recognition
Demo Page:https://stepaudiollm.github.io/step-audio-2.5-asr/
Model Card:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
WeChatで開くにはこちらをクリック
原文を表示
原创 阶跃 2026-04-24 11:39 北京
image
速度与精度兼得
今天,阶跃正式发布新一代自动语音识别模型 StepAudio 2.5 ASR!
这款模型的核心突破在于速度与精度的兼得。我们率先将大语言模型(LLM)的推理加速技术引入语音识别领域,基于 ASR+MTP-5 深度融合架构,实测推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本直降 80%。
5 分钟左右的音视频,“一眨眼”即可转写完成。
精度方面,StepAudio 2.5 ASR 在多项主流评测基准上超越同类模型,达到业内 SOTA 水平。
同时,模型通过复用 LLM 原生的 32K 上下文窗口,单次可完整转写长达 30 分钟的音频,彻底告别传统“切片转写”方案导致的上下文断裂问题。
目前 StepAudio 2.5 ASR 已全量上线「阶跃星辰开放平台」和 Step Plan,欢迎大家前往体验!
阶跃星辰开放平台:https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
极速转写,SOTA 精度
StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的 5 个权威中文开源测试集上,综合字错误率对比竞品取得显著领先优势。
在 LibriSpeech clean/other 等 5 个权威英文开源测试集中,综合词错误率同样低于同类模型,以更低算力实现更高转写上限。在长音频专项测试中,即使面对 30 分钟的满载输入,模型综合转写精度依然保持 SOTA 水准,没有出现常见的“越说到后面精度越低”的衰减问题。
如何又快又好?
传统语音识别模型受限于自回归生成机制,必须逐个 Token 依次输出,就像打字员一个字一个字地敲键盘。StepAudio 2.5 ASR 将 Step 3.5 Flash 同款的 MTP(多 Token 预测)技术移植至语音识别领域,使模型能够一次预测多个候选 Token,并通过并行验证机制快速确认结果。
这一架构带来的具体提升是:吞吐量提升 400%、时延降低 60%、推理成本直降 80%。
在处理长音频方面,行业内通常依赖“切片-转写-拼接”方案,即把音频切成若干小段分别识别再合并。这种方式的问题在于每段之间的上下文是断开的——模型在转写第 10 分钟的内容时,已经“忘记”了第 1 分钟说过的话。
StepAudio 2.5 ASR 直接复用 LLM 原生的 32K 上下文窗口,端到端地一次性读入最长 30 分钟的完整音频,即在转写第 29 分钟的对话时,依然能清晰“回忆”起第 1 分钟确立的会议背景。
目前,StepAudio 2.5 ASR 已全量上线,欢迎使用:
阶跃星辰开放平台:https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr
Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
体验中心:https://www.stepfun.com/studio/audio?tab=speech-recognition
Demo Page:https://stepaudiollm.github.io/step-audio-2.5-asr/
Model Card:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
跳转微信打开
関連記事
今日は何も大きな出来事はありませんでした
Smol AI News は、6月3日から4日にかけての期間に、12件のサブレッドや544件のツイートを調査しましたが、AI業界で特筆すべき動きは確認されませんでした。
[AI ニュース] コグニションが 260 億ドルのシリーズ D で 10 億ドルを調達
コグニション社が 260 億ドルの評価額で 10 億ドルの資金調達を実施し、年間収益は年内に 10 億ドル超を見込む。これにより同社は AI エージェント分野で最大級の独立系ラボとなった。
連続バッチ処理における非同期性の解放(20 分読了)
CUDA ストリームとイベントを活用し、CPU が次のバッチ準備を並行して行うことで、GPU のアイドル時間を削減。これにより推論時の GPU 利用率が 22% 向上し、モデル変更なしで生成速度が大幅に改善される。