Gradium、リアルタイム音声翻訳モデル「stt-translate」と「s2s-translate」を公開し、精度と遅延で競合を上回る
Gradium は、既存の主要モデルを上回る精度と低遅延を実現するリアルタイム音声翻訳モデル「stt-translate」と「s2s-translate」を公開し、業界標準に挑戦した。
キーポイント
アーキテクチャの革新:単一パス処理
従来の STT と翻訳を別工程で行うカスケード型ではなく、Hibiki-Zero フレームワークを用いて音声認識と翻訳を一つのモデルで同時に行うことで、遅延を削減し精度を向上させた。
競合他社との性能比較
BLEU スコアにおいて Google の Gemini 3.5 Live Translate を上回り、GPT-Realtime-Translate よりも優位な精度と遅延(平均 3.0 秒)を達成したと主張している。
音声出力の柔軟性と統合簡素化
s2s-translate モデルでは、入力音声を直接別の言語の合成音声に変換するだけでなく、ユーザーが自身の声をクローンして出力音声として選択できる機能を、単一の WebSocket 接続で提供している。
独自の二モデル構成による性能向上
従来の「音声認識→翻訳→音声合成」の3段階パイプラインを、「音声認識と翻訳を同時に行う1段階」に統合し、処理遅延を削減しながら精度を維持しています。
業界最高水準のベンチマーク結果
独自データセットでの評価において、BLEUスコアで競合他社(GPT, Gemini)を上回り、MetricX(人間の判断に近似した指標)でも同等以上の性能を示しています。
多様なユースケースと機能
ライブ吹き替えや通訳エージェントなどに加え、話者の声をクローンして翻訳する機能や、音声なしのリアルタイム字幕生成など、柔軟な利用が可能です。
低遅延・高精度な S2S アーキテクチャ
単一パスの STT モデルとデュプレックス WebSocket を採用し、gpt-realtime-translate よりも BLEU と MetricX で高い精度を達成しています。
影響分析・編集コメントを表示
影響分析
この発表は、リアルタイム通訳や多言語コミュニケーションツールの市場において、既存の大手テック企業のモデルに対する強力な代替案を示すものです。特に「単一パス処理」という技術的アプローチと「音声クローン機能」の統合により、開発者の実装負荷を減らしつつ、より自然で高速な翻訳体験を提供する新たな基準を提示しています。
編集コメント
Gradium の「単一パス処理」による遅延削減と、GPT や Gemini を凌ぐ精度という主張は、リアルタイム通訳市場の競争激化を象徴する出来事と言えます。特に開発者が個別に STT と TTS を繋ぎ込む手間が省ける点は、実装コスト削減において大きな意味を持ちます。
Gradium は本日、2 つのリアルタイム音声翻訳モデル「stt-translate」と「s2s-translate」をリリースしました。両モデルは 5 か国語に対応し、ブラウザ上で結果をライブストリーミングします。
Gradium は、gpt-realtime-translate や gemini-3.5-live-translate と比較して、精度とレイテンシのトレードオフにおいてより優れていると主張しています。また、gpt-realtime-translate が欠いている出力音声制御(クローン機能を含む)も追加されています。
TL;DR
Gradium は 2 つのリアルタイム音声翻訳モデルをリリースしました:stt-translate(音声→テキスト)および s2s-translate(音声→音声)です。
これらは 5 か国語(EN, FR, DE, ES, PT)と 20 の言語ペアに対応し、通常必要な 3 モデルの連鎖を 2 モデルに圧縮しています。
精度は BLEU および MetricX で gemini-3.5-live-translate を上回り、BLEU では gpt-realtime-translate を上回ります(MetricX は同等)。
レイテンシの平均は 3.0 秒で、gpt-realtime-translate(3.6 秒)より速く、gemini-3.5-live-translate(2.9 秒)にわずかに劣る程度です。
gpt-realtime-translate と異なり、出力音声を選択したり、自分自身の音声をクローンしたりでき、これらはすべて 1 つのデュプレックス WebSocket を経由して行われます。
stt-translate
stt-translate はある言語の音声を入力し、別の言語のテキストを返します。英語(EN)、フランス語(FR)、ドイツ語(DE)、スペイン語(ES)、ポルトガル語(PT)をサポートしています。
このセット内であれば、任意のソースから任意のターゲットへマッピング可能です。つまり、全方向を含めて合計 20 の言語ペアが存在します。
重要な設計上の選択は、2 つのステップを 1 つに統合した点にあります。文字起こしと翻訳は、音声モデル内で単一のパスで完結します。待機する中間テキストはなく、システム間のハンドオフも不要です。
Gradium によると、このアプローチは Hibiki-Zero フレームワークに基づいています。このモデルは強化学習(Reinforcement Learning)を通じて、低遅延と高精度を同時に最適化します。これにより、パイプライン内の構成要素が少なくなります。
s2s-translate
s2s-translate は、ある言語の音声入力を別の言語の音声出力へ、エンドツーエンドで変換するものです。これは stt-translate を基盤とし、Gradium の TTS(Text-to-Speech)モデルと一体化した 1 つのサービスとして機能します。
WebSocket を介してオーディオをストリーミング送信すると、生成された合成音声と翻訳されたテキストトランスクリプトが逐次返されます。
これにより、統合作業が不要になります。STT と TTS を自分で接続したり、2 つの接続を管理する必要はありません。サーバー側でパイプラインを実行し、結果をストリーミングして返します。
入力オーディオは 24 kHz、16 ビット符号付きモノラルの PCM です。出力オーディオは 48 kHz、16 ビット符号付きモノラルの PCM です。また、WAV、Opus、mu-law、A-law もサポートされています。
Gradium の品質測定方法:BLEU と MetricX
翻訳の品質を単一の数値で表すことはできないため、Gradium は 2 つの相補的な指標(メトリクス)を報告しています。
BLEU(Bilingual Evaluation Understudy)は、長年使われている機械翻訳の標準規格です(Papineni ら)。これはモデルの出力と人間の参照訳との間の n-gram の重複度を測定します。スコアは 0 から 100 の範囲で、高いほど優れています。
BLEU は高速で再現性があり、システム間での比較が可能です。その限界は、表面的な単語の一致を評価点に反映してしまう点にあります。異なる表現を用いた正しい翻訳であっても、ペナルティを受ける可能性があります。
MetricX は、Google が開発した学習型ニューラル品質指標です(Juraska et al.)。これは人間が翻訳をどのように評価するかを予測するものであり、エラースコアであるため数値が低いほど優れており、BLEU に比べて人間の判断により密接に追従します。
両者は異なる種類の失敗を検出します。BLEU は語彙の忠実性をチェックし、MetricX は意味的な妥当性をチェックします。
ベンチマーク
Gradium は、会話音声に関する独自データセットでベンチマークを実施しています。このデータはスクリプトされたテキストではなく、仕事、旅行、天気などの日常トピックを反映したものです。
gemini-3.5-live-translate に対しては、Gradium が BLEU と MetricX の両方でリードしています。gpt-realtime-translate に対しては、BLEU でリードし、MetricX では同等の性能を示します。
能力比較
Gradium: gpt-realtime-translate, gemini-3.5-live-translate
平均レイテンシ(全ペア): Gradium 3.0s, gpt-realtime-translate 3.6s, gemini-3.5-live-translate 2.9s
BLEU(高いほど良い): Gradium は両者をリード, gpt-realtime-translate は Gradium より低い, gemini-3.5-live-translate は Gradium より低い
MetricX(エラーが低いほど良い): Gradium は GPT と同等で Gemini をリード, gpt-realtime-translate は Gradium と同等, gemini-3.5-live-translate は Gradium よりも高いエラー
出力音声の選択: Gradium はいえ(カタログあり), gpt-realtime-translate いいえ, gemini-3.5-live-translate 記載なし
自分の声をクローン: Gradium はいえ, gpt-realtime-translate いいえ, gemini-3.5-live-translate 記載なし
対応言語: Gradium 5 言語、20 ペア, gpt-realtime-translate 記載なし, gemini-3.5-live-translate 記載なし
精度(BLEU および MetricX)は stt-translate の翻訳に対して測定され、レイテンシはフル s2s-translate パイプラインに対するものです。これは完全な勝利ではなく、トレードオフとして捉えるべきです。Gemini はわずかに高速ですが、Gradium はより高精度であり、音声制御機能を追加しています。
なぜ 2 つのモデルが 3 つを上回るのか
標準的な音声から音声へのスタックは、3 つのモデルを使用します:音声認識(Speech-To-Text)、次にテキスト間翻訳(Text-To-Text translation)、そして音声合成(Text-To-Speech)です。各段階は個別の推論呼び出しとなります。それぞれが処理時間とハンドオフを追加します。
Gradium は 2 つのモデルを使用します。stt-translate は、転写と翻訳を単一のパスで実行します。専用のテキスト間翻訳ステージは完全に排除されます。
これにより、クリティカルパスから 1 つの完全なモデルが削除され、それに伴うレイテンシとハンドオフもなくなります。同等の品質であれば、エンドツーエンドのパスは 3 モデルのカスケードよりも短くなります。
数値がこの設計を裏付けています。s2s-translate はすべての言語ペアで平均 3.0 秒です。これは gpt-realtime-translate の 3.6 秒を上回り、gemini-3.5-live-translate の 2.9 秒に近い水準です。
ユースケースと例
ライブ吹き替えおよびローカライゼーション:プレゼンターの声を一度クローンします。フランス語の基調講演をスペイン語に翻訳しても、元のスピーカーのような声質を保ちます。
多言語音声エージェント:サポート通話を s2s-translate を経由してルーティングします。英語のエージェントはドイツ語の通話者を英語で聞き、返信もドイツ語でストリーミングされます。
リアルタイム会議:WebSocket を介してマイクからのオーディオをパイプラインに流し込みます。各参加者は、各自の言語で翻訳された音声とテキスト転写を受け取ります。
アクセシビリティと字幕:テキストのみが必要な場合は stt-translate のみを使用します。音声を生成せずにライブ翻訳字幕をレンダリングします。
数行のコードで翻訳
Python SDK は、オーディオを音声から音声へのエンドポイントにストリーミングし、翻訳されたオーディオと転写結果を返します。
Copy CodeCopiedUse a different Browser
import asyncio
import numpy as np
from gradium import client as gradium_client
grc = gradium_client.GradiumClient() # 環境変数から GRADIUM_API_KEY を読み取る
setup = {
"model_name": "s2s-translate",
"input_format": "pcm_24000", # 24 kHz、16 ビット符号付きモノラル入力
"output_format": "pcm_48000", # 48 kHz、16 ビット符号付きモノラル出力
"voice_id": "cLONiZ4hQ8VpQ4Sz", # ターゲット言語の音声 ID である必要がある
"stt_model_name": "stt-translate",
"tts_model_name": "default",
"target_language": "en",
}
ファイル、バッファ、またはマイクからの生 24 kHz、16 ビットモノラル PCM バイト。
with open("input_24k_mono.pcm", "rb") as f:
pcm = f.read()
async def main() -> np.ndarray:
audio_out: list[bytes] = []
async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
async def send_loop():
for i in range(0, len(pcm), 1920): # 1920 バイト = 24 kHz で 40 ms
await s2s.send_audio(pcm[i : i + 1920])
await s2s.send_eos() # 入力終了をシグナル
async def recv_loop():
async for msg in s2s:
if msg["type"] == "audio":
audio_out.append(msg["audio"]) # 翻訳された音声(バイト)
elif msg["type"] == "text":
print(msg["text"], end=" ", flush=True) # 翻訳された文字起こし
elif msg["type"] == "end_of_stream":
break
async with asyncio.TaskGroup() as tg:
tg.create_task(send_loop())
tg.create_task(recv_loop())
return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz mono PCM
translated_pcm = asyncio.run(main())
SDK は S2S(ストリーミング音声翻訳)を駆動するための 3 つの方法を提供しています。ライブソースには s2s_realtime を、有限の反復可能オブジェクトには s2s_stream を、バッファ付きファイルには s2s をそれぞれ使用します。これら 3 つはすべて wss://api.gradium.ai/api/speech/s2s に接続されます。
強みと弱み
強み
単一パスの stt-translate(音声認識・翻訳)により、遅延経路からモデルを 1 つ削減できます
BLEU と MetricX の両方で gemini-3.5-live-translate を上回ります
出力音声の選択やクローニング機能を提供し、gpt-realtime-translate では利用できません
1 つのデュプレックス WebSocket が、手動構築された STT(音声認識)プラス TTS(音声合成)パイプラインに取って代わります
弱み
ローンチ時は 5 か国語のみで、その組み合わせは 20 ペアに限られます
gemini-3.5-live-translate の方がわずかに遅延が低く、2.9 秒です
MetricX は gpt-realtime-translate と同等ではあるものの、それを上回るものではありません
ベンチマークは独自データセットを使用しているため、外部での再現には限界があります
インタラクティブ解説
(function(){
var f=document.getElementById("gradium-translate-embed");
window.addEventListener("message",function(e){
if(e&&e.data&&e.data.type==="gtx-height"&&typeof e.data.height==="number"){
f.style.height=e.data.height+"px";
}
});
})();
ブラウザ上で gradium.ai/translate でリアルタイム翻訳をテストできます。API の詳細は API ドキュメントをご覧ください。また、Twitter でフォローしていただくこともお気軽にどうぞ。15 万人以上の ML サブレッドに参加し、ニュースレターも購読することを忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加いただけます。
GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションを当社と提携して行いたい場合は、ご連絡ください。
本記事「Gradium が stt-translate と s2s-translate を発表、精度と遅延において gpt-realtime-translate を上回るリアルタイム音声翻訳モデル」は、MarkTechPost で最初に公開されました。
原文を表示
Gradium today released two real-time speech translation models: stt-translate and s2s-translate. Both run across five languages and stream results live in the browser.
Gradium claims a better accuracy-latency tradeoff than gpt-realtime-translate and gemini-3.5-live-translate. It also adds output voice control, including cloning, that gpt-realtime-translate lacks.
TL;DR
Gradium launched two real-time speech translation models: stt-translate (speech → text) and s2s-translate (speech → speech).
They cover five languages (EN, FR, DE, ES, PT) and 20 pairs, collapsing the usual 3-model cascade into 2.
Accuracy leads gemini-3.5-live-translate on BLEU and MetricX, and beats gpt-realtime-translate on BLEU (comparable on MetricX).
Latency averages 3.0s — ahead of gpt-realtime-translate (3.6s), just behind gemini-3.5-live-translate (2.9s).
Unlike gpt-realtime-translate, you pick the output voice or clone your own, all over one duplex WebSocket.
stt-translate
stt-translate takes speech in one language and returns text in another. It supports English (EN), French (FR), German (DE), Spanish (ES), and Portuguese (PT).
Any source maps to any target across that set. That is 20 language pairs in total, in every direction.
The key design choice is collapsing two steps into one. Transcription and translation happen in a single pass, inside the speech model. There is no intermediate transcript to wait on and no handoff between systems.
According to Gradium: the approach draws on the Hibiki-Zero framework. The model optimizes low latency and high accuracy jointly through Reinforcement Learning. This means fewer moving parts in the pipeline.
s2s-translate
s2s-translate turns spoken audio in one language into spoken audio in another, end to end. It builds on stt-translate and pairs it with a Gradium TTS model in one service.
You stream audio in over a WebSocket. You receive both the synthesized output audio and the translated transcript as they are produced.
That removes integration work. You do not wire STT and TTS together yourself or manage two connections. The server runs the pipeline and streams results back.
Input audio is PCM at 24 kHz, 16-bit signed mono. Output audio is PCM at 48 kHz, 16-bit signed mono. WAV, Opus, mu-law, and A-law are also supported.
How Gradium Measures Quality: BLEU and MetricX
Translation quality is not one number, so Gradium reports two complementary metrics:
BLEU (Bilingual Evaluation Understudy) is the long-standing machine translation standard (Papineni et al.). It measures n-gram overlap between model output and human reference translations. It runs from 0 to 100, where higher is better.
BLEU is fast, reproducible, and comparable across systems. Its limit is that it rewards surface word matching. A correct translation using different wording can be penalized.
MetricX is a learned, neural quality metric developed by Google (Juraska et al.). It predicts how a human would rate a translation. It is an error score, so lower is better, and it tracks human judgment more closely than BLEU.
The two catch different failures. BLEU checks lexical fidelity; MetricX checks semantic adequacy.
Benchmark
Gradium benchmarks on a proprietary dataset of conversational speech. The data reflects everyday topics like work, travel, and weather, rather than scripted text.
Against gemini-3.5-live-translate, Gradium leads on both BLEU and MetricX. Against gpt-realtime-translate, Gradium leads on BLEU and is comparable on MetricX.
CapabilityGradiumgpt-realtime-translategemini-3.5-live-translate
Average latency (all pairs)3.0s3.6s2.9s
BLEU (higher is better)Leads bothLower than GradiumLower than Gradium
MetricX (lower error is better)Comparable to GPT; leads GeminiComparable to GradiumHigher error than Gradium
Choose output voiceYes (catalogue)NoNot stated
Clone your own voiceYesNoNot stated
Languages5 languages, 20 pairsNot statedNot stated
Accuracy (BLEU and MetricX) is measured on stt-translate‘s translation; latency is for the full s2s-translate pipeline. Read it as a tradeoff, not a clean sweep. Gemini is fractionally faster; Gradium is more accurate and adds voice control.
Why Two Models Beat Three
The standard speech-to-speech stack uses three models: Speech-To-Text, then Text-To-Text translation, then Text-To-Speech. Each stage is a separate inference call. Each adds processing time and a handoff.
Gradium uses two. stt-translate performs transcription and translation in a single pass. The dedicated Text-To-Text stage disappears entirely.
That removes one full model from the critical path, along with its latency and handoff. The end-to-end path is shorter than a three-model cascade at equivalent quality.
The numbers back the design. s2s-translate averages 3.0s across all language pairs. That beats gpt-realtime-translate at 3.6s and sits near gemini-3.5-live-translate at 2.9s.
Use Cases With Examples
Live dubbing and localization: Clone a presenter’s voice once. Translate a French keynote into Spanish that still sounds like the original speaker.
Multilingual voice agents: Route a support call through s2s-translate. An English agent hears a German caller in English, and replies stream back in German.
Real-time meetings: Pipe microphone audio in over the WebSocket. Each participant receives translated speech and transcript in their own language.
Accessibility and captioning: Use stt-translate alone when you only need text. Render live translated captions without generating audio.
Translate in a Few Lines of Code
The Python SDK streams audio through the Speech-To-Speech endpoint and returns translated audio plus transcript.
Copy CodeCopiedUse a different Browser
import asyncio
import numpy as np
from gradium import client as gradium_client
grc = gradium_client.GradiumClient() # reads GRADIUM_API_KEY from the environment
setup = {
"model_name": "s2s-translate",
"input_format": "pcm_24000", # 24 kHz, 16-bit signed mono input
"output_format": "pcm_48000", # 48 kHz, 16-bit signed mono output
"voice_id": "cLONiZ4hQ8VpQ4Sz", # must be a voice in the target language
"stt_model_name": "stt-translate",
"tts_model_name": "default",
"target_language": "en",
}
Raw 24 kHz, 16-bit mono PCM bytes (from a file, buffer, or microphone).
with open("input_24k_mono.pcm", "rb") as f:
pcm = f.read()
async def main() -> np.ndarray:
audio_out: list[bytes] = []
async with grc.s2s_realtime(wait_for_ready_on_start=True, **setup) as s2s:
async def send_loop():
for i in range(0, len(pcm), 1920): # 1920 bytes = 40 ms at 24 kHz
await s2s.send_audio(pcm[i : i + 1920])
await s2s.send_eos() # signal end of input
async def recv_loop():
async for msg in s2s:
if msg["type"] == "audio":
audio_out.append(msg["audio"]) # translated speech (bytes)
elif msg["type"] == "text":
print(msg["text"], end=" ", flush=True) # translated transcript
elif msg["type"] == "end_of_stream":
break
async with asyncio.TaskGroup() as tg:
tg.create_task(send_loop())
tg.create_task(recv_loop())
return np.frombuffer(b"".join(audio_out), dtype=np.int16) # 48 kHz mono PCM
translated_pcm = asyncio.run(main())
The SDK exposes three ways to drive S2S. Use s2s_realtime for live sources, s2s_stream for finite iterables, and s2s for buffered files. All three talk to wss://api.gradium.ai/api/speech/s2s.
Strengths and Weaknesses
Strengths
Single-pass stt-translate removes one model from the latency path
Leads gemini-3.5-live-translate on both BLEU and MetricX
Output voice choice and cloning, which gpt-realtime-translate lacks
One duplex WebSocket replaces a hand-wired STT-plus-TTS pipeline
Weaknesses
Five languages at launch, with 20 pairs only across that set
gemini-3.5-live-translate is fractionally lower latency at 2.9s
MetricX is only comparable to, not ahead of, gpt-realtime-translate
Benchmarks use a proprietary dataset, so external replication is limited
Interactive Explainer
(function(){
var f=document.getElementById("gradium-translate-embed");
window.addEventListener("message",function(e){
if(e&&e.data&&e.data.type==="gtx-height"&&typeof e.data.height==="number"){
f.style.height=e.data.height+"px";
}
});
})();
You can test real-time translation in the browser at gradium.ai/translate, with integration details in the API docs. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post Gradium Launches stt-translate and s2s-translate, Real-Time Speech Translation Models Beating gpt-realtime-translate on Accuracy and Latency appeared first on MarkTechPost.
関連記事
AI SDK 7 が利用可能に
Vercel は、TypeScript で生産用エージェントを構築するための主要リリース「AI SDK 7」の提供を開始した。この新バージョンは、テキストや音声、リアルタイム処理など多様なメディアに対応する広範なエージェントプラットフォームへと進化し、主要プロバイダーを標準でサポートしている。
百度、長文解析向け KV キャッシュを一定に保つ 3B モデル「Unlimited OCR」を発表
百度は、出力が増加してもメモリ使用量が一定となる「Reference Sliding Window Attention」を採用した 3B パラメータモデル「Unlimited OCR」を発表し、長文の OCR 処理を高速化した。
ツール、メモリ、権限、スキル、マルチエージェント協調を備えた OpenHarness スタイルのエージェントランタイム設計方法
MarkTechPost は、エージェントシステムの実用的な仕組みを理解するため、ツール使用やマルチエージェント協調など主要な構成要素から OpenHarness をゼロから構築するチュートリアルを提供している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み