Interfaze が拡散型 ASR モデル「diffusion-gemma-asr-small」を公開、6 か国語の並列ノイズ除去デコーダーで音声認識を実現
YC スタートアップの Interfaze が、DiffusionGemma を基盤とした世界初のオープンソース多言語拡散型音声認識モデル「diffusion-gemma-asr-small」を公開し、パラメータ効率と並列処理による推論特性で業界に新たな可能性を示した。
キーポイント
世界初のオープンソース拡散型 ASR の登場
Interfaze が公開した本モデルは、単一のアダプターで 6 カ国語を処理できる世界初のオープンソース多言語拡散型音声認識システムである。
DiffusionGemma を活用した並列推論アーキテクチャ
260 億パラメータの Frozen な DiffusionGemma(Google)をバックボーンとし、42M パラメータのアダプターのみで学習することで、トークン生成を並列に行う拡散デコーダーを実現した。
ユニフォーム・ランダムトークン拡散の採用
従来の吸収型マスク手法ではなく、固定長キャンバスにランダムな語彙トークンを配置し、確信度の高い予測を保持しつつノイズを anneal する独自の拡散方式を採用している。
Whisper エンコーダーとのハイブリッド構成
生波形を直接 LLM に渡す失敗例を経て、Whisper-small のエンコーダーで抽出した音響特徴量を投影し、LLM の専用トークンとして埋め込むことで精度と安定性を確保している。
学習不安定への解決策
初期の学習失敗に対し、LoRAアダプターを介した直接教師あり学習(CTC損失)を導入することで、プロジェクトの出力を線形予測可能にし、WERを劇的に改善しました。
拡散モデルにおける性能競争力
LibriSpeechテストセットで6.6%のWERを達成し、他の拡散ベースまたは非自己回帰型ASRモデルを上回る性能を示しましたが、自己回帰型のWhisper大規模モデルにはまだ及ばない状況です。
推論速度とステップ数のトレードオフ
拡散ステップ数を8から32に増加させてもWERはほぼ横ばい(15.7%→15.2%)である一方、リアルタイム処理速度は14.9倍から6.5倍へと低下するため、16ステップが最適なバランス点となります。
影響分析・編集コメントを表示
影響分析
この発表は、音声認識分野における「拡散モデル」の実用化への第一歩を示すものであり、特に並列推論による速度向上と、大規模言語モデルの能力を低コストで引き出すパラメータ効率の観点から業界に大きなインパクトを与える。今後、リアルタイム性や多言語処理が求められるエッジデバイスやクラウドサービスにおけるアーキテクチャの選択肢が広がる可能性がある。
編集コメント
拡散モデルがテキスト生成だけでなく音声認識領域でも実証され、特に並列処理による推論特性のメリットが明確になった点は注目すべき進展です。ただし、現状では Whisper に劣る精度を示しているため、実用化にはさらなるアルゴリズムの改良が不可欠であると言えます。
YC の新興企業である Interfaze は、新しい音声認識モデルをオープンソース化しました。このモデルは diffusion-gemma-asr-small と呼ばれます。このモデルは自己回帰型ではなく、拡散デコーダーを通じて音声を文字起こしします。これは最初の多言語オーディオ拡散 ASR モデルとして紹介されています。1 つのアダプターで 6 か国語を処理可能です。研究チームは、凍結された 26B のバックボーンの上に約 42M パラメータのみをトレーニングしました。これはモデルの重みの約 0.16% に相当します。
ここで最初に理解しておくべき二つの用語があります。自己回帰型モデルはテキストをトークンごとに生成しますが、拡散モデルはすべてのトークンを並列に洗練させます。このモデルは音声からテキストへの変換に拡散アプローチを採用しています。
TL;DR
Interfaze チームによると、これは最初のオープンソース多言語拡散 ASR です:単一の約 42M パラメータのアダプターで 6 か国語を処理します。
吸収型スキームではなく、均一なランダムトークン拡散を用いた DiffusionGemma の拡散デコーダーを通じて文字起こしを行います。
文字起こしのコストはトランスクリプトの長さではなく、ノイズ除去ステップ数に比例して増加します。
LibriSpeech において拡散系競合モデルをリード(Whisfusion の 8.3% に対し 6.6% WER)しますが、自己回帰型の Whisper には及びません。
アダプターは Apache-2.0 ライセンスで提供されます。DiffusionGemma(Gemma 用語)と whisper-small(MIT)は別個に読み込まれます。
diffusion-gemma-asr-small とは何ですか?
diffusion-gemma-asr-small はオーディオネイティブの ASR モデルです。離散拡散デコーダーを用いて、音声からテキストへ変換します。このデコーダーは Google の 26B マルチエキスパートモデルである DiffusionGemma に属しています。DiffusionGemma は 4B パラメータを活性化し、128 エキスパートのうち上位 8 つを選択するルーティング(top-8 routing)を行います。テキスト生成には自己回帰ではなく離散拡散を採用しています。
拡散の詳細は特筆すべきものです。多くの拡散 LLM は吸収型スキーム(absorbing scheme)を使用しますが、DiffusionGemma は均一なランダムトークン拡散(uniform, random-token diffusion)を利用します。これは固定長のキャンバスにランダムな語彙トークンを埋め込む仕組みです。各ステップで確信度の高い予測を保持し、残りを再ランダム化します。数ステップを経ることでノイズがテキストへと anneal していきます。
Interfaze はこのテキスト専用モデルにオーディオ機能を追加しました。そのままの状態で DiffusionGemma はテキスト、画像、ビデオを受け取りますが、オーディオは受け取りません。本リポジトリには訓練済みのアダプターのみが含まれており、パラメータ数は約 42M です。凍結されたバックボーン(frozen backbones)は、それぞれの独自リポジトリから別途ダウンロードする必要があります。
仕組みについて
このモデルが LLM に生波形(raw waveforms)を直接入力することはありません。初期の試みではまさにそれを行いましたが失敗しました。凍結された LLM はスペクトログラム(spectrogram)を一度も見たことがないためです。埋め込み空間にはフォルマントや音素(phonemes)という概念が存在しません。その結果、モデルはオーディオを無視して流暢なナンセンスを hallucinate するようになってしまいました。
動作設計では、凍結された whisper-small エンコーダーを使用します。これは特徴抽出器としてのみ機能し、デコーダーとしては機能しません。Whisper は 30 秒の音声データを 1500 フレームに変換します。各フレームには 768 次元の音響特徴が含まれています。次に、小さな学習可能なプロジェクターがこれらのフレームを圧縮します。これは 8 倍のサブサンプリングを行う畳み込み層と線形写像を使用しています。その出力は 2816 次元の 188 個の「オーディオトークン」です。これらのトークンは、プロンプト内の予約されたスロットに散らばります。LoRA アダプターにより、バックボーンがこの新しいモダリティに注意を向けることができます。その後、デコーダーは 192 トークンのトランスクリプトキャンバスに対してノイズ除去を行います。これは約 16 ステップで双方向に実行されます。
モデルカードからのパイプラインはコンパクトです:
コピー コード コピー済み別のブラウザを使用してください
生音声 ─► whisper-small エンコーダー(凍結) ─► プロジェクター(学習済み、約 19M)
─► DiffusionGemma のエンコーダーのトークンスロットに散らばる
─► DiffusionGemma デコーダーが 192 トークンのキャンバスをノイズ除去(双方向、オーディオとクロスアテンション)
─► トランスクリプト
トレーニングのアンロック
最初のトレーニング実行は立ち往生しました。損失は約 8 の付近で平坦化しました。この失敗は循環的なものでした。プロジェクターがランダムに初期化されたため、その出力はノイズとなりました。アテンション(注意機構)はその後これを無視することを学習しました。ほとんど勾配がプロジェクターに到達しませんでした。モデルは決して学習しませんでした。
この修正はプロジェクタを直接監督しました。研究チームは、188 の音声トークンを DiffusionGemma の凍結された lm_head(言語モデルヘッド)に通しました。そして、トランスクリプトに対して CTC 損失(CTC loss)を適用しました。CTC とは接続主義時間分類(Connectionist Temporal Classification)の略で、アテンションを必要とせずに音声特徴をテキストに整列させる手法です。
これにより対立局面を回避できました。音声埋め込みが正しい単語を線形予測可能になったのです。その結果、CTC 損失は 300 ステップで 24 から 8.6 に低下しました。LibriSpeech のテストクリーンセットでは、英語の WER(単語誤り率)が 10 エポックにわたって 90% → 52% → 14.6% → 6.6% と改善されました。
性能とベンチマーク
WER は単語誤り率(Word Error Rate)の略で、数値が低いほど優れています。CER は文字誤り率(Character Error Rate)です。本モデルは FLEURS、LibriSpeech、VoxPopuli で訓練されました。以下のすべてのスコアは、16 の拡散ステップにおける Whisper テキスト正規化器を使用しています。
ベンチマーク結果:
- LibriSpeech test-clean (en): WER 6.6%
- FLEURS English: WER 15.7%
- VoxPopuli English: WER 18.5%
- FLEURS Hindi: CER 15.8%
- FLEURS Mandarin: CER 29.6%
他の拡散型または非自己回帰型の ASR(音声認識)と比較して、本モデルが首位を占めています。
比較ベンチマーク:
- TransFusion (2022): マルチノミアル拡散方式、LibriSpeech test-clean で約 6–7%(概念実証段階)
- Whisfusion (2025 年 8 月): Whisper-large-v3 + マスク付き拡散、8.3%
- diffusion-gemma-asr-small (2026): Whisper-small + DiffusionGemma、6.6%
自己回帰型の Whisper と比較すると、本モデルは劣位にあります。しかしチームはこの差をアーキテクチャの問題ではなく、データ量の不足によるものとして捉えています。
比較ベンチマーク(他モデルとの対比):
- LibriSpeech clean: 本モデル 6.6% / Whisper-small 約 3.4% / Whisper-large-v3 約 2.0%
- FLEURS-en: 本モデル 15.7% / Whisper-small 約 9–10% / Whisper-large-v3 約 4–5%
- VoxPopuli-en: 本モデル 18.5% / Whisper-small 約 9–11% / Whisper-large-v3 約 7–10%
拡散ステップの掃引実験では、ほぼ平坦な曲線が示されました。
ステップ数 FLEURS-en WER 速度
8 15.7% 14.9 倍リアルタイム
16 15.6% 10.3 倍
32 15.2% 6.5 倍
48 15.6% 4.7 倍
ステップ数を 8 から 48 に増やすと、WER は約 0.1 ポイント改善しますが、レイテンシはおよそ 3 倍になります。このモデルは約 8 パラレルパスで収束します。これは 10 秒のクリップの場合、モデル時間として約 0.7〜1.5 秒に相当します。
使用例と具体例
バッチトランスクリプションパイプラインは、パラレルデコーディングによって恩恵を受けます。コストはデノイジングステップ数によって決定され、クリップの長さには依存しません。10 秒のクリップも短いクリップと同程度のパス数で処理可能です。
多言語トランスクリプションは単一のアダプターから実行されます。対象言語は英語、ドイツ語、フランス語、スペイン語、ヒンディー語、中国語(マンダリン)です。チームは言語ごとに別モデルをロードする必要がなくなります。
非自己回帰型 ASR 研究において、再現可能なベースラインを提供します。このレシピは、凍結された大規模言語モデル(LLM)に小型アダプターを組み込むものです。研究者は、より多くのオーディオデータや大型エンコーダーを追加して拡張できます。
始め方
本モデルは Hugging Face Hub に公開されています。アダプター、model.py、audio.py、および実行可能な inference.py が同梱されています。DiffusionGemma のサポートには、メインブランチの transformers ライブラリが必要です。
コードをコピーしました。別のブラウザを使用してください
pip install torch peft soundfile librosa huggingface_hub \
"transformers @ git+https://github.com/huggingface/transformers.git"
次に Python でトランスクリプションを実行します:
コードをコピーしました。別のブラウザを使用してください
import sys, soundfile as sf
from huggingface_hub import snapshot_download
repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small") # アダプター、約 170 MB
sys.path.insert(0, repo)
from inference import load, transcribe
凍結された DiffusionGemma-26B + whisper-small + このアダプターを読み込みます。
model, tok, fe = load(f"{repo}/diffusion_asr_small.pt", device="cuda")
wav, sr = sf.read("audio.wav") # 16 kHz モノラル float32
print(transcribe(wav, model, tok, fe, max_steps=16))
ダウンロードしたリポジトリ内から、コマンドラインパスでも実行可能です:
Copy CodeCopiedUse a different Browser
python inference.py audio.wav
max_steps 引数は速度と精度のトレードオフを表します。チームによると、8 がほぼ最良かつ最速の結果をもたらすとされています。デフォルト値は 16 です。ベースモデルはそれぞれのライセンスの下で読み込まれます:DiffusionGemma は Gemma の規約に基づき、whisper-small は MIT ライセンスに基づきます。
インタラクティブな解説
(function(){
window.addEventListener("message",function(e){
if(e && e.data && e.data.type==="resize"){
var h = e.data.frameHeight || e.data.height;
var f = document.getElementById("mtp-diffusion-asr");
if(f && h){ f.style.height = h + "px"; }
}
});
})();
モデルの重みと技術詳細をご覧ください。また、Twitter でフォローしていただくことも歓迎します。150,000 人以上が参加する ML サブレディットに参加し、ニュースレターを購読することを忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加できます。
GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご検討の場合は、こちらからご連絡ください。
Interfaze が公開した diffusion-gemma-asr-small は、DiffusionGemma の並列ノイズ除去デコーダーを通じて 6 か国語を転写するオープンソースの拡散型 ASR モデルです。この投稿は MarkTechPost にて最初に掲載されました。
原文を表示
Interfaze, a young YC’s startup, has open-sourced a new speech recognition model. It is called diffusion-gemma-asr-small. The model transcribes audio through a diffusion decoder, not an autoregressive one. It is described as the first multilingual audio diffusion ASR model. One adapter handles six languages. The research team trained only about 42M parameters on top of a frozen 26B backbone. That is roughly 0.16% of the model’s weights.
Here two terms matter up front. Autoregressive models generate text one token at a time. Diffusion models refine all tokens in parallel. This model uses the diffusion approach for speech-to-text.
TL;DR
Claimed by the Interfaze team, to be the first open-source multilingual diffusion ASR: six languages from a single ~42M-parameter adapter.
Transcribes via DiffusionGemma’s diffusion decoder using uniform, random-token diffusion, not the absorbing <mask> scheme.
Transcription cost scales with denoising steps, not transcript length.
Leads diffusion peers on LibriSpeech (6.6% WER vs Whisfusion’s 8.3%) but trails autoregressive Whisper.
The adapter ships under Apache-2.0; DiffusionGemma (Gemma terms) and whisper-small (MIT) load separately.
What is diffusion-gemma-asr-small?
diffusion-gemma-asr-small is an audio-native ASR model. It converts speech to text using a discrete diffusion decoder. That decoder belongs to DiffusionGemma, Google’s 26B mixture-of-experts model. DiffusionGemma activates 4B parameters, using 128 experts with top-8 routing. It generates text by discrete diffusion instead of autoregression.
The diffusion detail is specific. Most diffusion LLMs use an absorbing <mask> scheme. DiffusionGemma uses uniform, random-token diffusion instead. It fills a fixed-length canvas with random vocabulary tokens. Each step keeps confident predictions and re-randomizes the rest. After a few steps the noise anneals into text.
Interfaze added audio to this text-only model. Out of the box, DiffusionGemma takes text, images, and video. It does not take audio. The repo ships only the trained adapter, about 42M parameters. The frozen backbones download separately from their own repos.
How it works
The model does not feed raw waveforms to the LLM. An early attempt tried exactly that and failed. A frozen LLM has never seen a spectrogram. The embedding space has no notion of formants or phonemes. The model learned to ignore audio and hallucinate fluent nonsense.
The working design uses a frozen whisper-small encoder. It acts only as a feature extractor, not a decoder. Whisper turns 30 seconds of audio into 1500 frames. Each frame holds 768-dimensional acoustic features. A small trainable projector then compresses these frames. It uses conv layers that subsample 8× plus a linear map. The output is 188 “audio tokens” at 2816 dimensions. These tokens scatter into the prompt’s reserved <|audio|> slots. LoRA adapters let the backbone attend to this new modality. The decoder then denoises a 192-token transcript canvas. It runs bidirectionally over roughly 16 steps.
The pipeline, from the model card, is compact:
Copy CodeCopiedUse a different Browser
raw audio ─► whisper-small encoder (frozen) ─► projector (trained, ~19M)
─► scatter into <audio> token slots of DiffusionGemma's encoder
─► DiffusionGemma decoder denoises a 192-token canvas (bidirectional, cross-attends audio)
─► transcript
The training unlock
The first training runs stalled. Loss flatlined near 8. The failure was circular. The projector started random, so its output was noise. Attention then learned to ignore it. Almost no gradient reached the projector. The model never learned.
The fix supervised the projector directly. The research team ran the 188 audio tokens through DiffusionGemma’s frozen lm_head. They applied a CTC loss against the transcript. CTC means Connectionist Temporal Classification. It aligns audio features to text without needing attention.
This sidesteps the standoff. The audio embeddings became linearly predictive of the right words. CTC loss then dropped from 24 to 8.6 in 300 steps. On LibriSpeech test-clean, English WER fell 90% → 52% → 14.6% → 6.6% over ten epochs.
Performance and benchmarks
WER means Word Error Rate, where lower is better. CER means Character Error Rate. The model trained on FLEURS, LibriSpeech, and VoxPopuli. All scores below use the Whisper text normalizer at 16 diffusion steps.
benchmarkmetricscore
LibriSpeech test-clean (en)WER6.6%
FLEURS EnglishWER15.7%
VoxPopuli EnglishWER18.5%
FLEURS HindiCER15.8%
FLEURS MandarinCER29.6%
Against other diffusion or non-autoregressive ASR, it leads.
modelapproachLibriSpeech test-clean
TransFusion (2022)multinomial diffusion~6–7% (proof-of-concept)
Whisfusion (Aug 2025)Whisper-large-v3 + masked diffusion8.3%
diffusion-gemma-asr-small (2026)Whisper-small + DiffusionGemma6.6%
Against autoregressive Whisper, it trails. The team frames this gap as data, not architecture.
benchmarkoursWhisper-smallWhisper-large-v3
LibriSpeech clean6.6%~3.4%~2.0%
FLEURS-en15.7%~9–10%~4–5%
VoxPopuli-en18.5%~9–11%~7–10%
The denoising-step sweep shows a nearly flat curve.
stepsFLEURS-en WERspeed
815.7%14.9× real-time
1615.6%10.3×
3215.2%6.5×
4815.6%4.7×
Going from 8 to 48 steps buys about 0.1 WER point. It costs roughly 3× the latency. The model converges in about 8 parallel passes. That is around 0.7–1.5s of model time for a 10-second clip.
Use cases with examples
Batch transcription pipelines benefit from parallel decoding. Cost is set by denoising steps, not clip length. A 10-second clip needs roughly the same passes as a shorter one.
Multilingual transcription runs from a single adapter. It covers English, German, French, Spanish, Hindi, and Mandarin. Teams avoid loading a separate model per language.
Non-autoregressive ASR research gains a reproducible baseline. The recipe grounds a frozen LLM with a small adapter. Researchers can extend it with more audio or a larger encoder.
How to get started
The model lives on the Hub. It ships the adapter, model.py, audio.py, and a runnable inference.py. DiffusionGemma support needs transformers from main.
Copy CodeCopiedUse a different Browser
pip install torch peft soundfile librosa huggingface_hub \
"transformers @ git+https://github.com/huggingface/transformers.git"
Then transcribe in Python:
Copy CodeCopiedUse a different Browser
import sys, soundfile as sf
from huggingface_hub import snapshot_download
repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small") # adapter, ~170 MB
sys.path.insert(0, repo)
from inference import load, transcribe
Loads frozen DiffusionGemma-26B + whisper-small + this adapter.
model, tok, fe = load(f"{repo}/diffusion_asr_small.pt", device="cuda")
wav, sr = sf.read("audio.wav") # 16 kHz mono float32
print(transcribe(wav, model, tok, fe, max_steps=16))
A command-line path also works from inside the downloaded repo:
Copy CodeCopiedUse a different Browser
python inference.py audio.wav
The max_steps argument trades speed for accuracy. The team notes 8 is near-best and fastest. The default is 16. The base models load under their own licenses: DiffusionGemma under Gemma terms, whisper-small under MIT.
Interactive Explainer
(function(){
window.addEventListener("message",function(e){
if(e && e.data && e.data.type==="resize"){
var h = e.data.frameHeight || e.data.height;
var f = document.getElementById("mtp-diffusion-asr");
if(f && h){ f.style.height = h + "px"; }
}
});
})();
Check out the Model weights and Technical details. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post Interfaze Ships diffusion-gemma-asr-small, an Open-Source Diffusion ASR Model Transcribing Six Languages via DiffusionGemma’s Parallel Denoising Decoder appeared first on MarkTechPost.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み