#asr のAIニュース

5件の記事

Interfaze が拡散型 ASR モデル「diffusion-gemma-asr-small」を公開、6 か国語の並列ノイズ除去デコーダーで音声認識を実現

YC 支援企業 Interfaze は、260 億パラメータのバックボーンを凍結し、4200 万パラメータのみで訓練した拡散型 ASR モデル「diffusion-gemma-asr-small」をオープンソース化しました。このモデルは自己回帰方式ではなく並列ノイズ除去デコーダーを採用し、1 つのアダプターで 6 か国語の音声認識を可能にします。

MarkTechPost·7月3日·★★★★

音声エージェントはバイリンガル顧客に対応できるか？コードスイッチング音声における最先端 ASR のベンチマーク

Hugging Face は、音声エージェントが言語を混在させた（コードスイッチング）音声に対してどの程度対応可能かを評価するため、最先端の自動音声認識（ASR）技術をベンチマークした。

Hugging Face Blog·6月10日·★★★★

Microsoft AI、MAI-Transcribe-1.5 を発表：人工分析で WER2.4%、FLEURS 精度は業界最高水準、長音響変換速度は最大 5 倍向上

マイクロソフト AI は自社開発音声認識モデル「MAI-Transcribe-1.5」を発表し、43 言語・雑音環境に対応し、人工分析で WER2.4%、FLEURS 精度は業界最高水準、長音響変換速度を最大 5 倍向上させた。

MarkTechPost·6月8日·★★★★

あなたの言語・ドメイン、またはアクセント向けに Nemotron 3.5 ASR をファインチューニングする方法

Hugging Face は、Nemotron 3.5 ASR モデルを特定の言語や業界ドメイン、話者のアクセントに合わせてカスタマイズするファインチューニングの手順を解説した。

Hugging Face Blog·6月4日·★★★★

卒業式で AI アナウンサーが名前を誤読・飛ばす

The Verge は、近年人気を集める卒業式の AI 音声アナウンスシステムが、学生の名前を誤って発音したり読み飛ばしたりする事例が多発していることを報じた。

The Verge AI·5月20日