AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年6月10日 04:38·約19分で読める

音声エージェントはバイリンガル顧客に対応できるか?コードスイッチング音声における最先端 ASR のベンチマーク

#ASR#音声認識#コードスイッチング#Voice Agents#ServiceNow-AI
TL;DR

ServiceNow-AI と Hugging Face が共同で、バイリンガル顧客対応におけるコードスイッチング音声の処理能力を最前線の ASR モデルでベンチマークし、実用化に向けた課題と成果を明らかにした。

AI深層分析2026年6月10日 22:09
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

コードスイッチング音声の難易度評価

単一言語に比べ、文脈内で言語が混在する「コードスイッチング」音声は、既存の ASR モデルにとって認識精度が著しく低下する課題であることを実証した。

2

最前線モデルの実測ベンチマーク

ServiceNow-AI と Hugging Face が共同で、複数の最先端音声認識モデルをバイリンガルデータセットで評価し、各モデルの強みと弱点を定量化した。

3

実社会での Voice Agent 適用可能性

カスタマーサポートなどの現場において、多言語混在環境でも信頼性の高い音声エージェントを実現するためには、特定のデータ拡張やモデル微調整が不可欠であることを示唆している。

4

トップモデルの性能とコスト

ElevenLabs Scribe V2 と AssemblyAI Universal-3 Pro がトランスクリプション精度で首位を争い、コードスイッチングによる追加コストは最小限に抑えられています。

5

意味理解における LLM の優位性

Google Gemini 3 Flash は文字通りの転写精度ではトップに次ぐものの、意味の保存と下流タスク(AER)において最上位モデルとなり、言語理解能力が評価されました。

6

エラー発生要因の特定

エラーの発生頻度は「言語切り替えの数」に依存しますが、エラーの深刻さは「コードミックスインデックス(CMI)」、つまり言語混在の密度によって決定されます。

影響分析・編集コメントを表示

影響分析

この分析は、グローバル化が進むカスタマーサポート現場において、音声 AI が直面する現実的な障壁(言語混在)を明確に可視化した点で重要です。単なる理論的な議論ではなく、実データに基づくベンチマーク結果を提供することで、開発者がより堅牢な Voice Agent を構築するための具体的な指針となり、業界全体の技術標準向上に寄与します。

編集コメント

多言語対応が求められる現代の AI アプリケーションにおいて、言語混在という「生々しい」課題への取り組みは極めて貴重です。このベンチマーク結果は、開発者がモデル選定やデータ準備を行う際の重要な判断材料となるでしょう。

記事一覧に戻る

イントロダクション ベンチマークデータパイプライン 評価方法論 発見事項 A. コードスイッチングに対するモデルの性能はどの程度か? WER 結果(低いほど良い) SWER および AER 結果(低いほど良い) B. コードスイッチングは単一言語話と比較して、どのような追加コストをもたらすのか? C. コードスイッチングは ASR システムをどのように破綻させるのか? 限界点 結論

イントロダクション

世界の人口の半数以上が複数の言語を話しています。そして多くのバイリンガル話者にとって、コードスイッチング — 文の途中であっても言語をシームレスに切り替えること — は、日常のコミュニケーションにおける自然な一部です。カジュアルな会話、コンタクトセンター、IT ヘルプデスクを問わず、話者はその瞬間に最も自然に感じる言語に合わせて流体に適応します。

世界中にバイリンガル話者が溢れているにもかかわらず、エンタープライズ環境における音声エージェントがコードスイッチングされた発話をどのように処理するかという点に焦点を当てた研究はほとんどありません。そこで、顧客から「日常的にコードスイッチングを行うバイリンガルの顧客基盤を持つ我々の音声エージェントのパフォーマンスはどうなるのか」という質問を受けた際、モデルを評価するために独自のベンチマークとデータセットを構築することを決定しました。私たちは、音声エージェントパイプラインの最初のステップである自動音声認識(ASR: Automatic Speech Recognition)に焦点を当てました。なぜなら、転写エラーはすべての下流コンポーネントへと伝播するからです。誤ったチケットの振り分けや誤解されたポリシー質問が実際の運用上の結果をもたらすエンタープライズ環境では、正確な転写を行うことは音声エージェントパイプラインにおいて特に重要なステップです。

当ベンチマークは、顧客ベースにとって最も関連性の高い4つの言語ペアを対象としています:スペイン語-英語、フランス語-英語、カナダ・フランス語-英語、ドイツ語-英語です。非英語言語を母体(マトリックス)として枠組みとし、英語をさまざまな長さで埋め込んでいます。データは、福利厚生や給与に関する従業員からの問い合わせ、パスワードのリセット、VPN アクセス、デバイスのトラブルシューティングなどのサポート依頼など、人事(HR)およびIT サービス管理(ITSM)の幅広いシナリオをカバーしています。

各種モデルのパフォーマンスを測定するため、3 つの指標を報告します:単語誤り率(Word Error Rate: WER)、意味的単語誤り率(Semantic Word Error Rate: SWER)、回答誤り率(Answer Error Rate: AER)です。これらの指標を選定した理由は、(1) 文字起こしにおけるモデルの正確な精度と、(2) 下流タスクのために発話の意味を保持する能力の両方を捉えるためです。

当社は、音声モデルの評価用ハネスである AU-Harness を通じて、ベンチマークおよびデータを公開しています。また、大規模音声言語モデル(Large Audio Language Models: LALMs)、最先端 ASR、オープンソース ASR などを含む 7 つの ASR システムの結果も提供します。主な発見は、コードスイッチングのコストが対象となる言語ペアとテストされたモデルによって異なるということです。11Labs Scribe V2、Gemini 3 Flash、Assembly AI Universal 3-Pro が、このタスクにおける各指標でトップモデルとして浮上しました。

ベンチマーク

データパイプライン

まず、IT サポートおよび人事関連の対話からなる内部コーパスを開始点とします。各コードスイッチング発話を生成する際、英語と当社の 4 つの非英語言語(いずれか)の対応するユーザー発話ペアから始め、適切なコードスイッチング候補をフィルタリングします。発話は 12〜40 語の範囲に制限し、自然な会話ターンとして短すぎず、かつ実際の切り替え機会を含めるのに十分な長さとなるように設定しています。また、電子メール、電話番号、ID、URL など、二言語選択ではなく必然的にテキストの半分が英語になってしまうような実体情報(エンティティ)が支配的な発話は除外します。最後に、生成モデルが意味のあるコードスイッチング版を作成するために十分な材料を得られるよう、実体や製品名ではない名詞、動詞、形容詞など、少なくとも 3 つの切り替え可能な内容語を含めることを要件とします。

ここから、現実的な方法で言語を組み合わせるさまざまな戦略を検証し、最終的に LLM(OpenAI/GPT-5)に送信するシンプルなペルソナプロンプトを採用してコードスイッチングテキストを生成しました。その後、LLM による音声化処理を経てテキストを発話形式に変換し、ElevenLabs Multilingual V2 を用いて音声を合成しました。すべての発話は、母語(マトリックス言語)のネイティブスピーカーである AI/NLP リンギストによってレビューされ、問題が指摘された発話は除外または再生成の上、再レビューされます。最終的なデータセットには、スペイン語 - 英語対応 259 件、フランス語 - 英語対応 298 件、カナダ・フランス語 - 英語対応 188 件、ドイツ語 - 英語対応 173 件の記録が含まれています。

評価手法

各モデル・言語ペアごとに、転写精度、意味の保持、および下流タスクのパフォーマンスを捉えるために選定した 3 つの指標を報告します:

  • Word Error Rate (WER)。言語ペア全体の WER と併せて、個別の言語ごとの WER も報告します。
  • Semantic WER (SWER)。このスコアは、意味的に重要な誤りとして判断されるエラーの割合を表しています。当社の実装は主に Pipecat の STT ベンチマークに基づいており、判定者には Gemma-4-31B を使用しています。
  • Answer Error Rate (AER)。この指標は、転写エラーが下流での失敗に波及するかどうかを直接捉えるものです。これは Bhushan 他(IISc/ARTPARK, arXiv 2507.16456)の手法に従った質問応答型指標です。各発話に対して 3 つの下流理解用質問を生成し、ASR 転写文を読み取る LLM がそれらを正しく回答できるかを測定します。このフローは以下の図に示されています。

知見

以下のモデルを評価しました:

  • AssemblyAI / Universal 3-Pro
  • Deepgram / Nova 3 Multilang
  • ElevenLabs / Scribe V2
  • Google / Gemini 3 Flash
  • Mistral AI / Voxtral Small 24B-2507
  • Nvidia / Parakeet TDT 0.6b V3
  • OpenAI / Whisper Large V3 Turbo

A. コードスイッチングに対するベンチマークでモデルはどの程度機能するか?

エラーを 2 つの次元に沿って分析しました:

  • Word-level accuracy, measured through WER. WER is the standard approach: it aligns the ground truth transcript with the model's output and quantifies the distance between them. Although it is simple and widely used, it can't distinguish a minor spelling difference from a completely wrong word.
  • Semantic accuracy, captured through SWER and AER. SWER gives us a holistic view of utterance-level performance, though it reflects a judge model's assessment rather than a direct downstream test. AER, by contrast, is a functional test: for each utterance, three comprehension questions measure whether the most consequential details — case numbers, names, dates, the reason for a request — were preserved in the transcription.

The differences between metrics become most meaningful when models diverge across them.

WER results (lower is better)

  • ElevenLabs/Scribe V2 and AssemblyAI/Universal-3 Pro are the top two models on transcription accuracy. They are tied on Spanish-English and separated by 0.02-0.13 percentage points across all other language pairs, with Scribe taking a narrow lead on each.
  • Google/Gemini 3 Flash はすべての言語ペアにおいて緊密に追随し、カナダフランス語-英語では最も遅れをとっており、Scribe よりも 0.14 ポイント、AssemblyAI よりも 0.12 ポイント劣っています。Deepgram/Nova-3、Mistral/Voxtral、Nvidia/Parakeet は中位に位置し、それぞれ少なくとも一つの言語ペアで先行しています。Parakeet はこの三つの中で全体的に最も弱体ですが、ドイツ語-英語では差を縮め、Nova-3 と Voxtral の両者を上回っています。
  • OpenAI/Whisper Large V3 Turbo は最下位に位置し、WER(Word Error Rate: 単語誤り率)は 0.16 から 0.61 の範囲にあります。これは大きな低下ですが、Whisper の既知の制限を反映したものです。コードスイッチング音声において明示的な言語パラメータなしで呼び出された場合、Whisper はデフォルトで英語へ翻訳しようとし、音声に含まれる言語を転写するのではなく、結果としてその言語を保持することに失敗します。

SWER と AER の結果(数値が低いほど良好)

意味論的指標は WER と概ね同様の物語を語っており、いくつかの逆転が見られます。

  • Scribe V2 は非常に低い SWER(Semantic Word Error Rate: 意味単語誤り率)および AER(Alignment Error Rate: アライメント誤り率)スコアを維持し、依然として首位にいます。
  • Assembly AI は WER では言語ペア全体で首位または二位でしたが、Gemini 3 Flash は AER で一貫してそれを上回り、AssemblyAI を三位へと押し下げました。SWER でも同様のパターンが見られますが、スペイン語-英語においては AssemblyAI が Gemini よりも優れています。LALM(Large Language Model: 大規模言語モデル)である Gemini は言語理解と推論のために最適化されており、その意味で生転写精度が不足している場合でも、意味に敏感な指標において有利に働く可能性があります。
  • Whisper でも同様の性能の推移が見られます。依然として一貫して最下位を維持していますが、意味論的指標の下ではその劣位の幅が大幅に縮小しており、これはコードスイッチングされた音声に対して翻訳ではなく転写を行う傾向があることの直接的な結果です。

意味論的結果はまた、SWER と AER の間の顕著な一貫性も明らかにしています。両指標は異なる粒度で動作します — SWER は単語ごとのエラーを集約するのに対し、AER は発話ごとに用意された 3 つの理解質問に正しく回答できるかを測定するため、規模の違いは予想されます。注目すべきは、両指標において相対的なモデルランキングがいかに安定しているかです。明確な外れ値は Deepgram Nova-3 で、これは SWER では中位に位置するものの、すべての言語ペアにおいて AER では最下位または準最下位となっています。この差が最も顕著なのはスペイン語 - 英語の組み合わせで、Nova-3 の意味論的エラー全体の割合は、特に重要な詳細に関するエラー率よりも低いという結果になっています。

B. コードスイッチングは単一言語話と比較してどのような追加コストをもたらすのか?

これらの結果はコードスイッチングされた音声におけるモデル性能の相対的な姿を明確に示していますが、エラーが転写そのものの本質的な難しさから生じるのか、それとも言語切り替えによって導入される追加の課題から生じるのかについては明らかにしていません。

コードスイッチングのコストを単独で評価するために、各発話を評価パイプラインに3種類の音声データとして通しました。1つはコードスイッチングされた音声、2つ目は同じ内容の単一言語(マトリックス言語)音声、3つ目は単一言語(英語)音声です。各発話について、コードスイッチング条件と単一言語条件における単語誤り率(WER: Word Error Rate)の差を測定し、ベンチマーク全体でその差分値を集計しました。以下がその結果です。

  • Scribe V2、Gemini 3 Flash、AssemblyAI は全体的に最も小さな差分を示しており、特に Scribe V2 は自身の L2 ベースラインを顕著に上回っており、バイリンガル入力に対する真の堅牢性を示しています。
  • コードスイッチングの影響も直感的なパターンに従っています。上位システムは単一言語ベースラインと比較してわずかなペナルティしか被らず、一方、下位モデルではより大幅な性能低下が見られます。これは、コードスイッチングがすべてのモデルで難易度を均一に引き上げるのではなく、主に堅牢性の違いを浮き彫りにしていることを示唆しています。
  • すべての言語ペアにわたって一貫した構造的パターンが見られます:緑色の棒グラフ(英語に対するコスト)は、赤色の棒グラフ(L2 に対するコスト)よりもほぼ常に大きくなっています。これは予想される結果です。なぜなら、L2 ベースライン自体がほとんどのモデルにとって英語よりも難しいため、それに対して測定した場合のネットな切り替えペナルティは小さくなるからです。最も明確な外れ値は Whisper で、英語に対する劣化度が最大となり、ドイツ語 - 英語では +0.85 に達しています。また、コードスイッチングされた音声において単一言語 L2 よりも高い性能を示す唯一のモデルでもあります。これはデフォルトで翻訳に切り替える結果であり、これによりマトリックス言語を完全に回避しているためです。

C. コードスイッチングは ASR システムをどのように破綻させるのか?

コードスイッチングがモデルに誤りをもたらす可能性があることがわかった今、これらの誤りに関連する具体的な条件について調査に移ります。この問いに答えるために、2 つの部分からなるモデルを構築しました。

  • まず、少なくとも 1 つの文字起こしエラーが発生することに関連する変数は何かを問うため、ロジスティック回帰を使用します。
  • 次に、少なくとも 1 つのエラーが発生したという条件の下で、エラーの規模に関連する変数を調べるために、通常最小二乗法(OLS)回帰を使用します。

この2段階のアプローチにより、エラーが発生しやすくなる要因と、一度発生したエラーの規模に影響を与える要因を区別することが可能になります。両方のステップには同じ予測変数が含まれています:(1) 発話内の言語切り替えの数、および (2) 発話のコードスイッチング指数(CMI) — これは母語に対する副次言語からの単語の割合であり、Gambäck and Das の定義に従います。また、より長い発話はエラーが発生する機会が増えるため、発話の長さも制御変数として含めています。

転写エラーに関連する変数

モデルの最初の部分から、発話内の言語切り替えの数が、転写エラーの発生に関係する予測変数の中で最も一貫して関連していることがわかりました。各言語の変化は、転写プロセスが失敗する追加の機会をもたらすように見えます。この関係は特にフランス語と英語の言語ペアにおいて顕著で、7つのモデルのうち6つで有意な結果が得られました。他の予測変数 — CMI と発話の長さ — は、エラー発生との間に有意な関係をほとんど示しませんでした。

質問が誤りの大きさに移ると、異なるパターンが浮かび上がります。スイッチング回数ではなく、CMI(コードスイッチング密度)がより強力な予測因子として浮上します。特にドイツ語と英語の言語ペアにおいては、7 つあるモデルのうち 4 つで、CMI と WER(単語誤り率)の間には有意な正の相関関係が見られました。これは、一度エラーが発生すると、その深刻さは話者がどの頻度で言語を切り替えるかではなく、混合の全体的な密度によって形作られることを示唆しています:発話内で 2 つの言語がどれだけ密に織り交ぜられているかによって、生じる転写誤りの規模も大きくなる傾向があります。

コードスイッチングされた発話のうち、転写エラーに寄与する部分

この 2 部構成モデルは、エラーが発生し悪化する要因が何に関連しているかを説明します。私たちの最終的な実験では、コードスイッチングされた発話のどの部分がこれらのエラーに不均衡に寄与しているのかを検証しました。発話内の英語部分と非英語部分でエラーの分布が異なるかどうかをテストするため、GPT-5 を用いて各単語に言語タグを付与し、各転写エラーが発生した単語の言語にそのエラーを帰属させ、言語ごとの WER(単語誤り率)を計算しました。以下のヒートマップはその結果を示しています。

このパターンはすべてのモデルと言語ペアに共通しており、誤りは発話の英語部分に集中し、母語(マトリックス言語)の部分には集中しないというものです。これは直感に反する結果です。なぜなら、これらのモデルは単一言語設定において英語を最も得意とする傾向があるからです。一つの説明として、コードスイッチングされた発話における英語セグメントには、転写が難しい技術用語や固有名詞が不均衡に含まれている可能性があります。もう一つの説明は、埋め込まれた言語のセグメントはどの言語が埋め込まれていても文脈として困難であり、モデルが発話中に母語ではない部分へ移行する際、異なる音韻的・語彙的レジスターに適応する必要が生じ、まさにその区間で誤りの可能性が高まるというものです。

この結果は、コードスイッチングされた音声認識(ASR)における転写の難易度が切り替え点だけに集中しているのではなく、埋め込まれた言語のセグメント全体に広がっていることを示唆しています。このパターンが英語セグメントの語彙的特性、埋め込まれ言語としての構造的役割、あるいは現在のモデルが発話中への適応能力の限界によるものかを解きほぐすことは、将来の研究における有望な方向性です。

制限事項

いくつかの制限事項を認めておく必要があります:

  • このベンチマークは合成データです。すべての音声は自然なバイリンガル話者によって録音されたものではなく、テキスト読み上げ(TTS)モデルによって生成されたものです。したがって、このベンチマークは実際のコードスイッチングされた発話の韻律的・音韻的特性を完全に捉えきれていない可能性があります。
  • すべてのモデルは「自動言語検出」のみを使用して評価されました。一部のシステムには、強制言語トークン、複数言語のヒントなど、コードスイッチング音声における転写品質を向上させる可能性のある設定が用意されていますが、通話者がどの言語ペアを使用するかについてシステムに事前知識がないという本番環境に合わせるため、自動検出を選択しました。
  • 言語別の WER は挿入語を除きます。言語別の WER は、各参照単語を英語または非英語としてタグ付けし、誤りを対応するカテゴリに割り当てることで計算されます。挿入された単語の言語を識別するために追加のモデル呼び出しを行わない限り、その言語に挿入語を帰属させることができないため、言語別計算からは除外します。ただし、これらは集計 WER にはカウントされます。

結論

コードスイッチングは長年、音声モデルに対するストレステストとなってきました。私たちの結果は、最前線の ASR システムにおいては、それがもはや通常の条件になりつつあることを示唆しています。

企業が ASR システムを慎重に選択すれば、バイリンガルの顧客は自然な発話が可能になります。会話の要求に応じて文脈内で言語を切り替えながら、転写品質や下流タスクのパフォーマンスを犠牲にすることなく対応できます。当ベンチマークにおける上位モデルは、単一言語ベースラインと比較して驚くほど小さなペナルティでコードスイッチング音声を取り扱い、意味論的指標はさらに励みになる結果を示しています。

しかし、状況は必ずしも一様に明るいわけではありません。本番環境での意思決定を行う前に、顧客が実際に使用する言語についてベンチマークを取る必要があります。モデルや言語ペア間ではパフォーマンスに大きなばらつきがあり、スペイン語と英語を話す人々にとって最適な選択肢が、ドイツ語と英語を話す人々にとっても最適とは限りません。

原文を表示

Back to Articles

Introduction The Benchmark Data Pipeline Evaluation Methodology Findings A. How well do models perform on our benchmark for codeswitching? WER results (lower is better) SWER and AER results (lower is better) B. What additional cost does code-switching add compared to plain monolingual speech? C. How does code-switching break ASR systems? Limitations Conclusion

Introduction

Over half of the world's population speaks more than one language. And for many bilingual speakers, code-switching — seamlessly switching between languages, even mid-sentence — is a natural part of everyday communication. Whether in casual conversations, contact centers, or IT helpdesks, speakers fluidly adapt to whichever language feels most natural in the moment.

Despite the prevalence of bilingual speakers across the world, there has been little work focused on how voice agents handle code-switched speech in enterprise settings. So, when a customer asked us how our voice agents would perform for their largely bilingual customer base who routinely code-switched, we decided to build our own benchmark and dataset to evaluate models. We focused on automatic speech recognition (ASR) — the first step in any voice agent pipeline — because transcription errors propagate forward into every downstream component. In enterprise settings, where a misrouted ticket or misunderstood policy question has real operational consequences, getting the transcript right is an especially important step of the voice agent pipeline.

Our benchmark covers four language pairs that were most relevant for our customer base: Spanish-English, French-English, Canadian French-English, and German-English. It uses the non-English language as the matrix framing, with English embedded at varying lengths. The data covers a wide range of Human Resources (HR) and IT Service management (ITSM) scenarios, including employee inquiries about benefits or payroll, and support requests such as password resets, VPN access, or device troubleshooting. To measure how various models perform, we report three metrics: Word Error Rate (WER), Semantic Word Error Rate (SWER), and Answer Error Rate (AER). We choose these metrics to capture both (1) the models' exact accuracy in transcription, as well as (2) their ability to preserve the meaning of the utterance for downstream tasks.

We release our benchmark and data through our harness for evaluating voice models, AU-Harness. We also provide results from seven ASR systems, including some Large Audio Language Models (LALMs), frontier ASRs, and open-source ASRs. Our main finding is that the cost of codeswitching varies depending on the language-pair and model tested. ElevenLabs Scribe V2, Gemini 3 Flash, and Assembly AI Universal 3-Pro surface as the top models across metrics for the task.

The Benchmark

Data Pipeline

We start with an internal corpus of IT support and HR interactions. To create each code-switched utterance, we begin with parallel user utterances in English and one of our four non-English languages, then filter for good code-switching candidates. We keep utterances between 12 and 40 words — short enough to be natural spoken turns, long enough to contain real switching opportunities. We also exclude utterances where entities dominate — emails, phone numbers, IDs, or URLs that make text half-English by necessity rather than bilingual choice. Finally, we require at least three switchable content words — nouns, verbs, or adjectives that are not entities or product names — to give the generation model enough material to produce a meaningful code-switched version.

From here, we tested various strategies for combining languages in a realistic way and ultimately selected a simple persona prompt sent to an LLM (OpenAI/GPT-5) to produce the code-switched text. We then used an LLM verbalization pass to convert the text into its spoken form and used ElevenLabs Multilingual V2 to synthesize the audio. Every utterance is then reviewed by an AI/NLP linguist who is a native speaker of the matrix language; flagged utterances are excluded or regenerated and re-reviewed. The final dataset has 259 Spanish-English records, 298 French-English records, 188 Canadian French-English records, and 173 German-English records

Evaluation Methodology

We report three metrics per model per language pair, chosen to capture transcription accuracy, meaning preservation, and downstream task performance:

  • Word Error Rate (WER). Along with overall WER per language pair, we report WER by individual language.
  • Semantic WER (SWER). This score represents the rate of errors that are judged as semantically meaningful. Our implementation is largely based on Pipecat's STT benchmark, and we use Gemma-4-31B as our judge.
  • Answer Error Rate (AER). This metric directly captures whether transcription errors propagate into downstream failures. It is a question-answer metric that follows the methodology in Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456). For each utterance, we generate three downstream comprehension questions and measure whether an LLM reading the ASR transcript can answer them correctly. The flow is shown in the diagram below.

Findings

We evaluated the following models:

  • AssemblyAI / Universal 3-Pro
  • Deepgram / Nova 3 Multilang
  • ElevenLabs / Scribe V2
  • Google / Gemini 3 Flash
  • Mistral AI / Voxtral Small 24B-2507
  • Nvidia / Parakeet TDT 0.6b V3
  • OpenAI / Whisper Large V3 Turbo

A. How well do models perform on our benchmark for codeswitching?

We analyzed errors along two dimensions:

  • Word-level accuracy, measured through WER. WER is the standard approach: it aligns the ground truth transcript with the model's output and quantifies the distance between them. Although it is simple and widely used, it can't distinguish a minor spelling difference from a completely wrong word.
  • Semantic accuracy, captured through SWER and AER. SWER gives us a holistic view of utterance-level performance, though it reflects a judge model's assessment rather than a direct downstream test. AER, by contrast, is a functional test: for each utterance, three comprehension questions measure whether the most consequential details — case numbers, names, dates, the reason for a request — were preserved in the transcription.

The differences between metrics become most meaningful when models diverge across them.

WER results (lower is better)

  • ElevenLabs/Scribe V2 and AssemblyAI/Universal-3 Pro are the top two models on transcription accuracy. They are tied on Spanish-English and separated by 0.02-0.13 percentage points across all other language pairs, with Scribe taking a narrow lead on each.
  • Google/Gemini 3 Flash follows closely in every language pair, trailing most on Canadian French-English, where it falls 0.14 points behind Scribe and 0.12 points behind AssemblyAI. Deepgram/Nova-3, Mistral/Voxtral, and Nvidia/Parakeet occupy the middle ranks, each pulling ahead on at least one language pair. Parakeet is the weakest of the three overall but closes the gap on German-English, where it out performs both Nova-3 and Voxtral.
  • OpenAI/Whisper Large V3 Turbo sits at the bottom, with WER ranging from 0.16 to 0.61. While it's a significant drop, it reflects known limitation of Whisper. When called without an explicit language parameter on code-switched audio, Whisper defaults to translating into English rather than transcribing, failing to preserve the language spoken in the audio.

SWER and AER results (lower is better)

The semantic metrics tell a broadly similar story to the WER, with a few inversions.

  • Scribe V2 remains at the first place, with very low SWER and AER scores.
  • While Assembly AI ranked first or second across language pairs in WER, Gemini 3 Flash consistently outperforms it in AER and pushes AssemblyAI down to third place. The same pattern appears in SWER, although AssemblyAI outperforms Gemini on Spanish-English. As an LALM, Gemini is optimized for language understanding and reasoning, which likely gives it an advantage on meaning-sensitive metrics even where its raw transcription accuracy falls short.
  • A similar shift in performance is noticed in Whisper. While it still consistently ranks last, the margin of its underperformance narrows considerably under semantic metrics, a direct consequence of its tendency to translate code-switched audio into English rather than transcribe it.

The semantic results also reveal notable consistency between SWER and AER. The two metrics operate at different granularities — SWER aggregates error across every word, while AER measures whether three comprehension questions per utterance can be answered correctly — so differences in scale are expected. What's notable is how stable the relative model rankings are across both. The one clear outlier is Deepgram Nova-3, which sits mid-tier on SWER but ranks last or second-to-last on AER across all language pairs. The gap is most pronounced on Spanish-English: Nova-3's overall rate of semantic errors is lower than its error rate specifically on the details that matter most.

B. What additional cost does code-switching add compared to plain monolingual speech?

While these results provide a clear picture of relative model performance on code-switched speech, they do not reveal whether the errors stem from the inherent difficulty of transcription itself, or from the additional challenge introduced by language switching.

To isolate the cost of codeswitching, we ran every utterance through our evaluation pipeline in three audios: the code-switched audio, a monolingual matrix-language audio of the same content, and a monolingual English audio. For each utterance, we measured the difference in WER between the code-switched and monolingual conditions and aggregated the deltas across the benchmark. Below are the results.

  • Scribe V2, Gemini 3 Flash, and AssemblyAI show the smallest deltas overall, with Scribe V2 notably outperforming its own L2 baseline, pointing to genuine robustness to bilingual input.
  • The effect of code-switching also follows an intuitive pattern: top-performing systems incur only a small penalty relative to monolingual baselines, while lower-ranked models degrade more substantially, suggesting that code-switching primarily exposes differences in robustness rather than uniformly raising difficulty across all models.
  • A consistent structural pattern emerges across all language pairs: the green bars (cost relative to English) are almost always larger than the red bars (cost relative to L2), which is expected — the L2 baseline is itself harder than English for most models, so the net switching penalty is smaller when measured against it. The clearest outlier is Whisper, which shows the largest degradation relative to English, peaking at +0.85 on German-English. It is also the only model that performs better on code-switched speech than on monolingual L2 — a direct consequence of defaulting to translation, which sidesteps the matrix language entirely.

C. How does code-switching break ASR systems?

Now that we know code-switching can cause models to make mistakes, we turn to investigating the specific conditions associated with those mistakes. To address this question, we fit a two-part model:

  • First, we use a logistic regression to ask what variables are associated with at least one transcription error occurring.
  • Second, conditional on at least one error occurring, we use an ordinary least squares (OLS) regression to examine which variables are associated with error magnitude.

This two-part approach lets us distinguish between factors that make an error more likely to occur and factors that influence how large the error becomes once it has. Both steps include the same predictors: (1) the number of language switches in the utterance, and (2) the utterance's Code-Mixing Index (CMI) — the proportion of words drawn from a secondary language relative to the matrix language, following Gambäck and Das. We also include utterance length as a control, since longer utterances provide more opportunities for error.

Variables associated with transcription errors

From the first part of our model, we find that the number of language switches within an utterance is the predictor most consistently associated with whether the occurrence of a transcription error. Each language change appears to introduce an additional opportunity for the transcription process to fail. This relationship was significant in the French-English language pair in particular, where six out of seven models exhibited it. Other predictors — CMI and utterance length — showed few significant relationships with error occurrence.

When the question shifts to error magnitude, a different pattern emerges. Rather than switch count, CMI surfaces as the stronger predictor. In the German-English language pair specifically, four out of seven models showed a significant positive relationship between CMI and WER. This suggests that once errors occur, their severity is shaped not by how often the speaker switches languages but by the overall density of mixing: the more thoroughly an utterance interweaves the two languages, the larger the resulting transcription errors tend to be.

Portions of a code-switched utterance contributing to transcription errors

The two-part model explains what factors are associated with errors occurring and worsening. Our final experiment examines which portions of a code-switched utterance contribute disproportionately to those errors. To test whether errors distribute differently across the English and non-English parts of an utterance, we used GPT-5 to tag each word by language, then attributed each transcription error to the language of the word on which it occurred, computing a per-language WER. The heatmap below shows the results.

The pattern is consistent across all models and language pairs: errors concentrate on the English portions of utterances rather than the matrix-language portions. This is counterintuitive — English is the language these models tend to handle best in monolingual settings. One explanation is that English segments in code-switched speech may disproportionately contain technical vocabulary or named entities that are harder to transcribe. Another is that embedded-language segments create a challenging context regardless of which language is embedded: when a model transitions into a stretch of non-matrix speech, it must adapt to a different phonological and lexical register mid-utterance, increasing the likelihood of error at exactly that span.

This result suggests that transcription difficulty in code-switched ASR is not concentrated at switch points alone, but extends across embedded-language spans more broadly. Disentangling whether this pattern reflects the lexical characteristics of English segments, their structural role as embedded language, or current models' limited ability to adapt mid-utterance is a promising direction for future work.

Limitations

Several limitations are worth acknowledging:

  • The benchmark is synthetic. All audio is generated via Text-to-Speech (TTS) model rather than recorded by natural bilingual speakers. So, the benchmark may not fully capture the prosodic and phonological characteristics of real code-switched speech.
  • All models were evaluated with "auto language detection" only. Some systems expose configurations — forced language tokens, multi-language hints, and similar — that might improve transcription quality on code-switched audio. We chose auto-detection because it matches the production setting where the system has no prior knowledge of which language pair a caller will use.
  • Per-language WER excludes insertions. Our per-language WER is computed by tagging each reference word as English or non-English and attributing errors to the corresponding bucket. Insertions cannot be attributed to a language without an additional model call to identify the inserted word's language, so we exclude them from per-language calculations. They are still counted in the aggregate WER.

Conclusion

Code-switching has long been a stress test for voice models. Our results suggest that for the best frontier ASR systems, it is increasingly becoming a normal condition.

When enterprises choose their ASR systems carefully, bilingual customers can speak naturally — switching languages mid-sentence as the conversation demands — without sacrificing transcription quality or downstream task performance. The top models in our benchmark handle code-switched speech with surprisingly small penalties relative to their monolingual baselines, and the semantic metrics tell an even more encouraging story.

But the picture is not uniformly positive. Before making production decisions, you must benchmark the languages your customers actually speak — performance varies substantially across models and language pairs, and the best choice for Spanish–English speakers is not necessarily the best choice for German–English speakers.

この記事をシェア

関連記事

通义大模型★32026年4月20日 15:02

故郷の方言でこのAIをテストしてみませんか?

通義实验室は音声認識大模型「Fun-ASR1.5」をリリースした。同モデルは30言語と7大方言を単一アーキテクチャで処理し、典型方言の誤り率を56%削減して工業級の実用化を実現した。

MarkTechPost★42026年6月8日 17:56

Microsoft AI、MAI-Transcribe-1.5 を発表:人工分析で WER2.4%、FLEURS 精度は業界最高水準、長音響変換速度は最大 5 倍向上

マイクロソフト AI は自社開発音声認識モデル「MAI-Transcribe-1.5」を発表し、43 言語・雑音環境に対応し、人工分析で WER2.4%、FLEURS 精度は業界最高水準、長音響変換速度を最大 5 倍向上させた。

Hugging Face Blog★42026年6月4日 21:59

あなたの言語・ドメイン、またはアクセント向けに Nemotron 3.5 ASR をファインチューニングする方法

Hugging Face は、Nemotron 3.5 ASR モデルを特定の言語や業界ドメイン、話者のアクセントに合わせてカスタマイズするファインチューニングの手順を解説した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む