LLMにおけるテキストと音声理解のギャップを埋める
音声対応LLMは、言語理解タスクでテキスト専用モデルや従来手法より性能が低く、このギャップを解消する研究が進められている。
キーポイント
音声適応LLMの性能低下を「テキスト-音声理解ギャップ」と定義し、その原因を(1)適応時のテキスト能力の忘却と(2)音声とテキストのクロスモーダル不整合の2点に特定
既存手法の問題点として、大規模音声合成のコスト依存性や非再現性のあるプロプライエタリデータへの依存を指摘
新手法「SALAD」を提案:クロスモーダル蒸留とターゲット合成データを組み合わせ、公開音声コーパスで従来比10分の1以下のデータ量で競争力ある性能を達成
3B/7B LLMで実証:知識・言語理解・推論の広域ベンチマークで強力なオープンウェイトモデルと同等性能を実現
影響分析・編集コメントを表示
影響分析
音声理解におけるLLMのデータ効率性を大幅に改善し、マルチモーダルAIの実用化加速に寄与。オープンな手法と公開データでの再現性確保は研究コミュニティにとって重要な前進。
編集コメント
音声適応時の根本課題に理論的・実証的にアプローチした良質な研究。実用面でのデータコスト削減効果は産業応用に直結する価値がある。
LLMにおけるテキストと音声理解のギャップを埋める
著者Santiago Cuervo†, Skyler Seto, Maureen de Seyssel, Richard He Bai, Zijin Gu, Tatiana Likhomanenko, Navdeep Jaitly, Zakaria Aldeneh
論文を見る
大規模言語モデル(LLM)は、テキストの能力を音声入力に拡張するように適応させることが可能です。しかし、これらの音声適応型LLMは、言語理解タスクにおいて、常にテキストベースの同等モデル、さらにはカスケード型パイプラインよりも性能が劣ります。我々はこの不足分を「テキスト-音声理解ギャップ」と呼びます。これは、音声適応型LLMが音声入力を処理する場合と、元のテキストベースLLMが同等のテキストを処理する場合とを比較して観察される性能低下のことです。このギャップを狭めようとする最近のアプローチは、コストがかかり合成データへの依存度が高いテキストコーパスの大規模音声合成に依存するか、再現性のない大規模な独自音声データセットに依存しています。その結果、テキスト-音声理解ギャップを埋めるための、よりデータ効率の良い代替手段が必要とされています。本研究では、このギャップが二つの要因によって引き起こされていると分析します:(i) 適応過程におけるテキスト能力の忘却、および (ii) 音声とテキスト間のクロスモーダルな不一致です。この分析に基づき、我々はSALAD(Sample-efficient Alignment with Learning through Active selection and cross-modal Distillation)を提案します。これは、クロスモーダル蒸留と、適切に選ばれた合成データを組み合わせることで、不一致を改善しつつ忘却を軽減する手法です。3Bおよび7BのLLMに適用した結果、SALADは、知識、言語理解、推論に関する広範なドメインベンチマークにおいて、強力なオープンウェイトモデルと競合する性能を達成し、かつ公的コーパスからの音声データを1桁以上少ない量で学習しています。
† Université de Toulon, Aix Marseille Université, CNRS, LIS
関連する文献と最新情報
Visatronic: 音声合成のためのマルチモーダルデコーダのみのモデル
2025年7月14日研究分野 手法とアルゴリズム、研究分野 音声および自然言語処理
基盤モデルと大規模言語モデル(LLM)の急速な進歩は、マルチモーダル入力データを活用する機械学習システムの能力を大幅に向上させてきました。しかし、既存のマルチモーダルモデルは、主に事前学習済みLLMの上に構築されており、他のモダリティ間の時間的依存関係を正確にモデル化することを制限し、結果としてモデルがマルチモーダルデータを共同で処理・活用する能力を制限する可能性があります…
SpeakStream: インターリーブデータを用いたストリーミングテキスト読み上げ
2025年5月30日研究分野 手法とアルゴリズム、研究分野 音声および自然言語処理
音声フロントエンドと大規模言語モデル(LLM)の統合が進むにつれ、これらのモダリティを統合するアーキテクチャを探求する必要があります。エンドツーエンドモデルは広く研究されていますが、LLMの出力をTTSにストリーミングするカスケードモデルは、潜在的にはるかに単純であるにもかかわらず、不思議なほど研究が進んでいません。しかし、従来のテキスト読み上げシステムを用いてLLMの出力を音声に変換することは、技術的に…
機械学習における機会を発見する
私たちの機械学習研究は、日々新たな領域を切り開いています。

原文を表示
Closing the Gap Between Text and Speech Understanding in LLMs
AuthorsSantiago Cuervo†, Skyler Seto, Maureen de Seyssel, Richard He Bai, Zijin Gu, Tatiana Likhomanenko, Navdeep Jaitly, Zakaria Aldeneh
View publication
Large Language Models (LLMs) can be adapted to extend their text capabilities to speech inputs. However, these speech-adapted LLMs consistently underperform their text-based counterparts—and even cascaded pipelines—on language understanding tasks. We term this shortfall the text-speech understanding gap: the performance drop observed when a speech-adapted LLM processes spoken inputs relative to when the original text-based LLM processes the equivalent text. Recent approaches to narrowing this gap either rely on large-scale speech synthesis of text corpora, which is costly and heavily dependent on synthetic data, or on large-scale proprietary speech datasets, which are not reproducible. As a result, there remains a need for more data-efficient alternatives for closing the text-speech understanding gap. In this work, we analyze the gap as driven by two factors: (i) forgetting of text capabilities during adaptation, and (ii) cross-modal misalignment between speech and text. Based on this analysis, we introduce SALAD—Sample-efficient Alignment with Learning through Active selection and cross-modal Distillation—which combines cross-modal distillation with targeted synthetic data to improve alignment while mitigating forgetting. Applied to 3B and 7B LLMs, SALAD achieves competitive performance with a strong open-weight model across broad-domain benchmarks in knowledge, language understanding, and reasoning, while training on over an order of magnitude less speech data from public corpora.
† Université de Toulon, Aix Marseille Université, CNRS, LIS
Related readings and updates.
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
July 14, 2025research area Methods and Algorithms, research area Speech and Natural Language Processing
The rapid progress of foundation models and large language models (LLMs) has fueled significantly improvement in the capabilities of machine learning systems that benefit from mutlimodal input data. However, existing multimodal models are predominantly built on top of pre-trained LLMs, which can limit accurate modeling of temporal dependencies across other modalities and thus limit the model’s ability to jointly process and leverage multimodal…
SpeakStream: Streaming Text-to-Speech with Interleaved Data
May 30, 2025research area Methods and Algorithms, research area Speech and Natural Language Processing
With the increasing integration of speech front-ends and large language models (LLM), there is a need to explore architectures that integrate these modalities. While end-to-end models have been explored extensively, cascaded models that stream outputs from LLMs to TTS seem to be oddly under-explored, even though they are potentially much simpler. Using traditional text-to-speech systems to convert LLM outputs to audio, however, poses a technical…
Discover opportunities in Machine Learning.
Our research in machine learning breaks new ground every day.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み