故郷の方言でこのAIをテストしてみませんか?
通義実験室は単一モデルで30言語と中国語の主要方言・地方口音をカバーする音声認識大模型「Fun-ASR1.5」を発表し、方言の工業級実用化と多言語コードスイッチング対応を実現した。
キーポイント
方言カバー範囲の大幅拡大と精度向上
単一モデルで30言語・中国語7大方言系・20+地方口音を処理可能にし、典型方言のCERを前版比56.2%削減。一部方言は90%超の精度を達成した。
単一アーキテクチャによる多言語・コードスイッチング対応
事前タグ設定不要で混合語会話や自由切替を高精度に認識。跨国企業のコラボレーションや学術記録など、多言語環境での実用性を大幅に向上させた。
古典文化の技術的デジタル化(古诗词吟诵最適化)
文言省略・厳格な押韻・拖腔などの非自然語流特徴に対応するため、専門データセットを構築し吟诵認識精度を特化強化した。
地域密着型産業シーンへの具体展開
県域教育ライブ配信、地方政務ホットライン、方言文化ドキュメンタリー制作など、長尾だが高価値な実装ケースを提示し産業応用へ移行した。
影響分析・編集コメントを表示
影響分析
本発表は、音声認識技術が「標準語中心」から「多言語・方言統合型」へ転換したことを示す。単一モデルでのコードスイッチング対応と方言精度向上は、地方自治体のデジタル化や跨国企業のコミュニケーションコスト削減に直接寄与する。ただし、プレスリリース性質が強く、ベンチマークの透明性や大規模実装時のコスト面については今後の検証が必要である。
編集コメント
方言認識の工業級実用化は地域格差是正に貢献するが、ベンチマークの公開範囲や実環境でのスケーラビリティについては、独立した第三者検証を待つべきだろう。技術の普及は地方自治体のデジタルインフラ整備と連動するはずだ。
原作:通義ラボ 2026-04-20 14:02 浙江
方言認識が「産業級(インダストリアルグレード)の使用」時代へ突入。
あなたの郷語(方言)を、音声認識は聞き取れるでしょうか?
かつての答えは「難しい」でした。方言が口から発せられるやいなや、文字起こしの結果は化けコードや空白になることが多かったです。
しかし、すべてが変化しつつあります……
通義ラボは公式にFun-ASR1.5をリリースし、「方言の産業級利用」を実現する音声認識大モデル(Speech Recognition Large Model)を発表しました。
統一された大モデルアーキテクチャを基盤とし、単一モデルで30言語、中国語の七大方言体系、および20以上の地方訛りをシームレスにカバーします。古詩の朗読も正確に文字起こし可能です。テストによると、典型的な方言シナリオにおける文字誤り率(CER:Character Error Rate)は相対的に56.2%低下しました。現在、5つの方言で精度が90%を突破し、15つが80%を超えています。
「聞き取り可能」から「理解可能」へ。音声認識は正式に、全シナリオに対応する産業級の新段階へと踏み出しました。
Fun-ASR1.5は「より広く聴く、より正確に聴く、出力をより規範化する」という3つの目標に焦点を当て、「汎用文字起こしツール」から「多言語・多文化理解プラットフォーム」への重要な進化を実現しました。4つの核心突破を、この記事で一目で理解しましょう:
数十万時間の実データによる訓練で、方言認識が「産業級」へ
方言音声データが希少で発音のばらつきが大きいことは、業界において常に深水区とされてきました。Fun-ASR1.5は数十万時間を超える実際の方言音声データで訓練されており、日常会話、地方ニュース、農村行政など多様なシナリオをカバーしています。
カバー範囲の拡大
モデルは中国語の伝統的な七大方言体系(官話/呉語/湘語/贛語/客家語/閩語/広東語)をサポートし、20以上の地域訛りの官話に深く適合しています。中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台などをカバーし、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏など20以上の地域を含みます。
重点的な最適化
ビジネス展開において最も頻繁に遭遇するロングテールの課題に対応し、Fun-ASR1.5は以下の方言に対して指向性最適化を行いました:
ASR結果:移動通信の料金は比較的お手頃ですが、今のネット速度はまあまあです。とにかく昔ほど重くはありません。
ASR結果:問題集を買ってきて、もし自分ができたら子供に教えてあげてもいいですね。嗯、今はネットが発達しているので、もっと知識を見ることができます。
ASR結果:生姜茶を飲むのは効果があるかもしれませんが、肺炎になってしまったら、抗生物質を使う必要がありますよ。
ASR結果:もともと絵を描くのに没入していたのですが、楼上から電動ドリルの音が聞こえてきて、インスピレーションが全部飛んでしまいました。やはり隣人と相談しましょう。
ASR結果:普段の時間に、スマホの操作を教わっておくといいですよ。なぜなら、あなたは時代に追いついているから、時代の進歩で、あなたも便利になります。
ASR結果:しかし、一人で行くなら、200元か100元の外食費は計算して高くはないでしょう。ビュッフェですよ。肉もあれば、野菜もあり、果物があり、デザートもあります。何があるか計算してみてください。
精度の飛躍的向上
テスト結果によると、典型的な方言音声において、Fun-ASR1.5は前バージョンと比較して平均文字誤り率(CER)が相対的に56.2%低下しました。この能力は、県域の教育ライブ配信、地方行政ホットライン、方言文化ドキュメンタリー制作など、ロングテールではあるが高価値な応用シナリオで活用されつつあります。
本評価は産業用データセットに基づいています⬆️
1モデルで30言語、異種言語の混合を自由に切り替え
Fun-ASR1.5は、以下の主要30言語の正確な認識をサポートします:
東アジアと東南アジア:中国語、日本語、韓国語、ベトナム語、タイ語、インドネシア語、マレー語、フィリピン語
南アジアと中東:ヒンディー語、アラビア語
欧州の主要言語:英語、フランス語、ドイツ語、スペイン語、ポルトガル語、ロシア語、イタリア語、オランダ語、スウェーデン語、デンマーク語、フィンランド語、ノルウェー語、ギリシャ語、ポーランド語、チェコ語、ハンガリー語、ルーマニア語、ブルガリア語、クロアチア語、スロバキア語など
本評価はオープンソースデータセットに基づいています⬆️
統一された多言語訓練フレームワークのおかげで、Fun-ASR1.5は異種言語の会話や、異言語間自由切り替え(コードスイッチング:Code-Switching)シナリオにおいて特に優れたパフォーマンスを発揮します。例えば、以下の複数の言語が交互に現れる音声録音において、モデルは言語タグを事前に設定することなく、音声内容を正確に認識できます。
🔷 英日コードスイッチング
ASR結果:We've all had that experience of finally visiting a place we've dreamed about for years,only to find that it doesn't quite live up to our expectations.There's even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。
この能力はすでに、多国籍企業のリモートコラボレーション、多言語ショート動画コンテンツ制作、国際学術会議の記録など、多くのシナリオで広く応用されており、異言語間のコミュニケーションコストを効果的に削減しています。
古詩認識の特別最適化:千年の韻律を現代技術で「聞き取る」
Fun-ASR1.5は中国語の古詩認識に対して特別最適化を施しており、これは伝統文化のデジタル化に向けた重要な技術的探求です。現代口語とは異なり、古詩には以下の課題があります:
文語文法は簡潔で、主語・述語・目的語が省略され;
韻律が厳格でリズムが固定されており(五言律詩、七言律詩など)、
故事・典拠や異体字、古今で意味が異なる語を多用し;
朗読時には引き伸ばし、休止、詠唱などの非自然な言語流の特徴が存在します。
为此,我们构建了覆盖先秦、汉魏、唐宋、元明清至近代的古诗词语音-文本对齐语料库,包含《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音,显著提升高频诗句的识别准确率。
在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到97%。该能力已在国学在线课程、有声诗词APP等场景应用,未来有望助力中小学语文教育与非遗文化传承。
ASR结果:1)蓬山此去无多路,青鸟殷勤为探看。2)子夏曰,博学而笃志,切问而近思,仁在其中矣。
文本输出更规范、更易用:从“能听清”到“看得懂”
语音识别的最终价值在于生成可直接使用的文本。Fun-ASR1.5 在后处理环节重点优化了两项能力:
标点预测更加智能
模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如:
输入语音:“今天天气怎么样啊我想出去走走但又怕下雨”
输出文本:“今天天气怎么样啊?我想出去走走,但又怕下雨。”
文本归一化(ITN)表现进一步提升
将口语中的非标准表达自动转换为规范格式:
数字:“三千五百六十二” → “3562”
日期:“二零二六年三月二十九号” → “2026年3月29日”
金额:“五万八千块” → “58000元”
电话:“幺三八零零幺三八零零零” → “13800138000”
这些改进大幅降低后期编辑成本,特别适用于会议纪要生成、新闻采访整理、法律笔录等对文本规范性要求高的场景。
目前,Fun-ASR1.5 已在 阿里云百炼平台 正式上线,面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。开发者可通过简单几行代码调用模型能力:
from http import HTTPStatus
from dashscope.audio.asr import Transcription
import dashscope
import os
import json
# 以下为北京地域url,若使用新加坡地域的模型,需将url替换为:https://dashscope-intl.aliyuncs.com/api/v1
dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'
# 新加坡和北京地域のAPI Key不同。获取API Key:https://help.aliyun.com/zh/model-studio/get-api-key
# 若没有配置环境变量,请用百炼API Key将下行替换为:dashscope.api_key = "sk-xxx"
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")
task_response = Transcription.async_call(
model='fun-asr',
file_urls='https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav'
)
transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))
print('transcription done!')开源 Demo 体验同步开放,欢迎立即体验 Fun-ASR 1.5,测测你的家乡话:
阿里云百炼地址:https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr
魔搭社区在线体验:https://modelscope.cn/studios/iic/FunAudio-ASR
在评论区留言告诉我们:你用了哪种方言、转写结果准不准。我们将挑选有意思的反馈,送出定制周边~
关于 Fun-ASR:Fun-ASR 是通义实验室自主研发的端到端语音识别大模型,基于数千万小时真实语音数据训练,具备低延迟、高鲁棒性、强上下文理解等核心优势。Fun-ASR1.5 标志着 Fun-ASR 从“通用语音转写工具”向“多语言、多方言、多文化理解平台”的关键演进。未来,团队将持续投入语音大模型研发,推动语音技术在更广阔的社会场景中创造价值。
推荐阅读
Qwen3.6-Plus:编码智能体能力全面跃升!
FIPO:只改变2%的Token,突破大模型推理瓶颈
跳转微信打开
原文を表示
原创 通义实验室 2026-04-20 14:02 浙江
image
方言识别,迈入“工业级可用”时代。
你的家乡话,语音识别能听懂吗?
过去,答案是“很难”。方言一出口,转写结果常常是乱码或空白。
但这一切正在改变......
通义实验室正式推出 Fun-ASR1.5,实现了「方言工业级可用」的语音识别大模型。
它基于统一的大模型架构,单模型即可无缝覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音,古诗词吟诵也能精准转写。测试显示,典型方言场景字错误率(CER)相对下降 56.2%。目前已有 5 种方言准确率突破 90%,15 种超过 80%。
从“听得清”到“听得懂”,语音识别正式迈入全场景工业级新阶段。
Fun-ASR1.5 聚焦“听得更全、听得更准、输出更规范”三大目标,实现从“通用转写工具”向“多语言、多文化理解平台”的关键演进。四大核心突破,一文看懂:
数十万小时真实数据训练,方言识别迈入“工业级”
方言语音数据稀疏、发音变异大,一直是行业深水区。Fun-ASR1.5 基于超数十万小时真实方言语音数据训练,涵盖日常对话、地方新闻、乡村政务等多场景。
覆盖更广
模型支持汉语传统七大方言体系(官话/吴/湘/赣/客/闽/粤),并深度适配 20+ 地区口音官话,覆盖中原、西南、冀鲁、江淮、兰银、胶辽、东北、北京、港台等,包括河南、陕西、湖北、四川、重庆、云南、贵州、广东、广西、河北、天津、山东、安徽、南京、江苏、杭州、甘肃、宁夏 等 20 多个地区。
重点优化
针对业务落地中最常遇到的长尾痛点,Fun-ASR1.5 对以下方言进行定向优化:
ASR结果:移动呢价钿比较实惠但是网速现在还可以反正也勿是老卡个。
ASR结果:可以买点辅导书来,自己假如说会的话也可以教一下小孩子,嗯,现在网络很发达可以多看一点知识。
ASR结果:喝姜茶呢可能有效果,但是如果发展成肺炎了,那你还是要用抗生素的噢。
ASR结果:本来画得挺投入的,结果楼上传来一阵电钻声,把我灵感全吓跑了,还是找邻居商量下吧。
ASR结果:平常辰光匣好教教嗯笃捺亨操作手机,因为倷跟得上时代,时代葛进步,倷再会方便。
ASR结果:但是一个人若是两三两百箍一百外箍安无算贵吧,吼自助餐啊,啊你也有肉咯也有菜咯也有水果咯也有甜点咯,啥物计有咯。
精度跃升
测试显示,在典型方言音频上,Fun-ASR1.5 相比上一版本平均字错误率(CER)相对下降 56.2%。这一能力正在赋能县域教育直播、地方政务服务热线、方言文化纪录片制作等长尾但高价值的应用场景。
本评测基于工业数据集⬆️
30种语言一个模型,跨语种混合自由切换
Fun-ASR1.5 支持 30 种主流语言的精准识别,包括:
东亚与东南亚:中文、日语、韩语、越南语、泰语、印尼语、马来语、菲律宾语
南亚与中东:印地语、阿拉伯语
欧洲主流语言:英语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、波兰语、捷克语、匈牙利语、罗马尼亚、保加利亚语、克罗地亚语、斯洛伐克语等
本评测基于开源数据集⬆️
得益于统一的多语言训练框架,Fun-ASR1.5在混合语种对话、跨语言自由切换(Code-Switching)场景下表现尤为突出。例如,在如下几段段包含多个语种交替的录音中,模型可准确识别语音内容,无需预设语种标签。
🔷 英日codeswitch
ASR结果:We've all had that experience of finally visiting a place we've dreamed about for years,only to find that it doesn't quite live up to our expectations.There's even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。
该能力已广泛应用于跨国企业远程协作、多语种短视频内容生产、国际学术会议记录等场景,有效降低跨语言沟通成本。
古诗词识别专项优化:让千年韵律被现代技术“听”懂
Fun-ASR1.5 对中文古诗词识别进行了专项优化,这是对传统文化数字化的一次重要技术探索。不同于现代口语,古诗词具有以下挑战:
文言语法简练,省略主谓宾;
押韵严格,节奏固定(如五言、七言律诗);
多用典故、异体字、古今异义词;
诵读时存在拖腔、停顿、吟咏等非自然语流特征。
为此,我们构建了覆盖先秦、汉魏、唐宋、元明清至近代的古诗词语音-文本对齐语料库,包含《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音,显著提升高频诗句的识别准确率。
在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到97%。该能力已在国学在线课程、有声诗词APP等场景应用,未来有望助力中小学语文教育与非遗文化传承。
ASR结果:1)蓬山此去无多路,青鸟殷勤为探看。2)子夏曰,博学而笃志,切问而近思,仁在其中矣。
文本输出更规范、更易用:从“能听清”到“看得懂”
语音识别的最终价值在于生成可直接使用的文本。Fun-ASR1.5 在后处理环节重点优化了两项能力:
标点预测更加智能
模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点,使转写结果接近书面表达。例如:
输入语音:“今天天气怎么样啊我想出去走走但又怕下雨”
输出文本:“今天天气怎么样啊?我想出去走走,但又怕下雨。”
文本归一化(ITN)表现进一步提升
将口语中的非标准表达自动转换为规范格式:
数字:“三千五百六十二” → “3562”
日期:“二零二六年三月二十九号” → “2026年3月29日”
金额:“五万八千块” → “58000元”
电话:“幺三八零零幺三八零零零” → “13800138000”
这些改进大幅降低后期编辑成本,特别适用于会议纪要生成、新闻采访整理、法律笔录等对文本规范性要求高的场景。
目前,Fun-ASR1.5 已在 阿里云百炼平台 正式上线,面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。开发者可通过简单几行代码调用模型能力:
from http import HTTPStatus
from dashscope.audio.asr import Transcription
import dashscope
import os
import json
以下为北京地域url,若使用新加坡地域的模型,需将url替换为:https://dashscope-intl.aliyuncs.com/api/v1
dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'
新加坡和北京地域的API Key不同。获取API Key:https://help.aliyun.com/zh/model-studio/get-api-key
若没有配置环境变量,请用百炼API Key将下行替换为:dashscope.api_key = "sk-xxx"
dashscope.api_key = os.getenv("DASHSCOPE_API_KEY")
task_response = Transcription.async_call(
model='fun-asr',
file_urls='https://dashscope.oss-cn-beijing.aliyuncs.com/samples/audio/paraformer/hello_world_female2.wav'
)
transcribe_response = Transcription.wait(task=task_response.output.task_id)
if transcribe_response.status_code == HTTPStatus.OK:
print(json.dumps(transcribe_response.output, indent=4, ensure_ascii=False))
print('transcription done!')
开源 Demo 体验同步开放,欢迎立即体验 Fun-ASR 1.5,测测你的家乡话:
阿里云百炼地址:https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr
魔搭社区在线体验:https://modelscope.cn/studios/iic/FunAudio-ASR
在评论区留言告诉我们:你用了哪种方言、转写结果准不准。我们将挑选有意思的反馈,送出定制周边~
关于 Fun-ASR:Fun-ASR 是通义实验室自主研发的端到端语音识别大模型,基于数千万小时真实语音数据训练,具备低延迟、高鲁棒性、强上下文理解等核心优势。Fun-ASR1.5 标志着 Fun-ASR 从“通用语音转写工具”向“多语言、多方言、多文化理解平台”的关键演进。未来,团队将持续投入语音大模型研发,推动语音技术在更广阔的社会场景中创造价值。
推荐阅读
Qwen3.6-Plus:编码智能体能力全面跃升!
FIPO:只改变2%的Token,突破大模型推理瓶颈
跳转微信打开
関連記事
Gemma 4 12B:開発者ガイド
Google が、消費者向けデバイスでの高性能なローカル AI 実行を目的とした高密度マルチモーダルモデル「Gemma 4 12B」を発表し、従来の視覚・音声エンコーダーを不要とする新アーキテクチャを採用した開発者向けのガイドを提供した。
メタ、音声モードとメガネ搭載の「Muse Spark」を公開へ
メタは自社サービス全体で基盤モデル「Muse Spark」を活用し、音声応答の高速化やスマートなショッピング支援、カメラによるリアルタイム視覚認識機能を追加する。この機能はまず米国とカナダのユーザー向けに展開される。
OpenAI、Codex にアニメーションペットと設定ファイル自動インポート機能を追加
OpenAI は開発ツール「Codex」を更新し、画面にオーバーレイ表示されるアニメーションペット機能や、他コードエージェントからの設定ファイル自動インポート、音声入力精度向上のための辞書機能を追加した。これによりデスクトップアプリとしての利便性と魅力が強化された。