215項目でSOTA達成+自然発生的なVibe Coding!Qwen3.5-Omniをリリース
通義大模型が215項目のSOTAを達成し、マルチモーダル理解と自然発現するVibe Coding機能を備えたQwen3.5-Omniモデルを正式に公開した。
キーポイント
215項目SOTAと競合モデルの逆転
音声・映像分析、翻訳、推論など215のベンチマークでGemini 3.1 Proを上回り、マルチモーダル分野での技術的優位性を示した。
Hybrid-Attention MoEとARIA技術の採用
Thinker-TalkerアーキテクチャをMoE化し、長文コンテキスト(10時間音声/1時間動画)の処理効率を向上させ、ARIA技術で発話の安定性と自然さを強化した。
実用機能の大幅な拡張
細粒度タイムスタンプ付きキャプション生成、音声指示からのコード自動生成(Vibe Coding)、セマンティックインタラプトや音色クローンなど、リアルタイム対話とタスク実行能力を統合した。
215项SOTA成绩覆盖多模态任务
在音频/音视频理解、推理与交互等方向取得215项SOTA,涵盖语音识别、翻译及对话等多个细分场景。
核心能力对标并超越竞品
通用音频任务全面超越Gemini-3.1 Pro,音视频理解达其水平,且文本与视觉能力保持同尺寸Qwen3.5标准。
多规格API与官方工具支持
提供Plus、Flash、Light三种模型尺寸及实时/离线Demo,配套详细配置指南以适配不同业务场景。
语音双模型上线
支持仅需一句话即可自由生成内容,标志着语音交互与多模态生成能力的重大升级。
影響分析・編集コメントを表示
影響分析
本リリースは、マルチモーダルAIの実用化が「単なる認識」から「能動的なタスク実行と対話制御」へ移行したことを示している。特にVibe Codingの自然発現は、モデルの内部表現が複雑な論理構造を捉え始めている可能性を示唆し、開発者のモデル設計やプロンプトエンジニアリングの在り方に影響を与えるだろう。ただしプレスリリース性质が強く、独立検証データの公開が待たれる。
編集コメント
技術仕様は目覚ましいが、ベンチマークの独自性や実環境での安定性については独立した評価を待つ必要がある。Vibe Codingの自然発現は今後のモデル開発における「スケーリング則」の見直しを促す重要な示唆である。
215 項目の SOTA + 自然に発現する Vibe Coding!Qwen3.5-Omni 発表
オリジナル記事 通義実験室 2026-03-30 21:09 浙江
Qwen3.5-Omni が築く、原生の全モダリティ新基準!
なぜ私たちは多モダリティモデルを開発するのか?それは、人間が世界と接する方式が多面的だからです。
そこで AI に「目」と「耳」を備えさせ、人間のように知覚できるようにします。あなたのジェスチャーを見せ、あなたの口調を聞き取り、シリコンベースのインテリジェンスと物理世界の間の次元の壁を打ち破ります。これによって初めて、端末デバイスにより深く統合され、現実のシナリオであなたと自然にインタラクションできるようになります。
最初期の Qwen3-Omni における「全モダリティでも知能が低下しない」状態から、今日の Qwen3.5-Omni による全感覚への進化へ。私たちは「AI を現実世界へ導入する」という目標に一歩近づきました。
Qwen3.5-Omni の核心ハイライトサマリー
真の「原生全モダリティ」により、テキスト、画像、オーディオ、およびオーディオビジュアル入力をシームレスに理解。細粒度でタイムスタンプ付きのオーディオビジュアルキャプション生成をサポート。
215 項目の SOTA(State-of-the-Art:最先端技術)を霸榜し、オーディオおよびオーディオビジュアル分析、推論、対話、翻訳などのタスクにおいて Gemini3.1-Pro を上回る性能を発揮。
自然に発現する Audio-Visual Vibe Coding 能力。
セマンティックインタラプト(意味的な割り込み)、ボイスクローン、音声コントロールをサポートし、対話体験をより自然なものに。
256K の超長文脈と 113 言語の認識をサポート。10 時間のオーディオまたは 1 時間のビデオ処理が可能。
原生で WebSearch(ウェブ検索)および複雑な Function Call(関数呼び出し)をサポート。単なるチャットだけでなく、あなたのためのタスク実行も可能に。
実際の仕事や生活に戻り、Qwen3.5-Omni が具体的に何ができるかを見てみましょう?
ビデオ制作と編集
動画ファイルをアップロードすると、Qwen3.5-Omni-Plus は指示に従って、細粒度で構造化され、タイムスタンプ付きの正確なキャプションを生成します。画面には誰が映っているのか、何を話しているのか、BGM(バックグラウンドミュージック)はどの秒から変化し始めたのか、カットは何回あったのか、各フレームで何が起きているのかなどを記述。また、動画にセンシティブなコンテンツが含まれているか判断し、長編動画を検索可能な構造化ノートに変換することも可能です。
オーディオビジュアル指示に基づき、ウェブページコンテンツを生成
あなたの要求に応じて、Qwen3.5-Omni は実行可能なコードを直接生成します。これも今回の最も驚くべき発見です:特別な訓練を行っていないにもかかわらず、モデルは自然に Vibe Coding 能力を発現しました。画面の論理に基づいて Python コードやフロントエンドのプロトタイプを生成し、アイデア検証を「見る」段階から「作る」段階へ一歩で移行させます。
より人間らしいリアルタイム対話
Qwen3.5-Omni とチャットすることは、まるで真人と交流しているかのようです。会話のタイミングを心得ており、咳払いや適当な相槌では誤って会話を中断せず、あなたの本当の割り込みには瞬時に反応して受け止めます。「小声で」「楽しげな口調で」といった指示も可能で、人間のように音量、話速、感情を自由にコントロールでき、対話体験がより自然になります。
専用ボイスクローン
自分の録音ファイルをアップロードするだけで、専用の AI Assistant(アシスタント)の音色をカスタマイズできます。クローンされた音声は自然度が高く安定性も強く、複数言語での生成をサポートします。「デジタルツイン」型のアシスタントを作成し、あなたの声でコミュニケーションや陪伴を行わせ、インタラクションをよりパーソナライズされたものにしましょう。
スマートタスク実行
チャットだけでなく、Qwen3.5-Omni はあなたのために作業も遂行できます。「明日の北京の天気はどうですか?ホテルを一つ推薦してください」と尋ねると、自らインターネット検索が必要かどうかを判断し、ツールを呼び出してリアルタイム情報を照会し、完全な提案を提供します。原生で WebSearch(ウェブ検索)および複雑なツール呼び出しをサポートし、モデルを真の執行アシスタントへと進化させます。
これらの能力の背後には、確かな技術的基盤があります。
Qwen3.5-Omni は前世代の「Thinker-Talker」の役割分担アーキテクチャを引き継いでいます。Thinker が理解を担い、Talker が表現を担当します。しかし今回は、両者がハイブリッド・アテンション MoE(Mixture of Experts:専門家混合モデル)へと進化し、効率と性能が大幅に向上しました。
Thinker は視覚および音声信号を受信し、TMRoPE を用いて位置情報をエンコードした上でテキストを出力します。ハイブリッド・アテンションにより、10 時間に及ぶ長尺の音声や 1 時間の動画であっても、重要なポイントを素早く捉えることが可能になっています。
Talker は Thinker から受け取った多様な情報の出力を受け取り、文脈に応じた音声生成を行います。重厚な DiT(Diffusion Transformer:拡散トランスフォーマー)演算に代わり、RVQ(Residual Vector Quantization:残差ベクトル量子化)エンコーディングを採用しています。また、新たに導入された ARIA 技術により、テキストと音声のユニットを動的にアライメントさせることで、たまに発生していた文字の抜けや数字の読み上げ不明瞭といった問題を解決しました。「もっと大きく」「もっと楽しそうに」といった指示に対しては、その場で即座に対応します。
MoE の本質は「専門家の混合」にあります。音声を扱う専門家、映像を扱う専門家、テキストを理解する専門家がそれぞれの役割を果たし、互いに干渉しません。だからこそ、215 項目の SOTA(State of the Art:最先端)記録を達成しつつも、テキストおよび視覚能力が単一モダリティモデルと同等の強さを維持できるのです。
前世代と比較して、Qwen3.5-Omni は長文脈処理、多言語対応、音声・映像理解能力において明確な向上が見られます。さらに、意味的な割り込み(セマンティック・インタラプト)、音色クローン、音声制御といったリアルタイム対話機能も新たに追加され、人間のような会話体験を実現しています。ARIA 技術との併用により、音声出力の安定性と自然さもさらに改善されました。詳細な比較は以下の表をご覧ください。
Qwen3.5-Omni-Plus は、音声・映像の理解、推論、および対話タスクにおいて、音声・映像、音声認識、音声翻訳など多岐にわたる分野で合計 215 の SOTA(State of the Art:最先端)記録を達成しました。
特に、汎用音声の理解、推論、認識、翻訳、対話においては Gemini-3.1 Pro を全面的に上回っており、映像・音声の理解能力は全体として Gemini-3.1 Pro と同等の水準に達しています。また、視覚およびテキストに関する能力も、同サイズの Qwen3.5 モデルと互角です。
Audio-Visual(音声・映像)
Audio(音声理解)
Text(テキスト能力)
音声生成(Speech Generation)
アリババクラウドの百煉(Bailian)で Qwen3.5-Omni を検索し、API を呼び出すことができます。Plus、Flash、Light の 3 つのサイズを用意しており、さまざまなユースケースに対応しています。Qwen3.5-Omni でさらに興味深いシナリオを探索できることを楽しみにしています。
🔷 Qwen3.5-Omni-Plus-Realtime:https://help.aliyun.com/zh/model-studio/realtime
🔷 Qwen3.5-Omni-Plus:https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.5-omni-plus
🔷 モデルスコープ(ModelScope)のオフラインデモ:https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo
🔷 モデルスコープ(ModelScope)のリアルタイムデモ:https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo
Qwen3.5-Omni をより効果的にご活用いただくために、詳細な設定ガイドを用意しました。これにより、すぐに使い始めることができます。
音声・映像推論の利用方法
音声推論の使用方法
推奨記事
一言で自由生成!音声双モデル登場
Qwen3.5 オープンソースファミリー拡大!
WeChat で開くにはこちらへジャンプ
原文を表示
原创 通义实验室 2026-03-30 21:09 浙江
image
Qwen3.5-Omni原生全模态新标杆!
为什么我们要做多模态模型?因为人与世界接触的方式是多维度的。
所以我们要为 AI 装上“眼睛”和“耳朵”,让它能像人一样感知——看到你的手势,听懂你的语气,打破硅基智能与物理世界之间的次元壁。只有这样,它才能更好的融入终端设备,在真实场景里与你自然交互。
从最初 Qwen3-Omni 的“全模态不降智”,到今天 Qwen3.5-Omni 的全感官进化,我们离“让 AI 进入现实世界”这个目标又近了一步。
Qwen3.5-Omni 核心亮点速览
真正的“全模态”原生,无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生成;
215 项 SOTA 霸榜,在音频及音视频分析、推理、对话、翻译等任务超过Gemini3.1-Pro;
自然涌现的 Audio-Visual Vibe Coding 能力;
支持语义打断、音色克隆及语音控制,让对话体验更自然;
支持 256K 超长上下文与 113 种语言识别,可处理 10 小时音频或 1 小时视频。
原生支持 WebSearch 和复杂 Function Call,不仅能聊天,更能帮你做事。
让我们回归到实际的工作/生活中,来看看 Qwen3.5-Omni 都能干些啥?
视频创作与剪辑
上传一段视频,Qwen3.5-Omni-Plus 能够遵循指令生成细粒度,结构化,带时间戳的准确 Caption:画面里是谁、说了什么话、背景音乐从哪一秒开始变化、镜头切了几次、每一帧发生了什么......还能帮你判断这段视频有没有敏感内容,将长视频变成可搜索的结构化笔记。
根据音视频指令,生成网页内容
根据你的要求,Qwen3.5-Omni 能直接生成可运行的代码。这也是本次我们最惊喜的发现:未进行专门训练,模型自然涌现出了 Vibe Coding 能力。它可以根据画面逻辑生成 Python 代码或前端原型……让创意验证从“看”到“做”只需一步。
更像真人的实时对话
和 Qwen3.5-Omni 聊天,更像是在跟真人交流。它懂得倾听的分寸:咳嗽声或随口附和不会让它误停下来,但你的真正插话它能瞬间接住。你还能指令它“小声点”、“用开心的语气”,像人一样自由控制声音的大小、语速与情绪,让对话体验更自然。
专属音色克隆
上传一段你的录音,就能定制专属的 AI Assistant 音色。克隆后的声音自然度高、稳定性强,支持多种语言生成。你可以打造一个“数字分身”式助手,让它用你的声音去沟通、去陪伴,让交互更具个性化。
智能任务执行
不止是聊天,Qwen3.5-Omni 还能帮你办事。询问“明天北京天气如何,推荐一家酒店”,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议……原生支持 WebSearch 和复杂工具调用,让模型真正成为你的执行助手。
在这些能力的背后,离不开硬核的技术支撑。
Qwen3.5-Omni 延续了上一代的 Thinker-Talker 分工架构——Thinker 负责理解,Talker 负责表达。但这一次,两者都升级为 Hybrid-Attention MoE,效率和性能均有显著提升。
Thinker:接收视觉+音频信号,通过 TMRoPE 编码位置信息,输出文本。Hybrid-Attention 让它在处理 10 小时长音频、1小时视频时,依然能快速抓住重点。
Talker:接收 Thinker 的多模态输出,进行 contextual 语音生成,用 RVQ 编码替代繁重的 DiT 运算。配合全新的 ARIA 技术,动态对齐文本和语音单元,解决了偶尔漏字、数字念不清的问题。你说“大声点、开心一点”,它当场就改。
而 MoE 的本质是“专家混合”——听音频的专家、看视频的专家、理解文本的专家各司其职,不会互相干扰。这就是为什么它能做到 215 项 SOTA 的同时,文本和视觉能力还能保持和单模态模型一样强。
相比上一代,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升,同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。配合 ARIA 技术,语音输出的稳定性和自然度也进一步改善。详细对比见下表:
Qwen3.5-Omni-Plus 在音频/音视频的理解、推理和交互任务上,共取得 215 项 SOTA 成绩,涵盖音视频、音频、语音识别、语音翻译等多个方向。
其中,通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。同时,视觉和文本能力与同尺寸 Qwen3.5 模型持平。
Audio-Visual(音视频)
Audio(音频理解)
Text(文本能力)
Speech Generation(语音生成)
你可以通过阿里云百炼搜索 Qwen3.5-Omni 调用 API,我们提供了 Plus、Flash、Light 三种尺寸,满足不同场景需求,期待你在 Qwen3.5-Omni 上探索出更多有趣的场景。
🔷 Qwen3.5-Omni-Plus-Realtime:https://help.aliyun.com/zh/model-studio/realtime
🔷 Qwen3.5-Omni-Plus:https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.5-omni-plus
🔷 魔搭离线Demo: https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo
🔷 魔搭实时 Demo: https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo
为了帮你更好的使用 Qwen3.5-Omni,我们为你准备了详细的配置指南,帮你快速上手。
音视频推理使用方式
音频推理使用方式
推荐阅读
一句话即可自由生成!语音双模型上线
Qwen3.5 开源家族扩容!
跳转微信打开
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み