AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
字节跳动Seed·2026年4月9日 13:01·約15分で読める

Seed全双工音声大規模モデル発表:傾聴力と耐妨害性を備え、より自然な対話へ

#音声AI#全双工#大規模言語モデル#リアルタイム対話#雑音耐性#対話制御
TL;DR

字节跳动Seedは、全双工(Full-Duplex)技術を採用した音声大モデル「Seeduplex」を発表し、雑音環境下での正確な応答と自然な対話リズム制御を実現し、豆包Appで全量公開した。

AI深層分析2026年4月9日 19:41
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

全双工音声技術の実用化

従来の半双工モデルから「聞きながら話す」全双工フレームワークへ進化し、対話の自然さと流暢さを大幅に向上させた。

2

精密な抗干渉能力

継続的な「傾聴」能力により背景雑音や無関係な会話を正確に無視し、半双工モデルと比較して誤応答率と誤中断率を半減させた。

3

動的な発話終了判定

音声と意味の特徴を統合的に判断し、ユーザーの思考や躊躇に合わせて対話リズムを制御し、半双工モデルと比較して割り込み率を40%削減した。

4

大規模な実用展開

豆包Appで全量公開され、業界で初めて全双工技術の大規模な実用化を実現し、数億ユーザーに高品質なリアルタイム音声対話体験を提供する。

5

全双工能力の実現要件

Seeduplexは原生端到端のモデリング方式を採用し、流式感知能力を備え、音声信号の特徴抽出とリアルタイム処理を実現。声学特徴と対話コンテキストの統合モデリングにより、応答開始・継続聴取・割り込み応答を自律判断する。

6

モデル最適化の四つの側面

モデルフレームワーク設計では音声対話の原生特性に適合するアーキテクチャを構築。アルゴリズムと訓練では大規模事前訓練と多能力後訓練により対話知能・低遅延・リズム制御などを最適化。推論性能とサービス安定性も向上させた。

7

性能向上と将来展望

半二重モデルと比較し、通話満足度が8.34%向上、判停遅延250ms短縮、割り込み応答遅延300ms短縮などの改善を実現。将来は音声理解能力の深化、対話リズム多様性の向上、能動的対話能力の導入、マルチモーダル融合などを目指す。

影響分析・編集コメントを表示

影響分析

この発表は、音声AI対話の分野において、技術的なブレークスルーと大規模な実用化の両面で重要な進展を示している。全双工技術の実用化により、より自然で没入感のある音声対話体験が可能になり、音声インターフェースの普及と高度化を促進する可能性がある。また、字节跳动のような大規模プラットフォームでの実装は、業界全体の技術基準を引き上げる波及効果が期待される。

編集コメント

技術的な進歩と大規模な実用展開の両面で注目すべき発表。全双工音声技術の実用化は、音声AIの自然性と実用性を高める重要な一歩と言える。

原创 字节跳动Seed 2026-04-09 12:01 北京

image
image

全量上线豆包 App,对话流畅度提升 12%

image
image

本日、私たちはネイティブな全二重(Full-Duplex)音声大規模言語モデル「Seeduplex」を正式にリリースしました。従来の半二重(Half-Duplex)豆包エンドツーエンド音声モデルと比較し、Seeduplex は「聞きながら話す」という新しいフレームワーク設計に基づいており、インタラクションの自然さと滑らかさが大幅に向上しています。

エンドツーエンドアーキテクチャが「聞く」と「話す」モジュールを統一することで AI に自然な表現の潜在能力を与えたのだとすれば、全二重技術は「聞く」と「話す」を同時に実現することで、この潜在能力をさらに引き出します。これにより、モデルはより自然な会話のリズムと優れたノイズ耐性を実現し、単なる一問一答ではなく、雑音や無関係な人の声の干渉下でも正確に応答し、速さや遅さを適切に制御し、自由にやり取りできるようになります。

具体的には、モデルアーキテクチャの革新とトレーニングの最適化を通じて、高同時実行時のカクつきや安定性といったエンジニアリング上の課題を克服し、Seeduplex は業界をリードする全二重音声のリアルタイムインタラクション効果を実現しました。モデルの知能の上限と超低レイテンシを維持しつつ、以下の2つの主要な突破を実現しています:

高精度ノイズ耐性:モデルは継続的な「聴取」能力を備えており、ユーザーの置かれた音響環境をよりよく理解し、背景ノイズや無関係な会話を正確に無視できます。複雑なシナリオにおいて、半二重モデルと比較して誤応答率と誤割り込み率が半分になりました。

動的停止判定:モデルは音声特徴と言語的意味特徴を統合してユーザーの意図を判断し、より自然な会話リズムの制御を実現できます。ユーザーが考えて迷っている際には耐心を持って聴き、ユーザーが話し終えた後には迅速に応答します。半二重モデルと比較して、割り込み(話しかけ)の割合は相対的に40%減少しました。

現在、Seeduplex は豆包 App で全量リリースされており、これは全二重技術が正式に研究室から飛び出し、業界で先駆けて大規模な実装を達成したことを意味します。これにより、数億ユーザーに対して連続かつ高品質なリアルタイム音声インタラクション体験を提供できます。

多次元の評価結果によると、Seeduplex は会話の滑らかさとリズム感において、従来の半二重方式や業界主流アプリの音声通話機能よりも顕著に優れています。停止判定の性能では、半二重方式と比較して8%向上し、より自然な会話における距離感や加減に近いことを示しています。

プロジェクトホームページ:

https://seed.bytedance.com/seeduplex

体験エントリポイント:

豆包 App を最新バージョンに更新し、チャット画面で「電話をかける」を選択して音声通話画面に入り、体験してください。

人と人との会話そのものが、聞きながら話す「全二重(Full-Duplex)」の交流であり、そこには頻繁な停顿、思考、躊躇、そして背景ノイズや音声の重なりといった要素が含まれています。自然な対話を実現する音声システムは、こうした高自由度で非構造化のオーディオストリームを処理する能力を備えていなければなりません——つまり、騒がしい環境でも「聞き分け」よく、ユーザーが思考を整理している際には「忍耐強く待つ」ことが求められます。

過去において、従来の半二重(Half-Duplex)システムは、カスケード型のモジュール設計に依存することが一般的でした。これは、独立したVAD(Voice Activity Detection:音声活動検出)を用いて機械的に音声を切り取るか、従来のアルゴリズムでフロントエンドのノイズ除去を行うものでした。判定根拠が単一の音響特徴量や局所的なテキスト意味特徴に限定されていたため、複雑な環境下ではシステムが容易に「誤判断」し、ユーザーの停顿中に「割り込み(おしゃべり)」が発生しやすいという課題がありました。

一方、Seeduplexは独自の大規模言語モデル(LLM:Large Language Model)を基盤とし、リアルタイムの音声全二重インタラクションフレームワークを革新的に構築しました。さらに、大規模な音声データを用いた事前学習を行うことで、ネイティブな音声意味の共同モデリング能力を備えています。これはオーディオ内の音声意味情報をグローバルに理解し、対話のリズムを動的に決定するものであり、従来のシステムと比較して、ノイズ耐性と対話リズム制御の両面で飛躍的な向上を実現しています。

  1. 高精度なノイズ耐性:騒がしい環境における強力な「音響的集中力」

複雑な音響環境は、これまで音声インタラクションにおける大きな課題でした。背景ノイズや他者の声による干渉は、ユーザーの音声入力を「汚染」しやすく、システムの応答遅延、放送の中断、さらには誤トリガーを引き起こす原因となります。過去には、ユーザーが安定したインタラクションを行うために、音量を上げたり静かな場所を探したりする必要がありました。

Seeduplexモデルはユーザー側のオーディオを継続的に受信・理解し、ユーザーが置かれたグローバルな音響環境を認識することで、モデルとの真正な対話音声と干渉音を正確に判別します。このノイズ耐性の向上により、Seeduplexの誤応答率と誤割り込み率が大幅に低下しました。

干渉を排除し、ユーザーの音声を正確に認識

放送が頻繁に行われナビゲーション音声も混在する車内において、Seeduplexは背景の干渉音を比較的安定して除去し、主要なユーザーの音声を正確に認識して迅速に応答します。

意図を理解し、非対話音声を見分ける

カフェで友人と別れを告げたり、自宅で門の外からの配達員に応答したりする際、ユーザーがモデルと対話しているときに他の誰かに中断されたり他者の会話が入り込んだりしても、システムは意味に基づいてモデルとの対話意図を持つ音声を識別し、誤った応答を避けます。これにより、メインの対話は常に自然で一貫した状態を保たれます。

複数の人が同時に話すオーバーラップ(重なり)シナリオにおいても、正確に対話相手を識別し、どの発言が自分宛ての指示であり、どの発言が他者間の雑談であるかを聞き分けることができます。

環境を認識し、情報を積極的に連携

モデルは環境音も解析し、推論のコンテキストに組み込むことができます。例えば、Seeduplexは背景で流れている杭州の紹介音声を知り、ユーザーが杭州へ旅行する計画を持っていることを踏まえて、環境情報と対話を積極的に連携し、心遣いのある応答を行います。

  1. 動的な停止判定:速さと遅さの使い分け、自在な制御

真に自然なインタラクションの核心は、ユーザーがいつ思考中であり、いつ発話を終了したかを正確に判断することにあります。Seeduplexは音声と意味理解を深く融合させることで、対話リズムの制御においてより高い柔軟性を発揮します。

忍耐強く聞き取り、思考の空白を受け入れる

ユーザーが確信のない考えを述べている場合、考えながら修正を行うことができ、明確に整理してから一度に話す必要はありません。モデルは常に聞き取り状態を維持し、繰り返し調整されたり、以前の論理が覆されたりする複雑な表現に対しても、ユーザーの真の意図を正確に捉えます。

英語の面接模擬など高ストレスなシナリオでは、モデルはつまずきの箇所が単なる思考の空白であり、対話の終了ではないことを「理解」します。ユーザーが発話を完了するまで忍耐強く聞き、待ってからフィードバックを与えるため、練習プロセスは現実のシナリオと極めて近くなります。

超低レイテンシ:瞬時の応答

「ゆっくり待つ」ことに加え、Seeduplexは高頻度のインタラクションシナリオでもたわごとなく対応できます。例えば、早口クイズゲームにおいて、モデルはユーザーの発話が終了したことを察知すると、低いレイテンシで「瞬時に応答」します。これは半二重時のレイテンシと比較して約250ms短縮されており、「速く応答すべきときは素早く」対応します。

反応速度や古詩の蓄積が試される「飛花令(ひかりょう:詩歌を詠み合うゲーム)」のシナリオでも、対話の流れを途切れさせず、滑らかに接続することができます。

鋭敏な感知:いつでも割り込みに応答

忍耐強い聞き取りや即時の返信に加え、Seeduplexはユーザーの割り込み要求にも迅速に応答できます。例えば、ユーザーが突然「ちょっと待って、メモを取らせて」と発言した場合、モデルはユーザーの意図を鋭敏に捉え、瞬時に応答を停止して音声を滑らかに収め、ユーザーが戻ってくるのを待つ聴取状態へ移行します。

全双工音声技術の実現

デモンストレーションから大規模な実装へ

全双工機能の実現には、モデルアーキテクチャ、アルゴリズム実装、エンジニアリングパイプラインに対してより高い要件が課されます。Seeduplex はネイティブなエンドツーエンドのモデリング方式を採用し、システムはストリーミング知覚能力を備え、入力された音声信号から特徴抽出を行い、基盤モデルによってリアルタイムで処理を行います。

対話ロジックにおいて、モデルは音響特徴と会話の文脈を総合的にモデル化し、現在の状態を自律的に判断して、応答を開始するか、引き続き聴取するか、あるいはユーザーの割り込みに応じるかを決定します。

豆包 App でのモデル全面リリースを支えるため、チームはモデルフレームワークの設計、アルゴリズムの最適化、エンジニアリングのパフォーマンスと安定性において多大な最適化を行いました:

モデルフレームワークの設計:音声のリアルタイム対話のネイティブな特性により適合したモデルアーキテクチャを構築し、モデルがデータから直接音声と意味の一体化された表現およびリズム制御を学習できるようにし、対話の自然度を大幅に向上させました。

アルゴリズムとトレーニング:膨大な音声データに基づく大規模な事前学習を行い、多能力・多タスクのポストトレーニング体系を通じて、対話インテリジェンス、超低レイテンシ、会話リズム制御、強力なノイズ耐性、指向性理解といった多次元の能力を協調的に最適化し、モデルに安定かつ効率的で自然な対話パフォーマンスを実現させました。

推論パフォーマンス:投機サンプリングや量子化などの手法によりパフォーマンスを極限まで最適化し、コストとレイテンシのバランスを実現しました。

サービスの安定性:録音や再生時のカクつきなどの問題を重点的に解決し、大規模なトラフィック環境下でもモデルが連続して安定して動作することを確保しました。

最終的に、Seeduplex はデータ構築、超低レイテンシ、モデル効果の協調的最適化といった中核技術のボトルネックを突破しました。大規模な A/B テストデータは、全双工対話モードの価値を証明しました。豆包に以前リリースされていた半双工モデルと比較して、Seeduplex は通話時間やリテンションといった主要指標においてすべて正の向上を実現し、全体の通話満足度の絶対値は 8.34% 上昇し、「割り込み」「応答の遅れ」「誤った割り込み」などの問題に関するユーザーフィードバックの割合が顕著に減少しました。

Seeduplex の評価結果

半双工モデルと比較して多次元で顕著な向上

私たちは Seeduplex に対して一連の主観的および客観的な評価を実施し、その結果、Seeduplex は割り込みと判断停止の両方のパフォーマンスにおいて半双工モデルを大幅に上回り、複数の主要指標で業界トップレベルにあることが示されました。

豆包 App で以前使用されていた半双工対話フレームワークと比較して、Seeduplex の全体的な対話体験がさらに向上し、判断停止の MOS 得点は 8% 上昇し、対話の流暢さの MOS 得点は 12% 上昇しました。

具体的には、Seeduplex は判断停止のレイテンシを約 250ms 短縮すると同時に、複雑なシナリオにおける AI の割り込み(先取り応答)の割合を相対的に 40% 減少させました。ユーザーの割り込みニーズに対して、より高い応答精度を前提として、Seeduplex は割り込み応答のレイテンシをさらに約 300ms 短縮しました。複雑な音響ノイズのシナリオでは、Seeduplex は誤った応答率と誤った割り込み率を半減させました。

さらに、従来の半双工モデルおよび業界主流の App 音声通話機能との横断的な比較により、Seeduplex は判断停止や割り込み応答のタスクにおいて顕著な優位性を示し、評価ユーザーによる対話の流暢さに関する「全体的な対話リズムが適切かどうか」という評価を大幅に向上させました。

image
image

主要な業界比較製品との対話リズムに関する主観的評価結果(比較対象の製品はアルファベットで表記)

私たちはまた、実際の人間による会話テストを組織することで、現在の人機間対話と一般的な人々同士の対話(一般層)の水準を概観しました。その結果、「人間同士の対話」を基準とした場合、Seeduplex は応答の停止(判停)において半双工方式と比較して 8% 大幅に向上しました。また、応答の割り込み(インタラプト)に対する対応では、実際の人間同士の対話でも応答がやや遅れることがありますが、Seeduplex はより安定しており、人間同士の対話の平均レベルをわずかに上回りました。しかし、全体的な会話の流暢さにおいては、Seeduplex と実際の人間同士の対話との間にまだ大きな差があり、さらなる向上が期待されます。

image
image

「人間同士の対話」との比較評価により、Seeduplex と実際の人間同士の対話との差はさらに縮まりました。

まとめと展望

Seeduplex の公開は、音声対話が「ターン制」から「リアルタイムの自然な対話」へ進化するための重要な一歩です。そのネイティブな全双工(フルデュプレックス)フレームワークは、モデルのノイズ耐性とリズム制御能力を向上させるだけでなく、何より重要なのは、モデルが知覚、思考、実行の全方位的な融合を実現するための基盤を提供することです。

今後、私たちは以下の側面での突破を目指して継続的に取り組みます:

モデルの音声理解能力をさらに向上させ、複数人の会話やスマートハードウェアなど、複雑な対話シナリオにおけるパフォーマンスを深く最適化します。

データのスケールアップ(データスケーリング)とアルゴリズムの最適化を通じて、モデルの対話リズムの多様性と制御能力を継続的に高めます。

「聞きながら話す」に加え、モデルの能動的な能力を導入し、例えば、ユーザーの話に相槌を打つことや、音響環境や対話の文脈に基づいて能動的に対話を行うことなどを実現します。

より深いマルチモーダル融合を実現し、既存の音声・テキストモダリティに加え、視覚モダリティを導入することで、「聞きながら見て、話しながら見る」という多次元の協調を実現します。

知覚、思考、出力の一体化を実現し、「聞きながら考える」「聞きながら検索する」などのアプローチをさらに探求することで、モデルのより深い思考と実行能力を備えさせ、音声対話の流暢さをさらに向上させます。

全双工を起点として、私たちは将来 AI が絶えず進化し、知覚、対話、行動の閉じたループの中で、実際に聞く、見る、考える、話す、行うの協調を真に実現することを期待しています。

image
image
image
image
image
image
image
image
image
image
image
image
image
image

原文を読む

WeChat(微信)で開くためにジャンプ

原文を表示

原创 字节跳动Seed 2026-04-09 12:01 北京

imageimage

已全量上线豆包 App,对话流畅度提升 12%

imageimage

今天,我们正式推出原生全双工语音大模型 Seeduplex。相比于上一代半双工豆包端到端语音模型,Seeduplex 基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升。

如果说端到端架构通过统一“听”“说”模块,让 AI 拥有了自然表达的潜能,那么全双工(Full-Duplex)技术则通过实现“听”“说”同步,进一步释放了这种潜能。它赋予模型更自然的对话节奏和更出色的抗干扰能力——不再是简单的一问一答,而是能在噪声与无关人声的干扰下精准响应,做到快慢有度、收放自如。

具体来说,通过模型架构创新与训练优化,并攻克高并发下的卡顿与稳定性等工程挑战,Seeduplex 实现了业界领先的全双工语音实时交互效果,其在保持模型智能上限与超低时延的同时,重点实现了以下两项突破:

精准抗干扰:模型具备持续的“倾听”能力,从而能更好地理解用户所处的声学环境,准确忽略背景噪音和无关对话。在复杂场景下,相比半双工模型,其误回复率和误打断率减少了一半。

动态判停:模型能联合语音和语义特征,综合判断用户意图,可实现更自然的对话节奏控制。面对用户的思考犹豫,模型能耐心倾听;在用户说完后,又能快速响应。相比半双工模型,其抢话比例相对下降了 40%。

目前,Seeduplex 已在豆包 App 全量上线,这意味着全双工技术正式走出实验室,在业界率先实现了规模化落地,可为上亿用户提供连续高质量的实时语音交互体验。

多维度评测显示,Seeduplex 在对话的流畅度和节奏感上,均显著优于传统的半双工方案及行业主流 App 的语音通话功能;在判停表现上,模型相比半双工方案提升了 8%,展现出更接近自然对话的分寸感。

项目主页:

https://seed.bytedance.com/seeduplex

体验入口:

请将豆包 App 更新至最新版本,在对话框内选择“打电话”,进入语音通话界面体验即可。

语音交互体验全面升级

对话节奏更精准、更自然

人与人的对话,本身就是一种边听边说的“全双工”交流,过程中充满了停顿、思考、犹豫,以及背景噪音的干扰与声音重叠。一个期望实现自然交互的语音对话系统,必须具备处理这种高自由度、非结构化音频流的能力——既要在喧嚣中“听得清”,又要懂得在你整理思绪时“耐心等”。

过去,传统半双工系统往往依赖级联的模块化设计:利用独立 VAD(语音活动检测)进行机械切音,或通过传统算法进行前端降噪。由于判定依据仅限于单一的声学特征或局部的文本语义特征,系统在复杂环境中极易“被带跑偏”,或在用户停顿时触发“抢话”。

而 Seeduplex 基于自研大语言模型(LLM)底座,创新打造实时语音全双工交互框架,并引入大规模语音数据进行预训练,具备了原生的语音语义联合建模能力。它能全局理解音频中的语音语义信息,动态决策对话节奏,相比传统系统在抗干扰和对话节奏控制表现上实现跃升。

  1. 精准抗干扰:喧嚣中强大的“声学专注力”

复杂的声学环境一直是语音交互的挑战。背景噪音、人声干扰常会“污染”用户的语音输入,导致系统响应迟钝、播报中断甚至误触发。过去,用户常需提高音量或寻找安静角落,才能完成一次稳妥的交互。

Seeduplex 模型能持续接收并理解用户侧音频,感知用户所在的全局声学环境,从而精准判断哪些是真正和模型交互的声音,哪些是干扰声。抗干扰力的提升,使得 Seeduplex 的误回复率与误打断率大幅下降。

剥离干扰,精准识别用户声音

在播报频频、导航声混杂的车内,Seeduplex 能较稳定地剥离背景干扰声,精准识别主用户的声音并快速响应需求。

理解意图,忽略非交互声音

无论是在咖啡厅里偶遇朋友道别,还是在居家环境中随口应答门外的外卖员,用户与模型交互时,如果被其他人打断、插入其他对话,系统能根据语义识别出真正和模型有交互意图的声音,避免错误抢答,让主线对话始终保持自然连贯。

即便在多人对话的重叠场景下,它也能精准甄别对话对象,听懂哪些话是针对自己发出的指令,哪些只是他人之间的闲聊。

感知环境,主动联动信息

模型甚至能够解析环境音并将其纳入推理上下文。例如,Seeduplex 能听懂背景里播放的杭州介绍声音,结合用户打算去杭州的计划,它能主动联动环境信息与对话,给予贴心回应。

  1. 动态判停:快慢有时,收放自如

真正的自然交互,核心在于准确判断用户何时在思考、何时已说完。Seeduplex 通过深度融合语音与语义理解,在对话节奏把控上具有更强的灵活性。

耐心倾听,包容思考留白

当用户在表达不确定的想法时,可以随时边思考边修正,无需强迫自己想清楚后一次性说完。模型会始终保持倾听状态,即便面对反复调整、甚至推翻前文逻辑的复杂表达,也能准确捕捉用户的真实意图。

在模拟英文面试等高压场景时,模型能“听懂”卡壳处仅是思考留白,而非对话结束。它会耐心倾听并等待,直到你表达完毕再给出反馈,让练习过程高度贴近现实场景。

超低延迟,秒速接话

除了“该慢慢”,Seeduplex 也能在高频互动的场景中做到不拖泥带水。例如,在快问快答游戏中,模型一旦察觉用户话音落下,便能以较低延迟“秒速响应”,相比半双工时延降低了约 250ms,做到“该快快”。

在更考验反应速度、古诗词积累的飞花令场景中,它同样能做到对答如流、无缝衔接。

敏锐感知,随时响应打断

除了耐心倾听、及时回复,Seeduplex 还可以快速响应用户的打断需求。比如,当用户突然提出“等一下,我拿笔记一下”,模型会敏锐捕捉用户意图,瞬间停止回复并平滑收声,转入聆听状态等待用户回来。

全双工语音技术实现

从演示到规模化落地

全双工能力的实现,对模型架构、算法实现和工程链路都提出了更高要求。Seeduplex 采用了原生端到端的建模方式,系统具备流式感知能力,能够对输入的音频信号进行特征提取,并由底座模型进行实时处理。

在交互逻辑上,模型通过对声学特征与对话上下文的综合建模,自主判断当前时刻的状态,决定是开始回复、继续聆听还是响应用户打断。

为支撑模型在豆包 App 上全面上线,团队在模型框架设计、算法优化、工程性能与稳定性方面进行了大量优化:

模型框架设计:构建更贴合语音实时对话原生特性的模型架构,使模型能够直接从数据中学习语音与语义的一体化表达和节奏控制,显著提升交互自然度。

算法与训练:依托海量语音数据进行大规模预训练,并通过多能力、多任务的后训练体系,实现对话智能、超低延迟、对话节奏控制、强抗干扰能力与指向性理解等多维能力的协同优化,使模型具有稳定、高效、自然的交互表现。

推理性能:通过投机采样、量化等方式极致优化性能,实现成本和延迟的平衡。

服务稳定性:重点解决了收音、播报卡顿等问题,确保模型可在大流量环境下连续稳定运行。

最终,Seeduplex 突破了数据构建、超低时延与模型效果协同优化等核心技术瓶颈。大规模 A/B 实验数据证明了全双工交互模式的价值,相比此前上线豆包的半双工模型,Seeduplex 在用户的通话时长、留存等核心指标上均实现正向提升,整体通话满意度绝对值提升了 8.34%,用户反馈中“抢话”、“响应慢”、“误打断”等问题的提及比例明显下降。

Seeduplex 评测结果

多维度较半双工模型显著提升

我们对 Seeduplex 进行了一系列主客观评测,结果显示,Seeduplex 在打断与判停表现上均显著优于半双工模型,并在多项关键指标上处于行业领先水平。

相比豆包 App 之前使用的半双工对话框架,Seeduplex 的整体交互体验进一步提升,其判停 MOS 分提高了 8%,对话流畅度 MOS 分提升了 12%。

具体来说,Seeduplex 将判停延迟降低约 250ms 的同时,复杂场景下的 AI 抢话比例相对减少 40%;针对用户的打断需求,在响应准确率更高的前提下,Seeduplex 将打断响应的延迟进一步缩短了约 300ms;在复杂声学干扰场景下,Seeduplex 将误回复率和误打断率降低了一半。

另外,通过与原半双工模型以及行业主流 App 语音通话功能的横向对比,Seeduplex 在判停、打断响应任务上展现出明显优势,并显著提升了评测用户对整体交互节奏是否合理的对话流畅度评价。

image
image

和行业主要对标产品在对话节奏上的主观评测结果(对比产品以字母指代)

我们还通过组织真人对话测试,初步摸底了目前人机对话相对真实人人对话(普通人群)的水位。结果显示,以“人人对话”为基准,Seeduplex 在判停表现上相比半双工方案显著提升了 8%。而在响应打断的表现上,真实人人对话有时在响应上相对滞后,Seeduplex 则表现更稳定,略好于人人对话的平均水平。但在整体对话流畅度上,Seeduplex 和真实人人对话仍有不小差距,有待进一步提升。

image
image

和“人人对话”的对比评测显示,Seeduplex 和真实人人对话的差距进一步缩小

总结与展望

Seeduplex 的上线,是语音交互从“回合制”向“实时自然交互”演进的关键一步。其原生全双工框架不仅提升了模型的抗干扰能力与节奏控制力,更重要的是,也为模型实现感知、思考与执行的全方位融合提供支撑。

未来,我们将在以下几个方面继续突破:

继续提升模型的音频理解能力,深度优化在多人对话、智能硬件等复杂交互场景中的表现。

通过数据 Scaling 和算法优化,持续提升模型的对话节奏多样性和控制能力。

在“边听边说”的基础上,引入模型主动能力,如在倾听的过程中附和用户、结合声学环境和对话语境主动交互。

实现更深度的多模态融合,在现有语音、文本模态的基础上引入视觉模态,实现“边听、边看、边说”的多维协同。

实现感知、思考、输出一体化,进一步探索“边听边想”、“边听边搜”等方案,让模型具备更深度的思考和执行能力,继续提升语音交互的流畅度。

以全双工为起点,我们期望未来 AI 能不断进化,在感知、交互与行动的闭环中,真正实现听、看、想、说、做的协同。

image
image
image
image
image
image
image
image
image
image
image
image
image
image

阅读原文

跳转微信打开

この記事をシェア

関連記事

The Verge AI★52026年6月2日 01:40

Anthropic が正式に株式公開を申請

AI 企業 Anthropic は、米証券取引委員会(SEC)に対して株式公開(IPO)の申請書を提出し、市場への上場プロセスを開始した。これは OpenAI との競合において先手を打つ重要なマイルストーンである。

The Verge AI★42026年5月27日 21:00

教皇は AGI に夢中ではない

レオ14世教皇が AI の社会的影響を論じた回勅「Magnifica Humanitas」を発表し、AI の利用は技術問題ではなく人権や自由に関わるものだと警告した。

Ars Technica AI★42026年5月22日 06:51

Grokが苦戦する中、SpaceXはAI分野でのビッグテック凌駕に賭ける

イーロン・マスク率いるスペースXは、同社の将来の柱として人工知能(AI)を位置づけ、全米経済活動全体に匹敵する兆ドル規模の市場機会を見込んでいます。しかし、顧客がOpenAIやAnthropicなどの競合他社モデルを好む現状を克服する必要があります。

ニュース一覧に戻る元記事を読む