4月9日,字節跳動 Seed 團隊正式發佈原生全雙工語音大模型 Seeduplex,標誌着 AI 語音交互從傳統的“回合制”向更貼近人類直覺的“實時自然交互”演進。作爲豆包端到端語音模型的重大升級,Seeduplex 核心突破在於實現了“邊聽邊說”的同步處理框架,從底層架構上釋放了語音交互的自然感。目前,該技術已在豆包 App 全量上線,完成了全雙工技術從實驗室向億級用戶規模化落地的跨越。

QQ20260409-134646.jpg

Seeduplex 通過語音與語義的聯合建模,顯著提升了模型在複雜聲學環境下的抗干擾能力。相比半雙工方案,其誤回覆率與誤打斷率降低了50%,即便在導航干擾、多人混疊或環境雜音中,也能精準識別主用戶意圖並聯動環境信息。

在對話節奏控制上,該模型引入動態判停技術,將判停延遲縮短約250ms,搶話比例下降40%,能敏銳區分用戶的“思考留白”與“對話結束”。工程層面,團隊通過投機採樣與量化優化,在確保超低時延的同時解決了高併發下的卡頓挑戰,使通話滿意度絕對值提升8.34%。

Seeduplex 的落地不僅是交互效率的飛躍,更預示着感知、思考與執行一體化的未來趨勢。隨着後續視覺模態的引入,語音助手將向“聽、看、想、說”多維協同的通用智能體深度進化,重塑智能硬件及多模態交互的行業標準。

項目主頁:

https://seed.bytedance.com/seeduplex