阿里巴巴通義實驗室正式開源新一代端到端語音交互大模型Fun-Audio-Chat-8B,這款模型以超低延遲、自然流暢的語音交互爲核心,標誌着開源語音AI進入全新階段。它不僅能實時理解用戶語音,還具備強大情感感知能力,性能直逼閉源巨頭GPT-4o Audio和Gemini2.5Pro。AIbase獨家解讀:Fun-Audio-Chat並非簡單聊天工具,而是真正意義上的“AI語音夥伴”。

用戶只需開口說話,模型就能即時理解、思考並以自然語音迴應,徹底擺脫傳統ASR+LLM+TTS多模塊拼接的延遲痛點,實現端到端Speech-to-Speech(S2S)架構,交互體驗更接近真人對話。核心技術亮點超低延遲與高效設計:採用創新雙分辨率架構(5Hz共享主幹+25Hz精細頭部),GPU計算資源節省近50%,響應速度大幅提升,適合實時場景部署。
富有同理心的情感理解:模型能從語氣、語速、停頓等細節感知用戶情緒(如開心、疲憊或憤怒),即使未明確表達,也能給出貼心、共情的迴應,讓交互更人性化。
強大語音函數調用:支持Voice Function Calling,用戶通過自然語音指令即可執行復雜任務,例如“幫我打開音樂”或“撥打電話”,真正實現“動口不動手”。

領先性能表現在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多項國際權威基準測試中,Fun-Audio-Chat-8B同尺寸模型排名第一,綜合能力超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等開源競品,部分指標已媲美或領先閉源頂級模型。豐富應用能力實時回答語音問題(如總結一段語音內容);
精準識別情緒、音色和命令;
支持多語言翻譯、角色扮演;
模擬多種情感語音輸出(如溫柔、嚴肅、開心);
適用於情感陪伴、智能設備控制、語音客服等場景。
AIbase觀點:此次開源包括完整8B模型權重、推理代碼和Function Call示例,極大降低開發者門檻,推動語音AI生態快速發展。感興趣的開發者可立即前往GitHub、Hugging Face或ModelScope下載體驗,開啓屬於你的“高情商”語音AI時代!
項目地址:https://funaudiollm.github.io/funaudiochat/
