阿里通義開源語音交互大模型Fun-Audio-Chat-8B！超低延遲，能讀懂情緒

阿里巴巴通義實驗室正式開源新一代端到端語音交互大模型Fun-Audio-Chat-8B，這款模型以超低延遲、自然流暢的語音交互爲核心，標誌着開源語音AI進入全新階段。它不僅能實時理解用戶語音，還具備強大情感感知能力，性能直逼閉源巨頭GPT-4o Audio和Gemini2.5Pro。AIbase獨家解讀:Fun-Audio-Chat並非簡單聊天工具，而是真正意義上的“AI語音夥伴”。

用戶只需開口說話，模型就能即時理解、思考並以自然語音迴應，徹底擺脫傳統ASR+LLM+TTS多模塊拼接的延遲痛點，實現端到端Speech-to-Speech（S2S）架構，交互體驗更接近真人對話。核心技術亮點超低延遲與高效設計:採用創新雙分辨率架構(5Hz共享主幹+25Hz精細頭部)，GPU計算資源節省近50%，響應速度大幅提升，適合實時場景部署。

富有同理心的情感理解:模型能從語氣、語速、停頓等細節感知用戶情緒（如開心、疲憊或憤怒），即使未明確表達，也能給出貼心、共情的迴應，讓交互更人性化。

強大語音函數調用:支持Voice Function Calling，用戶通過自然語音指令即可執行復雜任務，例如“幫我打開音樂”或“撥打電話”，真正實現“動口不動手”。

領先性能表現在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多項國際權威基準測試中，Fun-Audio-Chat-8B同尺寸模型排名第一，綜合能力超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等開源競品，部分指標已媲美或領先閉源頂級模型。豐富應用能力實時回答語音問題（如總結一段語音內容）;

精準識別情緒、音色和命令;

支持多語言翻譯、角色扮演;

模擬多種情感語音輸出（如溫柔、嚴肅、開心）;

適用於情感陪伴、智能設備控制、語音客服等場景。

AIbase觀點:此次開源包括完整8B模型權重、推理代碼和Function Call示例，極大降低開發者門檻，推動語音AI生態快速發展。感興趣的開發者可立即前往GitHub、Hugging Face或ModelScope下載體驗，開啓屬於你的“高情商”語音AI時代!

項目地址：https://funaudiollm.github.io/funaudiochat/

阿里通義開源語音交互大模型Fun-Audio-Chat-8B！超低延遲，能讀懂情緒

相關推薦

Lima v2.0 重磅發佈：從容器利器進化爲安全 AI 工作流的“隱形盾牌”

Waymo 擬爲無人出租車接入 Gemini 助手，1200行“系統指令”嚴防 AI 越位

OPPO 姜昱辰談 AI 手機發展方向:GUI Agent 爲過渡，未來將實現 A2A

ChatGPT 要加廣告了？報道稱OpenAI 正祕密研發“贊助內容”展現模式

英偉達斥資 200 億美元與 Groq 達成重大技術合作

阿里通義開源語音交互大模型Fun-Audio-Chat-8B！超低延遲，能讀懂情緒

相關推薦

​Lima v2.0 重磅發佈：從容器利器進化爲安全 AI 工作流的“隱形盾牌”

​Waymo 擬爲無人出租車接入 Gemini 助手，1200行“系統指令”嚴防 AI 越位

OPPO 姜昱辰談 AI 手機發展方向:GUI Agent 爲過渡，未來將實現 A2A

​ChatGPT 要加廣告了？報道稱OpenAI 正祕密研發“贊助內容”展現模式

英偉達斥資 200 億美元與 Groq 達成重大技術合作

Lima v2.0 重磅發佈：從容器利器進化爲安全 AI 工作流的“隱形盾牌”

Waymo 擬爲無人出租車接入 Gemini 助手，1200行“系統指令”嚴防 AI 越位

ChatGPT 要加廣告了？報道稱OpenAI 正祕密研發“贊助內容”展現模式