9月19日,小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio,這一創新成果標誌着語音技術領域的一次重大突破。五年前,GPT-3的出現開啓了語言通用人工智能(AGI)的新紀元,但語音領域一直受限於對大規模標註數據的依賴,難以實現類似的語言模型的少樣本泛化能力。如今,小米推出的 Xiaomi-MiMo-Audio 模型基於創新的預訓練架構和上億小時的訓練數據,首次在語音領域實現了基於 In-Context Learning(ICL)的少樣本泛化,並在預訓練過程中觀察到了明顯的“涌現”行爲。
Xiaomi-MiMo-Audio 模型在多個標準評測基準中表現出色,其性能不僅超越了同參數量的開源模型,還在音頻理解基準 MMAU 的標準測試集上超過了 Google 的閉源語音模型 Gemini-2.5-Flash,並在音頻複雜推理基準 Big Bench Audio S2T 任務中超越了 OpenAI 的閉源語音模型 GPT-4o-Audio-Preview。這一成果不僅展示了小米在語音技術領域的深厚實力,也爲語音 AI 的發展提供了新的方向。

小米此次開源的 Xiaomi-MiMo-Audio 模型具有多項創新和首次突破。首先,該模型首次證明了將語音無損壓縮預訓練擴展至1億小時可以“涌現”出跨任務的泛化性,表現爲少樣本學習能力,這被看作是語音領域的“GPT-3時刻”。其次,小米是首個明確語音生成式預訓練的目標和定義的公司,並開源了一套完整的語音預訓練方案,包括無損壓縮的 Tokenizer、全新模型結構、訓練方法和評測體系,開啓了語音領域的“LLaMA時刻”。此外,Xiaomi-MiMo-Audio 是首個將思考過程同時引入語音理解和語音生成過程中的開源模型,支持混合思考。
小米採取了簡單、徹底和直接的開源風格,以促進語音研究領域的加速發展。開源內容包括預訓練模型 MiMo-Audio-7B-Base 和指令微調模型 MiMo-Audio-7B-Instruct,以及 Tokenizer 模型、技術報告和評估框架。MiMo-Audio-7B-Instruct 模型可通過 prompt 切換 non-thinking 和 thinking 兩種模式,強化學習起點高、潛力足,可作爲研究語音 RL 和 Agentic 訓練的全新基座模型。Tokenizer 模型具有1.2B參數量,採用 Transformer 架構,兼顧效率與性能,從頭開始訓練,覆蓋超過千萬小時語音數據,同時支持音頻重建任務和音頻轉文本任務。技術報告全面展示了模型和訓練細節,而評估框架則支持10多個測評任務,已開源至 GitHub。
小米公司表示,Xiaomi-MiMo-Audio 的開源將顯著加速語音大模型研究對齊到語言大模型,爲語音 AGI 的發展提供重要基礎。小米將持續開源,期待與每一位同行者攜手,用開放與協作,邁向語音 AI 的“奇點”,走進未來的人機交互時代。
https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
