小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

9月19日，小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio，這一創新成果標誌着語音技術領域的一次重大突破。五年前，GPT-3的出現開啓了語言通用人工智能（AGI）的新紀元，但語音領域一直受限於對大規模標註數據的依賴，難以實現類似的語言模型的少樣本泛化能力。如今，小米推出的 Xiaomi-MiMo-Audio 模型基於創新的預訓練架構和上億小時的訓練數據，首次在語音領域實現了基於 In-Context Learning(ICL)的少樣本泛化，並在預訓練過程中觀察到了明顯的“涌現”行爲。

Xiaomi-MiMo-Audio 模型在多個標準評測基準中表現出色，其性能不僅超越了同參數量的開源模型，還在音頻理解基準 MMAU 的標準測試集上超過了 Google 的閉源語音模型 Gemini-2.5-Flash，並在音頻複雜推理基準 Big Bench Audio S2T 任務中超越了 OpenAI 的閉源語音模型 GPT-4o-Audio-Preview。這一成果不僅展示了小米在語音技術領域的深厚實力，也爲語音 AI 的發展提供了新的方向。

微信截圖_20250919094548.png

小米此次開源的 Xiaomi-MiMo-Audio 模型具有多項創新和首次突破。首先，該模型首次證明了將語音無損壓縮預訓練擴展至1億小時可以“涌現”出跨任務的泛化性，表現爲少樣本學習能力，這被看作是語音領域的“GPT-3時刻”。其次，小米是首個明確語音生成式預訓練的目標和定義的公司，並開源了一套完整的語音預訓練方案，包括無損壓縮的 Tokenizer、全新模型結構、訓練方法和評測體系，開啓了語音領域的“LLaMA時刻”。此外，Xiaomi-MiMo-Audio 是首個將思考過程同時引入語音理解和語音生成過程中的開源模型，支持混合思考。

小米採取了簡單、徹底和直接的開源風格，以促進語音研究領域的加速發展。開源內容包括預訓練模型 MiMo-Audio-7B-Base 和指令微調模型 MiMo-Audio-7B-Instruct，以及 Tokenizer 模型、技術報告和評估框架。MiMo-Audio-7B-Instruct 模型可通過 prompt 切換 non-thinking 和 thinking 兩種模式，強化學習起點高、潛力足，可作爲研究語音 RL 和 Agentic 訓練的全新基座模型。Tokenizer 模型具有1.2B參數量，採用 Transformer 架構，兼顧效率與性能，從頭開始訓練，覆蓋超過千萬小時語音數據，同時支持音頻重建任務和音頻轉文本任務。技術報告全面展示了模型和訓練細節，而評估框架則支持10多個測評任務，已開源至 GitHub。

小米公司表示，Xiaomi-MiMo-Audio 的開源將顯著加速語音大模型研究對齊到語言大模型，爲語音 AGI 的發展提供重要基礎。小米將持續開源，期待與每一位同行者攜手，用開放與協作，邁向語音 AI 的“奇點”，走進未來的人機交互時代。

https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

相關推薦

Grok 暫停大部分用戶的圖像生成功能

阿里雲聯手聽力熊推出兒童AI夥伴Mooni M1：不止會聊天，更懂孩子的情緒與成長

1家抵8家!阿里千問下載量斷層領跑，單月擊敗 Meta、OpenAI 等全球巨頭總和

海螺 AI 慶祝 MiniMax 上市，用戶登錄就贈送 500 貝殼大禮！

螞蟻集團兩項AI突破獲2025年教育部科學研究優秀成果獎一等獎

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

相關推薦

Grok 暫停大部分用戶的圖像生成功能

阿里雲聯手聽力熊推出兒童AI夥伴Mooni M1：不止會聊天，更懂孩子的情緒與成長

1家抵8家!阿里千問下載量斷層領跑，單月擊敗 Meta、OpenAI 等全球巨頭總和

​海螺 AI 慶祝 MiniMax 上市，用戶登錄就贈送 500 貝殼大禮！

螞蟻集團兩項AI突破獲2025年教育部科學研究優秀成果獎一等獎

海螺 AI 慶祝 MiniMax 上市，用戶登錄就贈送 500 貝殼大禮！