近日,小米大模型團隊在音頻推理領域的研究中取得了突破性進展,成功應用強化學習算法於多模態音頻理解任務,準確率達到了64.5%,這一成就使其在國際權威的 MMAU 音頻理解評測中奪得了第一名。這一成果的背後,離不開團隊對 DeepSeek-R1的啓發。
MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是衡量音頻推理能力的重要標準,通過對包含語音、環境聲和音樂的多種音頻樣本進行分析,測試模型在複雜推理任務中的表現。人類專家的準確率爲82.23%,而當前榜單上表現最好的模型是 OpenAI 的 GPT-4o,準確率爲57.3%。在這樣的背景下,小米團隊的成績尤爲引人注目。

在團隊的實驗中,他們採用了 DeepSeek-R1的 Group Relative Policy Optimization(GRPO)方法,該方法通過 “試錯 - 獎勵” 的機制,使得模型能自主演化,展現出類似於人類的反思和推理能力。值得注意的是,在強化學習的支持下,即便只使用了3.8萬條訓練樣本,小米團隊的模型仍然能夠在 MMAU 評測集上取得64.5% 的準確率,比當前的第一名高出近10個百分點。
此外,實驗還發現,傳統的顯式思維鏈輸出方式反而會導致模型準確率下降,顯示出隱式推理在訓練中的優勢。儘管取得了顯著的成績,但小米團隊仍然意識到,距離人類專家的水平還有一段距離。團隊表示將繼續優化強化學習策略,以期實現更好的推理能力。
這項研究的成功,不僅展示了強化學習在音頻理解領域的潛力,也爲未來的智能聽覺時代鋪平了道路。隨着機器不僅能 “聽見” 聲音,還能 “聽懂” 其背後的因果邏輯,智能音頻技術將迎來新的發展機遇。小米團隊還將開源訓練代碼和模型參數,以便於學術界和產業界的進一步研究與交流。
訓練代碼:https://github.com/xiaomi-research/r1-aqa
模型參數:https://huggingface.co/mispeech/r1-aqa
技術報告:https://arxiv.org/abs/2503.11197
交互 Demo:https://120.48.108.147:7860/
