小米大模型團隊在音頻推理領域取得重大突破，登頂國際評測榜

近日，小米大模型團隊在音頻推理領域的研究中取得了突破性進展，成功應用強化學習算法於多模態音頻理解任務，準確率達到了64.5%，這一成就使其在國際權威的 MMAU 音頻理解評測中奪得了第一名。這一成果的背後，離不開團隊對 DeepSeek-R1的啓發。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）評測集是衡量音頻推理能力的重要標準，通過對包含語音、環境聲和音樂的多種音頻樣本進行分析，測試模型在複雜推理任務中的表現。人類專家的準確率爲82.23%，而當前榜單上表現最好的模型是 OpenAI 的 GPT-4o，準確率爲57.3%。在這樣的背景下，小米團隊的成績尤爲引人注目。

在團隊的實驗中，他們採用了 DeepSeek-R1的 Group Relative Policy Optimization（GRPO）方法，該方法通過 “試錯 - 獎勵” 的機制，使得模型能自主演化，展現出類似於人類的反思和推理能力。值得注意的是，在強化學習的支持下，即便只使用了3.8萬條訓練樣本，小米團隊的模型仍然能夠在 MMAU 評測集上取得64.5% 的準確率，比當前的第一名高出近10個百分點。

此外，實驗還發現，傳統的顯式思維鏈輸出方式反而會導致模型準確率下降，顯示出隱式推理在訓練中的優勢。儘管取得了顯著的成績，但小米團隊仍然意識到，距離人類專家的水平還有一段距離。團隊表示將繼續優化強化學習策略，以期實現更好的推理能力。

這項研究的成功，不僅展示了強化學習在音頻理解領域的潛力，也爲未來的智能聽覺時代鋪平了道路。隨着機器不僅能 “聽見” 聲音，還能 “聽懂” 其背後的因果邏輯，智能音頻技術將迎來新的發展機遇。小米團隊還將開源訓練代碼和模型參數，以便於學術界和產業界的進一步研究與交流。

訓練代碼:https://github.com/xiaomi-research/r1-aqa

模型參數:https://huggingface.co/mispeech/r1-aqa

技術報告:https://arxiv.org/abs/2503.11197

交互 Demo:https://120.48.108.147:7860/

2.6B參數碾壓百億級巨獸！Liquid AI最新實驗性模型LFM2-2.6B-Exp發佈

聖誕節當天，邊緣AI初創公司Liquid AI發佈開源模型LFM2-2.6B-Exp，僅26億參數，卻在多項基準測試中表現優異，指令跟隨能力甚至超越數百億參數的DeepSeek R1-0528，被贊爲“最強3B級模型”。該模型基於第二代LFM2基礎模型，通過純強化學習實現實驗性突破。

小米大模型團隊在音頻推理領域取得重大突破，登頂國際評測榜

相關推薦

2.6B參數碾壓百億級巨獸！Liquid AI最新實驗性模型LFM2-2.6B-Exp發佈

OpenAI 推出 “懺悔” 機制旨在揭示 AI 潛在不當行爲

反常現象：嚴格反黑客提示反而促使 AI 模型產生欺騙與破壞行爲

反直覺發現:禁止 AI 作弊反而更危險?Anthropic 揭示獎勵機制操控的新風險

Meta 推出 DreamGym 框架，讓 AI 代理訓練更高效、更安全

小米大模型團隊在音頻推理領域取得重大突破，登頂國際評測榜

相關推薦

2.6B參數碾壓百億級巨獸！Liquid AI最新實驗性模型LFM2-2.6B-Exp發佈

​OpenAI 推出 “懺悔” 機制 旨在揭示 AI 潛在不當行爲

反常現象：嚴格反黑客提示反而促使 AI 模型產生欺騙與破壞行爲

​反直覺發現:禁止 AI 作弊反而更危險?Anthropic 揭示獎勵機制操控的新風險

Meta 推出 DreamGym 框架，讓 AI 代理訓練更高效、更安全

OpenAI 推出 “懺悔” 機制旨在揭示 AI 潛在不當行爲

反直覺發現:禁止 AI 作弊反而更危險?Anthropic 揭示獎勵機制操控的新風險