Meta AI 近日推出了 MobileLLM-R1,這是一系列輕量級邊緣推理模型,目前已在 Hugging Face 上發佈。該系列模型參數範圍從140M 到950M,專注於高效的數學、編碼和科學推理,且在不足10億的參數規模下實現了優秀的性能表現。

MobileLLM-R1的最大模型爲 MobileLLM-R1-950M,採用了一系列架構優化設計:包括22層 Transformer 結構、24個注意力頭和6個分組 KV 頭。模型的嵌入維度爲1536,隱藏層維度爲6144。此外,模型還採用了分組查詢注意力(GQA)來減少計算和內存需求,塊級權重共享技術降低了參數數量而不顯著增加延遲,SwiGLU 激活函數提升了小模型的表示能力。模型支持4K 的上下文長度和32K 的後訓練模型。
在訓練效率方面,MobileLLM-R1的表現同樣引人注目。該模型總共在約4.2萬億個 token 上進行訓練,相較於 Qwen3的0.6B 模型訓練的36萬億 token,MobileLLM-R1僅使用了約11.7% 的數據便達到了或超越了 Qwen3的準確率。同時,模型在數學、編碼和推理數據集上進行了監督微調,從而降低了訓練成本和資源需求。
在各項基準測試中,MobileLLM-R1-950M 的表現優異:在 MATH500數據集上,其準確率比 OLMo-1.24B 高出約5倍,且比 SmolLM2-1.7B 高出約2倍。在 GSM8K、AIME 和 LiveCodeBench 等推理和編碼任務上,MobileLLM-R1甚至與 Qwen3-0.6B 相匹配或超越,儘管所使用的 token 數量遠少於後者。
不過,MobileLLM-R1的聚焦也帶來了侷限性。雖然在數學、編碼和結構化推理方面表現強勁,但在一般對話、常識推理和創造性任務上,MobileLLM-R1的表現較大型模型有所不足。此外,模型在生產環境中的使用受到 FAIR NC(非商業)許可證的限制,較長的上下文(32K)也提高了推理時的 KV 緩存和內存需求。
總的來看,Meta 的 MobileLLM-R1展現了一個趨勢,即朝着更小、更專業化的模型方向發展,能夠在不需要大規模訓練預算的情況下實現競爭力的推理能力。該模型在數學、編碼和科學應用場景中表現尤爲突出,爲邊緣設備上的大規模語言模型部署定義了新的標準。
項目:https://huggingface.co/facebook/MobileLLM-R1-950M
劃重點:
🧩 ** 新模型發佈 **:Meta AI 推出 MobileLLM-R1系列輕量級邊緣推理模型,參數範圍從140M 到950M。
📊 ** 訓練效率 **:MobileLLM-R1僅用約11.7% 的數據訓練,表現出色,訓練成本和資源需求顯著降低。
💡 ** 性能優勢 **:在多項基準測試中,MobileLLM-R1-950M 表現超越多款大型開源模型,尤其在數學和編碼任務上。
