5月11日,面壁智能聯合清華大學及 OpenBMB 開源社區,正式發佈新一代端側多模態大模型 MiniCPM-V4.6。這款僅擁有1.3B 參數的“輕量級”模型,憑藉極致的智能密度與跨平臺適配能力,成功挑戰了更大參數模型的性能天花板,爲端側 AI 的落地應用按下了“加速鍵”。

一、性能巔峯:1.3B 參數下的“越級表現”
MiniCPM-V4.6推出了 Instruct 與 Thinking 兩個版本,在多項評測中展現出同量級模型難以企及的推理與理解能力:
全球領跑: 在 Artificial Analysis(AA)榜單中,MiniCPM-V4.6以 13分 的優異成績,不僅大幅領先同尺寸競品(如阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it),性能更直逼更大參數的 Qwen3.5-2B,成爲1B 級模型中的性能標杆。
高階能力: 無論是通用圖文理解、複雜的 STEM 數理推理,還是極具挑戰的文檔 OCR 與視頻時序理解,模型表現均表現出極高的智能水準。特別是在多圖像推理與幻覺抑制方面,Thinking 版表現尤爲出色。
二、效率革命:極致的端側“智能密度”
爲了解決端側部署“內存焦慮”,MiniCPM-V4.6在推理速度與資源佔用上進行了深度優化:
極速門檻: 運行內存需求被壓縮至 6GB,使得主流智能手機、PC 及智能家居設備均能流暢運行。
推理效率: 基於 vLLM 的推理吞吐量達到競品的1.5倍;在端側處理3136² 超高清大圖時,首響延遲僅 75.7ms,較競品快出2.2倍。
吞吐能力: 單卡即可實現7013token/s 的文本生成能力,以及54.79張/秒的1344² 圖片處理能力,效率表現驚人。
三、技術硬核:LLaVA-UHD v4帶來的開銷縮減
模型之所以能“輕裝上陣”,離不開面壁智能與清華大學聯合研發的 LLaVA-UHD v4 技術:
編碼重構: 通過重構 ViT 圖像編碼與淺層壓縮模塊,圖像編碼開銷降低了 50%,高分辨率浮點運算減少 55.8%。
混合壓縮機制: 創新支持4倍/16倍混合 Token 壓縮,支持模型在“性能優先”與“速度優先”之間靈活切換,該技術此前已在快手的推薦大模型 OneRec 中經過驗證,支撐了海量流量請求。
四、生態落地:從實驗室走向產業一線
MiniCPM-V4.6的開源不僅是技術的勝利,更是生態的勝利:
開發便捷: 深度適配 ms-swift、LLaMA-Factory 等微調框架,開發者單張 RTX4090顯卡即可實現全量微調。
全平臺兼容: 支持 vLLM、Ollama 等主流框架,並提供覆蓋 iOS、Android、HarmonyOS 的測試版本,讓 AI 觸達更多形態的硬件終端。
落地賦能: 目前該系列已在汽車、PC、智能家居及工業檢測等多領域落地,合作伙伴涵蓋聯想、吉利、上汽大衆、小米、OPPO 等行業頭部企業。
隨着 MiniCPM-V4.6的全面開源,端側多模態大模型的門檻已被徹底拉平。未來,AI 將不再僅僅依賴雲端算力,而是真正融入每一個智能終端,成爲個人日常生活中不可或缺的“智慧大腦”。
