全球開源大模型生態迎來架構層面的顛覆性突破。谷歌於6月3日正式發佈了全新統一多模態模型Gemma412B。該模型最大的創新在於徹底取消了傳統多模態模型必不可少的“編碼器”組件,在消費級硬件的本地部署與推理效率上實現了質的飛躍。

在傳統的多模態架構中,模型通常需要依賴獨立的視覺和音頻編碼器,將圖像和聲音信號轉換爲與文本Token相匹配的維度,這在無形中增加了模型的體積與計算複雜度。而Gemma412B另闢蹊徑,採用輕量級的嵌入層來直接處理視覺輸入,僅需通過單次矩陣乘法、位置嵌入和歸一化操作即可完成轉換;同時,音頻信號也被直接投影到文本Token的維度空間中。這種精簡的“無編碼器”設計,不僅大幅降低了計算步驟,更讓整個模型變得極其輕量。

image.png

得益於底層架構的瘦身,這款擁有120億參數的高性能模型被完美壓縮在消費級硬件的運行門檻之內。開發者或普通用戶僅需16GB的顯存或統一內存,就能在高端筆記本電腦上直接本地部署並流暢運行。這意味着用戶無需依賴昂貴的雲端算力,便能離線處理複雜的視覺和音頻任務。

在實際性能表現上,Gemma412B的多步推理與代理工作流(Agent)能力已經逼近谷歌更大規模的26B MoE模型。爲了進一步榨乾性能,該模型還配備了多Token預測(MTP)技術,能夠同時預測多個Token,從而顯著加快了端側的推理響應速度。

目前,Gemma412B已採用友好的 Apache2.0許可證正式開源,模型權重也已同步在上架。新模型獲得了主流開發生態的全面力挺,不僅無縫支持 Ollama、LM Studio、MLX、SGLang 和 vLLM 等多種推理框架,谷歌自家的 AI Edge Gallery 也第一時間提供了端側部署包。對於企業級生產環境,開發者還可以通過谷歌雲的相關工具進行大規模集羣部署。隨着 Gemma4系列模型累計下載量突破1.5億次,這一全新的架構無疑將引發開源開發者社區的新一輪技術狂歡。