16GB內存本地即時響應！谷歌發佈Gemma 4 12B，顛覆性“無編碼器”架構引爆開源社區

全球開源大模型生態迎來架構層面的顛覆性突破。谷歌於6月3日正式發佈了全新統一多模態模型Gemma412B。該模型最大的創新在於徹底取消了傳統多模態模型必不可少的“編碼器”組件，在消費級硬件的本地部署與推理效率上實現了質的飛躍。

在傳統的多模態架構中，模型通常需要依賴獨立的視覺和音頻編碼器，將圖像和聲音信號轉換爲與文本Token相匹配的維度，這在無形中增加了模型的體積與計算複雜度。而Gemma412B另闢蹊徑，採用輕量級的嵌入層來直接處理視覺輸入，僅需通過單次矩陣乘法、位置嵌入和歸一化操作即可完成轉換;同時，音頻信號也被直接投影到文本Token的維度空間中。這種精簡的“無編碼器”設計，不僅大幅降低了計算步驟，更讓整個模型變得極其輕量。

得益於底層架構的瘦身，這款擁有120億參數的高性能模型被完美壓縮在消費級硬件的運行門檻之內。開發者或普通用戶僅需16GB的顯存或統一內存，就能在高端筆記本電腦上直接本地部署並流暢運行。這意味着用戶無需依賴昂貴的雲端算力，便能離線處理複雜的視覺和音頻任務。

在實際性能表現上，Gemma412B的多步推理與代理工作流（Agent）能力已經逼近谷歌更大規模的26B MoE模型。爲了進一步榨乾性能，該模型還配備了多Token預測(MTP)技術，能夠同時預測多個Token，從而顯著加快了端側的推理響應速度。

目前，Gemma412B已採用友好的 Apache2.0許可證正式開源，模型權重也已同步在上架。新模型獲得了主流開發生態的全面力挺，不僅無縫支持 Ollama、LM Studio、MLX、SGLang 和 vLLM 等多種推理框架，谷歌自家的 AI Edge Gallery 也第一時間提供了端側部署包。對於企業級生產環境，開發者還可以通過谷歌雲的相關工具進行大規模集羣部署。隨着 Gemma4系列模型累計下載量突破1.5億次，這一全新的架構無疑將引發開源開發者社區的新一輪技術狂歡。

16GB內存本地即時響應！谷歌發佈Gemma 4 12B，顛覆性“無編碼器”架構引爆開源社區

相關推薦

Poolside 重磅開源！Laguna S 2.1 免費上線 OpenCode，1M 超長上下文 +118B MoE 模型引領代理編碼新紀元

OpenRouter推出全新技術：多輪 Agent 調用成本最高可砍到 1.75 倍

顛覆傳統模式！美國將改革 2000 億美元科研預算，重心轉向個體與AI

Gemini 3.6 Flash來了，但網友笑得更大聲：省下了token，卻沒保住智商

AI演習變實戰？OpenAI新模型意外“入侵”知名開源平臺