開源大模型生態迎來底層架構的重大突破。谷歌Google DeepMind日前正式發佈了其有史以來最強大的開放模型 Gemma4。儘管該模型在參數規模上與上一代持平,依然維持在約300億左右,但其“單位參數的智能密度”實現了大幅飛躍,在多項核心任務上的性能表現已經能夠匹敵一年半前的頂尖閉源大模型。

此次 Gemma4最引人注目的技術創新在於引入了全新的“E2B”(參數卸載)架構。在傳統的 Transformer 架構中,龐大的嵌入層往往會佔用海量的顯存空間。而新架構巧妙地在每一層中加入了嵌入表,利用查找表機制代替了繁重的全矩陣乘法計算。以其中一款50億參數的模型爲例,在 E2B 架構的加持下,實際需要加載到 GPU 顯存中的“有效參數”僅爲20億,其餘30億參數可以安全地卸載到 CPU 甚至磁盤中。這意味着該模型僅需2GB 顯存便能實現極速推理,徹底突破了移動端、智能手機和樹莓派等端側設備的部署瓶頸。

作爲一次極具雄心的複雜發佈,Google DeepMind團隊協調了包括 Hugging Face、llama.cpp、Ollama、英偉達和 AMD 在內的近50個外部合作伙伴。目前,Gemma4已實現與 Android Studio 的深度集成,開發者在 Agent 模式下無需將任何代碼上傳至雲端 API,即可在本地離線環境下安全地調用 AI 編寫 Android 代碼,極大滿足了職場對數據隱私和離線辦公的剛性需求。

在多模態與核心體驗層面,Gemma4承襲了與 Gemini3相同的研究成果。即使是2B 或4B 規模的端側小模型,也已具備出色的多語言(支持140種語言)和多模態理解力,能夠輕鬆駕馭語音識別、語音提問以及30到60秒的短視頻分析。儘管目前該模型在知識儲備的絕對體量上與大模型仍有差距,且在文本擴散(Diffusion Transformer)等前沿實驗性探索和專家混合模型(MoE)的微調上仍面臨行業公認的挑戰,但其展現出的高密度智能已不容小覷。

隨着大模型開箱即用能力的增強,垂直領域的開發生態正經歷深刻的重構,純粹的傳統微調熱度正在逐步退燒。面向未來,Google DeepMind方面做出了一個里程碑式的預判:在未來的1到2年內,用戶的智能手機上將能夠直接在本地流暢運行相當於 Gemini3Pro 級別性能的強悍模型。屆時,絕大多數複雜的智能體代理任務將在設備端直接完成,無需依賴雲端算力,這無疑將爲下一代消費級應用集成與用戶體驗帶來顛覆性的變革。