Google日前正式發佈全新開源大模型Gemma412B,標誌着端側全模態AI迎來突破性進展。該模型顛覆了傳統多模態模型依賴視覺和音頻外部編碼器的複雜鏈路,創新性地採用“Unified”無編碼器架構。
通過這一設計,文字、圖像、音頻及視頻四種模態的原始數據得以直接輸入同一個Transformer主幹網絡進行一體化處理,從根本上消除了因傳統外掛“翻譯”模塊帶來的顯存佔用與高延遲問題,實現了更接近原生的跨模態理解。

作爲一款專爲消費級硬件優化的端側模型,Gemma412B在參數效率上表現驚人。在基準測試中,其跑分成績直逼Google自家26B體量的大模型,而內存佔用卻不足其一半。模型具備256K Token的超長上下文窗口,支持超過140種語言,並內置強化逐步推理的Thinking模式與原生Function Calling能力。
在落地部署方面,該模型最低僅需16GB顯存或統一內存即可流暢運行,經4-bit量化後更是可下探至8GB,其核心目標直指在普通筆記本上實現高效本地化運行。目前,Google AI Edge Gallery已正式從手機端擴展至桌面端,macOS用戶下載安裝即可本地激活Gemma412B。得益於內置的沙盒Python環境以及支持語音交互的Eloquent系統,用戶已能在聊天界面中直接執行代碼、繪製圖表並進行流暢的語音對齊交互。
業內分析認爲,Gemma412B的推出進一步加速了AI去中心化的進程。其極高的性能密度與端側親和力,不僅打破了雲端算力的桎梏,也爲未來兼顧低延遲與隱私安全的端側全模態個人助理應用鋪平了技術道路。
