智能手機的算力極限在哪裏?
3月23日,擁有 4000億參數 的大語言模型在
技術“黑科技”: 閃存流轉與混合專家模型
在內存容量嚴重不足的情況下,這次“不可能的任務”主要依靠兩個技術路徑實現:
SSD 強行“擴容”: 藉助 Flash-MoE 開源項目,設備直接從固態硬盤(SSD)向 GPU 流式傳輸數據,突破了物理內存的上限。
MoE 架構優勢: “MoE”代表混合專家模型(Mixture of Experts),這意味着系統在生成每個單詞時,只需要調用4000億參數中的一小部分,而非全量負載。
速度硬傷:每兩秒蹦出一個詞
雖然“跑通了”,但實際體驗距離“可用”還有巨大的鴻溝。實測顯示:
生成速度: 僅爲 0.6Token/秒。換句話說,大約每1.5到2秒才能生成一個單詞。
功耗壓力: 這種高強度的本地運算會極速消耗手機的電池壽命,發熱情況也不容小覷。
行業啓示:本地大模型的“奇點”將至?
儘管目前的生成速度讓人“抓狂”,但這次演示的象徵意義遠大於實用價值。它證明了在手機端本地運行頂級規模大模型並非死路一條。
隱私護城河: 本地運行意味着數據無需上傳雲端,能夠提供極高的隱私保護。
離線可行性: 在無網絡環境下獲取頂級 AI 的回覆正在成爲可能。
正如業內評價,“能跑起來”和“能流暢使用”是兩碼事。但隨着算法優化與硬件迭代,當0.6token 進化到60token 時,智能手機將真正進化爲隨身攜帶的“超級大腦”。
