大模型落地端側的“減脂增肌”迎來重大突破。騰訊混元今日正式發佈面向消費級硬件的極小模型 HY-1.8B-2Bit。該模型通過首個產業級2Bit 量化方案,將等效參數量精簡至 0.3B,內存佔用僅約 600MB,體積甚至小於部分常用的手機應用。

QQ20260210-135622.png

技術突破:2Bit量化的“不可能任務”

在模型部署中,量化位數越低,精度損失通常越大。爲攻克這一難題,騰訊混元團隊放棄了傳統的 PTQ(後量化)策略,轉而採用 量化感知訓練(QAT),並結合數據優化、彈性拉伸量化及策略創新。

實驗數據表明,HY-1.8B-2Bit 在數學、代碼及科學等核心指標上,表現已能與4Bit PTQ 模型版本持平。這意味着在大幅壓縮體積的同時,模型依然保持了極強的“全科能力”。

QQ20260210-135630.png

QQ20260210-135635.png

性能表現:生成速度翻倍,適配多種硬件

得益於極致的壓縮,該模型在真實端側設備上的生成速度對比原始精度模型提升了 2—3倍。具體表現如下:

  • MacBook M4: 在1024輸入內,首字時延實現 3~8倍 加速,生成速度保持2倍以上穩定提升。

  • 天璣9500: 對比 Q4格式,首字時延加速 1.5~2倍,生成速度加速約 1.5倍

  • 全思考能力: 沿用 Hunyuan-1.8B-Instruct 的長短思維鏈能力,用戶可根據任務複雜度靈活切換。

未來佈局

目前,該模型已提供 GGUF-int2 格式權重,並在 Arm SME2 技術平臺上完成適配,可廣泛應用於手機、耳機及智能家居等對離線部署和隱私有極高要求的場景。騰訊混元表示,未來將通過強化學習與模型蒸餾,進一步縮小低比特模型與全精度模型的能力差距。