大規模モデルのエッジ側への展開における「減量と筋力増強」に大きな進展が見られた。騰訊(テンセント)ホンユアンは今日、消費者向けハードウェア向けに設計された極小モデル「HY-1.8B-2Bit」を正式にリリースした。このモデルは、業界初となる2ビット量子化ソリューションを採用し、等価パラメータ数を0.3Bにまで削減し、メモリ使用量は約600MBにとどまり、一部の一般的なスマートフォンアプリよりも小さなサイズとなっている。

技術的突破:2ビット量子化の「不可能な課題」
モデルの配置において、量子化ビット数が低いほど精度の損失が大きくなる傾向がある。この課題を克服するため、騰訊ホンユアンチームは従来のPTQ(後処理量子化)戦略を放棄し、量化感知トレーニング(QAT)を採用し、データ最適化や弾性伸縮量子化および戦略の革新を組み合わせた。
実験データによると、HY-1.8B-2Bitは数学、コードおよび科学などの主要指標において、4ビットPTQモデルバージョンと同等の性能を示している。これは、大幅にサイズを圧縮しながらも、モデルが非常に強力な「総合的な能力」を維持していることを意味する。


性能表現:生成速度が倍増し、多様なハードウェアに適合
極限的な圧縮により、このモデルは実際のエッジデバイス上で、元の精度モデルと比較して生成速度が2~3倍に向上した。具体的な結果は以下の通りである:
MacBook M4: 1024入力以内では、最初の文字の遅延が3~8倍速くなり、生成速度は2倍以上安定して向上している。
天玑9500: Q4形式と比較すると、最初の文字の遅延が1.5~2倍速くなり、生成速度は約1.5倍速くなっている。
全思考能力: Hunyuan-1.8B-Instructの長期・短期の論理的な思考能力を引き継ぎ、ユーザーはタスクの複雑さに応じて柔軟に切り替えることができる。
