人工知能スタートアップのLiquid AIは、本日新しいエッジ側大規模モデルLFM2.5-8B-A1Bを正式にリリースし、オープンソース化しました。このモデルは、エンドユーザー向けハードウェアでのツール呼び出しや複雑な指示の遵守を専門に設計されており、非常に低い計算コストを維持しながらも、エッジ側デバイスの推論性能を大幅に向上させています。

構造的には、このモデルはスパース混合エキスパート(MoE)設計を採用しており、総パラメータ数は83億です。このスパース性により、各トークン生成時に15億のパラメータのみがアクティブ化されるため、スマートフォンやノートブックなどのローカルデバイスでスムーズに動作できます。

image.png

長文拡張と推論能力の向上

前バージョンと比較して、LFM2.5ではコンテキスト窓を32Kから128Kトークンに大幅に拡大し、トレーニングデータ量も12Tから38Tに増加しています。純粋な推論モデルとして、最終的な答えを出力する前に明示的な思考プロセスを生成し、高圧縮率の語彙表により中国語、アラビア語など9言語をより効率的に処理します。

長時間の推論における論理的ループや幻覚問題に対処するために、開発チームは2段階の強化学習(RL)を訓練中に導入しました。そのうち、好み最適化により長距離推論での「ループ」が効果的に減少し、特化した幻覚防止報酬機構により、知識ベースを超えた質問にはモデルが積極的に回答を拒否できるようになります。

エッジ側性能の強化とエコシステムの完全互換性

性能面では、LFM2.5は急激な成長を遂げており、論理的推論および幻覚防止のベンチマークテストにおいて前世代を大きく上回り、指示遵守においてはより大きなパラメータを持つモデルと同等の性能を発揮しています。ツール呼び出しにおいては、モデルはデフォルトで効率的なPython関数呼び出しを出力し、システムプロンプト内でJSON形式にシームレスに切り替えることが可能です。

このモデルはリリース当日に主流の推論エコシステムからの完全なサポートを得ました。llama.cpp、MLX、vLLM、SGLangなどが含まれます。ハードウェア実測では、M5 Maxチップ上で1秒あたり253バイトのデコード速度を達成し、モバイル端末でも1秒あたり約30バイトの速度を確保でき、エッジ側でのプライバシーと効率を両立させています。