Liquid AI は最近、LFM2.5をリリースしました。これは、エッジデバイスとローカル配置に焦点を当てた、次世代の小規模なベースモデルファミリーです。このモデルファミリーには、LFM2.5-1.2B-BaseおよびLFM2.5-1.2B-Instructが含まれており、日本語、ビジュアル言語および音声言語のバリアントも拡張されています。これらのモデルは、Hugging Faceでオープンソースの重みとして公開され、LEAPプラットフォームで展示されています。
LFM2.5は、CPUとNPU向けに設計されたハイブリッドなLFM2アーキテクチャを保持しており、高速でメモリ効率の高い推論を実現することを目的としています。このモデルの事前トレーニング段階では、パラメータ数が1億2,000万に拡大され、トレーニングデータは10兆トークンから28兆トークンに拡大されました。その後、指示変種モデルは、監督的な微調整、好みの一致、そして大規模な複数段階の強化学習を経て、指示に従うこと、ツールの使用、数学および知識の推論に特化しています。

テキストモデルの性能に関して、LFM2.5-1.2B-Instructは主な汎用テキストモデルです。Liquid AIチームは、GPQA、MMLU Pro、IFEval、IFBenchなどの複数のベンチマークで結果を報告しており、GPQAでは38.89、MMLU Proでは44.35を記録しました。これらのスコアは、Llama-3.2-1B InstructやGemma-3-1B ITなどの同様のオープンソースモデルよりも顕著に高いです。
さらに、LFM2.5-1.2B-JPは、日本語専用に最適化されたテキストモデルであり、日本語のJMMLU、M-IFEval、GSM8Kなどのタスクに最適化されています。このチェックポイントは、一般的な指示モデルを上回り、これらのローカルベンチマークテストで他の小さなマルチリンガルモデルと競合しています。
マルチモーダルエッジワークロードにおいて、LFM2.5-VL-1.6Bは、画像理解のビジュアルモジュールを組み合わせたシリーズのアップデートされたビジュアル言語モデルです。このモデルは、ドキュメントの理解、ユーザーインターフェースの読み取り、複数画像の推論などの実際の応用をサポートするようにチューニングされており、エッジ環境で効率的に動作できます。
LFM2.5-Audio-1.5Bは、テキストおよび音声入出力をサポートするネイティブな音声言語モデルであり、新しい音声逆トークナイザを使用しており、前の方案に比べて8倍速く動作します。これは、リアルタイムの音声対話エージェントや自動音声認識などのタスクに適しています。
https://www.liquid.ai/blog/introducing-lfm2-5-the-next-generation-of-on-device-ai
ポイント:
🌟 LFM2.5は、LFM2アーキテクチャに基づいた小型の基本モデルファミリーで、テキスト、ビジュアル言語、音声言語の多様なバリエーションをサポートしています。
📈 このモデルは、特にGPQAおよびMMLU Proで他のモデルを凌駕する優れた性能を示しています。
🌐 LFM2.5シリーズはマルチモーダルおよび地域最適化をカバーし、さまざまな実際のアプリケーションに適した強力なエッジコンピューティング能力を提供します。
