在科技的浪潮中,抖音 SAIL 團隊與 LV-NUS Lab 強強聯手,推出了一款名爲 SAIL-VL2的多模態大模型。這個新模型在保持較小參數規模的同時,竟然在複雜推理任務中超過了許多同類模型,甚至能與更大型的閉源模型相抗衡。這一突破性的進展無疑刷新了小模型的應用可能性。

SAIL-VL2的參數設置分爲2B 和8B,在106個數據集上實現了性能的突破,尤其在 MMMU、MathVista 等複雜推理基準測試中表現優異。這個模型展示了一種新範式,即 “小模型也能有強能力”。爲了確保這一點,SAIL-VL2在數據、訓練及架構設計上進行了三大方面的創新。

image.png

在架構設計上,SAIL-VL2引入了稀疏混合專家(MoE),以優化性能和計算效率。其視覺編碼器 SAIL-ViT 採用漸進式優化,逐步提升視覺 - 語言的對齊能力。這種創新設計使得 SAIL-VL2在推理時僅需激活部分參數,大幅度提升了模型的計算效率。

數據層面上,SAIL-VL2構建了高質量的多模態語料庫,通過評分過濾和合成增強手段,確保數據的準確性和多樣性。同時,團隊還設計了一套漸進式的訓練框架,從基礎感知逐步過渡到複雜推理,使得模型在不同任務中的表現更加出色。

通過全鏈路優化,SAIL-VL2在基礎模型的性能上取得了顯著進展。數據顯示,該模型在多項基準測試中脫穎而出,其8B 規模的模型在推理能力上,已然與最新的 GPT-4o 不相上下。這樣的進展不僅爲科研界帶來了新的希望,也爲未來多模態模型的應用開闢了新的道路。

SAIL-VL2的開源代碼和模型也已在 GitHub 和 Hugging Face 上發佈,便於研究者和開發者的使用與深入探索。無論是在學術研究還是工業應用中,SAIL-VL2都展現出強大的潛力與應用前景。