在語義表徵領域,打破“英語中心主義”的壁壘正成爲大模型進化的新戰場。

3月26日,螞蟻集團 CodeFuse 團隊 聯合 上海交通大學 正式發佈了 F2LLM-v2系列 Embedding 模型。該系列模型不僅在權威評測中展現了統治級的表現,更以全開源的姿態,爲全球開發者提供了一套兼顧高性能與極致效率的語義表徵方案。

image.png

實力霸榜:MTEB 評測橫掃11項 SOTA

在衡量 Embedding 模型最權威的 MTEB 榜單中,F2LLM-v2 展現了全方位的領先優勢:

11項冠軍: 在德語、法語、日語以及代碼檢索等11個語種和領域榜單中位列第一

跨級挑戰: 即便是家族中的輕量級成員,在同尺寸下也多次擊敗了業界知名大模型。

深度覆蓋: 評測任務涵蓋醫療問答、代碼檢索等430個細分場景,實現了無死角覆蓋。

image.png

全能理解:精通282種自然語言與40+ 種代碼

F2LLM-v2 的強悍源於其極其包容的訓練底座:

多語種強化: 特別加強了對中低資源語言(如北歐語系、東南亞語系等)的支持,真正實現了全球化覆蓋。

編程專家: 深入理解 Python、Java、Go 等40多種編程語言,是 RAG(檢索增強生成)和代碼助手開發者的理想選擇。

高質量樣本: 依託6000萬經過嚴苛清洗的公開資源樣本,確保了模型知識的純粹性與廣泛性。

image.png

極致高效:從80M 到14B 的全尺寸家族

爲了適配從移動端到雲端的全場景需求,CodeFuse 團隊 打造了完整的模型矩陣:

端側友好:80M-330M 的小模型採用“模型裁剪”與“知識蒸餾”技術,可在移動設備上流暢運行。

“套娃”黑科技: 支持動態維度調整,用戶可以在8維到全維度之間自由切換,在推理速度與存儲成本之間找到完美平衡。

純粹開源:透明度定義社區標準

不同於許多“黑盒”模型,F2LLM-v2 堅持走完全開源路線:

全量開放: 所有尺寸的模型權重均已開放下載。

細節透明: 公佈完整技術報告,揭祕訓練全過程。

可復現性: 釋放全部代碼與檢查點,鼓勵全球研究者在此基礎上進行二次開發。

結語:打破壁壘,探索 AI 無限可能

作爲 CodeFuse 開源系列 的又一力作,F2LLM-v2 的發佈不僅提升了多語言 RAG 的準確率,更爲全球開發者提供了一個公平、透明且高性能的技術底座。在 AI 席捲全球的今天,聽懂世界,從每一個精準的 Embedding 開始。