橫掃 11 項榜單冠軍！螞蟻集團發佈 F2LLM-v2：全尺寸、多語種的“六邊形”嵌入模型

在語義表徵領域，打破“英語中心主義”的壁壘正成爲大模型進化的新戰場。

3月26日，螞蟻集團 CodeFuse 團隊 聯合 上海交通大學 正式發佈了 F2LLM-v2系列 Embedding 模型。該系列模型不僅在權威評測中展現了統治級的表現，更以全開源的姿態，爲全球開發者提供了一套兼顧高性能與極致效率的語義表徵方案。

實力霸榜:MTEB 評測橫掃11項 SOTA

在衡量 Embedding 模型最權威的 MTEB 榜單中，F2LLM-v2 展現了全方位的領先優勢:

11項冠軍: 在德語、法語、日語以及代碼檢索等11個語種和領域榜單中位列第一。

跨級挑戰: 即便是家族中的輕量級成員，在同尺寸下也多次擊敗了業界知名大模型。

深度覆蓋: 評測任務涵蓋醫療問答、代碼檢索等430個細分場景，實現了無死角覆蓋。

全能理解:精通282種自然語言與40+ 種代碼

F2LLM-v2 的強悍源於其極其包容的訓練底座:

多語種強化: 特別加強了對中低資源語言（如北歐語系、東南亞語系等）的支持，真正實現了全球化覆蓋。

編程專家: 深入理解 Python、Java、Go 等40多種編程語言，是 RAG（檢索增強生成）和代碼助手開發者的理想選擇。

高質量樣本: 依託6000萬經過嚴苛清洗的公開資源樣本，確保了模型知識的純粹性與廣泛性。

極致高效:從80M 到14B 的全尺寸家族

爲了適配從移動端到雲端的全場景需求，CodeFuse 團隊 打造了完整的模型矩陣:

端側友好:80M-330M 的小模型採用“模型裁剪”與“知識蒸餾”技術，可在移動設備上流暢運行。

“套娃”黑科技: 支持動態維度調整，用戶可以在8維到全維度之間自由切換，在推理速度與存儲成本之間找到完美平衡。

純粹開源:透明度定義社區標準

不同於許多“黑盒”模型，F2LLM-v2 堅持走完全開源路線:

全量開放: 所有尺寸的模型權重均已開放下載。

細節透明: 公佈完整技術報告，揭祕訓練全過程。

可復現性: 釋放全部代碼與檢查點，鼓勵全球研究者在此基礎上進行二次開發。

結語:打破壁壘，探索 AI 無限可能

作爲 CodeFuse 開源系列 的又一力作，F2LLM-v2 的發佈不僅提升了多語言 RAG 的準確率，更爲全球開發者提供了一個公平、透明且高性能的技術底座。在 AI 席捲全球的今天，聽懂世界，從每一個精準的 Embedding 開始。

螞蟻集團入股躍然創新：AI 玩具賽道迎來“大廠”重量級玩家