在語義表徵領域,打破“英語中心主義”的壁壘正成爲大模型進化的新戰場。
3月26日,

實力霸榜:MTEB 評測橫掃11項 SOTA
在衡量 Embedding 模型最權威的 MTEB 榜單中,
11項冠軍: 在德語、法語、日語以及代碼檢索等11個語種和領域榜單中位列第一。
跨級挑戰: 即便是家族中的輕量級成員,在同尺寸下也多次擊敗了業界知名大模型。
深度覆蓋: 評測任務涵蓋醫療問答、代碼檢索等430個細分場景,實現了無死角覆蓋。

全能理解:精通282種自然語言與40+ 種代碼
多語種強化: 特別加強了對中低資源語言(如北歐語系、東南亞語系等)的支持,真正實現了全球化覆蓋。
編程專家: 深入理解 Python、Java、Go 等40多種編程語言,是 RAG(檢索增強生成)和代碼助手開發者的理想選擇。
高質量樣本: 依託6000萬經過嚴苛清洗的公開資源樣本,確保了模型知識的純粹性與廣泛性。

極致高效:從80M 到14B 的全尺寸家族
爲了適配從移動端到雲端的全場景需求,
端側友好:80M-330M 的小模型採用“模型裁剪”與“知識蒸餾”技術,可在移動設備上流暢運行。
“套娃”黑科技: 支持動態維度調整,用戶可以在8維到全維度之間自由切換,在推理速度與存儲成本之間找到完美平衡。
純粹開源:透明度定義社區標準
不同於許多“黑盒”模型,
全量開放: 所有尺寸的模型權重均已開放下載。
細節透明: 公佈完整技術報告,揭祕訓練全過程。
可復現性: 釋放全部代碼與檢查點,鼓勵全球研究者在此基礎上進行二次開發。
結語:打破壁壘,探索 AI 無限可能
作爲
