當圖文、視頻、圖表甚至UI界面都能被統一“理解”並精準匹配,多模態信息檢索的邊界正在被徹底重構。今日,阿里通義實驗室正式開源Qwen3-VL-Embedding與Qwen3-VL-Reranker兩大模型,它們基於強大的Qwen3-VL多模態基座構建,專爲跨模態理解與高效檢索而生,一舉將多模態搜索從“關鍵詞匹配”時代推進至“語義對齊”的新紀元。

這兩款模型並非孤立存在,而是構成了一套協同作戰的智能檢索引擎。Qwen3-VL-Embedding採用高效的雙塔架構,能將文本、圖像、可視化文檔(如代碼截圖、數據圖表、App界面)乃至視頻等異構內容,獨立編碼爲統一高維語義空間中的向量表示。這意味着,無論用戶輸入是一段文字描述、一張產品圖,還是一段短視頻,系統都能將其映射到同一語義座標系中,實現毫秒級的跨模態相似度計算與海量數據召回。

image.png

而Qwen3-VL-Reranker則扮演着“精修大師”的角色。它採用單塔交叉注意力架構,對Embedding初步召回的結果進行深度重排序。當面對一個“圖文查詢匹配圖文文檔”或“視頻片段檢索相關文章”等複雜任務時,Reranker會將查詢與候選文檔聯合編碼,通過模型內部的交叉注意力機制,逐層剖析二者在語義、細節甚至上下文邏輯上的深層關聯,最終輸出一個精確的相關性分數。這種“Embedding快速召回 + Reranker精細排序”的兩階段流程,顯著提升了最終檢索結果的準確率與相關性。

image.png

技術實力最終由數據說話。在MMEB-v2和MMTEB等權威多模態基準測試中,Qwen3-VL系列表現亮眼。其8B版本的Embedding模型在MMEB-v2上超越了所有已知的開源模型及主流閉源商業服務;Reranker模型則在包括JinaVDR、ViDoRe v3在內的視覺文檔檢索任務中持續領先,8B版本在多數子項中拔得頭籌。尤爲難得的是,該系列繼承了Qwen3-VL的多語言基因,支持超過30種語言,且提供靈活的向量維度選擇、指令微調能力以及高性能量化版本,極大降低了開發者集成門檻。

此次開源不僅是技術成果的釋放,更標誌着多模態AI基礎設施的成熟。過去,圖文檢索、視頻理解、文檔分析往往需要各自獨立的模型和流程;如今,Qwen3-VL雙子星提供了一個統一、高效且開源的解決方案,讓開發者能夠在一個框架內處理幾乎所有混合模態內容。隨着真實世界的數據日益以多模態形式涌現,這套工具或將加速推動搜索引擎、內容平臺、企業知識庫乃至智能助理的下一代進化——在那裏,機器真正“看懂”並“理解”我們所見、所寫、所拍的一切。

項目地址:https://github.com/QwenLM/Qwen3-VL-Embedding