阿里雲開源了視覺語言模型Qwen-VL,這是繼8月開源通用模型Qwen-7B和對話模型Qwen-7B-Chat之後,又一個開源的大模型。Qwen-VL支持中英文,可以進行知識問答、圖像標題生成、圖像問答等多種應用。相比其他模型,Qwen-VL可以進行中文開放域定位,在圖像中準確標註檢測框。Qwen-VL基於Qwen-7B研發,引入視覺編碼器,支持圖像輸入。Qwen-VL在多項視覺語言任務中的測試中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平臺開源。多模態是大模型發展的重要方向,仍面臨一定技術挑戰。