正文

通義千問能看圖了!阿里雲開源視覺語言大模型Qwen-VL ,支持圖文雙模態輸入

aibase

發布於AI新閒資訊

時間 :Aug 25, 2023

閱讀 :1分鐘

阿里雲開源了視覺語言模型Qwen-VL,這是繼8月開源通用模型Qwen-7B和對話模型Qwen-7B-Chat之後,又一個開源的大模型。Qwen-VL支持中英文,可以進行知識問答、圖像標題生成、圖像問答等多種應用。相比其他模型,Qwen-VL可以進行中文開放域定位,在圖像中準確標註檢測框。Qwen-VL基於Qwen-7B研發,引入視覺編碼器,支持圖像輸入。Qwen-VL在多項視覺語言任務中的測試中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平臺開源。多模態是大模型發展的重要方向,仍面臨一定技術挑戰。

相關推薦

阿里新一代大模型千問3. 8 將至：預覽版搶先登陸阿里雲與Qoder，正式版擬近期開源

國內大模型開源節奏持續加快。阿里即將發佈並開源新一代通義千問3.8，預覽版Qwen3.8-Max已率先上線阿里雲Token Plan、Qoder及QoderWork三平臺，用戶可提前體驗其能力邊界，正式版近期推出。此舉進一步推動通義千問家族在開源賽道上的迭代與佈局。

通義千問正式接入蘋果生態，國內Apple智能體驗迎來重磅升級

阿里巴巴確認，自研大模型通義千問已接入Apple智能，將全面集成至中國區iPhone、iPad、Mac和Vision Pro等設備。屆時用戶可在iOS、iPadOS、macOS、visionOS系統層直接調用，實現圖文深度理解與高質量生成等智能操作，徹底告別以往需要頻繁切換的繁瑣體驗。

阿里確認通義千問集成至Apple智能，蘋果端側大模型7月完成備案

7月15日，阿里確認通義千問大模型將集成到蘋果Apple智能中。此前7月8日，該模型已備案，除阿里外百度也參與合作，負責AI搜索與Siri

豆包千問同日下線智能體功能，國內首部AI擬人化互動服務新規今起正式施行

字節跳動豆包、阿里通義千問今日下線智能體功能，用戶無法新建或調用。下線日恰逢《人工智能擬人化互動服務管理暫行辦法》施行。該辦法由五部門聯合發佈，系我國首部專門立法，不搞“一刀切”，重點盯防虛擬伴侶等擬人化互動。

通義千問重磅升級：實時語音識別模型 Fun-ASR-Realtime 正式發佈

通義千問推出實時語音識別模型Fun-ASR-Realtime，首字延遲降至百毫秒級，實現“即說即反饋”的流暢交互。其識別準確度接近離線模型，在保證高精度同時突破實時性瓶頸，標誌語音交互體驗邁向新高度。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase