阿里巴巴近日推出了一款名爲QVQ-72B的全新多模態推理模型,該模型基於Qwen2-VL-72B構建,融合了強大的語言和視覺能力,能夠處理更爲複雜的推理和分析任務,標誌着阿里巴巴在多模態AI領域取得了新的突破。



阿里巴巴近日推出了一款名爲QVQ-72B的全新多模態推理模型,該模型基於Qwen2-VL-72B構建,融合了強大的語言和視覺能力,能夠處理更爲複雜的推理和分析任務,標誌着阿里巴巴在多模態AI領域取得了新的突破。


美團開源多模態大模型LongCat-Flash-Omni實現技術突破,在多項基準測試中超越閉源競品,達到業界領先水平。該模型支持文本、語音、圖像、視頻的實時融合處理,具備近乎零延遲的交互能力,將本地化多模態AI應用推向新高度。
谷歌推出StreetReaderAI原型系統,幫助盲人和低視力用戶通過自然語言交互自主探索谷歌街景。該系統融合計算機視覺、地理信息系統和大語言模型,實現多模態AI驅動的實時對話式街景體驗,突破傳統語音播報侷限,提升無障礙城市探索自由度。
智源研究院發佈Emu3.5多模態世界模型,首次引入自迴歸式“下一狀態預測”技術,推動AI從感知理解邁向智能操作。該模型能在複雜環境中規劃執行跨模態任務,實現多模態AI質的飛躍。
百度將在11月世界2025大會上正式發佈小度AI眼鏡,計劃年內開售。該產品融合多模態AI與可穿戴技術,是百度智能硬件生態的重要佈局。其核心功能包括第一視角拍攝,可實時記錄用戶所見畫面,適用於生活記錄和內容創作。
馬斯克旗下xAI發佈視頻生成模型Imagine v0.9,在多模態AI創作領域實現突破。相比v0.1版本,新模型在畫質、動作自然度和音頻生成方面顯著提升:視覺質量接近電影級,動作流暢無斷層,並新增原生音頻生成功能。