阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问答等多种应用。相比其他模型,Qwen-VL可以进行中文开放域定位,在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发,引入视觉编码器,支持图像输入。Qwen-VL在多项视觉语言任务中的测试中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向,仍面临一定技术挑战。
相关推荐
知乎2025年度 AI 产品榜单揭晓,豆包位居榜首
知乎发布2025年度AI产品榜单,通过用户反馈与专业评估,为市场趋势提供权威参考。榜单中,字节跳动豆包获“知友年度爱用”榜首,展现其市场领先地位。
2025年12月24号 11:41
189.2k
爱诗科技与阿里云签署全面合作协议 推动 AI 视频全球化发展
爱诗科技与阿里云签署全面合作协议,双方将在AI视频生成领域展开深度合作,涵盖模型、算力、产品、生态及商业等多个层面,共同推动技术发展。阿里云将为爱诗科技提供基础设施支持,助力其全球化布局。
2025年12月17号 15:28
130.3k
23天狂飙3000万月活!阿里通义千问直接“免费放大招”,PPT、写作、文库、讲题全线免费用
阿里通义千问公测23天月活突破3000万,创国内大模型最快增长纪录。同时宣布四大生产力功能——AI PPT、AI写作、AI文库、AI讲题永久免费开放,零门槛无限制,引发广泛关注。用户反馈显示,市场更青睐能解决实际问题的“生产力神器”,而非仅能聊天的AI。
2025年12月10号 16:24
230.4k
杭州瞳行科技发布国内首款AI助盲眼镜,3000元内实现300毫秒路况播报
瞳行科技推出国内首款AI助盲眼镜,集成阿里通义千问大模型,为视障人士提供实时出行辅助。产品由眼镜、手机、遥控指环和盲杖协同工作,通过双摄像头实现300毫秒低延迟路况播报,支持识别公交牌、路标及环境概述。技术总监陈刚表示,大模型压缩70%研发成本,加速算法落地。眼镜还具备本地文本识别功能。
2025年12月3号 14:48
159.2k
NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖
阿里巴巴通义千问团队在NeurIPS 2025获最佳论文奖,论文《Attention Gating Makes Better Foundation Models》提出“滑动门”机制,在标准注意力后添加可学习门控,动态筛选关键头和token参与下游计算。实验证明,1.7B稠密模型性能媲美15B MoE模型。本届大会投稿2万篇,录取率仅25%,竞争激烈,该论文是四篇获奖作品中唯一中国成果。
2025年11月28号 18:01
364.4k
