正文

通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

aibase

发布于AI新闻资讯

发布时间 :2023年8月25号 14:08

阅读 :1分钟

阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问答等多种应用。相比其他模型,Qwen-VL可以进行中文开放域定位,在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发,引入视觉编码器,支持图像输入。Qwen-VL在多项视觉语言任务中的测试中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向,仍面临一定技术挑战。

相关推荐

阿里新一代大模型千问3. 8 将至：预览版抢先登陆阿里云与Qoder，正式版拟近期开源

国内大模型开源节奏持续加快。阿里即将发布并开源新一代通义千问3.8，预览版Qwen3.8-Max已率先上线阿里云Token Plan、Qoder及QoderWork三平台，用户可提前体验其能力边界，正式版近期推出。此举进一步推动通义千问家族在开源赛道上的迭代与布局。

2026年7月20号 8:57

通义千问正式接入苹果生态，国内Apple智能体验迎来重磅升级

阿里巴巴确认，自研大模型通义千问已接入Apple智能，将全面集成至中国区iPhone、iPad、Mac和Vision Pro等设备。届时用户可在iOS、iPadOS、macOS、visionOS系统层直接调用，实现图文深度理解与高质量生成等智能操作，彻底告别以往需要频繁切换的繁琐体验。

2026年7月16号 16:28

阿里确认通义千问集成至Apple智能，苹果端侧大模型7月完成备案

7月15日，阿里确认通义千问大模型将集成到苹果Apple智能中。此前7月8日，该模型已备案，除阿里外百度也参与合作，负责AI搜索与Siri

2026年7月16号 9:42

豆包千问同日下线智能体功能，国内首部AI拟人化互动服务新规今起正式施行

字节跳动豆包、阿里通义千问今日下线智能体功能，用户无法新建或调用。下线日恰逢《人工智能拟人化互动服务管理暂行办法》施行。该办法由五部门联合发布，系我国首部专门立法，不搞“一刀切”，重点盯防虚拟伴侣等拟人化互动。

2026年7月15号 10:31

通义千问重磅升级：实时语音识别模型 Fun-ASR-Realtime 正式发布

通义千问推出实时语音识别模型Fun-ASR-Realtime，首字延迟降至百毫秒级，实现“即说即反馈”的流畅交互。其识别准确度接近离线模型，在保证高精度同时突破实时性瓶颈，标志语音交互体验迈向新高度。

2026年7月6号 15:12

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2026AIBase