正文

清华大学研发新视觉语言模型CogAgent，深化GUI理解与导航

发布于AI新闻资讯

发布时间 :2023年12月27号 15:35

阅读 :1分钟

清华大学智普AI团队推出CogAgent，该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航，采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航以及文本和视觉问答任务上均表现出色。CogAgent的潜在应用包括自动化GUI操作、提供GUI帮助和指导，以及推动新的GUI设计和交互方式。尽管仍在早期开发阶段，但该模型有望在计算机交互方式上带来重大改变。

IBM发布Granite 4.0 3B Vision：企业级文档数据提取的新利器

IBM发布Granite 4.0 3B Vision视觉语言模型，拥有30亿参数，专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题，在复杂表格、扫描件及多模态布局文档中表现突出，通过结合视觉理解与语言生成，精准识别并提取关键信息。

2026年4月2号 14:34

237.1k

Suno 压力大了！腾讯联手清华发布 SongGeneration 2，音素错误率低至 8.55%

腾讯与清华大学联合推出AI音乐模型SongGeneration2，在技术架构和音乐质量上实现重大突破，显著超越现有开源模型，甚至媲美顶级商业产品，有效解决了AI音乐的“塑料感”问题。

2026年3月10号 9:55

207.9k

AI 视觉模型深入“搬砖”一线：Bedrock Robotics 联手 AWS 破解建筑业用工荒

初创公司Bedrock Robotics与AWS合作，利用视觉语言模型（VLMs）解决了重型设备自动驾驶系统开发中的关键难题——海量视频数据标注。传统方法依赖人工标注数百万小时监控视频，而新技术显著提升了施工自动化系统的训练效率。

2026年2月24号 9:18

148.0k

挖掘视频“暗数据”！谷歌前员工创办 InfiniMind，助企业解锁 PB 级视频资产

东京初创公司InfiniMind获580万美元种子轮融资，由前谷歌员工创立，致力于开发AI基础设施，将海量未利用的视频音频“暗数据”转化为可搜索的结构化商业智能，应对企业数据处理挑战。

2026年2月10号 18:01

197.6k

一张打印纸竟能“劫持”自动驾驶：视觉语言模型暴露严重安全漏洞

自动驾驶汽车依赖路标识别，但加州大学研究揭示其致命弱点：攻击者通过打印特定文本的标识，就能利用视觉语言模型漏洞，诱导车辆做出危险决策，甚至驶向行人。这种“CHAI”攻击暴露了AI系统对视觉指令的过度依赖风险。

2026年2月2号 16:42

189.1k

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご