正文

浙大校友与微软合作推出多模态模型LLaVA，挑战GPT-4V

发布于AI新闻资讯

发布时间 :2023年10月12号 9:26

阅读 :1分钟

浙大竺院的一位校友与微软研究院合作，推出了多模态模型LLaVA，挑战GPT-4V。LLaVA在11个测试数据集上表现出色，获得6k+星标。模型综合能力高，超过GPT-4V水平的85%。LLaVA的开源代码、模型和训练数据已经可供使用。

AI创作新高度：字节跳动发布Seedream 5.0 Pro，开启交互式精准编辑时代

字节跳动发布多模态AI模型Seedream5.0Pro，推动图像创作从生成迈向设计。该模型在图文匹配、结构合理性、文字渲染和画面质感上显著提升，并重点突破复杂信息可视化能力，能精准解析意图，将数据、概念和密集文字转化为专业视觉呈现。

前OpenAI研究员田永龙加盟腾讯，负责混元多模态模型与视觉语言模型研发。继姚顺雨后，又一位OpenAI核心人才转投腾讯混元，两人曾共事。姚顺雨2025年9月加入任首席AI科学家，直接向总裁汇报。

OpenAI前研究员田永龙已加入腾讯，或将担任混元多模态模型负责人，主导视觉语言模型（VLM）研发。消息尚未官宣但备受业界关注，继姚顺雨之后，他成为混元团队引进的又一核心人才，显示腾讯正加速强化多模态大模型领域的人才与技术布局。

稀宇科技今日宣布开源其原生多模态旗舰模型MiniMax M3，总参数428B，激活参数23B，为行业首个此类模型。此前已开放权重并发布稀疏注意力机制论文，引发广泛关注。该模型综合性能在开源模型中排名第一。

谷歌发布全新多模态模型Gemma4 12B，颠覆传统架构，取消独立编码器组件，实现消费级硬件上的高效本地部署与推理。这一突破显著降低多模态模型的计算复杂度，提升运行速度，标志着开源大模型生态进入新阶段。

智启未来，您的人工智能解决方案智库