相关推荐
先理解再动手!字节开源统一框架 Bernini,让 AI 视频编辑告别“碰运气”
字节跳动开源视频生成与编辑统一框架Bernini,核心采用“先理解、再生成”的协同机制,解决传统模型因无法精准理解复杂文本指令导致的画面失控、帧间闪烁等痛点,突破主体变形、背景漂移等瓶颈。
2026年6月3号 13:41
155.4k
百度文心发布PaddleOCR-VL-1.6:准确率破96.33%刷新文档解析SOTA
百度发布文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6评测中以96.33%准确率超越Gemini-3-Pro、GPT-5.2等主流模型,刷新SOTA,综合性能全球第一。该模型标志着多模态大模型在复杂文档理解与真实场景解析上的重大突破,支持超100种语言识别,用户覆盖广泛。
2026年6月2号 17:48
200.5k
编程与GUI双向通吃!Qwen3.7-Plus 登场,11小时自主闭环开发真实APP
阿里发布多模态大模型Qwen3.7-Plus,在文本能力基础上增强视觉-语言功能,统一为智能体基座。该模型融合GUI与CLI交互,实现从原型到软件工程的端到端自动化,并在Vision Arena榜单中表现强劲。
2026年6月2号 9:18
192.0k
字节跳动开源Lance 3B:用一个“脑子”同时搞定图视理解与生成
字节跳动开源Lance,一款仅3B激活参数的原生统一多模态大模型,打破“理解模型(VLM)”与“生成模型(DiT/Diffusion)”的技术壁垒。它以极致轻量化实现全功能覆盖,挑战当前AI行业堆砌参数或“拼积木”组装模型的风气,成为技术创新的重要突破。
2026年5月22号 14:22
363.5k
英伟达发布多模态“全能模型”,推理效率达竞品 9 倍
英伟达发布开放式多模态大模型Nemotron3Nano Omni,整合视频、音频、图像和文本的深度推理能力,采用30B-A3B混合专家架构,内置视觉与音频编码器,旨在为开发者提供更快速、更智能的交互响应方案。
2026年4月29号 9:03
231.3k
