相關推薦
先理解再動手!字節開源統一框架 Bernini,讓 AI 視頻編輯告別“碰運氣”
字節跳動開源視頻生成與編輯統一框架Bernini,核心採用“先理解、再生成”的協同機制,解決傳統模型因無法精準理解複雜文本指令導致的畫面失控、幀間閃爍等痛點,突破主體變形、背景漂移等瓶頸。
Jun 3, 2026
202.2k
百度文心發佈PaddleOCR-VL-1.6:準確率破96.33%刷新文檔解析SOTA
百度發佈文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6評測中以96.33%準確率超越Gemini-3-Pro、GPT-5.2等主流模型,刷新SOTA,綜合性能全球第一。該模型標誌着多模態大模型在複雜文檔理解與真實場景解析上的重大突破,支持超100種語言識別,用戶覆蓋廣泛。
Jun 2, 2026
230.4k
編程與GUI雙向通吃!Qwen3.7-Plus 登場,11小時自主閉環開發真實APP
阿里發佈多模態大模型Qwen3.7-Plus,在文本能力基礎上增強視覺-語言功能,統一爲智能體基座。該模型融合GUI與CLI交互,實現從原型到軟件工程的端到端自動化,並在Vision Arena榜單中表現強勁。
Jun 2, 2026
182.7k
字節跳動開源Lance 3B:用一個“腦子”同時搞定圖視理解與生成
字節跳動開源Lance,一款僅3B激活參數的原生統一多模態大模型,打破“理解模型(VLM)”與“生成模型(DiT/Diffusion)”的技術壁壘。它以極致輕量化實現全功能覆蓋,挑戰當前AI行業堆砌參數或“拼積木”組裝模型的風氣,成爲技術創新的重要突破。
May 22, 2026
348.6k
英偉達發佈多模態“全能模型”,推理效率達競品 9 倍
英偉達發佈開放式多模態大模型Nemotron3Nano Omni,整合視頻、音頻、圖像和文本的深度推理能力,採用30B-A3B混合專家架構,內置視覺與音頻編碼器,旨在爲開發者提供更快速、更智能的交互響應方案。
Apr 29, 2026
231.3k
