字節跳動聯合港科大發布MMProLong：長文檔LMM訓練問答對效率遠超OCR轉錄

5月24日，字節跳動Seed團隊聯合香港科技大學發佈了一項針對多模態大語言模型（LMM）長文檔訓練的最新研究成果。研究人員基於阿里巴巴開源的Qwen2.5-VL構建了名爲 MMProLong 的新模型，並在長文檔處理效率上取得突破性進展。該研究不僅打破了多模態模型長文本訓練的傳統路徑，更揭示了數據組織形式對模型長上下文能力的關鍵影響。

這項研究的核心發現直擊當前LMM訓練的痛點:在多模態長文檔訓練中，針對特定目標進行問答對（QA）訓練的效果顯著優於傳統的字符識別（OCR）轉錄。實驗表明，純文本轉錄作爲訓練任務非但無法提升模型在長上下文中的定位能力，反而會導致性能下降;而通過獨立模型（如字節跳動Seed2.0）生成的長上下文問答對進行訓練，則能引導模型在冗長干擾信息中精準檢索目標段落。

基於這一優化策略，MMProLong 在僅 128，000個Token 的有限訓練預算下，展現出極強的長文本穩定性，在輸入長度達到 256，000乃至512，000個Token 時依然沒有出現性能崩潰，並在 MMLongBench 和 MM-NIAH（大海撈針）基準測試中大幅超越 InternVL3-38B 和Gemma3-27B等體量更大的開源模型。此外，MMProLong 的多模態能力還成功遷移至未經專門訓練的長視頻理解任務中，並在Qwen3-VL-8B模型上同樣驗證了該策略 water-proof 的有效性。

此項研究爲當前大模型行業提供了一條不同於 DeepSeek（通過視覺信息高度壓縮與重新排序升級架構）的演進路線，證明了通過優化訓練數據結構而非改動底層架構，同樣能實現長上下文能力的跨越式提升，爲未來更長模態、多步驟智能體的開發開闢了更爲經濟、高效的技術可行性。

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

DeepSeek V4下週發佈:原生支持影音圖文生成，適配國產算力

深度求索將於下週發佈多模態大模型V4，原生支持圖像、視頻與文本生成，旨在填補國內高性能低成本開源多模態模型市場空白。這是繼1月發佈R1推理模型後的首次重大更新。發佈初期將提供簡要技術說明，一個月後公開詳細工程報告。V4模型已與華爲、寒武紀完成底層生態合作。

DeepSeek V4 發佈在即！全新多模態模型讓 AI 生成更智能

深度求索將於下週推出多模態大模型DeepSeek V4，原生支持圖像、視頻和文本生成。這是繼今年1月發佈R1推理模型後的首次重大更新，旨在滿足國內對低成本開源模型的需求，推動AI發展。同時將發佈簡要技術說明，詳細版本預計一個月後推出。

字節跳動聯合港科大發布MMProLong：長文檔LMM訓練問答對效率遠超OCR轉錄

相關推薦

騰訊混元等聯合發佈首個古文字OCR評測基準 Chronicles-OCR

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

DeepSeek V4下週發佈:原生支持影音圖文生成，適配國產算力

DeepSeek V4 發佈在即！全新多模態模型讓 AI 生成更智能

字節跳動發佈“震動級”AI模型 Vidi2:120億參數，讓視頻編輯徹底自動化