5月24日,字節跳動Seed團隊聯合香港科技大學發佈了一項針對多模態大語言模型(LMM)長文檔訓練的最新研究成果。研究人員基於阿里巴巴開源的Qwen2.5-VL構建了名爲 MMProLong 的新模型,並在長文檔處理效率上取得突破性進展。該研究不僅打破了多模態模型長文本訓練的傳統路徑,更揭示了數據組織形式對模型長上下文能力的關鍵影響。

這項研究的核心發現直擊當前LMM訓練的痛點:在多模態長文檔訓練中,針對特定目標進行問答對(QA)訓練的效果顯著優於傳統的字符識別(OCR)轉錄。實驗表明,純文本轉錄作爲訓練任務非但無法提升模型在長上下文中的定位能力,反而會導致性能下降;而通過獨立模型(如字節跳動Seed2.0)生成的長上下文問答對進行訓練,則能引導模型在冗長干擾信息中精準檢索目標段落。

基於這一優化策略,MMProLong 在僅 128,000個Token 的有限訓練預算下,展現出極強的長文本穩定性,在輸入長度達到 256,000乃至512,000個Token 時依然沒有出現性能崩潰,並在 MMLongBench 和 MM-NIAH(大海撈針)基準測試中大幅超越 InternVL3-38B 和Gemma3-27B等體量更大的開源模型。此外,MMProLong 的多模態能力還成功遷移至未經專門訓練的長視頻理解任務中,並在Qwen3-VL-8B模型上同樣驗證了該策略 water-proof 的有效性。

此項研究爲當前大模型行業提供了一條不同於 DeepSeek(通過視覺信息高度壓縮與重新排序升級架構)的演進路線,證明了通過優化訓練數據結構而非改動底層架構,同樣能實現長上下文能力的跨越式提升,爲未來更長模態、多步驟智能體的開發開闢了更爲經濟、高效的技術可行性。