5月24日,字節跳動Seed團隊聯合香港科技大學發佈了一項針對多模態大語言模型(LMM)長文檔訓練的最新研究成果。研究人員基於阿里巴巴開源的
這項研究的核心發現直擊當前LMM訓練的痛點:在多模態長文檔訓練中,針對特定目標進行問答對(QA)訓練的效果顯著優於傳統的字符識別(OCR)轉錄。實驗表明,純文本轉錄作爲訓練任務非但無法提升模型在長上下文中的定位能力,反而會導致性能下降;而通過獨立模型(如
基於這一優化策略,MMProLong 在僅 128,000個Token 的有限訓練預算下,展現出極強的長文本穩定性,在輸入長度達到 256,000乃至512,000個Token 時依然沒有出現性能崩潰,並在 MMLongBench 和 MM-NIAH(大海撈針)基準測試中大幅超越 InternVL3-38B 和
此項研究爲當前大模型行業提供了一條不同於 DeepSeek(通過視覺信息高度壓縮與重新排序升級架構)的演進路線,證明了通過優化訓練數據結構而非改動底層架構,同樣能實現長上下文能力的跨越式提升,爲未來更長模態、多步驟智能體的開發開闢了更爲經濟、高效的技術可行性。
