近日,字節跳動(ByteDance Research)正式開源了其原生統一多模態大模型——Lance。
在當前 AI 行業動輒堆砌數百億甚至上萬億參數、或者靠“拼積木”組裝大模型的風氣下,Lance 的出現無疑是一記重錘:它不僅以僅3B(30億)的極致輕量化激活參數量實現了全功能覆蓋,更是打破了長期以來“理解模型(VLM)”與“生成模型(DiT/Diffusion)”之間的技術高牆。

核心看點:
原生統一: 拒絕“拼接”,從零訓練起就將圖像/視頻的理解、生成與跨模態編輯塞進同一個模型體系。
全能跑通: 單個模型完美閉環 $X \rightarrow T$(文/視理解)、$X \rightarrow I$(圖生成/編輯)、$X \rightarrow V$(視頻生成/編輯)三大核心輸出任務。
開源白嫖: 採用極其友好的 Apache2.0協議,權重已全面上線 Hugging Face,平民級128張 A100算力預算即可跑通全程。
技術解密:它是如何讓相反的需求“同頻共振”的?
在傳統的 AI 架構中,大模型的“理解”和“生成”是一對不可調和的矛盾:理解任務需要剝離噪點、提煉高層語義特徵;而生成任務則恰恰相反,需要死磕紋理、幾何結構和時序動態等低層連續表示。
爲了攻克這一業界公認的難題,Lance 引入了極其精妙的“共享上下文 + 能力解耦並行”設計:
1. 統一交錯序列與雙流專家架構
所有文本、圖像、視頻輸入進入模型前,首先會被打散並轉化爲統一的“交錯序列”。隨後,這一序列被送入雙流專家架構(Dual-Stream MoE),讓專門負責“理解”與“生成”的專家路由各司其職,完美解決能力衝突。
理解側: 文本標記與視覺輸入分別依賴 Qwen2.5-VL 的嵌入層與 ViT 編碼器,精準提取高能語義視覺標記(Tokens)。
生成側: 視覺輸入由 Wan2.2 強大的3D 因果 VAE 壓縮編碼,實現 $16\times$ 空間下采樣和 $4\times$ 時間下采樣,保留最細膩的動態連續表示。
2. MaPE(模態感知旋轉位置編碼)
當同一條長序列裏同時混合了圖、文、視多種視覺標記時,極易產生“邊界混淆”的幻覺。Lance 獨創了 MaPE 機制,通過爲不同模態組添加固定的時間偏移量。這一精妙設計在不破壞圖像和視頻內部空間結構與時間順序的前提下,讓模型擁有了極強的空間和時間邊界辨識力。
[統一交錯序列] ───► [MaPE 模態邊界隔離] ───► [雙流專家架構 (MoE)]
4階段極限煉丹:128張顯卡打完的“精益戰役”
相比於大廠動輒上萬張卡閉眼燒錢的“暴力美學”,Lance 的訓練過程展現了極高的“財務責任感”。整個生命週期被死死壓在最多128張 GPU 預算內,通過4個環環相扣的階段精細化推進:
階段1:預訓練(1.5T Tokens) —— 狂啃1B 圖文對和140M 視頻文本對,打牢多模態底座。
階段2:持續訓練(300B Tokens) —— 引入編輯、主體驅動生成、多模態理解數據,激活多任務協同效應。
階段3:監督微調 SFT(72B Tokens) —— 瘋狂注入人類指令,死磕指令遵循和視覺身份(ID)一致性。
階段4:強化學習 RL(GRPO 算法) —— 採用組相對策略優化,並罕見地搬出 PaddleOCR 作爲獎勵模型(Reward Model),針對性地暴擊 AI 在圖片中“文字渲染不準”以及“圖文不對齊”的頑疾。
戰績彪炳:3B 戰神跨界狂虐7B 巨獸
得益於跨任務的數據協同效應(模型在學生成的過程中加深了理解,在學理解的同時反哺了生成的空間感),3B 體積的 Lance 在各項硬核基準測試(Benchmarks)中斬獲了驚人的越級表現:
視頻生成(VBench): 轟下 85.11分!不僅將同類全能模型 TUNA(84.06)斬於馬下,甚至直接超越了 HunyuanVideo(83.33)和 Wan2.1-T2V(83.69)等純視頻生成大模型。
圖像生成(GenEval): 總分跑出 0.90,強勢殺入全球開源梯隊最前列。
視頻理解(MVBench): 斬獲 62.0分,將體積比它大一倍的專用理解模型 Show-o2(7B,55.7分)遠遠甩在身後。
行業震盪:多模態應用部署成本將迎斷崖式下跌
Lance 的開源,對於整個生成式 AI、尤其是當前火爆的 AI 短劇、智能體(Agent)協作、互動媒體等賽道而言,是一場大象盪鞦韆般的產業降維打擊。
過去,想要開發一款既能看懂劇本、又能生成分鏡,還能根據反饋實時修改畫面並保持角色一致性的 AI 工具,開發者必須在後臺同時掛載、調度、縫合好幾個大模型(一個算 VLM 語義、一個調 Diffusion 圖、一個拉時序視頻)。這不僅導致系統卡頓、光是多模型之間的管道對齊就能讓人崩潰。
現在,Lance3B 用一個大腦實現了“左眼看、右眼編、雙手創”。其極低的參數量意味着企業端側與服務器端的部署成本、推理延遲和算力消耗將迎來斷崖式下跌。目前,該模型的公測環境要求爲 Python3.10+、CUDA12.4+,以及最低40GB 顯存(單張消費級顯卡或輕量服務器即可輕鬆驅動)。字節跳動這一波“開源科技春風”,無疑讓2026下半場的 AIGC 工業化量產跑得更穩、更快。
