AI 視頻生成與編輯領域迎來底層邏輯的重構。字節跳動商業化技術團隊近日正式開源了面向視頻生成與視頻編輯的統一框架——Bernini。該框架核心主打“先理解、再生成”的協同機制,旨在解決傳統模型因無法精準理解複雜文本指令而導致畫面失控、幀間閃爍等行業痛點。

傳統的視頻編輯往往面臨主體變形、背景漂移或動作斷裂等技術瓶頸。爲了打破這一僵局,Bernini巧妙地將工作流拆分爲“語義規劃”與“視覺渲染”兩部分。系統首先通過多模態大模型規劃器(MLLM-based planner)深度解析文本、視頻及參考圖像等輸入素材,在特徵空間中預測出目標語義表示,即勾勒出一張不限定像素的“語義草圖”;隨後,再由基於 Diffusion Transformer 的渲染器(DiT-based renderer)進行高質量視覺渲染,將規劃好的語義目標轉化爲穩定、連續的視頻畫面。

image.png

得益於這一分工,Bernini在可控編輯上展現出了極高的實用價值。用戶不僅能通過一條指令讓畫面中的天氣、季節、材質和視覺風格發生逼真自然的變化,還能實現對鏡頭視角、焦點以及主體動作的精準語義控制。例如,在保持環境與鏡頭高度穩定的前提下,系統可讓視頻中的動物動作發生自然改變,讓 AI 視頻編輯更接近傳統後期軟件的精準度。

除了文本操控,Bernini還支持圖片和視頻作爲視覺參考,大幅提升了創作的一致性。在視頻編輯場景中,它可以將特定材質、指定主體甚至廣告海報與視頻素材精準植入目標區域,確保邊界不破、透視不亂;而在新視頻生成場景中,該模型支持單圖參考生成、多角度參考生成、關鍵幀到連續鏡頭的演變,甚至能將幾個八竿子打不着的單品圖像完美組合到同一個視頻角色身上。

爲了解決多視覺片段串聯時模型容易認混的難題,團隊還引入了 SA-3D RoPE 位置編碼機制,賦予不同視覺片段專屬標記,從而在保留時空位置關係的同時分清參考素材與輸出目標。目前,在字節自建的測試中,該框架已穩居行業第一梯隊。據悉,Bernini的推理代碼與第二階段模型 Bernini-R 權限已正式放開,包含完整 MLLM 規劃器的全版本也將在近期迎來全面開放。