谷歌研究團隊最新推出的 ReCapture 技術,正在顛覆傳統視頻編輯的玩法。這項創新讓普通用戶也能輕鬆實現專業級的攝像機運動調整,爲已拍攝的視頻重新設計鏡頭語言。
傳統視頻後期製作中,改變已拍攝視頻的鏡頭角度一直是個技術難題。現有方案在處理不同類型的視頻內容時,往往難以同時保持複雜的運鏡效果和畫面細節。ReCapture 另闢蹊徑,沒有采用傳統的4D 中間表示方法,而是巧妙利用生成式視頻模型中儲存的運動知識,通過 Stable Video Diffusion 將任務重新定義爲視頻到視頻的轉換過程。

這套系統採用兩階段工作流程。第一階段生成"錨定視頻",也就是具有新機位的初始輸出版本。這一階段可以通過 CAT3D 等擴散模型創建多角度視頻,或者通過逐幀深度估計和點雲渲染來實現。雖然這個版本可能存在一些時序不連貫和視覺瑕疵,但爲第二階段奠定了基礎。
第二階段應用帶遮罩的視頻微調,利用在現有素材上訓練的生成式視頻模型來創建真實的運動效果和時序變化。系統引入了時序 LoRA(低秩適應)層來優化模型,使其能夠理解和複製錨定視頻的具體動態特徵,無需重新訓練整個模型。同時,空間 LoRA 層確保了畫面細節和內容與新的攝像機運動保持一致。這使得生成式視頻模型能夠在保持原始視頻特徵運動的同時,完成變焦、平移和傾斜等操作。
儘管 ReCapture 在用戶友好的視頻處理方面取得了重要進展,但目前仍處於研究階段,距離商業化應用還有一段距離。值得注意的是,雖然谷歌擁有衆多視頻 AI 項目,但尚未將其推向市場,其中 Veo 項目可能最接近商用。同樣,Meta 最近推出的 Movie-Gen 模型以及 OpenAI 年初發布的 Sora 也都未實現商業化。目前,視頻 AI 市場主要由 Runway 等創業公司引領,該公司已於去年夏天推出了最新的 Gen-3Alpha 模型。
