還記得那些年,我們苦苦等待視頻生成模型渲染每一幀的漫長時光嗎?現在,告別龜速,迎接光速!Adobe和MIT強強聯手,推出一款名爲CausVid的“因果”視頻生成模型,它能以每秒9.4幀的速度實時生成高質量視頻,首幀延遲僅需1.3秒!這項突破性技術將徹底改變視頻內容創作方式,爲遊戲、虛擬現實和流媒體等領域帶來無限可能!

傳統的視頻生成模型,就好比一位慢工出細活的“老工匠”,他們需要仔細分析整個視頻序列,才能生成每一幀畫面,因此生成速度非常慢。用戶必須耐心等待數分鐘甚至數小時才能看到完整的視頻,這對於需要快速反饋和實時交互的應用場景來說簡直是災難。

image.png

而CausVid則是一位技藝超羣的“閃電俠”,它採用了一種全新的“因果”生成方式,只需處理已生成的幀,就能預測下一幀的內容,就像我們說話一樣,一個字接一個字,流暢自然。這種方式極大地減少了計算開銷,將視頻生成速度提升了數十倍!

CausVid是如何練就這身“閃電神功”的呢?

image.png

祕密武器就是“不對稱蒸餾”技術!研究人員首先訓練了一個強大的“雙向”擴散模型,它可以像“老工匠”一樣生成高質量視頻,但速度較慢。然後,他們利用這個模型的知識,訓練CausVid這個“因果”生成模型,讓它學會快速預測下一幀內容。

爲了進一步提升CausVid的效率,研究人員還引入了“ODE初始化”和“KV緩存”等技術,讓它在訓練和推理過程中都能更加快速、穩定地運行。 最終,CausVid實現了令人驚歎的生成速度,將視頻內容創作帶入了實時交互的新時代!

CausVid不僅速度快,而且功能強大!它支持多種視頻生成任務,包括文本到視頻、圖像到視頻、視頻到視頻轉換和動態提示等,所有這些任務都能以極低的延遲完成!

想象一下,未來我們可以使用CausVid實時生成遊戲場景,或者根據我們的語音和動作實時編輯視頻,這將爲遊戲、虛擬現實和流媒體等領域帶來革命性的改變!CausVid的出現,標誌着視頻生成領域的一次重大突破。它將徹底改變我們創作和消費視頻內容的方式,開啓一個充滿無限可能性的未來!

項目地址:https://causvid.github.io/