近日,美團正式發佈了其最新的視頻生成模型 ——LongCat-Video,標誌着其在人工智能領域邁出了重要一步。LongCat-Video 旨在幫助 AI 更好地理解和重構真實世界,推動世界模型的研究進展。作爲一種能夠模擬物理規律和場景邏輯的智能系統,LongCat-Video 爲 AI 提供了 “看見” 世界運行本質的能力。

image.png

該模型基於 Diffusion Transformer(DiT)架構,能夠處理多種視頻生成任務,包括文本生成視頻、圖像生成視頻以及視頻續寫。其獨特之處在於,不同的生成任務無需額外模型適配,形成了一個完整的任務閉環。例如,文本生成視頻能夠生成720p、30fps 的高清視頻,精準解析文本指令,並展現出色的語義理解和視覺呈現能力。圖像生成視頻則嚴格保留參考圖像的各項特徵,確保動態過程符合物理規律。視頻續寫功能則是 LongCat-Video 的核心優勢之一,能夠根據多幀前序內容續接視頻,爲長視頻生成提供了強有力的技術支持。

LongCat-Video 具備出色的長視頻生成能力,能夠連續輸出長達5分鐘的視頻,且在生成過程中不出現質量損失。模型通過先進的技術手段,有效避免了色彩漂移和畫質降解,保證了跨幀時序一致性和物理運動合理性。此外,LongCat-Video 還結合了塊稀疏注意力和條件 token 緩存機制,大幅提高了長視頻生成的效率,解決了以往長視頻生成在時長與質量之間的矛盾。

image.png

在高分辨率和高幀率的視頻生成中,LongCat-Video 通過多重優化策略,提升了推理速度,確保了生成質量與效率的最佳平衡。該模型經過嚴格的內部與公開基準測試,展現出卓越的通用性能,綜合能力達到開源領域的領先水平。

LongCat-Video 的發佈爲創作者開啓了長視頻創作的新旅程,讓視頻生成變得更加簡單高效。

🌟GitHub:

https://github.com/meituan-longcat/LongCat-Video

🌟Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Video

🌟Project Page:

https://meituan-longcat.github.io/LongCat-Video/

劃重點:  

🌟 LongCat-Video 是美團推出的一款視頻生成模型,旨在推動 AI 理解真實世界。  

🎥 該模型支持文本生成、圖像生成和視頻續寫三種核心任務,實現了高質量視頻生成。  

⚡ LongCat-Video 在長視頻生成方面具備顯著優勢,能夠穩定輸出5分鐘的連貫視頻。