美團推出 LongCat-Video 視頻生成模型，原生支持5分鐘級連貫輸出

近日，美團正式發佈了其最新的視頻生成模型 ——LongCat-Video，標誌着其在人工智能領域邁出了重要一步。LongCat-Video 旨在幫助 AI 更好地理解和重構真實世界，推動世界模型的研究進展。作爲一種能夠模擬物理規律和場景邏輯的智能系統，LongCat-Video 爲 AI 提供了 “看見” 世界運行本質的能力。

該模型基於 Diffusion Transformer（DiT）架構，能夠處理多種視頻生成任務，包括文本生成視頻、圖像生成視頻以及視頻續寫。其獨特之處在於，不同的生成任務無需額外模型適配，形成了一個完整的任務閉環。例如，文本生成視頻能夠生成720p、30fps 的高清視頻，精準解析文本指令，並展現出色的語義理解和視覺呈現能力。圖像生成視頻則嚴格保留參考圖像的各項特徵，確保動態過程符合物理規律。視頻續寫功能則是 LongCat-Video 的核心優勢之一，能夠根據多幀前序內容續接視頻，爲長視頻生成提供了強有力的技術支持。

LongCat-Video 具備出色的長視頻生成能力，能夠連續輸出長達5分鐘的視頻，且在生成過程中不出現質量損失。模型通過先進的技術手段，有效避免了色彩漂移和畫質降解，保證了跨幀時序一致性和物理運動合理性。此外，LongCat-Video 還結合了塊稀疏注意力和條件 token 緩存機制，大幅提高了長視頻生成的效率，解決了以往長視頻生成在時長與質量之間的矛盾。

在高分辨率和高幀率的視頻生成中，LongCat-Video 通過多重優化策略，提升了推理速度，確保了生成質量與效率的最佳平衡。該模型經過嚴格的內部與公開基準測試，展現出卓越的通用性能，綜合能力達到開源領域的領先水平。

LongCat-Video 的發佈爲創作者開啓了長視頻創作的新旅程，讓視頻生成變得更加簡單高效。

🌟GitHub:

https://github.com/meituan-longcat/LongCat-Video

🌟Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Video

🌟Project Page:

https://meituan-longcat.github.io/LongCat-Video/

劃重點:
🌟 LongCat-Video 是美團推出的一款視頻生成模型，旨在推動 AI 理解真實世界。
🎥 該模型支持文本生成、圖像生成和視頻續寫三種核心任務，實現了高質量視頻生成。
⚡ LongCat-Video 在長視頻生成方面具備顯著優勢，能夠穩定輸出5分鐘的連貫視頻。

美團推出 LongCat-Video 視頻生成模型，原生支持5分鐘級連貫輸出

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

階躍星辰發佈 Step Edge 系列終端模型，實現本地高效多模態處理

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

美團推出 LongCat-Video 視頻生成模型，原生支持5分鐘級連貫輸出

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

階躍星辰發佈 Step Edge 系列終端模型，實現本地高效多模態處理

商湯開源SenseNova-Vision統一視覺大模型，單模型橫掃四大核心視覺任務

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

​Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”