Lightricks 開源 AI 視頻模型 LTX-2 實現長達20秒的高速音視頻一體化合成

以色列科技公司 Lightricks 近日宣佈公開其最新視聽合成系統 LTX-2。該系統具備極高的計算效能，能夠根據簡短的文本描述，直接生成長達20秒且音畫完全同步的高清視頻內容。

與傳統的視覺合成方法不同，LTX-2突破了“先畫面、後配音”的順序處理瓶頸。研發團隊指出，傳統的音畫解耦流程無法還原真實的自然環境分佈。爲此，LTX-2採用了複雜的雙流並行計算架構，通過190億個計算參數對視覺與聲學環境進行協同處理。其中，視頻流處理佔據140億個參數，音頻流佔50億個，這種非對稱分配精確模擬了現實中視覺與聽覺信息的密度差異。

在實際性能測試中，該系統展現出驚人的合成速度。在主流企業級顯卡環境下，生成一段720p 分辨率的視聽內容，每步運算僅需1.22秒。數據顯示，其運行效率最高可達同類競品的18倍。同時，在合成時長方面，20秒的生成上限也超越了谷歌及其他主流實驗室的同類工具。

爲了精準理解複雜的語言指令，該系統集成了一套多語言文本解析引擎，並引入了“預處理緩衝”機制，使得系統在執行最終合成前有充足的空間解析邏輯。通過獨特的交叉關聯機制，系統能準確將畫面中物體碰撞的瞬間與對應的物理聲效匹配。

儘管技術領先，研發團隊也坦陳該系統在處理小衆方言或多角色對話時，偶爾會出現語音歸屬偏差。超過20秒的超長序列仍面臨時間軸微偏移的挑戰。

Lightricks 創始人齊夫·法布曼表示，選擇公開系統代碼而非將其作爲封閉服務，是基於對“技術控制權”的考量。他認爲，內容創作者應當在自己的硬件上掌控技術，而不是將決策權外包給少數利益集團。目前，該系統的完整代碼及訓練框架已在公開平臺發佈，並針對最新的消費級高性能顯卡進行了深度優化。

Lightricks 開源 AI 視頻模型 LTX-2 實現長達20秒的高速音視頻一體化合成

相關推薦

國產端側大模型第一次登上全球旗艦：面壁 MiniCPM 裝進三星 Galaxy Z Fold8 系列

NTT DATA部署Codex： 5 名工程師 3 天的故障分析縮短至 30 分鐘， 9000 名員工已用上AI

微軟經典版Outlook年底前整合Copilot，AI起草郵件功能將覆蓋Win10/Win11

Monday.com 裁員 630 人，聚焦人工智能戰略

OpenAI 的 AI 代理失控事件：人工智能安全的警鐘