以色列科技公司 Lightricks 近日宣佈公開其最新視聽合成系統 LTX-2。該系統具備極高的計算效能,能夠根據簡短的文本描述,直接生成長達20秒且音畫完全同步的高清視頻內容。

與傳統的視覺合成方法不同,LTX-2突破了“先畫面、後配音”的順序處理瓶頸。研發團隊指出,傳統的音畫解耦流程無法還原真實的自然環境分佈。爲此,LTX-2採用了複雜的雙流並行計算架構,通過190億個計算參數對視覺與聲學環境進行協同處理。其中,視頻流處理佔據140億個參數,音頻流佔50億個,這種非對稱分配精確模擬了現實中視覺與聽覺信息的密度差異。

QQ20260112-110008.png

在實際性能測試中,該系統展現出驚人的合成速度。在主流企業級顯卡環境下,生成一段720p 分辨率的視聽內容,每步運算僅需1.22秒。數據顯示,其運行效率最高可達同類競品的18倍。同時,在合成時長方面,20秒的生成上限也超越了谷歌及其他主流實驗室的同類工具。

爲了精準理解複雜的語言指令,該系統集成了一套多語言文本解析引擎,並引入了“預處理緩衝”機制,使得系統在執行最終合成前有充足的空間解析邏輯。通過獨特的交叉關聯機制,系統能準確將畫面中物體碰撞的瞬間與對應的物理聲效匹配。

QQ20260112-110018.png

儘管技術領先,研發團隊也坦陳該系統在處理小衆方言或多角色對話時,偶爾會出現語音歸屬偏差。超過20秒的超長序列仍面臨時間軸微偏移的挑戰。

Lightricks 創始人齊夫·法布曼表示,選擇公開系統代碼而非將其作爲封閉服務,是基於對“技術控制權”的考量。他認爲,內容創作者應當在自己的硬件上掌控技術,而不是將決策權外包給少數利益集團。目前,該系統的完整代碼及訓練框架已在公開平臺發佈,並針對最新的消費級高性能顯卡進行了深度優化。