近日,南京大學的研究團隊與字節跳動、西南大學聯合推出了一項創新技術 ——STAR(Spatial-Temporal Augmentation with Text-to-Video Models),旨在利用文本到視頻模型,實現真實世界視頻的超分辨率處理。該技術結合了時空增強方法,能夠有效提高低分辨率視頻的質量,尤其適用於在視頻分享平臺上下載的低清晰度視頻。

爲了方便研究者和開發者使用,研究團隊已經在 GitHub 上發佈了 STAR 模型的預訓練版本,包括 I2VGen-XL 和 CogVideoX-5B 兩種型號,以及相關的推理代碼。這些工具的推出標誌着在視頻處理領域的一次重要進展。
使用該模型的過程相對簡單。首先,用戶需要從 HuggingFace 下載預訓練的 STAR 模型,並將其放入指定目錄。接着,準備待測試的視頻文件,並選擇適合的文本提示選項,包括無提示、自動生成或手動輸入提示。用戶只需調整腳本中的路徑設置,便可輕鬆進行視頻超分辨率的處理。
該項目特別設計了兩種基於 I2VGen-XL 的模型,分別用於不同程度的視頻降質處理,確保能夠滿足多種需求。此外,CogVideoX-5B 模型專門支持720x480的輸入格式,爲特定場景提供了靈活的選擇。
該研究不僅爲視頻超分辨率技術的發展提供了新的思路,還爲相關領域的研究者們開闢了新的研究方向。研究團隊對 I2VGen-XL、VEnhancer、CogVideoX 和 OpenVid-1M 等前沿技術表示感謝,認爲這些技術爲他們的項目奠定了基礎。
項目入口:https://github.com/NJU-PCALab/STAR
劃重點:
🌟 新技術 STAR 結合文本到視頻模型,實現視頻超分辨率,提升視頻質量。
🛠️ 研究團隊已發佈預訓練模型和推理代碼,使用過程簡單明瞭。
📩 提供聯繫方式,鼓勵用戶與研究團隊進行交流與探討。
