字節跳動的智能創作團隊與清華大學聯合推出了一款名爲 HuMo 的開源框架,旨在推動人體視頻生成(HCVG,Human-Centric Video Generation)領域的進步。HuMo 框架具備強大的多模態輸入處理能力,可以同時利用文本、圖像和音頻三種信息,協同生成高質量視頻。
HuMo 的名稱 “Human-Modal” 恰如其分地反映了其聚焦人類及其活動的理念。這個框架的成功之處在於它構建了一個高質量的數據集,並創新性地採用了漸進式訓練方法。這種訓練方式使得 HuMo 能夠在各項子任務中超過現有的專業化方法,生成清晰度高達480P 和720P 的視頻,最長可達97幀,以25幀每秒的速度輸出可控的人物視頻。

框架的核心優勢在於其創新的數據處理流程、靈活的推理策略以及漸進式的多模態訓練方式。這些技術的結合,不僅提高了生成視頻的質量,還提升了處理速度,使得 HuMo 在實際應用中表現得更加出色。
對於開發者和研究人員來說,HuMo 不僅是一種新的工具,更是一種靈活的解決方案,能夠滿足不同場景下的需求。項目的開源地址也讓更多的人可以參與到這項技術的研究與應用中,爲未來的多模態視頻生成探索新的可能。
論文地址:https://arxiv.org/pdf/2509.08519
