字節跳動與清華大學攜手開源前沿多模態框架HuMo

字節跳動的智能創作團隊與清華大學聯合推出了一款名爲 HuMo 的開源框架，旨在推動人體視頻生成（HCVG，Human-Centric Video Generation）領域的進步。HuMo 框架具備強大的多模態輸入處理能力，可以同時利用文本、圖像和音頻三種信息，協同生成高質量視頻。

HuMo 的名稱 “Human-Modal” 恰如其分地反映了其聚焦人類及其活動的理念。這個框架的成功之處在於它構建了一個高質量的數據集，並創新性地採用了漸進式訓練方法。這種訓練方式使得 HuMo 能夠在各項子任務中超過現有的專業化方法，生成清晰度高達480P 和720P 的視頻，最長可達97幀，以25幀每秒的速度輸出可控的人物視頻。

框架的核心優勢在於其創新的數據處理流程、靈活的推理策略以及漸進式的多模態訓練方式。這些技術的結合，不僅提高了生成視頻的質量，還提升了處理速度，使得 HuMo 在實際應用中表現得更加出色。

對於開發者和研究人員來說，HuMo 不僅是一種新的工具，更是一種靈活的解決方案，能夠滿足不同場景下的需求。項目的開源地址也讓更多的人可以參與到這項技術的研究與應用中，爲未來的多模態視頻生成探索新的可能。

論文地址：https://arxiv.org/pdf/2509.08519

字節推出 InfinityStar 框架，視頻生成速度提升至 58 秒！

字節跳動發佈InfinityStar框架，視頻生成效率大幅提升，5秒720p視頻僅需58秒。該框架統一支持圖像生成、文本生成視頻、視頻續寫等多種視覺任務，基於對視頻數據本質的深入理解，採用創新的時空分離設計，突破傳統3D數據塊處理方式。

中國科大與字節發佈 MoGA 長視頻生成模型:分鐘級多鏡頭短片一鍵生成

中科大與字節跳動聯合推出端到端長視頻生成模型，能直接生成分鐘級、480p分辨率、24fps的高質量視頻，支持多鏡頭切換。核心創新是底層算法MoGA，這是一種全新注意力機制，專攻長視頻生成難題，標誌着國產視頻生成技術實現關鍵突破。

字節跳動與清華大學攜手開源前沿多模態框架HuMo

相關推薦

字節跳動大模型研究員因泄密被開除！曾頻繁在知乎曝光機器人研發細節，公司重拳整治信息安全

字節推出 InfinityStar 框架，視頻生成速度提升至 58 秒！

字節火山引擎啓動高薪招聘，實質性進軍“人形具身機器人”賽道

字節跳動 AI 編程工具 Trae 下架 Claude 模型，Pro 會員獲補償

中國科大與字節發佈 MoGA 長視頻生成模型:分鐘級多鏡頭短片一鍵生成

字節跳動與清華大學攜手開源前沿多模態框架HuMo

相關推薦

字節跳動大模型研究員因泄密被開除！曾頻繁在知乎曝光機器人研發細節，公司重拳整治信息安全

​字節推出 InfinityStar 框架，視頻生成速度提升至 58 秒！

字節火山引擎啓動高薪招聘，實質性進軍“人形具身機器人”賽道

字節跳動 AI 編程工具 Trae 下架 Claude 模型，Pro 會員獲補償

中國科大與字節發佈 MoGA 長視頻生成模型:分鐘級多鏡頭短片一鍵生成

字節推出 InfinityStar 框架，視頻生成速度提升至 58 秒！