知名人工智能公司 Stability AI 近日正式發佈了其最新一代音頻大模型Stable Audio3,並同步開源了部分模型權重。作爲一款專爲音頻生成與編輯設計的潛擴散模型,該系統不僅支持高品質的雙聲道立體聲輸出,更在生成速度上實現了質的飛躍。

本次發佈的模型家族涵蓋了從小到大多種規格,能夠滿足音樂創作和音效製作等多元化需求。值得一提的是,該模型支持可變長度的音頻生成,並引入了基於內補成像技術的音頻編輯功能,爲創作者提供了前所未有的靈活性。

image.png

創新架構打破硬件限制

Stable Audio3在架構上由兩大核心組件構成:一個被稱爲 SAME 的語義聲學自編碼器,以及一個高效的擴散變換器。其中,SAME 自編碼器實現了高達4096倍的音頻壓縮率,這一突破性設計大幅縮短了潛在序列的長度。

得益於這一高效的壓縮機制,即使是在普通的消費級硬件上,該模型也能夠流暢地運行長週期、大篇幅的音頻生成任務。這不僅顯著降低了高品質音頻創作的技術門檻,也讓個人創作者在家中開展專業級音視頻製作成爲可能。

image.png

超高效率實現即時渲染

在 variable-length 技術的加持下,新模型的計算成本能夠隨着用戶要求的音頻時長動態縮放,徹底告別了以往固定長度帶來的算力浪費。在高性能硬件的測試中,該模型僅需約0.62秒便可渲染出一段20秒的音頻,而生成長達380秒的音樂也僅需1.31秒。

此外,通過創新的三階段訓練流程,Stable Audio3在推理階段不再依賴傳統的無分類器指導技術,從而實現了單步前向傳播的極速體驗。目前,面向大衆開放的小型和中型模型權重已在 Hugging Face 平臺上線,而性能更強悍的大型版本則將通過商業授權形式提供。