知名人工智能公司 Stability AI 近日正式發佈了其最新一代音頻大模型
本次發佈的模型家族涵蓋了從小到大多種規格,能夠滿足音樂創作和音效製作等多元化需求。值得一提的是,該模型支持可變長度的音頻生成,並引入了基於內補成像技術的音頻編輯功能,爲創作者提供了前所未有的靈活性。

創新架構打破硬件限制
得益於這一高效的壓縮機制,即使是在普通的消費級硬件上,該模型也能夠流暢地運行長週期、大篇幅的音頻生成任務。這不僅顯著降低了高品質音頻創作的技術門檻,也讓個人創作者在家中開展專業級音視頻製作成爲可能。

超高效率實現即時渲染
在 variable-length 技術的加持下,新模型的計算成本能夠隨着用戶要求的音頻時長動態縮放,徹底告別了以往固定長度帶來的算力浪費。在高性能硬件的測試中,該模型僅需約0.62秒便可渲染出一段20秒的音頻,而生成長達380秒的音樂也僅需1.31秒。
此外,通過創新的三階段訓練流程,
