音頻創作迎來新突破！Stability AI 發佈 Stable Audio 3：長音頻秒級生成

知名人工智能公司 Stability AI 近日正式發佈了其最新一代音頻大模型Stable Audio3，並同步開源了部分模型權重。作爲一款專爲音頻生成與編輯設計的潛擴散模型，該系統不僅支持高品質的雙聲道立體聲輸出，更在生成速度上實現了質的飛躍。

本次發佈的模型家族涵蓋了從小到大多種規格，能夠滿足音樂創作和音效製作等多元化需求。值得一提的是，該模型支持可變長度的音頻生成，並引入了基於內補成像技術的音頻編輯功能，爲創作者提供了前所未有的靈活性。

創新架構打破硬件限制

Stable Audio3在架構上由兩大核心組件構成:一個被稱爲 SAME 的語義聲學自編碼器，以及一個高效的擴散變換器。其中，SAME 自編碼器實現了高達4096倍的音頻壓縮率，這一突破性設計大幅縮短了潛在序列的長度。

得益於這一高效的壓縮機制，即使是在普通的消費級硬件上，該模型也能夠流暢地運行長週期、大篇幅的音頻生成任務。這不僅顯著降低了高品質音頻創作的技術門檻，也讓個人創作者在家中開展專業級音視頻製作成爲可能。

超高效率實現即時渲染

在 variable-length 技術的加持下，新模型的計算成本能夠隨着用戶要求的音頻時長動態縮放，徹底告別了以往固定長度帶來的算力浪費。在高性能硬件的測試中，該模型僅需約0.62秒便可渲染出一段20秒的音頻，而生成長達380秒的音樂也僅需1.31秒。

此外，通過創新的三階段訓練流程，Stable Audio3在推理階段不再依賴傳統的無分類器指導技術，從而實現了單步前向傳播的極速體驗。目前，面向大衆開放的小型和中型模型權重已在 Hugging Face 平臺上線，而性能更強悍的大型版本則將通過商業授權形式提供。

15 億美元和解獲法官點頭：Anthropic版權案落地，作家集體訴訟畫上句號

美國加州聯邦法官正式批准AI公司Anthropic的15億美元和解協議，爲作家指控其未經許可使用著作訓練聊天機器人的集體訴訟劃上句號。法官同時駁回賠償過低異議。這起2024年提起的訴訟凸顯AI訓練數據版權爭議，此次落槌爲行業提供重要判例。

一行GitHub代碼出賣了AMD：Anthropic被曝成其新客戶，算力去英偉達化加速

一行GitHub公開代碼意外暴露Anthropic芯片佈局。AMD AI業務高管提交的代碼中，留下Anthropic將作爲其客戶的痕跡。行業分析機構SemiAnalysis指出，這雖非官方披露，卻釋放出明確信號：Anthropic正主動拓寬算力供應鏈，不再依賴單一芯片供應商。

8800 萬美元加註開源：Ollama跑進85%財富 500 強，喊出"全體上車"

Ollama憑藉一行命令在本地運行開源大模型，讓開發者擺脫API密鑰與天價賬單。7月9日其宣佈完成8800萬美元融資，由Benchmark的Peter Fenton、Theory Ventures的Tomasz Tunguz及8VC的Alex Kolicich共同領投，Docker創始人Solomon Hykes、ClickHouse CEO Aaron Katz、GIMP聯合創建人兼Cockroach Labs聯合創始人等參投。

音頻創作迎來新突破！Stability AI 發佈 Stable Audio 3：長音頻秒級生成

相關推薦

15 億美元和解獲法官點頭：Anthropic版權案落地，作家集體訴訟畫上句號

Anthropic獲批15億美元版權和解協議，將向50萬部作品支付賠償

一行GitHub代碼出賣了AMD：Anthropic被曝成其新客戶，算力去英偉達化加速

打破 15 秒魔咒：智象未來發布全球首個無限時長創作智能體vivago R1，商業可用率拉到85%

8800 萬美元加註開源：Ollama跑進85%財富 500 強，喊出"全體上車"