在人工智能的世界裏,大型語言模型(LLM)已經成爲推動自然語言處理(NLP)任務的關鍵力量。然而,要讓這些模型真正理解並生成跨模態內容,如語音和文本,我們還有很長的路要走。復旦大學的研究團隊在論文"SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities"中提出了一種創新的解決方案——SpeechGPT。

SpeechGPT是一種新型的大型語言模型,它不僅能夠理解語音和文本,還能夠在這兩者之間自如轉換。這項技術的核心在於將連續的語音信號離散化,使其能夠與文本模態統一,從而讓模型具備感知和生成語音的能力。
簡單來說就是它能夠感知和表達情感,並根據上下文和人類指令提供多種風格的語音響應。無論是說唱、戲劇、機器人、搞笑還是低語,SpeechGPT都能夠根據需要生成相應風格的語音,這得益於其超過10萬小時的學術和野外收集的語音數據,這些數據涵蓋了豐富的語音場景和風格。
爲了訓練SpeechGPT,研究團隊採用了一個三階段的訓練策略:
模態適應預訓練:在這個階段,模型通過大量未標記的語音數據進行訓練,以預測下一個離散單元,從而適應語音模態。
跨模態指令微調:利用SpeechInstruct數據集,該數據集包含多種任務的指令,模型在這個階段學習如何理解和執行跨模態的指令。
模態鏈指令微調:在這個階段,模型進一步微調,以優化模態間的轉換能力。
爲了支持SpeechGPT的訓練,研究團隊構建了首個大規模跨模態語音指令數據集SpeechInstruct。這個數據集包含跨模態指令數據和模態鏈指令數據,覆蓋了多種任務類型。
實驗結果顯示,SpeechGPT在文本任務、跨模態任務和口語對話任務上都展現出了強大的能力。它能夠準確理解和執行各種指令,無論是將語音轉錄爲文本,還是將文本轉換爲語音,或是進行口語對話。
值得注意的是,儘管SpeechGPT展現了卓越的能力,它在語音理解的噪聲魯棒性和語音生成的音質穩定性方面仍有一些不足。這些挑戰主要是由於計算和數據資源的限制。目前,SpeechGPT仍在開發中,團隊計劃未來開源技術報告、代碼和模型權重,以便更廣泛的研究社區可以參與到這項技術的進一步發展和完善中。
