Fish Audio 正式發佈新一代文本轉語音(TTS)模型 S2,標誌着開源TTS技術在表現力和可控性上迎來重大突破。

這款名爲 Fish Audio S2的模型主打超強情感可控性,用戶可通過自然語言指令實現精細化的韻律與情緒調節,例如在文本中插入 [laugh](笑)、[whispers](耳語)、[super happy](超級開心)等標籤,甚至支持自由描述如 [professional broadcast tone](專業播音腔)或 [pitch up](升高音調),在詞級或短語級實現精準控制,生成極富表現力、自然生動的語音。

核心亮點包括:

  • 完全開源:模型權重、微調代碼及基於SGLang的流式推理引擎全部公開(GitHub 與 Hugging Face 可獲取),S2-Pro 爲旗艦版本(約44億參數)。
  • 超低延遲:推理延遲低於 150毫秒,適合實時應用場景如對話機器人、虛擬主播等。
  • 原生多說話人支持:單次推理即可處理多個說話人,支持對話輪轉、打斷、自然情感傳遞與音色一致性,無需額外處理。

Fish Audio 表示,S2基於約1000萬小時、覆蓋近50種語言的音頻數據訓練,結合強化學習對齊與雙自迴歸架構,在多項基準測試中展現出領先的自然度與表現力,被譽爲當前開源與閉源TTS中最具情感智能的系統之一。“真正的語言自由,從現在開始。” Fish Audio 以這句話宣告:從機械朗讀走向真正富有情感與個性的AI語音時代已來。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/