真正的情感自由！Fish Audio發佈S2：多說話人、詞級情緒控制、完全開源

Fish Audio 正式發佈新一代文本轉語音（TTS）模型 S2，標誌着開源TTS技術在表現力和可控性上迎來重大突破。

這款名爲 Fish Audio S2的模型主打超強情感可控性，用戶可通過自然語言指令實現精細化的韻律與情緒調節，例如在文本中插入 [laugh](笑)、[whispers](耳語)、[super happy](超級開心)等標籤，甚至支持自由描述如 [professional broadcast tone](專業播音腔)或 [pitch up](升高音調)，在詞級或短語級實現精準控制，生成極富表現力、自然生動的語音。

核心亮點包括:

完全開源:模型權重、微調代碼及基於SGLang的流式推理引擎全部公開（GitHub 與 Hugging Face 可獲取），S2-Pro 爲旗艦版本(約44億參數)。
超低延遲:推理延遲低於 150毫秒，適合實時應用場景如對話機器人、虛擬主播等。
原生多說話人支持:單次推理即可處理多個說話人，支持對話輪轉、打斷、自然情感傳遞與音色一致性，無需額外處理。

Fish Audio 表示，S2基於約1000萬小時、覆蓋近50種語言的音頻數據訓練，結合強化學習對齊與雙自迴歸架構，在多項基準測試中展現出領先的自然度與表現力，被譽爲當前開源與閉源TTS中最具情感智能的系統之一。“真正的語言自由，從現在開始。” Fish Audio 以這句話宣告:從機械朗讀走向真正富有情感與個性的AI語音時代已來。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/

真正的情感自由！Fish Audio發佈S2：多說話人、詞級情緒控制、完全開源

相關推薦

谷歌發佈最強TTS模型，支持近 70 種語言

馬斯克 xAI 上線語音 API：AI 嘴替爭霸戰再次升級

Grok 也能“開口說話”了！馬斯克 xAI 上線語音 API：AI 嘴替爭霸戰再次升級

Hume AI開源TADA：5倍速零幻覺TTS，能在手機上跑700秒長音頻

蘋果發佈PCG語音生成技術：告別刻板校驗，AI配音提速40%

真正的情感自由！Fish Audio發佈S2：多說話人、詞級情緒控制、完全開源

相關推薦

谷歌發佈最強TTS模型，支持近 70 種語言

馬斯克 xAI 上線語音 API：AI 嘴替爭霸戰再次升級

Grok 也能“開口說話”了！馬斯克 xAI 上線語音 API：AI 嘴替爭霸戰再次升級

Hume AI開源TADA：5倍速零幻覺TTS，能在手機上跑700秒長音頻

​蘋果發佈PCG語音生成技術：告別刻板校驗，AI配音提速40%

蘋果發佈PCG語音生成技術：告別刻板校驗，AI配音提速40%