Meta近日發佈了語音翻譯新模型Seamless Communication系列,包括4個模型,支持近100種語言之間的實時語音互譯,延遲控制在2秒左右。模型可復刻源語音的停頓、語氣、語速等複雜特徵,讓翻譯更加逼真。採用非自迴歸架構以支持長序列翻譯。此外Meta還開源了模型及58.5萬小時規模最大的語音語料庫,並增加音頻水印和翻譯毒性緩解等功能以防模型濫用。