近日, 在全球語音識別技術日益發展的背景下,通義千問今日正式推出其最新語音識別模型 ——Qwen3-ASR-Flash。該模型基於 Qwen3基座模型,經過海量多模態數據及數千萬小時的自動語音識別(ASR)數據訓練而成,旨在爲用戶提供高精度、高魯棒性的語音識別解決方案。

QQ20250909-085515.png

Qwen3-ASR-Flash 的核心特性包括領先的識別準確率和驚豔的歌聲識別能力。模型在多箇中英文及多語種的基準測試中表現出色,尤其是在支持歌唱識別方面,實測錯誤率低於8%。這意味着無論是清唱還是伴隨背景音樂的整歌,Qwen3-ASR-Flash 都能夠有效地識別並轉錄。

另一個顯著特點是其定製化識別能力。用戶可以以任意格式提供文本上下文,模型能夠智能識別並匹配命名實體和關鍵術語,從而輸出個性化的識別結果。這一功能的實現使得 Qwen3-ASR-Flash 在處理複雜語境時更具靈活性和適應性。

此外,Qwen3-ASR-Flash 支持多達11種語言及多種方言和口音,能夠實現精準轉錄。其語種支持包括普通話及主要方言(如四川話、粵語等)、英式和美式英語,甚至包括法語、德語、俄語、意大利語、西班牙語、日語、韓語和阿拉伯語等多種語言。這爲用戶提供了更爲廣泛的選擇,滿足了不同地域和語言使用者的需求。

QQ20250909-085525.png

Qwen3-ASR-Flash 還具備強大的魯棒性,能夠在長難句、句中語言切換和複雜聲學環境中保持高準確率,有效過濾非語音片段,如靜音和背景噪聲,確保用戶獲得最佳的語音識別體驗。

爲了讓用戶能夠體驗到 Qwen3-ASR-Flash 的強大功能,通義千問在多個平臺上提供了體驗方式,包括 ModelScope、HuggingFace 和阿里雲百鍊 API 等,用戶可以便捷地試用該模型。

未來,通義千問表示,Qwen3-ASR-Flash 將持續迭代升級,不斷提高識別準確率,並開發更多功能,致力於爲用戶提供更智能、更高效的語音轉文字服務。通過這項技術創新,通義千問希望在語音識別領域開創更廣闊的未來。