Artificial Analysis 近日發佈了其語音轉文字(Speech-to-Text)基準測試的2.0版本(AA-WER v2.0)。測試結果顯示,ElevenLabs 與谷歌在音頻轉錄領域展現出極強的統治力。

image.png

在覈心的詞錯率(WER)指標上,ElevenLabs 推出的 Scribe v22.3% 的極低錯誤率位居榜首。緊隨其後的是谷歌Gemini3Pro,錯誤率爲 2.9%。值得注意的是,谷歌並未針對轉錄任務對 Gemini 進行專項訓練,這一優異表現完全得益於其強大的多模態通用能力。

其他主流模型表現如下:

  • Mistral Voxtral Small:以 3.0% 的錯誤率位列第三。

  • 谷歌 Gemini3Flash:表現穩健,錯誤率爲 3.1%

  • OpenAI Whisper Large v3:作爲最受歡迎的開源模型,此次以 4.2% 的錯誤率排在中游位置。

  • 墊底陣營:阿里巴巴的 Qwen3ASR Flash(5.9%)、亞馬遜的 Nova2Omni(6.0%)以及 Rev AI(6.1%)在測試中排名靠後。

image.png

在專門針對語音助手指令的 AA-AgentTalk 測試中,排名格局依然穩定。ElevenLabs Scribe v2和 Google Gemini3Pro 分別以 1.6%1.7% 的錯誤率遙遙領先,展現了在處理短促、直接的語音交互時的極高可靠性。