近日,微軟宣佈推出全新的語音轉文字模型 MAI-Transcribe-1,該模型在 25 種語言上的平均詞錯誤率(WER)僅爲 3.9%,被譽爲目前全球最精準的轉寫模型。這是微軟自研的 MAI 系列模型中的第三款,之前還發布了語音合成模型 MAI-Voice-1 和圖像生成模型 MAI-Image-2。

image.png

根據微軟的介紹,MAI-Transcribe-1 在 FLEURS 行業標準基準測試中表現出色,尤其是在 25 種語言中,11 種 “核心語言” 如英語、法語、德語等的轉寫精度排名第一。這款模型不僅在多種語言的轉寫場景中表現優異,還在與 OpenAI 的 Whisper-large-v3 和 Google 的 Gemini 3.1 Flash 模型的對比中顯示出明顯優勢。

MAI-Transcribe-1 適用於多語種的各種語音轉寫場景,包括會議記錄、媒體內容轉寫等。儘管當前版本尚不支持實時轉寫、說話人分離等高級功能,微軟計劃在後續更新中增強這些能力。在性能方面,新模型在批量轉寫任務上速度領先,批處理轉寫速度達到了現有 Microsoft Azure Fast 產品的 2.5 倍。

此外,MAI-Transcribe-1 已通過 Microsoft Foundry 平臺向企業和開發者開放,定價爲每小時 0.36 美元,微軟表示這是當前雲服務提供商中 “性價比最高” 的語音轉寫模型之一。微軟還宣佈將 MAI-Image-2 和 MAI-Voice-1 引入 Foundry 平臺,進一步增強其語音識別、語音合成和圖像生成等多模態 AI 領域的自研能力,力求爲開發者提供更具性能和成本優勢的解決方案。

劃重點:

📊 MAI-Transcribe-1 在 25 種語言上平均詞錯誤率僅爲 3.9%,爲全球最精準轉寫模型。

🌍 模型在多種語言的核心轉寫場景中表現突出,並超越其他競爭對手。

💰 每小時收費 0.36 美元,使其成爲雲服務市場中性價比最高的語音轉寫模型之一。