微軟推出全球最高精度的語音轉寫模型 MAI-Transcribe-1

近日，微軟宣佈推出全新的語音轉文字模型 MAI-Transcribe-1，該模型在 25 種語言上的平均詞錯誤率（WER）僅爲 3.9%，被譽爲目前全球最精準的轉寫模型。這是微軟自研的 MAI 系列模型中的第三款，之前還發布了語音合成模型 MAI-Voice-1 和圖像生成模型 MAI-Image-2。

根據微軟的介紹，MAI-Transcribe-1 在 FLEURS 行業標準基準測試中表現出色，尤其是在 25 種語言中，11 種 “核心語言” 如英語、法語、德語等的轉寫精度排名第一。這款模型不僅在多種語言的轉寫場景中表現優異，還在與 OpenAI 的 Whisper-large-v3 和 Google 的 Gemini 3.1 Flash 模型的對比中顯示出明顯優勢。

MAI-Transcribe-1 適用於多語種的各種語音轉寫場景，包括會議記錄、媒體內容轉寫等。儘管當前版本尚不支持實時轉寫、說話人分離等高級功能，微軟計劃在後續更新中增強這些能力。在性能方面，新模型在批量轉寫任務上速度領先，批處理轉寫速度達到了現有 Microsoft Azure Fast 產品的 2.5 倍。

此外，MAI-Transcribe-1 已通過 Microsoft Foundry 平臺向企業和開發者開放，定價爲每小時 0.36 美元，微軟表示這是當前雲服務提供商中 “性價比最高” 的語音轉寫模型之一。微軟還宣佈將 MAI-Image-2 和 MAI-Voice-1 引入 Foundry 平臺，進一步增強其語音識別、語音合成和圖像生成等多模態 AI 領域的自研能力，力求爲開發者提供更具性能和成本優勢的解決方案。

劃重點：
📊 MAI-Transcribe-1 在 25 種語言上平均詞錯誤率僅爲 3.9%，爲全球最精準轉寫模型。
🌍 模型在多種語言的核心轉寫場景中表現突出，並超越其他競爭對手。
💰 每小時收費 0.36 美元，使其成爲雲服務市場中性價比最高的語音轉寫模型之一。

印度初創公司 Emergent 發佈 AI 代理 Wingman，主打即時通訊深度集成

印度初創公司Emergent推出AI代理Wingman，進軍AI代理軟件市場。該產品主打“消息傳遞優先”，集成於WhatsApp等主流通訊平臺，用戶可通過自然語言指令跨工具執行郵件管理、日程對接等任務。公司此前憑藉“氛圍編碼”平臺已積累超800萬開發者用戶。

微軟接手挪威數據中心，增購 3 萬塊英偉達芯片

微軟與挪威數據中心Nscale達成協議，租用其位於北極圈內的算力資源，該數據中心原爲OpenAI“星門計劃”準備。協議涉及額外租用3萬塊英偉達Vera Rubin芯片，擴展了微軟此前在該園區62億美元的投資計劃。OpenAI曾考慮在此合作支持AI項目。

微軟推出全球最高精度的語音轉寫模型 MAI-Transcribe-1

相關推薦

微軟Edge升級AI管控功能：嚴防“影子AI”，強制引導至Copilot

印度初創公司 Emergent 發佈 AI 代理 Wingman，主打即時通訊深度集成

OpenAI退出，微軟接盤，這場挪威算力爭奪戰結局有點意思

微軟接手挪威數據中心，增購 3 萬塊英偉達芯片

OpenAI的"地盤"被微軟接手，星門計劃正在悄悄變形

​微軟推出全球最高精度的語音轉寫模型 MAI-Transcribe-1

相關推薦

微軟Edge升級AI管控功能：嚴防“影子AI”，強制引導至Copilot

印度初創公司 Emergent 發佈 AI 代理 Wingman，主打即時通訊深度集成

OpenAI退出，微軟接盤，這場挪威算力爭奪戰結局有點意思

微軟接手挪威數據中心，增購 3 萬塊英偉達芯片

OpenAI的"地盤"被微軟接手，星門計劃正在悄悄變形

微軟推出全球最高精度的語音轉寫模型 MAI-Transcribe-1