法國人工智能初創公司

其中,最受關注的是名爲 Voxtral Realtime 的實時轉錄模型。該模型擁有4B(40億)參數規模,採用創新的流式架構。其核心亮點在於極致的響應速度:模型可以在音頻輸入的瞬間同步進行轉錄,官方數據顯示其轉錄延遲已被壓縮至200ms(0.2秒)以下。這意味着在實時對話或同聲傳譯場景中,用戶幾乎感受不到處理停頓。爲了促進開發者社區的生態建設,
另一款模型 Voxtral Mini Transcribe V2 則主打大批量處理與極高性價比。該模型專門爲處理長音頻設計,單次請求即可支持長達3小時的錄音文件。在準確率表現上,Mistral 官方表示該模型已超越了 GPT-4o mini Transcribe 和 Gemini2.5Flash。
在語言支持與成本方面,兩款新模型均具備出色的普適性,支持包括中文在內的13種主流語言。定價策略也十分具有競爭力:離線批處理版 API 價格爲每分鐘0.003美元,而追求極致性能的實時版 API 價格則爲每分鐘0.006美元。
劃重點:
⚡ 極低延遲: Voxtral Realtime 模型將轉錄延遲降至200ms 以內,支持音頻即時轉錄,且已開源模型權重。
🏆 高性價比: Voxtral Mini 版在準確率上優於 GPT-4o mini 等同類產品,支持3小時超長錄音,價格極具優勢。
🌐 多語支持: 全系列模型原生支持中文等13種語言,廣泛適配全球化的語音辦公與實時交互場景。
