延遲低於 0.2 秒！Mistral AI 發佈 Voxtral Transcribe 2 語音模型，支持中文實時轉錄

法國人工智能初創公司Mistral AI近日宣佈推出全新的語音轉文字模型系列——Voxtral Transcribe2。這一系列包含兩款針對不同應用場景優化的模型，旨在解決語音交互中的高延遲和成本痛點。

其中，最受關注的是名爲 Voxtral Realtime 的實時轉錄模型。該模型擁有4B（40億）參數規模，採用創新的流式架構。其核心亮點在於極致的響應速度:模型可以在音頻輸入的瞬間同步進行轉錄，官方數據顯示其轉錄延遲已被壓縮至200ms(0.2秒)以下。這意味着在實時對話或同聲傳譯場景中，用戶幾乎感受不到處理停頓。爲了促進開發者社區的生態建設，Mistral AI已以 Apache2.0協議正式開放了該模型的權重。

另一款模型 Voxtral Mini Transcribe V2 則主打大批量處理與極高性價比。該模型專門爲處理長音頻設計，單次請求即可支持長達3小時的錄音文件。在準確率表現上，Mistral 官方表示該模型已超越了 GPT-4o mini Transcribe 和 Gemini2.5Flash。

在語言支持與成本方面，兩款新模型均具備出色的普適性，支持包括中文在內的13種主流語言。定價策略也十分具有競爭力:離線批處理版 API 價格爲每分鐘0.003美元，而追求極致性能的實時版 API 價格則爲每分鐘0.006美元。

劃重點:

⚡ 極低延遲: Voxtral Realtime 模型將轉錄延遲降至200ms 以內，支持音頻即時轉錄，且已開源模型權重。
🏆 高性價比: Voxtral Mini 版在準確率上優於 GPT-4o mini 等同類產品，支持3小時超長錄音，價格極具優勢。
🌐 多語支持: 全系列模型原生支持中文等13種語言，廣泛適配全球化的語音辦公與實時交互場景。

Runway推出Media Router：自動切換AI模型幫你省Token，創意驗證到成片一條龍搞定

Runway推出Media Router，可依據質量、速度與成本優先級，爲圖像、視頻、音頻生成自動切換AI模型。系統將調用場景分爲三類，如高速生成模式用於快速創意驗證，實現智能匹配，省去開發者逐一比較和手動切換的負擔，兼顧效率與成本。

小鵬人形機器人廣州工廠開啓小批量試生產預計2026年實現量產

近日，小鵬人形機器人在廣州工廠正式開啓小批量試生產，量產產線已進入最後聯調，標誌着量產衝刺進入倒計時。集團董事長何小鵬已親自兼任機器人業務CEO，全面統籌並推進商業化落地進程。按照內部機器人量產動員大會規劃，公司將於2026年正式實現人形機器人量產，並計劃

延遲低於 0.2 秒！Mistral AI 發佈 Voxtral Transcribe 2 語音模型，支持中文實時轉錄

相關推薦

Kimi K3 攻防考卷翻車：漏洞利用只到美國前沿模型四成，蒸餾疑雲被安全機構擺上臺

Runway推出Media Router：自動切換AI模型幫你省Token，創意驗證到成片一條龍搞定

小鵬人形機器人廣州工廠開啓小批量試生產預計2026年實現量產

快手入局AI互動內容賽道，開放首批創作者招募

Google Q2 資本開支翻番破紀錄：449 億美元砸向 AI 基建，雲業務利潤率幾乎翻倍

​延遲低於 0.2 秒！Mistral AI 發佈 Voxtral Transcribe 2 語音模型，支持中文實時轉錄

相關推薦

Kimi K3 攻防考卷翻車：漏洞利用只到美國前沿模型四成，蒸餾疑雲被安全機構擺上臺

Runway推出Media Router：自動切換AI模型幫你省Token，創意驗證到成片一條龍搞定

小鵬人形機器人廣州工廠開啓小批量試生產 預計2026年實現量產

快手入局AI互動內容賽道，開放首批創作者招募

Google Q2 資本開支翻番破紀錄：449 億美元砸向 AI 基建，雲業務利潤率幾乎翻倍

延遲低於 0.2 秒！Mistral AI 發佈 Voxtral Transcribe 2 語音模型，支持中文實時轉錄

小鵬人形機器人廣州工廠開啓小批量試生產預計2026年實現量產