正文

阿里通義實驗室發佈語音識別大模型Fun-ASR1.5 30 種語言、方言古詩都能秒轉！

發布於AI新閒資訊

時間 :Apr 20, 2026

閱讀 :1分鐘

在人工智能語音領域，通用性與精準度的平衡一直是行業攻克的難點。 4 月 20 日，阿里通義實驗室宣佈正式推出語音識別大模型Fun-ASR1.5。這款模型憑藉統一的大模型架構，實現了在多語言、多方言以及複雜語境下的跨越式突破。

據瞭解，Fun-ASR1. 5 的“聽力”表現堪稱全能。它不僅能夠覆蓋全球 30 種主流語言，還深度適配了漢語的七大方言體系及 20 多種地方口音。更令行業關注的是，該模型在傳統文化領域的表現同樣亮眼，即便面對語調跌宕、斷句獨特的古詩詞吟誦，也能實現極高精度的實時轉寫。

目前，Fun-ASR1. 5 已正式上架阿里雲百鍊平臺。阿里通義實驗室表示，該模型將通過API服務的方式，爲教育、傳媒、金融、科技及文化等多個行業客戶提供高效的語音技術支撐，助力各產業實現智能化辦公與內容生產的升級。

32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”

阿里通義實驗室推出FIPO算法，突破傳統強化學習在複雜邏輯推理中的瓶頸。該算法通過Future-KL機制，精準識別關鍵推理步驟，有效解決模型在數學等複雜問題中推理長度停滯的問題，顯著提升推理準確率和效率。

阿里通義實驗室發佈新型算法FIPO，通過引入“Future-KL”機制，有效解決純強化學習在長文本推理中的“推理長度停滯”問題，提升複雜邏輯對齊訓練效果。

阿里通義實驗室Qwen Pilot團隊推出FIPO算法，通過引入Future-KL機制，精準識別推理鏈中的關鍵Token，以優化大模型推理能力，突破傳統強化學習方法在區分重要Token上的瓶頸。

阿里通義實驗室推出PrismAudio框架，解決AI視頻生成中音畫不同步問題。該技術引入“思維鏈”機制，先分析視頻內容再生成匹配音效，提升沉浸感。研究已被ICLR2026收錄。

阿里通義實驗室近期經歷組織架構調整，將Qwen團隊拆分爲預訓練、後訓練等多條平行線。隨後，原Qwen後訓練負責人鬱博文被曝已加入字節跳動，擔任Seed團隊視覺模型與多模態交互的後訓練負責人。字節跳動尚未官方迴應。

智啟未來，您的人工智能解決方案智庫