IBM 近日正式推出了 Granite4.01B Speech。這是一款專爲邊緣計算和企業級部署設計的緊湊型語音語言模型,旨在提供高效率的多語種自動語音識別(ASR)與雙向自動語音翻譯(AST)能力。

image.png

與前代版本相比,Granite4.01B Speech 的參數量僅爲上一代模型的一半,但在性能上實現了顯著躍升。新模型不僅增加了對日語 ASR 的支持,還引入了關鍵詞偏置功能,並大幅提升了英文轉錄的準確率。其核心設計目標是在不犧牲核心能力的前提下,極大地降低內存佔用、推理延遲和計算成本。

該模型採用了創新的“兩階段設計”架構。系統首先將音頻轉換爲文本,隨後通過專門的 Granite 語言模型進行推理處理。這種模塊化設計允許開發者根據需求靈活編排流程。目前,該模型已支持包括英語、法語、德語、西班牙語、葡萄牙語和日語在內的多語種互譯,並能處理英語對中文(普通話)的翻譯任務。

在性能測試中,Granite4.01B Speech 表現出色,位居 OpenASR 排行榜首位,平均字錯率(WER)僅爲5.52。目前,IBM 已根據 Apache2.0協議正式開源該模型,開發者可通過 Transformers 或 vLLM 等主流框架進行本地部署,爲資源受限的移動端或邊緣設備提供強勁的 AI 語音支持。

項目:https://huggingface.co/ibm-granite/granite-4.0-1b-speech