IBMは、この度、Granite4.01B Speechを正式にリリースしました。これはエッジコンピューティングおよびエンタープライズデプロイメントに特化したコンパクトな音声言語モデルで、多言語の自動音声認識(ASR)と双方向の自動音声翻訳(AST)機能を高効率で提供することを目的としています。

前世代のモデルと比較して、Granite4.01B Speechのパラメータ数は前世代の半分ですが、パフォーマンスは大幅に向上しています。新しいモデルは日本語ASRのサポートを追加し、キーワードバイアス機能を導入し、英語のトランスクリプションの正確性を大きく向上させました。コア能力を損なうことなく、メモリ使用量、推論遅延、計算コストを大幅に削減することが、このモデルの主要な設計目標です。
このモデルは、画期的な「2段階設計」アーキテクチャを採用しています。システムはまず音声をテキストに変換し、その後専用のGranite言語モデルを使用して推論処理を行います。このモジュール式の設計により、開発者はニーズに応じて処理フローを柔軟に編成できます。現在、このモデルは英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語などの複数言語間の相互翻訳をサポートしており、英語から中国語(普通話)への翻訳タスクも対応しています。
性能テストでは、Granite4.01B Speechは優れた性能を示し、OpenASRランキングで首位を記録しました。平均文字誤り率(WER)はわずか5.52です。現在、IBMはApache 2.0ライセンスに基づいてこのモデルをオープンソースとして公開しており、開発者はTransformersやvLLMなどの主要なフレームワークを通じてローカルにデプロイ可能です。これにより、リソースが限られたモバイル端末やエッジデバイスに強力なAI音声サポートを提供できます。
プロジェクト: https://huggingface.co/ibm-granite/granite-4.0-1b-speech
