フランスの人工知能スタートアップ企業Mistral AIは、新しい音声からテキストへの変換モデルシリーズ「Voxtral Transcribe2」を近日発表しました。このシリーズには、異なるアプリケーションに最適化された2つのモデルが含まれており、音声インタラクションにおける高い遅延とコストの課題を解決することを目的としています。

image.png

特に注目されているのは、「Voxtral Realtime」というリアルタイム転写モデルです。このモデルは4B(40億)のパラメータを持ち、革新的なストリーミングアーキテクチャを採用しています。そのコアの特徴は極めて迅速な応答速度で、音声入力の瞬間に同時に転写を行うことができます。公式データによると、転写遅延は200ms(0.2秒)未満にまで短縮されています。これは、リアルタイムでの会話や同声翻訳のシナリオにおいて、ユーザーが処理の停止を感じることはないことを意味します。開発者コミュニティのエコシステム構築を促進するために、Mistral AIはこのモデルの重みをApache2.0ライセンスに基づいて正式に公開しています。

もう一つのモデル「Voxtral Mini Transcribe V2」は、大量処理と非常に高いコストパフォーマンスを特徴としています。このモデルは長時間の音声を処理するために特別に設計されており、一度のリクエストで最大3時間の録音ファイルをサポートします。正確性に関しては、Mistral社はこのモデルがGPT-4o mini TranscribeやGemini2.5Flashを上回っていると発表しています。

言語サポートとコスト面では、これらの新モデルは優れた普遍性を持っており、中国語を含む13種類の主要言語をサポートしています。価格戦略も非常に競争力があります。オフラインバッチ処理版APIの価格は1分あたり0.003ドルであり、最高性能を求めるリアルタイム版APIの価格は1分あたり0.006ドルです。

ポイント:

  • 極めて低い遅延: Voxtral Realtimeモデルは転写遅延を200ms以内にまで引き下げ、音声の即時転写をサポートし、モデルの重みもオープンソース化されています。

  • 🏆 高コスト効果: Voxtral Mini版は、GPT-4o miniなどと比較して高い正確性を持ち、3時間以上の超長時間録音をサポートし、価格が非常に優れています。

  • 🌐 多言語対応: 全シリーズのモデルは中国語を含む13種類の言語をネイティブにサポートしており、グローバルな音声作業やリアルタイムインタラクションのシナリオに広く適応しています。