最近、マイクロソフトは新しい音声認識モデル「MAI-Transcribe-1」を発表しました。このモデルは25の言語における平均単語誤り率(WER)がわずか3.9%で、現在世界で最も正確な変換モデルとして称されています。これはマイクロソフトが自社開発したMAIシリーズモデルの第3弾であり、以前には音声合成モデル「MAI-Voice-1」と画像生成モデル「MAI-Image-2」をリリースしています。

image.png

マイクロソフトによると、MAI-Transcribe-1はFLEURS業界標準ベンチマークテストで優れた性能を発揮しており、特に25の言語の中でも英語、フランス語、ドイツ語などの11種類の「主要言語」での変換精度では第一位を記録しています。このモデルは多言語の音声変換シナリオにおいて優れた性能を発揮し、OpenAIのWhisper-large-v3やGoogleのGemini 3.1 Flashモデルとの比較でも明確な優位性を示しています。

MAI-Transcribe-1は複数言語のさまざまな音声変換シナリオに適しており、会議記録やメディアコンテンツの変換などに利用できます。現時点ではリアルタイム変換や話者分離などの高度な機能はサポートされていませんが、マイクロソフトは今後のアップデートでこれらの機能を強化する予定です。パフォーマンス面では、新モデルはバッチ処理タスクにおいて速さを誇っており、バッチ処理の変換速度は現在のMicrosoft Azure Fast製品の2.5倍となっています。

さらに、MAI-Transcribe-1はMicrosoft Foundryプラットフォームを通じて企業や開発者向けに公開され、料金は1時間あたり0.36ドルで、マイクロソフトはこれが現在のクラウドサービスプロバイダーの中で「コストパフォーマンスが最も高い」音声変換モデルの一つだと述べています。マイクロソフトはまた、MAI-Image-2とMAI-Voice-1をFoundryプラットフォームに導入することを発表し、これにより音声認識、音声合成、画像生成などのマルチモーダルAI分野における自社の能力をさらに強化し、開発者に対してより高性能でコスト効果の高いソリューションを提供することを目指しています。

ポイント:

📊 MAI-Transcribe-1は25言語において平均単語誤り率がわずか3.9%で、世界一正確な変換モデルです。

🌍 モデルは様々な言語の主な変換シーンで優れた性能を発揮し、他の競合を上回っています。

💰 1時間あたり0.36ドルで、クラウドサービス市場においてコストパフォーマンスが最も高い音声変換モデルの一つです。