マイクロソフトが世界最高精度の音声認識モデル「MAI-Transcribe-1」をリリース

最近、マイクロソフトは新しい音声認識モデル「MAI-Transcribe-1」を発表しました。このモデルは25の言語における平均単語誤り率（WER）がわずか3.9％で、現在世界で最も正確な変換モデルとして称されています。これはマイクロソフトが自社開発したMAIシリーズモデルの第3弾であり、以前には音声合成モデル「MAI-Voice-1」と画像生成モデル「MAI-Image-2」をリリースしています。

マイクロソフトによると、MAI-Transcribe-1はFLEURS業界標準ベンチマークテストで優れた性能を発揮しており、特に25の言語の中でも英語、フランス語、ドイツ語などの11種類の「主要言語」での変換精度では第一位を記録しています。このモデルは多言語の音声変換シナリオにおいて優れた性能を発揮し、OpenAIのWhisper-large-v3やGoogleのGemini 3.1 Flashモデルとの比較でも明確な優位性を示しています。

MAI-Transcribe-1は複数言語のさまざまな音声変換シナリオに適しており、会議記録やメディアコンテンツの変換などに利用できます。現時点ではリアルタイム変換や話者分離などの高度な機能はサポートされていませんが、マイクロソフトは今後のアップデートでこれらの機能を強化する予定です。パフォーマンス面では、新モデルはバッチ処理タスクにおいて速さを誇っており、バッチ処理の変換速度は現在のMicrosoft Azure Fast製品の2.5倍となっています。

さらに、MAI-Transcribe-1はMicrosoft Foundryプラットフォームを通じて企業や開発者向けに公開され、料金は1時間あたり0.36ドルで、マイクロソフトはこれが現在のクラウドサービスプロバイダーの中で「コストパフォーマンスが最も高い」音声変換モデルの一つだと述べています。マイクロソフトはまた、MAI-Image-2とMAI-Voice-1をFoundryプラットフォームに導入することを発表し、これにより音声認識、音声合成、画像生成などのマルチモーダルAI分野における自社の能力をさらに強化し、開発者に対してより高性能でコスト効果の高いソリューションを提供することを目指しています。

ポイント：
📊 MAI-Transcribe-1は25言語において平均単語誤り率がわずか3.9%で、世界一正確な変換モデルです。
🌍 モデルは様々な言語の主な変換シーンで優れた性能を発揮し、他の競合を上回っています。
💰 1時間あたり0.36ドルで、クラウドサービス市場においてコストパフォーマンスが最も高い音声変換モデルの一つです。

パフォーマンスのブラックボックスを卒業：Windows 11 のタスクマネージャーは正式に NPU 監視をサポート

マイクロソフトは、Windows 11 の開発版更新において、タスクマネージャーに NPU 実時間監視機能を追加し、ハードウェアモニタリングの最後のピースを完成させました。AI PCの普及に伴い、NPUはAIタスク処理の核となるハードウェアとなり、今回のアップデートによりユーザーはその負荷状況を直観的に確認でき、専用チップの動作状態が明確になります。

マイクロソフトがフロントエンド音声AIシリーズVibeVoiceをオープンソース化：1回の処理で90分間の複数発話者対話、GitHubで27Kスターを獲得

マイクロソフトがオープンソース化したVibeVoice音声AIモデルは、ASRおよびTTSをサポートし、長時間の音声処理、複数発話者対話の生成、リアルタイムでの低遅延の特徴を持っています。GitHubで27Kスターを獲得しています。MITライセンスを採用しており、ローカル環境での展開が可能で、クラウドコストが不要です。音声合成分野のイノベーションを推進することを目的としています。

マイクロソフトが世界最高精度の音声認識モデル「MAI-Transcribe-1」をリリース

関連推奨

マイクロソフトがAIの自律化攻勢を開始：2027年に最強の自社開発モデルを発表予定

マイクロソフトが自社開発のAIモデルの開発を加速し、画像・文章・音声処理分野で業界をリードすることを目指す

パフォーマンスのブラックボックスを卒業：Windows 11 のタスクマネージャーは正式に NPU 監視をサポート

マイクロソフトがフロントエンド音声AIシリーズVibeVoiceをオープンソース化：1回の処理で90分間の複数発話者対話、GitHubで27Kスターを獲得

2.1 ギガフロップの計算力船団が航行を開始！マイクロソフトがテキサス州のAI工場プロジェクトを引き継ぐ。OpenAIと同じオフィスに移る