Artificial Analysis は最近、音声認識(Speech-to-Text)のベンチマークテストの2.0バージョン(AA-WER v2.0)を公開しました。テスト結果によると、ElevenLabsとグーグルが音声転記分野において非常に強力な支配力を示しています。

コアとなる単語誤り率(WER)指標において、ElevenLabsが開発したScribe v2は2.3%の極めて低い誤り率で首位に立ちました。次にグーグルのGemini3Proが続き、誤り率は2.9%です。注目すべきは、グーグルはこの転記タスクのためにGeminiを特別に訓練していないにもかかわらず、この優れた結果を達成していることです。これは、その強力なマルチモーダル汎用能力によるものです。
他の主要モデルの結果は以下の通りです:
Mistral Voxtral Small: 3.0%の誤り率で3位となりました。
グーグル Gemini3Flash: 穏やかな性能を維持し、誤り率は3.1%です。
OpenAI Whisper Large v3: 人気のあるオープンソースモデルとして、今回のテストでは中流の位置に位置付けられ、誤り率は4.2%です。
最下位グループ: アリババのQwen3ASR Flash(5.9%)、アマゾンのNova2Omni(6.0%)、およびRev AI(6.1%)がテストで後ろに回りました。

音声アシスタントの指示処理に特化したAA-AgentTalkテストでは、ランキングの構造は依然として安定しています。ElevenLabsのScribe v2とグーグルのGemini3Proはそれぞれ1.6%と1.7%の誤り率で大幅にリードしており、短くて直接的な音声インタラクションを処理する際の高い信頼性を示しています。
