音声からテキストへの新基準：ElevenLabsが優勝、グーグルGeminiが全能で2位を確保

Artificial Analysis は最近、音声認識（Speech-to-Text）のベンチマークテストの2.0バージョン（AA-WER v2.0）を公開しました。テスト結果によると、ElevenLabsとグーグルが音声転記分野において非常に強力な支配力を示しています。

コアとなる単語誤り率（WER）指標において、ElevenLabsが開発したScribe v2は2.3%の極めて低い誤り率で首位に立ちました。次にグーグルのGemini3Proが続き、誤り率は2.9%です。注目すべきは、グーグルはこの転記タスクのためにGeminiを特別に訓練していないにもかかわらず、この優れた結果を達成していることです。これは、その強力なマルチモーダル汎用能力によるものです。

他の主要モデルの結果は以下の通りです:

Mistral Voxtral Small: 3.0%の誤り率で3位となりました。
グーグル Gemini3Flash: 穏やかな性能を維持し、誤り率は3.1%です。
OpenAI Whisper Large v3: 人気のあるオープンソースモデルとして、今回のテストでは中流の位置に位置付けられ、誤り率は4.2%です。
最下位グループ: アリババのQwen3ASR Flash（5.9%）、アマゾンのNova2Omni（6.0%）、およびRev AI（6.1%）がテストで後ろに回りました。

音声アシスタントの指示処理に特化したAA-AgentTalkテストでは、ランキングの構造は依然として安定しています。ElevenLabsのScribe v2とグーグルのGemini3Proはそれぞれ1.6%と1.7%の誤り率で大幅にリードしており、短くて直接的な音声インタラクションを処理する際の高い信頼性を示しています。

クリエイティブを一瞬で実現！OpenAIが「Sites」機能をリリース。アイデアを直接インタラクティブなウェブサイトに変換

OpenAIは、Codexプラットフォームに「プレビュー版のSites」という機能をリリースし、ビジネスおよび企業版ユーザー向けに公開しています。この機能により、単純なテキストのアイデアやデータ分析レポート、プロジェクト計画を直接機能豊富なアプリケーションやウェブページに変換することが可能となり、従来の開発とデザインプロセスを破壊し、クリエイティブな考えを迅速に実現します。

YouTubeポッドキャストがAIの新機能でビッグテックを打ち負かす！自動再生速度調整機能で遅い話しぶりに特化

YouTubeはPremium会員向けに新しいポッドキャスト機能をリリースし、ストリーミング大手との競争に挑み、SpotifyやAppleポッドキャストのユーザーを惹きつけることを目的としている。主要なアップデートには、パーソナライズされた探索と手を離した操作が含まれ、聴く体験を向上させる。その中で「Ask Music」機能がポッドキャストにも拡張され、ユーザーが無作為な検索から離れ、スマートな推薦を実現する助けとなる。

ElevenLabsがMusic v2をリリース：1曲に複数のバージョン対応と商業版権完全付与

ElevenLabsは、Music v2音楽生成モデルをリリースしました。前バージョンと比較して3つの大きな進歩を実現したものです：動的な曲風の切り替えをサポートし、音楽編成の複雑さと歌唱表現を向上させました。新しいモデルでは、創作プロセスをブロック式にし、細粒度のワークフローを提供します。アーティストは異なるセクションのスタイルを柔軟に調整でき、単純なテキストから音声を生成するのではなく、音楽創作の柔軟性と表現力を著しく強化します。

OpenAI Codexに新しいロック画面動作機能が追加：Macのデスクトッププロキシが自動化の新たな段階へ

OpenAIデスクトッププロキシであるCodexに「ロック画面動作」機能が追加され、マックがロックされているかスクリーンがオフであってもリモートコマンドでローカルアプリを操作できるようになりました。従来のロック解除と画面常時表示を必要とする制限を打ち破りました。開発者がパソコンを監視する必要なく、長時間かつ複雑なエンジニアリングタスクを実行でき、例えば大規模なコードコンパイルやGUIオートメーションテストなどが可能です。

音声からテキストへの新基準：ElevenLabsが優勝、グーグルGeminiが全能で2位を確保

関連推奨

クリエイティブを一瞬で実現！OpenAIが「Sites」機能をリリース。アイデアを直接インタラクティブなウェブサイトに変換

YouTubeポッドキャストがAIの新機能でビッグテックを打ち負かす！自動再生速度調整機能で遅い話しぶりに特化

ElevenLabsがMusic v2をリリース：1曲に複数のバージョン対応と商業版権完全付与

ElevenLabsがマーベルの父スタン・リーのAIボイスをリリース、全体的な音声合成およびストーリー読み上げ機能を全面的に開放

OpenAI Codexに新しいロック画面動作機能が追加：Macのデスクトッププロキシが自動化の新たな段階へ