TechCrunch Disrupt2025で、AI音声のリーダー企業であるElevenLabsの共同創業者兼CEOであるマティ・スタニシェフスキー氏は、驚くべき見解を述べました。「今後2〜3年以内に、AI音声モデルは『商品化』に向かうだろう。短期的には核心的な競争力となるが、長期的にはモデル同士の性能差は徐々に縮小し、特に主要言語や一般的な音色ではそうなるだろう。」

図の出典:AI生成画像、ライセンス提供者Midjourney
短期的にはモデル、長期的には製品
「モデルがいずれ均質化するなら、なぜ研究開発に再投資するのか?」という疑問に対して、Staniszewski氏は率直に答えました。「現在、モデルは最大の技術的ハードルだ。AI音声が自然で滑らかでなければ、ユーザー体験は成り立たない。」彼は、ElevenLabsが過去に行ったモデルアーキテクチャの突破(感情表現や多言語のリズムモデリングなど)が現在の優位性を支えていると指摘しました。
しかし、同社はすでにモデル時代の後継戦略を構築しています。Staniszewski氏は強調しました。「ElevenLabsの長期的な戦略は、単なる『モデル供給者』ではなく、『AI+製品』の完全な体験を構築することだ。アップルがソフトウェアとハードウェアの協働によってスマートフォンを定義したように、ElevenLabsは自社開発モデルをエンジンとして、高価値な応用場面を実現し、真正の護城河を築きたいと考えている。」
マルチモーダル融合が次の戦場
今後1〜2年の展望について、Staniszewski氏は、単一モードの音声モデルがマルチモーダル融合へと加速して進化すると予測しました。「あなたは同時に音声と動画を生成したり、会話中にリアルタイムで大規模言語モデルと音声エンジンを連携させたりすることになるだろう。」彼は、Googleが最新で公開したVeo3ビデオ生成モデルを例に挙げ、クロスモーダルな協働が技術の新たな前線になっていることを説明しました。
そのため、ElevenLabsは第三者モデルやオープンソースコミュニティとの協力を積極的に進めています。それにより、最高レベルの音声能力をより広範なAIエコシステムに組み込むことを目指しています。例えば、ElevenLabsの音声合成を視覚生成やLLM推論と深く統合し、没入型バーチャル人間やスマートカスタマーサポート、インタラクティブエンタメ体験などを構築しています。
商品化=価値がないわけではない、価値の焦点が移るだけ
Staniszewski氏は、モデルの商品化が業界衰退を意味しているとは考えておらず、むしろ価値の焦点が下部技術から応用創新へと移行するものだと説明しています。「将来的には、企業が具体的なシナリオに応じて異なるモデルを選択するだろう。カスタマーサポートには一つ、ゲームの吹き替えには別の一つ、教育講義にはまた別の一つを使うことになる。信頼性、拡張性、シナリオへの適応性が、単純に『音質が最高』よりも重要になるだろう。」
そのため、ElevenLabsはAPIプラットフォーム、開発者ツールチェーン、業界向けソリューションの強化を並行して進めています。これにより、顧客が高品質な音声だけでなく、実際に業務プロセスに迅速に統合できるようにすることが目的です。
結論:AI時代の「音声インフラ」を構築する
音声AIが「技巧」から「実用」へと転換する節目に、ElevenLabsの選択は明確で現実的です。短期的にはモデルにこだわり、長期的には製品に注力します。業界の共通認識が「モデル即サービス」(Model-as-a-Commodity)に向かう中、本当の勝者になるのはパラメータ数が多い企業ではなく、ユーザーに最も理解し、AIを人間の対話シーンに無縫に組み込める企業かもしれません。
