長年にわたって、AI音声外呼業界は公的な「計量基準」がありませんでした。今日、アカイブメイドゥーおよび xbench は、AI音声外呼シーンを対象にしたエージェント評価基準「VoiceAgentEval」を正式に発表しました。これは業界の空白を埋め、AIモデルが現実のビジネスシナリオに迅速に移行することを目的としています。

実験室データには頼らず、現実のビジネスで「真の金」を鍛える。

VoiceAgentEvalの最大の特徴はその「実戦性」です:

網羅性が高い:6つの主要な業務分野の30のサブシナリオをカバーし、最も現実的な市場ニーズを再現しようと試みています。

データがリアル:実際の電話営業データに基づいて構築され、従来の堅苦しいスクリプトを避けました。

二重の評価軸:テキスト生成の論理が正しいかどうかだけでなく、音声の次元での評価も追加し、AIの会話における総合的なパフォーマンスを全面的に見ています。

150種類の会話シミュレーション、AIの演習がよりスムーズに。

モデルのタスクの遵守度と汎用的なインタラクション能力をテストするために、評価フレームワークはユーザー・シミュレータを使用して150種類の仮想会話シナリオを構築しました。これはAIにさまざまなユーザーのフィードバックに対して、常に安定してビジネスプロセスを進行させることができるかを評価する「模擬試験」のようなものです。

現在のAI音声外呼で最も優れているのは誰?

この評価基準を通じての初期スクリーニングにより、現在のAI音声外呼シーンにおいて総合性能上位3つのモデルがすでに判明しています。この結果は業界に技術のベンチマークを設け、北京三快科技有限公司などの関連企業にとって、後続のAIビジネス展開において権威ある参考になります。