人工知能音声分野において、汎用性と正確さのバランスは業界が長年取り組んできた課題でした。4月20日、アリババ・トングイ研究所は音声認識の大規模モデル「Fun-ASR1.5」を正式にリリースしました。このモデルは統一された大規模なアーキテクチャにより、多言語、多関方言および複雑な文脈において飛躍的な進歩を遂げました。

据えている情報によると、Fun-ASR1.5の「聴力」性能は非常に万能です。世界で30種類の主要言語をカバーしており、中国語の7つの主要方言体系と20種類以上の地方訛りにも深く対応しています。さらに注目されているのは、このモデルが伝統文化分野においても優れたパフォーマンスを発揮していることです。古詩歌の朗読のように調子が起伏し、区切りが独特な場合でも、高い精度でリアルタイムでの変換が可能です。

現在、Fun-ASR1.5はアリババクラウドの百煉プラットフォームに正式に掲載されています。アリババ・トングイ研究所は、このモデルが教育、メディア、金融、テクノロジー、文化などの多くの業界のお客様に高効率な音声技術のサポートをAPIサービスを通じて提供し、各産業がスマートオフィスやコンテンツ制作のアップグレードを実現するお手伝いをすると述べています。