会社設立16周年を祝う中、Reverie Language Technologiesは、インドの多様な言語環境に対応するための新しい音声認識(STT)モデルを発表しました。このモデルはヒンディー語や英語だけでなく、Hinglishなどの混合言語も処理でき、銀行やコールセンターなどの業界におけるニーズに大きく応えています。

音声制御

図の備考:画像はAIによって生成され、画像ライセンス提供元はMidjourneyです。

Reverieによると、このモデルは過去1年間で300万回以上のAPI呼び出しを処理し、正確性と速度が優れています。Deepgramとの独立テストでは、Reverieのモデルは正確性で約4.2%高く、反応速度は1.5倍速くなっています。これにより、インドユーザー向けの強力な音声認識システムとなりました。

このモデルの利点は、多言語および文化背景への理解能力です。英語で「twenty-three」と言う場合でも、ヒンディー語で「तेईस」と言う場合でも、このモデルは正確に認識できます。さらに、インド各地の名前を認識することができ、その綴りや発音の違いを考慮しています。これらの特徴は、グローバルモデルが難しく感じるものです。

Hinglish以外にも、Reverieは他のインド語用のSTTモデルシリーズをリリースしました。これはタミル語、テルグ語、ベンガル語、マラトゥー語、グジャラート語、カナダ語、マラヤラム語、アッサム語、オリヤ語、パンジャブ語を含みます。それぞれのモデルは特定の言語の方言やイントネーションに独自にトレーニングされており、現地人の言葉使い習慣をよりリアルに反映することを目指しています。

ReverieのR&D責任者であるPranjal Nayak氏は、「我々の研究開発は常にインド固有の言語課題に焦点を当てており、このHinglishモデルはその成果です。インド人が数字を使う習慣や、同じ文の中で英語とヒンディー語をどのように混ぜ合わせるかを理解できるのです。」と語っています。これにより、AIエージェントの振る舞いはより自然で人間らしいものになります。

このモデルは複数の業界で利用されており、ある大手金融サービス企業はReverieのSTTエンジンを使用して15,000以上のマルチリンガル債務回収電話を処理し、高精度な数字と支払いの認識を成功裏に実現しました。

現在、このモデルはReverieのAPIプラットフォームで公開されています。企業はクラウドまたはローカル配置を通じて使用できます。特定の分野の言語パック、数字や名前の曖昧さの解消、ホットワードの強化など、すべての設定は同じAPIで行えます。

ポイント:

🌟 この新モデルは、Deepgramを上回る正確性と応答速度を持ち、インド市場のニーズを満たしています。

💬 ReverieモデルはHinglishなどの多言語混合を理解でき、文化的背景の深い理解を持っています。

📈 複数の業界でこの技術が導入され、音声認識の正確性と効率を大幅に向上させています。