Inworld AI は近日、最新の音声モデルである「リアルタイム TTS-2」をリリースしました。このモデルは、Inworld API および Inworld Realtime API の研究プレビュー版を通じて、従来の音声AIの会話方法を変革することを目的としています。これまで音声合成モデルはテキストを音声に変換するものでしたが、TTS-2は会話中の音声をリアルタイムで受け取り、ユーザーのトーン、リズム、感情状態を感知し、より自然な会話体験を提供します。

image.png

TTS-2の重要な特徴はそのループ型システムアーキテクチャです。従来のモデルとは異なり、文字起こしに依存するだけでなく、実際の音声を直接受け取ります。この違いにより、同じ文が異なる状況下でどのように解釈されるかを理解することができます。たとえば、「まあ、いいや」という言葉は、落胆したトーンと軽いトーンではまったく異なる感情を伝えます。TTS-2はこれらの感情情報を捉え、会話の連続性と現実感を向上させます。

このモデルには4つの機能が搭載されており、さらに独自性を強化しています。まず、「音声コマンド」機能は、開発者が推論時に単純な言葉のヒントを使って音声の表現を誘導できるようにするものです。これは固定的な感情タグを選ぶことではなく、単なる言葉の指示によって可能です。次に、「会話の意識」があり、ループ型アーキテクチャによりモデルが文脈を理解します。また、TTS-2は多言語の音声認識と出力をサポートしており、ユーザーは同一の会話の中で言語をスムーズに切り替えることができ、音声の一貫性を保つことができます。最後に、「高度な音声デザイン」機能により、開発者は記述的な文章を使用して再利用可能な音声を作成でき、追加の音声参照は必要ありません。

TTS-2のリリースは、Inworld AIが音声技術においてさらなる進歩を遂げたことを示しています。このモデルは高品質な音声出力を処理するだけでなく、文脈意識と音声の一貫性に重点を置き、ユーザー体験を向上させています。これらのイノベーションを通じて、Inworld AIは競争の激しい音声AI市場で際立っていきたいと考えています。

ポイント:  

🎤 ** リアルタイム会話 **: TTS-2はループ型システムを通じてユーザーの音声をキャプチャーし、感情やトーンを理解します。  

🌍 ** 多言語サポート **: 100以上の言語で一貫したボイスアイデンティティを保持し、途中で言語を切り替えることができます。  

🛠️ ** 音声デザインの柔軟性 **: 開発者は記述的な文章を使用して再利用可能な音声を作成でき、追加の音声参照は必要ありません。