Inworld AI がリアルタイム TTS-2 をリリース：ユーザーの会話スタイルに適応するクローズドループ音声モデル

Inworld AI は近日、最新の音声モデルである「リアルタイム TTS-2」をリリースしました。このモデルは、Inworld API および Inworld Realtime API の研究プレビュー版を通じて、従来の音声AIの会話方法を変革することを目的としています。これまで音声合成モデルはテキストを音声に変換するものでしたが、TTS-2は会話中の音声をリアルタイムで受け取り、ユーザーのトーン、リズム、感情状態を感知し、より自然な会話体験を提供します。

TTS-2の重要な特徴はそのループ型システムアーキテクチャです。従来のモデルとは異なり、文字起こしに依存するだけでなく、実際の音声を直接受け取ります。この違いにより、同じ文が異なる状況下でどのように解釈されるかを理解することができます。たとえば、「まあ、いいや」という言葉は、落胆したトーンと軽いトーンではまったく異なる感情を伝えます。TTS-2はこれらの感情情報を捉え、会話の連続性と現実感を向上させます。

このモデルには4つの機能が搭載されており、さらに独自性を強化しています。まず、「音声コマンド」機能は、開発者が推論時に単純な言葉のヒントを使って音声の表現を誘導できるようにするものです。これは固定的な感情タグを選ぶことではなく、単なる言葉の指示によって可能です。次に、「会話の意識」があり、ループ型アーキテクチャによりモデルが文脈を理解します。また、TTS-2は多言語の音声認識と出力をサポートしており、ユーザーは同一の会話の中で言語をスムーズに切り替えることができ、音声の一貫性を保つことができます。最後に、「高度な音声デザイン」機能により、開発者は記述的な文章を使用して再利用可能な音声を作成でき、追加の音声参照は必要ありません。

TTS-2のリリースは、Inworld AIが音声技術においてさらなる進歩を遂げたことを示しています。このモデルは高品質な音声出力を処理するだけでなく、文脈意識と音声の一貫性に重点を置き、ユーザー体験を向上させています。これらのイノベーションを通じて、Inworld AIは競争の激しい音声AI市場で際立っていきたいと考えています。

ポイント：
🎤 ** リアルタイム会話 **: TTS-2はループ型システムを通じてユーザーの音声をキャプチャーし、感情やトーンを理解します。
🌍 ** 多言語サポート **: 100以上の言語で一貫したボイスアイデンティティを保持し、途中で言語を切り替えることができます。
🛠️ ** 音声デザインの柔軟性 **: 開発者は記述的な文章を使用して再利用可能な音声を作成でき、追加の音声参照は必要ありません。

OpenAI、3種類のリアルタイム音声モデルをリリース GPT-5レベルの推論能力が実用化

OpenAIがGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3つのリアルタイム音声モデルを発表し、Realtime APIに統合。GPT-Realtime-2は最も賢いAI音声モデルで、音声対話における高遅延、自然な割り込みの困難さ、多言語サポートの課題を解決することを目指す。....

OpenAI、リアルタイム音声モデル3種類を公開〜推論対話、リアルタイム翻訳、リアルタイム字幕作成向け〜

OpenAIは3種類のリアルタイム音声モデルをリリースしました。GPT-Realtime-2はGPT-5レベルの推論能力を持ち、複雑な要求や自然な会話をサポートします。GPT-Realtime-Translateはリアルタイム翻訳に特化しています。GPT-Realtime-Whisperは音声認識に重点を置いています。これらのモデルは開発者にさまざまなシナリオでの音声アプリケーションの解決策を提供します。

新規の音声評価ツール UltraEval-Audio がリリースされました。音声モデル開発をサポートします！

清华大学などの機関が UltraEval-Audio 音声モデル評価フレームワークを公開しました。音声大規模モデルの評価にシステムベースとワンストップソリューションを提供します。最新バージョン v1.1.0 はワンタッチ評価機能を強化し、研究者が音声モデルの性能を効率的に評価できるようにしています。

清华大学とOpenBMBが共同でUltraEval-Audioをリリース：音声モデル評価の新しいフレームワークを開源

清华大学NLP研究室などの機関が音声モデル評価フレームワークUltraEval-Audioをオープンソース化しました。このフレームワークは、音声大規模モデルに完全な評価方法を提供します。最新バージョンv1.1.0では、従来の「ワンクリック評価」機能に加え、人気のある音声モデルをワンクリックで再現する機能が追加され、音声評価システムがさらに整備されました。

Inworld AI がリアルタイム TTS-2 をリリース：ユーザーの会話スタイルに適応するクローズドループ音声モデル

関連推奨

OpenAI、3種類のリアルタイム音声モデルをリリース GPT-5レベルの推論能力が実用化

OpenAI、リアルタイム音声モデル3種類を公開〜推論対話、リアルタイム翻訳、リアルタイム字幕作成向け〜

新規の音声評価ツール UltraEval-Audio がリリースされました。音声モデル開発をサポートします！

清华大学とOpenBMBが共同でUltraEval-Audioをリリース：音声モデル評価の新しいフレームワークを開源

OpenAI が新しい音声モデル GPT-Realtime をリリース。音声AIエージェント向けに設計されています

Inworld AI がリアルタイム TTS-2 をリリース：ユーザーの会話スタイルに適応するクローズドループ音声モデル

関連推奨

OpenAI、3種類のリアルタイム音声モデルをリリース GPT-5レベルの推論能力が実用化

OpenAI、リアルタイム音声モデル3種類を公開 〜推論対話、リアルタイム翻訳、リアルタイム字幕作成向け〜

新規の音声評価ツール UltraEval-Audio がリリースされました。音声モデル開発をサポートします！

清华大学とOpenBMBが共同でUltraEval-Audioをリリース：音声モデル評価の新しいフレームワークを開源

OpenAI が新しい音声モデル GPT-Realtime をリリース。音声AIエージェント向けに設計されています

OpenAI、リアルタイム音声モデル3種類を公開〜推論対話、リアルタイム翻訳、リアルタイム字幕作成向け〜