
これまでASR(音声からテキストへの変換)、LLM(大規模言語モデル)、TTS(テキストから音声への変換)といった複数のステップをつなげて処理していた構造とは異なり、
さらに、このモデルは個別化制御において優れた性能を発揮します。「音声+テキスト」の二重の誘導により、ユーザーはAIの役割背景を定義するだけでなく、その声色やトーンを正確に制御することができます。AIbaseが入手した情報によると、
研究:https://research.nvidia.com/labs/adlr/personaplex/
ポイント:
🎙️ 双方向インタラクション:
はリアルタイムの音声ストリーム処理をサポートしており、AIが話している間にいつでもユーザーが割り込みや重なる会話を可能にし、急速な応答を実現します。PersonaPlex-7B-v1 🧠 単一モデルアーキテクチャ:面倒なプラグイン式のパイプラインを廃止し、単一の
構造を採用し、テキストと音声のトークンを同時に予測することで、根本的な会話の自然さを向上させます。Transformer 🎭 深い個別化:最大200トークンのシステムプロンプトおよび特定の音声埋め込みをサポートし、AIの役割性質、業務知識、感情的な声色を柔軟にカスタマイズできます。
