NVIDIAがPersonaPlex-7B-v1を発表：リアルタイムの音声インタラクションを再構築するフルディプレックス技術

ナビダの研究チームは、近日、PersonaPlex-7B-v1という双方向音声対話モデルを正式に公開しました。このモデルは従来のAI音声アシスタントが「一つ聞こえるごとに一つ答える」という単調なスタイルを完全に打ち破り、より人間らしい自然な会話体験を目指しています。

これまでASR（音声からテキストへの変換）、LLM（大規模言語モデル）、TTS（テキストから音声への変換）といった複数のステップをつなげて処理していた構造とは異なり、PersonaPlexは単一のTransformerアーキテクチャを採用し、音声の理解と生成を一貫して行います。AIbaseによると、このような「エンド・ツー・エンド」の設計により、応答遅延が大幅に低下し、AIは自然な中断や音声の重なり、即時のフィードバックに対処できるようになりました。簡単に言えば、まるで人と会話するように、AIが話している間も継続的に聞くことができ、ユーザーが突然会話を中断しても迅速に反応できます。

さらに、このモデルは個別化制御において優れた性能を発揮します。「音声＋テキスト」の二重の誘導により、ユーザーはAIの役割背景を定義するだけでなく、その声色やトーンを正確に制御することができます。AIbaseが入手した情報によると、ナビダは膨大な実際の通話データと合成されたシナリオを組み合わせてトレーニングを行い、モデルは自然な言語習慣を持ちながら特定の業界の業務ルールを厳密に守る能力を備えています。現在の評価結果によれば、PersonaPlex-7B-v1は会話の滑らかさとタスク達成率において、多くのオープンソースおよびクローズドソースシステムよりも優れています。

研究：https://research.nvidia.com/labs/adlr/personaplex/

ポイント：

🎙️ 双方向インタラクション：PersonaPlex-7B-v1はリアルタイムの音声ストリーム処理をサポートしており、AIが話している間にいつでもユーザーが割り込みや重なる会話を可能にし、急速な応答を実現します。
🧠 単一モデルアーキテクチャ：面倒なプラグイン式のパイプラインを廃止し、単一のTransformer構造を採用し、テキストと音声のトークンを同時に予測することで、根本的な会話の自然さを向上させます。
🎭 深い個別化：最大200トークンのシステムプロンプトおよび特定の音声埋め込みをサポートし、AIの役割性質、業務知識、感情的な声色を柔軟にカスタマイズできます。

NVIDIAがPersonaPlex-7B-v1を発表：リアルタイムの音声インタラクションを再構築するフルディプレックス技術

関連推奨

ZHIJI AUTOの発表会日程が決定！スーパーエンターテインメントが登場し、今後の移動の新しいトレンドを明らかにします

バイドゥ検索 Skill が ClawHub をトップに：ダウンロード数が3.6万を突破し、世界第1位に

技術最適化はさらに磨きをかける必要がある：メタ、Llama4のリリース計画を5月に延期

メイドーのCEO王興（ワン・シン）：AIエージェントの影響はチャットGPTよりさらに大きかった

出荷量が800万個を突破！董明珠のチップ事情が実現：格力自社開発チップがAIアクティブサービス時代に参入