アリババ・トングイ研究所は、新世代のエンドツーエンド音声インタラクション大規模モデル「Fun-Audio-Chat-8B」を正式にオープンソース化しました。このモデルは超低遅延と自然でスムーズな音声インタラクションを核とし、オープンソース音声AIの新たな段階を示しています。ユーザーの音声をリアルタイムで理解するだけでなく、強力な感情認識能力を持ち、閉鎖型の大手製品であるGPT-4o AudioやGemini2.5Proに迫る性能を発揮します。AIbaseの専門解説: Fun-Audio-Chatは単なるチャットツールではなく、真の意味での「AI音声パートナー」です。

ユーザーはただ話すだけで、モデルが即座に理解し、考え、自然な音声で応答します。従来のASR+LLM+TTSの複数モジュールによる接続の遅延の問題を完全に解消し、エンドツーエンドのSpeech-to-Speech(S2S)構造を実現し、インタラクション体験を人間同士の会話に近づけます。技術的な特徴:極めて低い遅延と効率的な設計: 创新的な二つの解像度アーキテクチャ(5Hz共有メインフレーム+25Hz細かいヘッド部)を採用し、GPUの計算リソースを約50%節約し、応答速度が大幅に向上し、リアルタイムシーンでの展開に適しています。
共感的な感情理解: モデルは口調、語速、休止などの細部からユーザーの感情(例えば楽しい、疲れている、怒っているなど)を感知し、明確に表現されていない場合でも、心配りのある、共感的な返答を提供し、インタラクションをより人間らしいものにします。
強力な音声関数呼び出し: Voice Function Callingをサポートしており、ユーザーは自然な音声コマンドで複雑なタスクを実行できます。例えば、「音楽をプレイして」とか「電話をかける」など、本当に「口で言うだけ」で済みます。

優れたパフォーマンスはOpenAudioBench、MMAU、Speech-ACEBench、VStyleなどの国際的な権威あるベンチマークテストにおいて、同サイズのモデルの中でトップに立ち、GLM4-Voice、Kimi-Audio、Baichuan-Omniなどのオープンソース競合製品を上回り、一部の指標では閉鎖型の最高レベルのモデルと同等またはそれ以上となっています。豊富な応用機能: 実際に音声質問に回答する(たとえば、音声コンテンツの要約);
感情、ボイストーン、命令を正確に識別する;
多言語翻訳、キャラクターの再現をサポート;
さまざまな感情を持つ音声出力をシミュレートする(例: 優しい、厳格な、嬉しい);
感情支援、スマートデバイス制御、音声カスタマーサポートなどのシナリオに適しています。
AIbaseの見解: このオープンソースには、完全な8Bモデルの重み、推論コード、およびFunction Callの例が含まれており、開発者の門戸を大幅に下げ、音声AIエコシステムの急速な発展を促進します。興味のある開発者は、GitHub、Hugging FaceまたはModelScopeで今すぐダウンロードして体験してください。あなたの「高次の感情知性」を持つ音声AIの時代を開くのです!
プロジェクトのアドレス: https://funaudiollm.github.io/funaudiochat/
