Fish Audio は新世代のテキストから音声への変換(TTS)モデル S2 を正式にリリースし、オープンソースの TTS 技術において表現力と制御性で重要な突破を遂げました。

この Fish Audio S2 モデルは、非常に強力な感情のコントロール性が特徴です。ユーザーは自然言語の指示を使用して、細かく韵律や感情を調整することができます。例えば、テキストに [laugh](笑)、[whispers](囁き)、[super happy](とても幸せ) などのタグを挿入することができ、[professional broadcast tone](プロの放送風) や [pitch up](音調を上げる) といった自由な記述もサポートしており、単語レベルまたはフレーズレベルで正確な制御が可能です。これにより、表現力豊かで自然で生き生きとした音声を生成できます。

主な特徴は以下の通りです:

  • 完全オープンソース: モデルの重み、微調整コードおよび SGLang をベースにしたストリーミング推論エンジンがすべて公開されています(GitHub および Hugging Face で入手可能)。S2-Pro はエントリーバージョン(約44億パラメータ)です。
  • 超低遅延: 推論遅延は150ミリ秒以下であり、対話型ロボットやバーチャルアーティストなどリアルタイムなアプリケーションに適しています。
  • ネイティブなマルチスピーカー対応: 一度の推論で複数のスピーカーを処理でき、会話の入れ替わり、中断、自然な感情の伝達、および音色の一貫性をサポートします。追加の処理は必要ありません。

Fish Audio は、S2 が約1000万時間、ほぼ50種類の言語をカバーする音声データで訓練されたものであることを述べています。強化学習の一致と二重自己回帰構造を組み合わせることで、多くのベンチマークテストで優れた自然度と表現力を示し、現在のオープンソースとクローズドソースの TTS で最も感情知能が高いシステムの一つとされています。「真の言語の自由、今ここに始まる。」Fish Audio はこの言葉で宣言しました。機械的な読み上げから、真正な感情と個性を持つ AI 音声の時代が始まったのです。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/