真の感情の自由！Fish AudioがS2をリリース：複数話者、単語レベルの感情制御、完全オープンソース

Fish Audio は新世代のテキストから音声への変換（TTS）モデル S2 を正式にリリースし、オープンソースの TTS 技術において表現力と制御性で重要な突破を遂げました。

この Fish Audio S2 モデルは、非常に強力な感情のコントロール性が特徴です。ユーザーは自然言語の指示を使用して、細かく韵律や感情を調整することができます。例えば、テキストに [laugh](笑)、[whispers](囁き)、[super happy](とても幸せ) などのタグを挿入することができ、[professional broadcast tone](プロの放送風) や [pitch up](音調を上げる) といった自由な記述もサポートしており、単語レベルまたはフレーズレベルで正確な制御が可能です。これにより、表現力豊かで自然で生き生きとした音声を生成できます。

主な特徴は以下の通りです:

完全オープンソース: モデルの重み、微調整コードおよび SGLang をベースにしたストリーミング推論エンジンがすべて公開されています（GitHub および Hugging Face で入手可能）。S2-Pro はエントリーバージョン（約44億パラメータ）です。
超低遅延: 推論遅延は150ミリ秒以下であり、対話型ロボットやバーチャルアーティストなどリアルタイムなアプリケーションに適しています。
ネイティブなマルチスピーカー対応: 一度の推論で複数のスピーカーを処理でき、会話の入れ替わり、中断、自然な感情の伝達、および音色の一貫性をサポートします。追加の処理は必要ありません。

Fish Audio は、S2 が約1000万時間、ほぼ50種類の言語をカバーする音声データで訓練されたものであることを述べています。強化学習の一致と二重自己回帰構造を組み合わせることで、多くのベンチマークテストで優れた自然度と表現力を示し、現在のオープンソースとクローズドソースの TTS で最も感情知能が高いシステムの一つとされています。「真の言語の自由、今ここに始まる。」Fish Audio はこの言葉で宣言しました。機械的な読み上げから、真正な感情と個性を持つ AI 音声の時代が始まったのです。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/

スマートフォンからタコ宇宙へ：プロメス Magic V6のエッジAIスマート内側テスト開始

プロメスは折り畳みエントリーモデル「Magic V6」とAIエコシステム「プロメスタコ宇宙」を発表し、エッジAIを多デバイス協働に深く組み込みました。そのオープンソースフレームワークOpenClawは、PCやタブレットなどの端末を直接制御し、意思決定の助言を提供して自動化されたタスク処理を実現します。

馬化騰が養虾アレイを公式発表：テencentの自社開発AIスマートエージェントがデスクトップから全シーンエコシステムへ

馬化騰CEOが発表したAIエージェント「ロブスター」は、自社開発、ローカル、クラウド、企業向け、セキュリティ分離など多様な製品を網羅。中核製品WorkBuddyは全シーン対応のデスクトップエージェントで、OpenClawスキルパック互換、国内主要モデル呼び出し可能、アプリ同様の簡単インストールを実現。....

真の感情の自由！Fish AudioがS2をリリース：複数話者、単語レベルの感情制御、完全オープンソース

関連推奨

アーキテクトがAIプログラミングを使ってSaaSの危機を回避：第3四半期の収益は22%増

コストを97%削減：スタートアップ企業がLovableで開発したカスタムCRMでSalesforceを置き換える

スマートフォンからタコ宇宙へ：プロメス Magic V6のエッジAIスマート内側テスト開始

馬化騰が養虾アレイを公式発表：テencentの自社開発AIスマートエージェントがデスクトップから全シーンエコシステムへ

360がOpenClawセキュリティガイドをリリース、AIエージェントのプロンプトインジェクション問題を解決