MOSS-Speechのオープンソース：国内初の音声から音声への大規模モデルテキストの中間処理を不要に

復旦大学のMOSSチームは、MOSS-Speechをリリースしました。これは最初にエンド・トゥ・エンドのSpeech-to-Speech対話を実現したモデルであり、Hugging Face Demoにアップロードされ、同時にオープンソースの重みとコードも公開されています。MOSS-Speechは「レイヤー分割」アーキテクチャを採用しています。元のMOSSテキスト大規模モデルのパラメータを凍結し、新たに音声理解、意味の一致、ニューラルボイサーの3層を追加しています。これにより、一度に音声質問応答、感情の模倣、笑いの生成が可能です。ASR→LLM→TTSの3段階のフローは不要です。

評価結果によると、MOSS-SpeechはZeroSpeech2025の無文脈音声タスクにおいてWERを4.1%まで低下させ、感情認識の正確率は91.2%で、MetaのSpeechGPTやGoogleのAudioLMよりも優れています。中国語の会話テストでは主観的なMOSスコアが4.6で、人間の録音の4.8に近づいています。プロジェクトでは48kHzの超サンプリング版と16kHzの軽量版が提供されており、後者は単一のRTX4090でリアルタイム推論が可能で、遅延は300ms未満であり、モバイルデバイスへの導入に適しています。

チームは、次段階として「音声制御版」のMOSS-Speech-Ctrlを開源する予定で、音声指示により速度、声の質、感情の強度を動的に調整できるようになります。2026年Q1にリリース予定です。MOSS-Speechは商用利用許諾を開放しており、開発者はGitHubからトレーニングおよび微調整スクリプトを取得でき、ローカルでプライベートな声のクローン作成やキャラクターの音声化が可能です。

グーグル DeepMind がボストン・ダイナミクスの元CTOを招聘し、ロボットの新時代を開く

グーグル DeepMind は、ボストン・ダイナミクスの元CTOであるアラン・サンドースをハードウェアエンジニアリング副社長として採用し、ロボット分野での展開を強化した。サンドースはバックフリップやダンスするロボットを開発して知られ、彼の加入はCEOのハサビスが進める「Gemini」計画にとって重要な一歩とされている。ハサビスはこの計画が、Androidのようなロボットオペレーティングシステムの構築を目指していると述べている。

MOSS-Speechのオープンソース：国内初の音声から音声への大規模モデルテキストの中間処理を不要に

関連推奨

クオークAIグラスが高徳と協力し、更なる投資を表明　徐々にストリートランク、タクシーなどの移動サービスに統合

グーグル DeepMind がボストン・ダイナミクスの元CTOを招聘し、ロボットの新時代を開く

青少年はAIチャットボットが提供するメンタルヘルスのアドバイスから離れるべきである

アメリカ合衆国共和党が州の人工知能に関する法律の実施を制限しようと再び試みる

アドビ、19億ドルの現金でSemrushを買収を発表　生成型エンジン最適化に75%のプレミアムを支払って参入

MOSS-Speechのオープンソース：国内初の音声から音声への大規模モデル テキストの中間処理を不要に

関連推奨

クオークAIグラスが高徳と協力し、更なる投資を表明 徐々にストリートランク、タクシーなどの移動サービスに統合

グーグル DeepMind がボストン・ダイナミクスの元CTOを招聘し、ロボットの新時代を開く

青少年はAIチャットボットが提供するメンタルヘルスのアドバイスから離れるべきである

アメリカ合衆国共和党が州の人工知能に関する法律の実施を制限しようと再び試みる

アドビ、19億ドルの現金でSemrushを買収を発表 生成型エンジン最適化に75%のプレミアムを支払って参入

MOSS-Speechのオープンソース：国内初の音声から音声への大規模モデルテキストの中間処理を不要に

クオークAIグラスが高徳と協力し、更なる投資を表明　徐々にストリートランク、タクシーなどの移動サービスに統合

アドビ、19億ドルの現金でSemrushを買収を発表　生成型エンジン最適化に75%のプレミアムを支払って参入