Metaは最近、シームレスコミュニケーションシリーズという音声翻訳の新しいモデルを発表しました。このシリーズには4つのモデルが含まれており、約100の言語間のリアルタイム音声翻訳をサポートし、遅延は2秒程度に抑えられています。モデルは、元の音声の休止、トーン、速度などの複雑な特徴を再現できるため、より自然な翻訳を実現します。非自己回帰アーキテクチャを採用することで、長いシーケンスの翻訳を可能にしています。さらにMetaは、モデルと58.5万時間という業界最大規模の音声データセットをオープンソース化し、モデルの悪用を防ぐため、オーディオウォーターマークと翻訳毒性軽減機能を追加しました。