简介

消除人声

常见的格式是mp3和wav，但是在下面的操作中需要wav格式，所以最好一开始就转成wav，可以用Adobe Audition。

最好装在C盘一级目录下，不行的话也尽量保证全英文路径。

按顺序操作：

选了陈奕迅的《六月飞霜》，前后对比很明显，前面的和音被消除了。

切片用Audio Slicer，Minimum Length改成8000

切完，会是多个声音片段。

把上述数据放到sovits的dataset_raw下面，然后识别数据集：

然后点击预处理：

预处理完之后，可以看到dataset/44k中，已经有数据了，

并且在filelists里边也划分好了训练集、验证集和测试集：

超参数配置：

开始训练：

训练好的模型放在了logs/44k里边。可以把别人的模型也放在这里，然后在界面中选择：

点击加载模型，然后上传你想转换的干声素材。需要注意的是，因为显存有限，所以需要将干声素材切分成段，然后分段转换，切分可以用Adobe Audition。

干声素材非常重要，要去除好混响和声。

最后试了下燕姿唱《六月飞霜》和《倔强》，音色是像的，但是咬字不太像，特别是五月天的倔强。转换后的简直听不了，需要找一些翻唱歌手音色和燕姿比较像的才可以。

还可以训练歌手的聚类模型，能提升音色相似度，但会导致咬字下降。