SoVITS4.0实践

简介

转载于:【AI翻唱/SoVITS 4.0】

消除人声

格式转换

常见的格式是mp3和wav,但是在下面的操作中需要wav格式,所以最好一开始就转成wav,可以用Adobe Audition。

安装UVR5

最好装在C盘一级目录下,不行的话也尽量保证全英文路径。

分离伴奏

按顺序操作:

  • Process Method: Demucs
  • Demucs Model: v3|UVR-Model-1
  • Stem: Vocals
  • 勾选 GPU Conversion
  • 开始处理

消除混响和声

  • 输入选择刚才第一步处理过后的纯人声素材
  • Process Method: VR Architecture
  • Window Size: 320
  • Aggression: 10
  • VR Model: 5_HP_Karaoke_UVR
  • 勾选GPU Conversion
  • 勾选Vocals Only
  • 开始处理

选了陈奕迅的《六月飞霜》,前后对比很明显,前面的和音被消除了。

切片

切片用Audio Slicer,Minimum Length改成8000

切完,会是多个声音片段。

数据集预处理

把上述数据放到sovits的dataset_raw下面,然后识别数据集:

然后点击预处理:

预处理完之后,可以看到dataset/44k中,已经有数据了,

并且在filelists里边也划分好了训练集、验证集和测试集:

训练

超参数配置:

开始训练:

推理

训练好的模型放在了logs/44k里边。可以把别人的模型也放在这里,然后在界面中选择:

点击加载模型,然后上传你想转换的干声素材。需要注意的是,因为显存有限,所以需要将干声素材切分成段,然后分段转换,切分可以用Adobe Audition。

干声素材非常重要,要去除好混响和声。

最后试了下燕姿唱《六月飞霜》和《倔强》,音色是像的,但是咬字不太像,特别是五月天的倔强。转换后的简直听不了,需要找一些翻唱歌手音色和燕姿比较像的才可以。

聚类模型

还可以训练歌手的聚类模型,能提升音色相似度,但会导致咬字下降。

一分一毛,也是心意。