简介
转载于:【AI翻唱/SoVITS 4.0】。
消除人声
格式转换
常见的格式是mp3和wav,但是在下面的操作中需要wav格式,所以最好一开始就转成wav,可以用Adobe Audition。
安装UVR5
最好装在C盘一级目录下,不行的话也尽量保证全英文路径。
分离伴奏
按顺序操作:
- Process Method: Demucs
- Demucs Model: v3|UVR-Model-1
- Stem: Vocals
- 勾选 GPU Conversion
- 开始处理
消除混响和声
- 输入选择刚才第一步处理过后的纯人声素材
- Process Method: VR Architecture
- Window Size: 320
- Aggression: 10
- VR Model: 5_HP_Karaoke_UVR
- 勾选GPU Conversion
- 勾选Vocals Only
- 开始处理
选了陈奕迅的《六月飞霜》,前后对比很明显,前面的和音被消除了。
切片
切片用Audio Slicer,Minimum Length改成8000
切完,会是多个声音片段。
数据集预处理
把上述数据放到sovits的dataset_raw
下面,然后识别数据集:
然后点击预处理:
预处理完之后,可以看到dataset/44k
中,已经有数据了,
并且在filelists
里边也划分好了训练集、验证集和测试集:
训练
超参数配置:
开始训练:
推理
训练好的模型放在了logs/44k
里边。可以把别人的模型也放在这里,然后在界面中选择:
点击加载模型,然后上传你想转换的干声素材。需要注意的是,因为显存有限,所以需要将干声素材切分成段,然后分段转换,切分可以用Adobe Audition。
干声素材非常重要,要去除好混响和声。
最后试了下燕姿唱《六月飞霜》和《倔强》,音色是像的,但是咬字不太像,特别是五月天的倔强。转换后的简直听不了,需要找一些翻唱歌手音色和燕姿比较像的才可以。
聚类模型
还可以训练歌手的聚类模型,能提升音色相似度,但会导致咬字下降。