type
status
date
slug
summary
tags
category
icon
password
GPT-SoVITS是花儿不哭大佬研发的低成本AI音色克隆软件。项目地址:https://github.com/RVC-Boss/GPT-SoVITS
本文旨在记录如何快速开始并生成一条合成语音,过程中遇到的变量和参数需自行探索!
有一点需提前说明:在阅读本文时,请仔细看清楚文中提到的是文件路径还是文件夹路径!!!
启动项目
项目的github地址在开头已经给出,大家可以自行star并克隆(不推荐)。由于启动项目前需要先配置一系列的环境,如python、ffmpeg等,流程较为繁琐,所以市面上有很多的整合包。通常我们只需一键启动整合包即可肆意使用GPT-SoVITS。
笔者用的是凯凯-你好视频评论区中的整合包,只要跟着视频就能顺利启动项目!
如果成功打开如下页面,说明项目已经成功启动啦🎉
准备音频
如果我们准备的是一段人声音频,那么就可以直接跳过这步!如果是非人声,则需要先处理一下音频文件,确保拿到纯人声素材。大致步骤如下:
- 勾选
UVR5-WebUI
,等待片刻会自动打开一个新页面
- 上传准备好的音频素材,并选择模型。可以按照上方的文字提示去选择模型,一般处理人声的模型选择HP2或HP3(建议都选一下,转换听下哪个效果更好)
- 创建一个文件夹来保存输出人声和非人声的文件(笔者是在output文件夹下创建的)。点击转换,转换完成后会在指定的文件夹中生成两段音频,其中人声就是我们所需的音频素材(可以删掉非人声的音频)
- 关闭该页面,返回GPT-SoVITS WebUI并取消勾选
切割音频
- 创建一个用来保存切割音频文件的文件夹slicer_opt。
- 分别复制并粘贴准备好的音频文件路径和保存切割文件的文件夹路径到页面中,点击开始切割
- 切割结束后,会在刚创建的slicer_opt文件夹中生成文件(因为笔者选的音频只有4s,所以切割后也只有一个文件)
自动打标
- 和创建slicer_opt文件夹一样,创建一个保存打标文件的文件夹asr_opt
- 分别复制并粘贴切割音频文件夹路径和打标文件夹路径到页面中,点击开始打标
- 打标完成后会在asr_opt文件夹中生成.list文件
- 复制.list文件路径,粘贴到如图位置并勾选打标WebUI,稍等片刻会自动打开新页面
- 听一下每段音频和前面的文本是否对应,如有偏差,需要手动修正文本内容并点击
submit text
保存结果
- 全部校对完毕后关闭当前页面。返回GPT-SoVITS WebUI并取消勾选
开始训练
- 切换到选项卡的第二项(1-GPT-SOVITS-TTS)
- 首先在箭头处为你的模型起一个名字(推荐英文和数字),再分别复制粘贴.list打标文件路径和音频切割文件夹路径。最后点击一键三连按钮等待完成
- 一键三连完成后,切换到1B-Fine-tuned-training(微调训练)面板进行模型训练
- 所有参数均先保持默认(可以自行研究修改具体数值),依次开启SoVITS训练和GPT训练(注意:SoVITS训练结束再进行GPT训练),模型训练完成后右边会有相应提示
- 当完成SoVITS和GPT模型训练时,你可以在GPT-SoVITS文件夹下的SoVITS_weights和GPT_weights两个文件夹中查看保存的模型文件
开始推理
- 切换到1C-inference(推理)面板开始模型推理
- 先刷新一下模型数据,然后依次选择两个模型。具体选择列表中哪一个模型可以根据实际效果来决定,默认选择数值较大的(e15、s200)。最后勾选TTS推理WebUI,等待片刻自动打开新页面
- 上传参考音频,然后输入音频对应的文本内容,再选择对应的语种。
注意:此处上传的参考音频对最后合成效果有很大的影响,建议在之前切割好的音频文件中选择一个进行上传
- 输入想要合成的文本以及对应的语种,最后点击合成语音就能获得想要的效果啦👏
tips:即使参考音频和参数都一致,每次点击合成语音之后获得的音频都会有些许差别;点击合成音频右边的三个点即可下载该音频文件
- 作者:Leeson
- 链接: /article/gpt-sovits
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。