这个模型应该是目前质量最高训练最快的ai音声模型框架,有webui,可视化操作,以及基本包含了ai声音训练的全部步骤和工具组件,如数据集清洗,打标等。
这个模型只有TTS没有变声(SVC),所以不能唱歌,但是webui中变声显示待开发中,未来可期。

我的配置

  • 个人笔记本电脑,win11系统
  • GPU:一张,N卡4060,8G显存

官方文档中关键步骤

  • win环境就下载整合包,不要拉项目然后自己pip安装,因为很多包需要很多前置依赖,如cmake,vs的c++组件等。
  • 即使下载了整合包,也要拉取项目后进行更新一次

    定位到 GPT-Sovits文件夹。shift+右键打开cmd,然后输入runtime\python -m pip install -r requirements.txt回车。更新完。
  • 训练时关注任务管理gpu中cuda的占用,90多才在训练,没有cuda需要关闭系统设置里的gpu加速计划,在图形设置里。
  • 爆显存问题。在N卡的控制面板3D设置里。

    修改配置,选择自定义程序(python.exe)就是你训练模型里面带的python,目录是在runningtime那个里面,可以自己查一下,cuda-系统内存回退政策:选择偏好系统内存回退,应用,重启电脑;