GanyuTTS
GanyuTTS是用于从文本中生成语音的VITS + SO-VITS工具。它最初是为游戏精英制作的,但我将其与主要项目分开,因此现在可以用作独立推理工具或API。 Edditts可在此处使用。
这绝对只是一个玩具项目,所以不要期望太多。仍然有很多东西进行了硬编码,并且代码不是很干净。将来我会尝试清理它。
我只是为了自己的便利而制作了此存储库,但是如果愿意,请随时使用它。
安装
我建议为此使用虚拟环境(CONDA或VENV)。另外,我建议使用Python 3.9或更高。不需要GPU,但它将加快推理。
pip install -r requirements.txt
对于Phonemizer ,您需要安装ESPEAK 。在Windows上,您可以从这里下载它。在Linux上,您可以使用软件包管理器安装它。
用法
配置文件
该程序需要一个名为config.json的配置文件。提供了一个示例文件。您可以更改模型和API键的路径。 PhoneMizer路径仅与Windows用户有关,如果您在其他位置安装了ESPEAK,则可以在此处进行编辑。如果要使用交互式模式,则需要从OpenAI获取API键。它非常便宜,值得回应的质量。
主要API
要启动API,请运行以下命令:
python main.py
该应用为文本到语音提供了简单的烧瓶API。您可以将发布请求发送到服务器,它将返回音频WAV文件。
示例请求主体:
{
\"text\" : \" Hello, world! \" ,
\"sid1\" : \" 22 \" , # speaker id in the multi-speaker VITS model
\"sid2\" : \" ganyu \" # speaker id in the SO-VITS model
}
回复:
{
\"audio\" : \" <audio wav> \" # base64 encoded raw audio
}
提供了用于测试API的API_CLIENT_EXAMPLE.PY。
简单推论
有两个推理脚本,一个用于VIT,另一个用于VIT + SO-VITS管道。您可以使用它们简单地从CLI创建音频。
仅对于VIT:
python inference_vits.py -t \" Let\'s get started. I\'ll be your guide today. \"
对于vits + so-vits:
python inference_vits_sovits.py -t \" Let\'s get started. I\'ll be your guide today \"
使用-h或--help以获取更多信息。
型号
所有型号都应在模型文件夹中,您必须从我的HuggingFace Repo手动下载它。另外,不要忘记下载Hubert模型,这是So-Vits所需的。我正在使用“ checkpoint_best_legacy_500.pt”
学分
- 原始vits -https://github.com/jaywalnut310/vits
- text-generation-webui-https://github.com/oobabooga/text-generation-webui
