tts with rvc - 左子网

tts-with-rvc 0.1.9

TTS-WITH-RVC （带RVC的文本到语音）是一个软件包，旨在通过引入RVC模块来增强文本到语音（TTS）系统的功能。该软件包使用户不仅可以将文本转换为语音，还可以根据RVC支持的偏好来个性化和自定义语音输出。

需要带有CUDA或MPS的Pytorch才能获得TTS-RVC工作。

它可能包含错误。报告错误的问题。

发行说明

0.1.9- 2025年3月31日：一些小修复程序，修复了Linux的Fairseq安装。

0.1.8- 2025年3月30日：添加了所有RVC参数，实现的FCPE支持，添加了PYPI安装支持，使用RMVPE仅F0方法修复了错误。

0.1.6- 2025年3月28日：更新了所有文件，其中最新的RVC提交-1.5-2倍的推理速度1.5-2倍。减少所需的包装。在这里支持。

0.1.5- 2025年2月21日：删除了所有不必要的软件包，删除了rvc_path ，添加了f0_method以进行更多控制。

0.1.4- 2024年11月22日：添加了index_path和index_rate参数，以更多地控制基于索引的语音转换。

0.1.3-解决了很多问题，有些优化。

先决条件

您必须安装Python <= 3.12 （建议3.12，大部分在3.10上进行测试）。

您必须为您的GPU提供CUDA或MPS支持（MPS尚未测试）。否则，它将使用CPU，这非常慢。

安装

在此处安装带有CUDA或MPS支持的Pytorch：https：//pytorch.org/get-started/locally/
然后，使用PIP安装安装TTS-WITH-RVC：

 pip install tts-with-rvc

最后，如果您还没有一个，则安装FFMPEG，并使用脚本将其添加到文件夹中，或者更好，或者更好地将FFMPEG添加到Path中的Environment variables中。

它如何工作

文本到语音（TTS）：用户将文本输入TTS模块，然后将其处理并生成相应的语音作为保存在temp Directory中的文件
RVC：提供.pth文件后，RVC模块读取生成的音频文件，对其进行处理并生成一个新的音频，该音频保存在output_directory中并更换了语音。

用法

tts-with-rvc有一个称为TTS_RVC的类。需要一些参数：

model_path通往.pth模型的路径

和可选参数：

voice – edge-tts列表中的声音（默认是“ ru-ru-dmitryneal”）

device – 设置设备（“ CPU”，“ CUDA：0”，“ MPS：0”，默认为“ CUDA：0” ）

tmp_directory通往TTS输入目录的路径（用于保存TTS输出的临时目录，默认为temp文件夹）

output_directory保存声音音频的目录（ temp/默认值）。

index_path语音模型调整的文件索引路径（默认为空字符串\"\" ）。

index_rate原始语音转换和索引语音转换之间的混合速率（默认为0.75 ）。

f0_method计算音频音调的方法（默认为rmvpe ）。可用：\’rmvpe\’，\’fcpe\’（仅FP32），\’pm\’，\’carvest\’，\’dio\’，\’crepe\’。

弃用：

input_directory通往TTS输入目录的路径（用于保存TTS输出的临时目录，默认为无）

要设置语音，首先，使tts_rvc的实例：

 from tts_with_rvc import TTS_RVC

tts = TTS_RVC ( model_path = \"models \\\\ YourModel.pth\" ,
                index_path = \"logs \\\\ YourIndex.index\" ,
                f0_method = \"rmvpe\" )

voices.txt文件中放置的所有声音：

由于问题， tts.get_voices()无限期地禁用

接下来，使用tts.set_voice()函数设置tts的语音：

 tts . set_voice ( \"un-Un-SelectedNeural\" )

如果您使用其他语言来配音，则需要设置适当的语言！

最后一步是调用tts替换语音：

 path = tts ( text = \"Привет, мир!\" , pitch = 6 , index_rate = 0.50 )

参数：

text – tts的文字（必需）

pitch – 半音中RVC的音高更改（可选，neg。值兼容，默认值为0）

tts_rate边缘tts以百分比（+ – ）的额外语音率（可选，neg。值兼容，默认值为0）

tts_volume边缘tts以百分比（+ – ）（可选，neg。值兼容，默认值为0）的额外语音量

tts_pitch hz（+ – ）中TTS生成音频的额外音调（可选，neg。值是兼容的，不建议，默认值为0）

output_filename输出文件的名称（可选，默认值None ，生成唯一名称）

index_rate原始语音转换（0至1）之间的混合速率（可选，默认值为0.75 ）。

is_half确定RVC推理的半精确。是还是错。（可选，默认值为True ）。

f0method -F0提取方法用于此特定调用，覆盖实例默认值：\’rmvpe\’，\’fcpe\’（仅FP32），\’pm\’，\’harvest\’，\’harvest\’，\’dio\’，\’crepe\’。（可选，默认使用实例设置）。

file_index2 RVC的辅助索引文件的路径。（可选，默认值为空字符串\"\" ）。

filter_radius螺距结果的中值过滤器半径。值> = 3降低呼吸。（可选，默认值为3 ）。

resample_sr样本速率将音频重新采样到RVC之前。 0意味着没有重新采样。（可选，默认值为0 ）。

rms_mix_rate音量信封缩放（0-1）。较低的值模仿原始体积。（可选，默认值为0.5 ）。

protect – 保护无声辅音和呼吸（0-1）。较低的值增加保护。 0.5禁用。（可选，默认值为0.33 ）。

verbose – 启用详细记录以进行RVC转换。（可选，默认值为False ）。

用法的示例

表达文本的一个简单示例：

 from tts_with_rvc import TTS_RVC
from playsound import playsound

tts = TTS_RVC (
    model_path = \"models \\\\ DenVot13800.pth\" ,
    index_path = \"logs \\\\ added_IVF1749_Flat_nprobe_1.index\"
)

tts . set_voice ( \"ru-RU-DmitryNeural\" )
path = tts ( text = \"Привет, мир!\" , pitch = 6 , index_rate = 0.9 )

# Normalize path for playsound if needed (example)
# path = path.replace(\"\\\\\\\\\", \"/\").replace(\"\\\\\",\"/\")

playsound ( path )

文本参数

有一些用于集成问题的文本参数处理器，例如添加GPT模块。

您可以使用TTS_RVC类中的process_args处理它们：

--tts-rate (value) -TTS参数编辑语音速率（降低率的负值和增加速率的正值）

--tts-volume (value) -TTS参数编辑语音量（减少体积的负值和增加体积的正值）似乎由于RVC模块的转换而行不通。

--tts-pitch (value) -TTS参数编辑TTS生成音频的音调（减小音高的负值和增加音高的正值） ，我不建议使用此功能，因为RVC模块具有自己的输出pitch 。

--rvc-pitch (value) -RVC参数编辑输出音频的音调（减小音高的负值和增加音高的正值）

现在的工作原则：

 from tts_with_rvc import TTS_RVC

tts = TTS_RVC ( model_path = \"models \\\\ YourModel.pth\" )

# This method returns arguments and original text without these text parameters
args , message = tts . process_args ( message )

args变量包含一个具有以下结构的数组：

args[0] -tts速率

args[1] -tts卷

args[2] -tts音高

args[3] -RVC音高

现在，我们准备将其用于生成：

 path = tts ( message , tts_rate = args [ 0 ], 
                    tts_volume = args [ 1 ], 
                    tts_pitch = args [ 2 ],
                    pitch = args [ 3 ])

方法

set_index_path(index_path) – 为语音模型调整更新索引文件的路径。

voiceover_file(path) – 旁白在没有TT的指定路径处的文件。

例外

名称： NameError: name \'device\' is not defined

确保您的设备支持CUDA，并安装了正确版本的火炬。

RuntimeError： RuntimeError: Failed to load audio: {e}

确保您安装了ffmpeg 。

致谢

RVC项目 – 用于RVC

执照

麻省理工学院许可证

作者

ATM4X（Artem Dikarev）

tts-with-rvc 0.1.9

发行说明

先决条件

安装

它如何工作

用法

用法的示例

文本参数

方法

例外

致谢

执照

作者

相关文章

微信

左子网

QQ交流群