终极RVC MAKER ?
描述
该项目全部是一个易于使用的语音转换工具。为了创建高质量和高性能的语音转换产品,该项目允许用户平稳,自然地改变声音。
项目功能
| 特征 | 描述 |
|---|---|
| 音乐分离 | 利用MDX-NET将音轨分开。 |
| 语音转换 | 支持文件转换,批处理转换,低语转换以及文本到语音转换。 |
| 背景音乐编辑 | 启用对背景音乐曲目的编辑和操纵。 |
| 对音频应用效果 | 允许应用各种效果来增强或修改音频输出。 |
| 生成培训数据 | 从链接的路径中创建培训数据以进行模型培训。 |
| 模型培训 | 支持具有高质量编码器的V1和V2模型。 |
| 模型融合 | 促进结合多个模型以增强性能。 |
| 阅读模型信息 | 提供访问和显示模型元数据的功能。 |
| 导出到ONNX | 使训练有素的模型启用到ONNX格式以兼容。 |
| 从现有模型存储库中下载 | 允许从已建立的存储库中下载模型。 |
| 在网上搜索模型 | 支持在线搜索模型以便访问。 |
| 沥青提取 | 从音频输入中提取音调信息。 |
| 支持使用ONNX模型的音频转换推理 | 使用与ONNX兼容的模型来推断音频转换。 |
| 具有索引的ONNX RVC模型 | 支持具有索引的ONNX RVC模型,以提高推理。 |
| 多个模型选项 | |
F0 : pm, dio, mangio-crepe-tiny, mangio-crepe-small, mangio-crepe-medium, mangio-crepe-large, mangio-crepe-full, crepe-tiny, crepe-small, crepe-medium, crepe-large, crepe-full, fcpe, fcpe-legacy, rmvpe, rmvpe-legacy, harvest, yin, pyin, swipe |
|
| F0_ONNX :一些模型转换为ONNX进行加速螺距提取。 | |
F0_HINBRID :结合了多种选项,例如, hybrid[rmvpe+harvest]或所有选项在一起。 |
|
嵌入式: contentvec_base, hubert_base, japanese_hubert_base, korean_hubert_base, chinese_hubert_base, portuguese_hubert_base |
|
| Embedders_Onnx :预先转换的ONNX版本的嵌入式模型,用于提取。 | |
| Embedders_transformers :预先转换的嵌入模型的拥抱面部版本作为FairSeq的替代方案。 | |
| Spin_embedders :一种新的嵌入式提取模型,其潜在的质量比旧方法更高。 |
安装和用法
- 步骤1 :从官方网站或Python安装Python(需要Python 3.10.x或Python 3.11.x )
- 步骤2 :从FFMPEG安装FFMPEG,提取它,然后将其添加到路径
- 步骤3 :下载并提取源代码
- 步骤4 :导航到源代码目录和打开命令提示或终端
- 步骤5 :运行命令以安装所需的库
安装:
您可以使用运行“ run_install.bat”安装URVC
或依次运行pip install -r requirements.txt
步骤6:
运行`run_app`文件以打开用户界面(注意:请勿关闭接口的命令提示或终端)
另外,请在源代码目录中使用命令提示符或终端,以允许接口访问项目外部的文件,添加--allow_all_disk到命令:
env\\Scripts\\python.exe main\\app\\app.py --open
使用张板进行训练监视:
运行文件:张板或命令
env\\Scripts\\python.exe main\\app\\tensorboard.py
命令行的用法
python main\\app\\parser.py --help
笔记
- 该项目仅支持NVIDIA GPU
- 目前,像MRF Hifigan这样的新编码器尚未完成完整的预培训数据集
- MRF Hifigan和Refinegan编码器不支持训练,而没有俯仰训练
- URVC存储库中的模型是从AI Hub,HuggingFace和其他存储库中收集的。他们可能会携带不同的许可证(例如,AudiOldM2具有带有“非商业”条款的模型权重)。
- 该源代码包含根据“非商业”条款许可的第三方软件组件。任何商业用途,包括征集捐赠或衍生品金融化,都可能侵犯许可证,并承担适当的法律责任。
使用条款
-
您必须确保您上传的音频内容并通过此项目转换不会侵犯第三方的知识产权。
-
该项目不得用于任何非法活动,包括但不限于欺诈,骚扰或对他人造成伤害。
-
对于不当使用产品而造成的任何损害,您都是负责的。
-
对于使用该项目而引起的任何直接或间接损害,我将不承担任何责任。
该项目是根据以下项目构建的
| 项目 | 作者/组织 | 执照 |
|---|---|---|
| 越南-RVC | phạmhuỳnhanh | 麻省理工学院许可证 |
| 申请 | Iahispano | 麻省理工学院许可证 |
| python-audio-separator | Nomad Karaoke | 麻省理工学院许可证 |
| 基于检索的voice-conversion-webui | RVC项目 | 麻省理工学院许可证 |
| rvc–onnx-y-anh | phạmhuỳnhanh | 麻省理工学院许可证 |
| 火炬 – onnx-crepe-by-anh | phạmhuỳnhanh | 麻省理工学院许可证 |
| Hubert-No-Fairseq | phạmhuỳnhanh | 麻省理工学院许可证 |
| 本地注意力 | 菲尔·王 | 麻省理工学院许可证 |
| Torchfcpe | cn_chitu | 麻省理工学院许可证 |
| fcponnx | 尤里 | 麻省理工学院许可证 |
| ContentVec | Kaizhi Qian | 麻省理工学院许可证 |
| Mediafiredl | 圣地亚哥·阿里尔·曼西拉(Santiago Ariel Mansilla) | 麻省理工学院许可证 |
| 噪声 | 蒂姆·塞恩堡 | 麻省理工学院许可证 |
| by-anh | phạmhuỳnhanh | 麻省理工学院许可证 |
| mega.py | Marco Trevisan | 没有许可证 |
| gdown | 肯塔罗·瓦达(Kentaro Wada) | 麻省理工学院许可证 |
| 耳语 | Openai | 麻省理工学院许可证 |
| pyannoteaudio | pyannote | 麻省理工学院许可证 |
| AudioEditing Code | 希拉庄园 | 麻省理工学院许可证 |
| stftpitchshift | JürgenHock | 麻省理工学院许可证 |
| 代号-rvc-fork-3 | 代号; 0 | 麻省理工学院许可证 |
模型搜索工具的模型存储库
- Voice-Models.com
RVC中的音高提取方法
本文档提供了有关使用的音高提取方法的详细信息,包括基于个人经验的优点,局限性,优势和可靠性。
| 方法 | 类型 | 优势 | 限制 | 力量 | 可靠性 |
|---|---|---|---|---|---|
| 下午 | Praat | 快速地 | 较少准确 | 低的 | 低的 |
| dio | pyworld | 适用于说唱 | 高频较差 | 中等的 | 中等的 |
| 收成 | pyworld | 比Dio更准确 | 处理较慢 | 高的 | 很高 |
| 绉 | 深度学习 | 高精度 | 需要GPU | 很高 | 很高 |
| Mangio-Crepe | 可丽饼的芬特 | 针对RVC进行了优化 | 有时不如原始可丽饼准确 | 中至高 | 中至高 |
| fcpe | 深度学习 | 准确,实时 | 需要强大的GPU | 好的 | 中等的 |
| fcpe-eggacy | 老的 | 准确,实时 | 年龄较大 | 好的 | 中等的 |
| rmvpe | 深度学习 | 有效唱歌 | 资源密集型 | 很高 | 出色的 |
| RMVPE-LEGAICY | 老的 | 支持较旧的系统 | 年龄较大 | 高的 | 好的 |
| 阴 | 天秤座 | 简单,高效 | 容易出现八度错误 | 中等的 | 低的 |
| pyin | 天秤座 | 比阴更稳定 | 更复杂的计算 | 好的 | 好的 |
| 滑动 | 世界 | 高精度 | 对噪声敏感 | 高的 | 好的 |
错误报告
-
如果您在使用此源代码时遇到错误,我真诚地为经验不佳的经历道歉。您可以使用以下方法报告错误。
-
您可以通过问题向我们报告错误。
