tts generation webui /口琴
|| [安装](#安装)|| [DOCKER设置](#Docker-Setup)|| [反馈/错误报告](https://forms.**gl*e/2L62OWHBSGFZDFBC8)
[] [] [] []
视频
型号
| 文本到语音 | 音频/音乐发电 | 音频转换/工具 |
|---|---|---|
| [吠] | [Musicgen] | [RVC] |
| [龟] | [磁铁] | [demucs] |
| [maha tts] | [稳定音频] | [VOCOS] |
| [MMS] | [(扩展)即兴] | [耳语] |
| [vall-e x] | [(扩展)Audiocraft Mac] | |
| [styletts2] | [(扩展)Audiocraft Plus] | |
| [seamlessm4t] | ||
| [(扩展)XTTSV2] | ||
| [(扩展)MARS5] | ||
| [(扩展)F5-TTS] | ||
| [(扩展)Parler TTS] |
例子
bark.narration.mp4 |
bark.japanese.mp4 |
Musicgen.mp4 |
|---|
屏幕截图
ChangElog
3月21日:
- 添加cosyvoice扩展[不稳定]和gpt-sovits [alpha]扩展
3月20日:
- 添加可执行的MACOS脚本以双击启动
- 添加不稳定的cosyvoice扩展
3月18日:
- 删除旧的RVC文件
- 修复RVC的缺少Torchfcpe依赖性
3月17日:
- 将Google Colab升级为Pytorch 2.6.0,将Conda添加到python降级为3.10
- 当自动更新无法获取新代码时,不再流产(改进离线支持#457)
- 将乌龟升级为v3.0.1,用于变形金刚4.49.0#454
- 防止在Windows/System32文件夹中运行#459
2025年2月
2月15日:
- 修复稳定的音频以匹配新版本
2月14日:
- 引脚加速> = 0.33.0项目宽
- 添加基本的无缝M4T量化代码
2月13日:
- 修复稳定的音频和无缝M4T不兼容
- 使无缝M4T自动使用CUDA,否则CPU
2月10日:
- 改善读书中的安装说明
2025年1月
2024年12月
12月17日:
- 尝试修复#429,#428,#427
2024年11月
11月23日:
- 添加Linux Fairseq Wheel以提高PIP兼容性。
11月22日:
- 切换到车轮,添加一声安装提示。
11月15日:
- 升级到Gradio 5.5.5,添加类似于增强(#420)
11月14日:
- 添加实验性窗户深速车轮。
- 在树皮语音克隆中添加更多语言。
11月11日:
- 切换到固定的FairSeq版本,以减少安装冲突并加速更新。
2024年10月
单击以展开
10月28日:
- 添加了安装程序测试,模型下载器和pip cpu-for Torch选项。
10月24日:
- 由于错误,将Gradio降低到5.1.0。
- 添加了测试工作流和固定次要错误。
10月22日:
- 修复了dockerfile问题,以使部署更顺畅。
10月21日:
- 重新设计的读书文件:改进的耳语扩展,添加了8月,9月和10月的更改,更新了屏幕截图,并重新组织了内容。
10月19日:
- 修复了扩展日志并添加了新的扩展名。
10月18日:
- 系统改进:格式化项目,固定
xformers+cuda安装,添加的日志系统,卸载扩展按钮和F5 TTS扩展。
10月16日:
- 现在,首先安装使用
pip代替uv。 - 碰撞主要版本并修复了Google Colab。
- 将PIP后备添加到稳定的音频中。
- 修复了DEMUC,更改了Postgres端口。
- 修复了
huggingface_hub安装和树皮型号加载器。 - 重大升级:切换到Gradio 5,用于选项卡,Docker Fixes,优化的UI速度,添加.ENV.USER功能,改进的日志和升级的React React UI扩展名。
10月3日:
- 修复了GPU信息选项卡并添加了
nvidia-ml-py。 - 为Audiocraft Install Bug创建了解决方法。
- 修复了自动MSVC安装,并将服务器设置为
127.0.0.1。 - 修复了
.git_version路径并删除了iconv,以消除node-gyp要求。 - 改进的安装程序错误处理,添加升级哈希记录。
- 将node.js升级到22.9.0,添加了postgresql支持,在react ui中分组的选项卡。
2024年9月
单击以展开
9月23日:
- 自动将CUDA用于MMS。
9月22日:
- 添加了FFMPEG元数据扩展以反应UI。
- 为Maha TTS添加了单一通知。
- HotFix避免节点20.17.0安装失败。
9月21日:
- 添加了稳定的音频演示以反应UI。
- 改进的UI布局。
9月19日:
- 升级的React React UI视觉外观具有新的滑块和更好的布局。
- 优化了RVC UI,修复了Colab,并添加了一个搜索命令框。
- 升级Node.js至20.17.0。
9月2日:
- 修复了Dockerfile和更新的Docker-Compose.yml。
- 修复了NPZ加载中的错误。
2024年8月
单击以展开
8月31日:
- 升级模型推理框架为装饰器。
- 将Python文件从
src移至tts_webui文件夹。 - 重写MusicGen选项卡并修复了相关的错误。
8月20日:
- 升级为Gradio 4并添加了主题。
- 添加了为乌龟加载消息的模型。
- 固定了ReactUI的RVC。
- 重构超参数。
- 将管理添加到扩展名列表,XTTS-Simple扩展名。
8月5日:
- 修复React UI中的树皮,添加最大生成持续时间。
- 更改Audiocraft加上扩展模型目录为./data/models/audiocraft_plus/
- 改善MusicGen和Audiogen的模型卸载。将卸载型号按钮添加到MusicGen和Audiogen。
- 添加HuggingFace高速缓存管理器扩展。
8月4日:
- 添加XTTS-RVC-UI扩展名,XTTS微调演示扩展。
8月3日:
- 添加即兴扩展,Audiocraft MAC扩展,树皮遗产扩展。
8月2日:
- 将折旧警告添加到旧安装程序中。
- 统一错误处理和简化选项卡加载。
8月1日:
- 为外部扩展添加“尝试更新”按钮。
- 当不更改pip_packages版本时,跳过重新安装软件包。
- 将Gradio端口与React UI同步。
- 将默认的Gradio端口从7860更改为7770。
2024年7月
单击以展开
7月31日:
- Fix React React UI的MusicGEN发生变化后。
- 添加卸载按钮以窃窃私语。
7月29日:
- 将FFMPEG从Conda-Forge更改为4.4.2,以支持包括Mac M1在内的更多平台。
- 禁用乌龟CVVP。
7月26日:
- 耳语延伸
- 实验AMD ROCM安装支持。 (仅Linux)
7月25日:
- 添加用于MacOS和Linux的诊断脚本。
- 为选项卡添加更好的错误详细信息。
- 修复了Linux和MacOS上安装程序的.SH脚本执行权限。
7月21日:
- 添加画廊历史扩展(从旧画廊视图改编)
- 将简单的混音器转换为扩展程序
- FIX update.py使用较新的火炬版本(update.py仅用于遗产目的,可能会破裂)
- 添加诊断脚本并为Windows重新安装脚本。
7月20日:
- 修复Discord加入链接
- 进一步简化树皮,消除代码中过度复杂性。
- 添加UI/模块化扩展,这些扩展允许在UI上安装新的型号和功能。将来,模型将以扩展为启动,然后再添加。
- 输出中禁用画廊视图
- 已知问题:Firefox未能显示出Gradio的输出,从而从后端获取它们失败了。在React UI中,这可以正常工作。
7月15日:
- 评论 – 随着React UI已经很长时间了,Gradio UI将只能为用户提供功能,而没有极为复杂的UI无法处理的功能。开发时间确实缺乏增加新的模型和功能,但是旧的集成方式并不可行。由于定义了新的API和“模型的作用”,因此可以为整个模型具有扩展名,从而更加灵活性和更轻的安装。
- 开始缩放缩放Gradio UI复杂性 – 删除发送到RVC/DEMUC/语音按钮。 (删除内部组件Joutai)。
- 添加版本。将来以获得更好的更新。
- 将Gradio Bark的最大输出数减少到1。
- 将卸载模型按钮添加到乌龟中,还要在加载下一个/更改参数之前卸载模型,因此乌龟在设置时不再使用2X模型存储器。
7月14日:
- 重组级别选项卡成组 – 文本到语音,音频转换,音乐生成,输出和设置
- 清理标题,添加链接以进行反馈
- 将种子控制添加到稳定的音频
- 用新线修复稳定的音频文件名错误
- 禁用“简单混音” Gradio选项卡
- 再次修复树皮语音克隆和RVC
- 添加用于调试的“已安装软件包”选项卡
7月13日:
- 大量升级到火炬2.3.1和Xformers 0.0.27
- 现在,包括Mac和CPU在内的所有用户现在都具有相同的Pytorch版本。
- 将CUDA升级到11.8
- 强制Python为3.10.11
- 修改安装程序以允许升级Python和Torch而不重新安装(当前主要版本2)
- 修复磁铁默认参数以提高质量
- 改进安装程序脚本检查以避免错误
- 更新STYLETTS2
7月11日:
- 改善稳定的音频生成文件名
- 将力重新安装到火炬修复中
- 在运行之前将安装程序自动更新
7月8日:
- 更改安装过程,以减少包装冲突并启用火炬版本灵活性。
7月6日:
- 新的基于MAMBA的安装程序的初始版本。
- 将稳定的音频结果保存到Outputs-RVC/StableAudio文件夹中。
- 将免责声明添加到稳定的音频模型选择中,并在丢失文件时显示更好的错误消息。
7月1日:
- 一代后优化稳定的音频内存使用。
- 仅当Gradio也自动打开时,Open React UI会自动。
- 删除不必要的conda git重新安装。
- 更新到具有国会议员支持的LAST稳定音频(需要更新的火炬版本)。
2024年6月
单击以展开
6月22日: *将稳定音频添加到Gradio中。
6月21日:
- 添加vall-ex演示以反应UI。
- 在浏览器中自动打开React UI,再次修复链接。
- 添加长度分开以反应/乌龟。
- 修复UVR5演示文件夹。
- 将FairSeq版本设置为Linux和Mac的0.12.2。 (#323)
- 改善所有React UI选项卡的发电历史记录。
5月17日:
- 修复React UI中的乌龟预设。
5月9日:
- 添加MMS以反应UI。
- 改进React UI和代码库。
5月4日:
- 按月群
2024年4月
单击以展开
4月28日: *添加maha tts以反应UI。 *添加GPU信息以进行反应UI。
4月6日:
- 添加vall-ex生成演示选项卡。
- 添加MMS演示选项卡。
- 添加Maha TTS演示选项卡。
- 添加STYLETTS2演示选项卡。
4月5日:
- 修复RVC安装错误。
- 添加基本UVR5演示选项卡。
4月4日:
- 升级RVC包括RVMPE和FCPE。由于文件重复,删除模型和索引的直接文件输入。改进RVC的React UI接口。
2024年3月
单击以展开
3月28日:
- 添加GPU信息选项卡
3月27日:
- 添加有关语音克隆到标签语音克隆的信息
3月26日:
- 添加Maha TTS演示笔记本
3月22日:
- VALL-E X演示通过笔记本(#292)
- 将React UI添加到Docker图像
- 添加安装免责声明
3月16日:
- 将VOCOS升级到0.1.0
3月14日:
- STYLETTS2演示笔记本
3月13日:
- 添加实验管道(bark / tortoise / musicgen / audiogen /磁铁 – > rvc / demucs / vocos)(#287)
- 用模型重新加载在每一代中修复RVC错误。对于简短的输入,会导致可见的加速。
3月11日:
- 添加为音频播放,然后将声音保存到树皮(#286)
- 更改UX以显示文件已从收藏夹中删除
- 修复未显示的树皮声音的图像
- 将音频播放修复到收藏夹中
3月10日:
- 将批处理添加到React UI磁铁(#283)
- 将音频翻译添加到SeamlessM4T(#284)
3月3日:
- 添加MMS演示作为笔记本
- 添加MultibandDiffusion高VRAM免责声明
2024年2月
单击以展开
2月21日:
- 使用Docker-audiocraft修复Docker容器构建和错误
2024年1月
单击以展开
1月21日:
- 在每个更新中添加CPU/M1 TORCH自动修复脚本。要禁用,编辑check_cuda.py并更改force_no_repair = true
1月16日:
- 升级音乐,增加了对立体声和大型旋律模型的支持
- 添加磁铁
1月15日:
- 将Gradio升至3.48.0
- 出现了几个视觉错误,如果它们很关键,请报告它们或降级Gradio。
- Gradio:压制无用的警告
- Supress Triton警告
- Gradio-Bark:修复“将最后一代用作历史记录”行为,空选择不再错误
- 改善扩展程序装载机显示器
- 从4.31.0升级到4.36.1
- 添加SeamlessM4T演示
1月14日:
- React UI:修复缺少目录错误
1月13日:
- React UI:修复了自动安装中缺少NPM构建步骤
1月12日:
- React UI:修复音频动作的名称
- Gradio:修复多个API警告
- 集成 – React UI现在与Gradio一起启动,并具有打开它的链接
1月11日:
- React UI:使构建工作没有任何错误
1月9日:
- 反应UI
- 修复404处理程序的WaveSurfer
- 小组树皮选项卡在一起
1月8日:
- 释放反应UI
升级(用于旧安装)
如果出现问题,请随时与开发人员联系。
单击以展开
从V6升级到新安装程序
推荐:新安装
- 下载[新版本]并运行start_tts_webui.bat(Windows)或start_tts_webui.sh(MacOS,Linux)
- 完成后,关闭服务器。
- 推荐:将旧几代复制到新目录,例如收藏夹/输出/ outputs-rvc/ models/ collections/ config.json
- 谨慎:您可以将全新的TTS生成Webui目录复制到旧的TTS-Generation-Webui目录,但可能会丢失一些旧文件。
就地升级,可以删除一些文件,调整
- 使用update_平台脚本更新现有安装
- 更新后运行新的start_tts_webui.bat(Windows)或start_tts_webui.sh(macos,linux)在tts-generation-webui目录内
- 服务器启动后,检查是否有效。
- 谨慎:如果新服务器有效,则在单键式插件目录中删除旧的installer_files。
还有其他最佳方法可以做到吗?
不确定的是,依赖关系发生冲突,尤其是在康达(Conda)和python之间(依赖项已经处于临界状态,将其转移到康达(Conda)是途中的)。因此,虽然有可能只用新的安装程序替换旧安装程序并运行更新,但问题是无法预测和不可修复的。对安装程序进行更新需要大量的测试,因此不会轻易完成。
安装
- 下载[最新版本]并提取它。
- 运行start_tts_webui.bat或start_tts_webui.sh启动服务器。它会要求您选择所使用的GPU/芯片。一旦安装了所有内容,它将在http:// localhost:7770和http:// localhost:3000的React UI上启动Gradio服务器。
- 输出日志将在installer_scripts/output.log文件中可用。
- 注意:开始脚本设置了conda环境和python虚拟环境。因此,在此之前,您无需制作VENV,实际上,从另一个VENV启动可能会破坏此脚本。
手动安装(不建议)
-
这些说明可能无法反映所有最新的修复和调整,但可作为调试或理解安装程序的参考。希望它们可以成为支持新平台(例如AMD/Intel)的基础。
-
安装Conda(https://docs.***conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows)安装Visual Studio编译器/Visual Studio构建工具
-
建立环境:
conda create -n venv -
安装git,node.js
conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere -
a)要么继续使用安装程序脚本
- 激活环境:
conda activate venv和 - (VENV)
node installer_scripts\\init_app.js - 然后使用(venv)
python server.py运行服务器
- 激活环境:
-
b)或手动安装要求
- 使用CUDA或CPU设置Pytorch(https://p**ytorch.*org/audio/stable/build.windows.html#install-pytorch):
- (VENV)
conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorchCPU/MAC - (VENV)
conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8.*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidiafor cuda
- (VENV)
- 克隆回购:
git clone https://gi*thub*.com*/rsxdalv/tts-generation-webui.git - 安装要求:
- 安装所有要求*.txt(此列表可能不是最新的,请检查):
- (VENV)
pip install -r requirements.txt - (VENV)
pip install -r requirements_audiocraft.txt - (VENV)
pip install -r requirements_bark_hubert_quantizer.txt - (VENV)
pip install -r requirements_rvc.txt - (VENV)
pip install hydra-core==1.3.2 - (VENV)
pip install -r requirements_styletts2.txt - (VENV)
pip install -r requirements_vall_e.txt - (VENV)
pip install -r requirements_maha_tts.txt - (VENV)
pip install -r requirements_stable_audio.txt - (VENV)
pip install soundfile==0.12.1 - (VENV)
pip install nvidia-ml-py
- (VENV)
- 构建React App :( VENV)
cd react-ui && npm install && npm run build
- 安装所有要求*.txt(此列表可能不是最新的,请检查):
- (可选)设置数据库:( VENV)
node installer_scripts/js/applyDatabaseConfig.js - 运行服务器:( venv)
python server.py
- 使用CUDA或CPU设置Pytorch(https://p**ytorch.*org/audio/stable/build.windows.html#install-pytorch):
反应UI
- 安装nodejs(如果尚未使用conda安装)
- 安装反应依赖性:
npm install - 构建React:
npm run build - Run React:
npm start - 还运行Python服务器:
python server.py或使用start_tts_webui脚本
Docker设置
TTS生成 – Webui也可以在Docker容器内部运行。在Docker内部使用CUDA(NVIDIA容器工具包)[https://docs.*nvi**dia.com/datacenter/cloud-native/container-toolkit/latest/latest/install-guide.html]。要开始,请从github容器注册表中取出图像:
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
一旦拉出图像,就可以从Docker组成开始:端口为Gradio后端的7770(ENV:TTS_PORT),而React前端的端口为3000(ENV:UI_PORT)。
docker compose up -d
在后台下载模型时,容器将花费一些时间来生成第一个输出。可以通过检查容器日志来验证此下载的状态:
docker logs tts-generation-webui
自己构建图像
如果您想构建自己的Docker容器,则可以使用随附的Dockerfile:
docker build -t tts-generation-webui .
请注意,需要编辑Docker-Compose才能使用您刚刚构建的图像。
道德和负责任的使用
该技术旨在实现促进和创造力,而不是危害。
通过与这种AI模型互动,您承认并同意遵守这些准则,以负责任的,道德和法律的方式采用AI模型。
- 非恶意的意图:请勿将此AI模型用于恶意,有害或非法活动。它只能用于合法和道德目的,以促进积极参与,知识共享和建设性对话。
- 没有模仿:不要使用这种AI模型来冒充或虚假陈述自己作为其他人,包括个人,组织或实体。它不应用来欺骗,欺诈或操纵他人。
- 没有欺诈活动:这种AI模型不得用于欺诈目的,例如财务骗局,网络钓鱼尝试或任何形式的欺骗性实践,旨在获取敏感信息,货币收益或未经授权的系统访问。
- 法律合规:确保您使用此AI模型符合有关AI使用,数据保护,隐私,知识产权以及您管辖范围内的任何其他相关法律义务的适用法律,法规和政策。
- 致谢:通过使用这种AI模型,您承认并同意以负责任,道德和法律方式使用AI模型,并同意遵守这些准则。
执照
代码库和依赖项
该代码库是根据MIT许可的。但是,重要的是要注意,在安装依赖项时,您也将受到各自的许可。尽管这些许可证中的大多数都是允许的,但可能没有一些许可证。因此,必须了解,允许许可仅适用于代码库本身,而不是整个项目。
话虽如此,目的是在整个项目中保持MIT兼容性。如果您遇到与MIT许可证不兼容的依赖性,请随时打开问题并引起我们的注意。
已知的非允许依赖性:
| 图书馆 | 执照 | 笔记 |
|---|---|---|
| Eccodec | CC BY-NC 4.0 | 较新的版本是麻省理工学院,但需要手动安装 |
| diffq | CC BY-NC 4.0 | 将来可以卸载的可选,不需要运行,应使用demucs更新 |
| la脚 | GPL许可证 | 未来版本将使它成为LGPL,但需要手动安装 |
| UNIDECODE | GPL许可证 | 不关键的任务可以用另一个图书馆代替:Neonbjb/Tortoise-TTS#494 |
模型重量
模型权重有不同的许可证,请注意您使用的模型的许可。
最值得注意的是:
- 树皮:麻省理工学院
- 乌龟:未知(根据repo的apache-2.0,但在拥抱面中没有许可证文件)
- Musicgen:CC BY-NC 4.0
- Audiogen:CC BY-NC 4.0
兼容性 /错误
Audiocraft目前仅与Linux和Windows兼容。 MacOS支持仍然没有到达,尽管可以手动安装。
火炬被重新安装
由于Python软件包管理器(PIP)限制,火炬可以重新安装多次。这是PIP和火炬的广泛问题。
控制台中的红色消息
这些消息:
---- requires ----, but you have ---- which is incompatible.
完全正常。这既是PIP的限制,又是因为此Web UI将许多不同的AI项目结合在一起。由于这些项目并不总是彼此兼容,因此他们会抱怨安装的其他项目。这是正常且预期的。最后,尽管有警告/错误,项目仍将共同起作用。目前尚不清楚这种情况是否可以解决,但这是希望。
