TTS WebUI

TTS WebUI /口琴

下载安装程序||安装|| Docker设置||愚蠢的小酒馆||扩展||反馈 /错误报告

视频

型号

文本到语音	音频/音乐发电	音频转换/工具
吠	Musicgen	RVC
龟	磁铁	demucs
maha tts	稳定的音频	VOCOS
MMS	（扩展）即兴	耳语
vall-e x	（扩展）Audiocraft Mac	AP BWE
styletts2	（扩展）Audiocraft Plus	类似于增强
SeamlessM4T		音频分离器
（扩展）XTTSV2
（扩展）MARS5
（扩展）F5-TTS
（扩展）Parler TTS
（扩展）OpenVoice
（扩展）OpenVoice V2
（扩展）kokoro tts
（扩展）直径
（扩展）cosyvoice
（扩展）GPT-Sovits
（扩展）吹笛者TT
（扩展）Kimi Audio 7b指示
（扩展）ACE步长

例子

bark.narration.mp4	bark.japanese.mp4	Musicgen.mp4

屏幕截图

ChangElog

6月26日：

FIX REECT REACT UI文件大小限制为4MB，现在50MB。谢谢https://gi*thu**b.com/superfurias！（＃446）

6月20日：

升级Chatterbox以启用2-4倍加速的汇编。
FIX REACT UI构建错误。
将“自动启动”选项添加到OpenAI-API。

6月10日：

补丁eslint警告构建期间。
修复Extension_CUDA_ToolKit定义。

6月9日：

添加CUDA工具包扩展名。
pytorch 2.7.0每晚的hotfix。
将Docker更新为2.7.0

6月8日：

固定装饰器的生成器。
Refactor Server.py代码。
Docker的Hotfix，感谢https://githu*b*.*com/chrislawso的报告。

6月7日：

Chatterbox升级用于流媒体。

6月6日：

更新float16支持的直径扩展。
改善用于流媒体使用的装饰器。

6月4日：

尝试Dockerfile修复。
将交互性添加到模型卸载按钮，改进Gradio随机种子UI。
添加样本声音。

6月1日：

添加预设API。
将API预设配置添加到React UI。

2025年5月

5月31日：

改进反应UI音频播放器。
修复ROCM安装版本。

5月30日：

默认安装OpenAI API扩展名（Extension_Kokoro_TTS_API）。
添加Favicon。
修复OpenVoice V2扩展。
改进STYLETTS2，MAHATTS，VALL-EX，PARLER TTS的UI布局

5月29日：

添加Chatterbox扩展名。
添加kokoro tts反应UI。
FIX REACT构建，谢谢Noaht8um！

5月28日：

将Gr.Tabs还原到旧样式，以便于堆叠许多选项卡。
集成自定义ICONBUTTON。
修复Gradio的输出选项卡显示
添加教程部分

5月27日：

在每个扩展安装中包括gradio == 5.5.0。尽管这可能会导致某些扩展未能安装，但应防止扩展破坏UI。请报告无法安装的扩展名。感谢Cwlowden调试此问题。
使XTTS-RVC-UI成为不受道理的扩展。

5月26日：

添加修复程序，以使装饰器与非电视输入一起使用。
清理.env发电机，然后从设置中删除树皮环境变量。
添加音频簿扩展定义以备将来使用（尚不可用的扩展名）。
将SeamlessM4T音频修复到音频选项卡。
更新ACE步骤扩展。
改善Kokoro TTS API。

5月14日：

准备Python 3.11和3.12支持。

5月12日：

修复Windows的DeepSpeed。谢谢您的报告！
改善未来API的装饰器扩展。
改善Kokoro TTS API以兼容OpenAi兼容性，现在可与sillytavern一起使用。
添加setup.py用于将来的PIP安装。 sync versions.json与setup.py and package.json。
删除不建议的要求_*文件。
卸下Windows DeepSpeed，直到不再需要NVCC为止，谢谢您https://gith*ub.c*o*m/lcmiracle进行广泛的调试和测试。

5月10日：

修复缺失的目录错误，导致扩展未能加载。感谢Discord/Comstock发现该错误。
添加ACE步骤以反应UI。
为简单起见，将表情符号添加到Gradio UI类别中。
为每个更新和应用启动添加增强的日志记录，一旦发生问题，就可以更轻松地调试。
在加载或卸载型号时显示Gr.Info。
允许用户通过指定gradio_auth =“用户名：通行”环境变量，将用户与gradio auth一起使用。

5月7日：

添加Piper TTS扩展
添加ACE步骤扩展

5月6日：

添加Kimi Audio 7b指示扩展
修复React-Gradio文件代理缺少斜线
添加Kokoro TTS API扩展

2025年4月

4月25日：

添加OpenVoice V2扩展

4月24日：

添加OpenVoice V1扩展

4月23日：

使用直接扩展安装弃用要求_*文件。
在React UI中为Gradio文件添加代理。
添加了直径扩展。

4月22日：

允许更新版本的PIP
删除用于Apple M系列芯片的Pytorch的 +CPU
安装程序修复程序 – 修复CUDA维修，CRLF，警告有关GCC，如果PIP失败，则终止。

4月20日：

在扩展管理器中修复安装/卸载
添加Kokoro TTS扩展

4月18日：

修复扩展管理器启动
将大多数型号转换为扩展名，默认安装经典模型
尝试修复Linux安装程序
添加扩展名的“推荐”标志

4月17日：

创建扩展管理器
警告Windows用户是否已安装Conda
升级Dockerfile到Pytorch 2.6.0

4月12日：

升级到Pytorch 2.6.0 CUDA 12.4，切换到PIP for Pytorch install
为较旧型号添加兼容性层
修复Styletts2缺少NLKT下载器
重新排序TTS选项卡
允许在config.json中配置禁用扩展
通过PIP选项删除Pytorch CPU，多余
将所有核心conda软件包移至init_mamba脚本。
升级安装程序以包括基于Web的UI
添加conda存储优化器扩展程序
hotfix：新的init_app错误导致安装程序冻结

4月11日：

添加AP BWE升级扩展

4月2日：

修复Pydantic（＃465，＃468）
添加-NO-REACT -NO-NO-DABASE高级标志
添加修复程序以避免在第一个React UI构建（＃466）上的目录错误（＃466）

2025年3月

3月21日：

添加cosyvoice扩展[不稳定]和gpt-sovits [alpha]扩展

3月20日：

添加可执行的MACOS脚本以双击启动
添加不稳定的cosyvoice扩展

3月18日：

删除旧的RVC文件
修复RVC的缺少Torchfcpe依赖性

3月17日：

将Google Colab升级为Pytorch 2.6.0，将Conda添加到python降级为3.10
当自动更新无法获取新代码时，不再流产（改进离线支持＃457）
将乌龟升级为v3.0.1，用于变形金刚4.49.0＃454
防止在Windows/System32文件夹中运行＃459

2025年2月

2月15日：

修复稳定的音频以匹配新版本

2月14日：

引脚加速> = 0.33.0项目宽
添加基本的无缝M4T量化代码

2月13日：

修复稳定的音频和无缝M4T不兼容
使无缝M4T自动使用CUDA，否则CPU

2月10日：

改善读书中的安装说明

2025年1月

2024

单击以展开

有关2024年更改的详细列表，请参见2024 ChangElog。

2023

单击以展开

有关2023年更改的详细列表，请参见2023 ChangElog。

升级（用于旧安装）

如果出现问题，请随时与开发人员联系。

单击以展开

从V6升级到新安装程序

就地升级，可以删除一些文件，调整

使用update_平台脚本更新现有安装
更新后运行新的start_tts_webui.bat（windows）或start_tts_webui.sh（macOS，linux）在tts-webui目录内
服务器启动后，检查是否有效。
谨慎：如果新服务器有效，则在单键式插件目录中删除旧的installer_files。

还有其他最佳方法可以做到吗？

不确定的是，依赖关系发生冲突，尤其是在康达（Conda）和python之间（依赖项已经处于临界状态，将其转移到康达（Conda）是途中的）。因此，虽然有可能只用新的安装程序替换旧安装程序并运行更新，但问题是无法预测和不可修复的。对安装程序进行更新需要大量的测试，因此不会轻易完成。

扩展

扩展程序可从WebUI本身安装，或使用React UI。也可以使用扩展管理器安装它们。在内部，扩展只是使用PIP安装的Python软件包。可以同时安装多个扩展名，但是它们之间可能存在兼容性问题。安装或更新扩展程序后，您需要重新启动应用程序以加载它。

需要使用迷你控制面板手动进行更新：

集成

愚蠢的小酒馆

安装Kokoro TTS API扩展
启动API并使用Python请求进行测试

（可能无法安装OpenAI客户端，因此与Python OpenAi客户端的测试可能会失败）
一旦您看到音频生成成功生成，请转到愚蠢的小酒馆，然后添加新的TTS API默认提供商端点： http://l**oca*lhost:7778/v1/audio/speech
测试！

Openai兼容API

使用上面的说明，您可以安装OpenAI兼容的API，并将其与Silly Tavern或其他OpenAI兼容客户端一起使用。

安装

当前的基本安装尺寸约为10.7 GB。每个模型还需要2-8 GB的空间。

下载最新版本并提取。
运行start_tts_webui.bat或start_tts_webui.sh启动服务器。它会要求您选择所使用的GPU/芯片。一旦安装了所有内容，它将在http：// localhost：7770和http：// localhost：3000的React UI上启动Gradio服务器。
输出日志将在installer_scripts/output.log文件中可用。
注意：开始脚本设置了conda环境和python虚拟环境。因此，在此之前，您无需制作VENV，实际上，从另一个VENV启动可能会破坏此脚本。

手动安装

有关详细的手动安装说明，请参阅《手动安装指南》。

Docker设置

TTS-Webui也可以在Docker容器内部运行。在Docker内部使用CUDA（NVIDIA容器工具包）[https://docs.nv**id*ia.com/datacenter/cloud-native/container-toolkit/latest/latest/install-guide.html]。要开始，请从github容器注册表中取出图像：

 docker pull ghcr.io/rsxdalv/tts-webui:main

一旦拉出图像，就可以从Docker组成开始：端口为Gradio后端的7770（ENV：TTS_PORT），而React前端的端口为3000（ENV：UI_PORT）。

 docker compose up -d

在后台下载模型时，容器将花费一些时间来生成第一个输出。可以通过检查容器日志来验证此下载的状态：

 docker logs tts-webui

自己构建图像

如果您想构建自己的Docker容器，则可以使用随附的Dockerfile：

 docker build -t tts-webui .

请注意，需要编辑Docker-Compose才能使用您刚刚构建的图像。

兼容性 /错误

Audiocraft目前仅与Linux和Windows兼容。 MacOS支持仍然没有到达，尽管可以手动安装。

火炬被重新安装

由于Python软件包管理器（PIP）限制，火炬可以重新安装多次。这是PIP和火炬的广泛问题。

控制台中的红色消息

这些消息：

 ---- requires ----, but you have ---- which is incompatible.

完全正常。这既是PIP的限制，又是因为此Web UI将许多不同的AI项目结合在一起。由于这些项目并不总是彼此兼容，因此他们会抱怨安装的其他项目。这是正常且预期的。最后，尽管有警告/错误，项目仍将共同起作用。目前尚不清楚这种情况是否可以解决，但这是希望。

树皮的额外声音，提示样品

树皮雷德姆

readme_bark.md

有关AI项目的管理模型，缓存和系统空间的信息

＃186（在线程中回复）

开源库

该项目利用以下开源库：

Suno -AI/Bark-麻省理工学院许可证
- 描述：树皮模型的推理代码。
- 存储库：Suno/Bark
乌龟-tts -Apache-2.0许可证
- 描述：针对各种平台的灵活的文本到语音综合库。
- 存储库：neonbjb/tortoise-tts
FFMPEG -LGPL许可证
- 描述：用于视频和音频处理的完整和跨平台解决方案。
- 存储库：ffmpeg
- 使用：编码vorbis ogg文件
FFMPEG -PYTHON -APACHE 2.0许可证
- 描述：用于处理多媒体文件的FFMPEG库的Python绑定。
- 存储库：Kkroening/ffmpeg-python
听众– 麻省理工学院许可证
- 描述：音频生成和音乐的库。
- 存储库：Facebook Research/Audiocraft
VOCOS-麻省理工学院许可证
- 描述：改进的Eccodec样品的解码器
- 存储库：CANCARTR-PLATFORM/VOCOS
RVC-麻省理工学院许可证
- 描述：基于VIT的易于使用的语音转换框架。
- 存储库：RVC项目/基于基于检索的voice-conversion-webui

道德和负责任的使用

该技术旨在实现促进和创造力，而不是危害。

通过与这种AI模型互动，您承认并同意遵守这些准则，以负责任的，道德和法律的方式采用AI模型。

非恶意的意图：请勿将此AI模型用于恶意，有害或非法活动。它只能用于合法和道德目的，以促进积极参与，知识共享和建设性对话。
没有模仿：不要使用这种AI模型来冒充或虚假陈述自己作为其他人，包括个人，组织或实体。它不应用来欺骗，欺诈或操纵他人。
没有欺诈活动：这种AI模型不得用于欺诈目的，例如财务骗局，网络钓鱼尝试或任何形式的欺骗性实践，旨在获取敏感信息，货币收益或未经授权的系统访问。
法律合规：确保您使用此AI模型符合有关AI使用，数据保护，隐私，知识产权以及您管辖范围内的任何其他相关法律义务的适用法律，法规和政策。
致谢：通过使用这种AI模型，您承认并同意以负责任，道德和法律方式使用AI模型，并同意遵守这些准则。

执照

代码库和依赖项

该代码库是根据MIT许可的。但是，重要的是要注意，在安装依赖项时，您也将受到各自的许可。尽管这些许可证中的大多数都是允许的，但可能没有一些许可证。因此，必须了解，允许许可仅适用于代码库本身，而不是整个项目。

话虽如此，目的是在整个项目中保持MIT兼容性。如果您遇到与MIT许可证不兼容的依赖性，请随时打开问题并引起我们的注意。

已知的非允许依赖性：

图书馆	执照	笔记
Eccodec	CC BY-NC 4.0	较新的版本是麻省理工学院，但需要手动安装
diffq	CC BY-NC 4.0	将来可以卸载的可选，不需要运行，应使用demucs更新
la脚	GPL许可证	未来版本将使它成为LGPL，但需要手动安装
UNIDECODE	GPL许可证	不关键的任务可以用另一个图书馆代替：Neonbjb/Tortoise-TTS＃494

模型重量

模型权重有不同的许可证，请注意您使用的模型的许可。

最值得注意的是：

树皮：麻省理工学院
乌龟：未知（根据repo的apache-2.0，但在拥抱面中没有许可证文件）
Musicgen：CC BY-NC 4.0
Audiogen：CC BY-NC 4.0

TTS WebUI /口琴

视频

型号

例子

屏幕截图

ChangElog

2025年5月

2025年4月

2025年3月

2025年2月

2025年1月

2024

2023

升级（用于旧安装）

从V6升级到新安装程序

推荐：新安装

就地升级，可以删除一些文件，调整

还有其他最佳方法可以做到吗？

扩展

集成

愚蠢的小酒馆

Openai兼容API

安装

手动安装

Docker设置

自己构建图像

兼容性 /错误

火炬被重新安装

控制台中的红色消息

树皮的额外声音，提示样品

树皮雷德姆

有关AI项目的管理模型，缓存和系统空间的信息

开源库

道德和负责任的使用

执照

代码库和依赖项

模型重量

相关文章

左子网

TTS WebUI /口琴

视频

型号

例子

屏幕截图

ChangElog

2025年5月

2025年4月

2025年3月

2025年2月

2025年1月

2024

2023

升级（用于旧安装）

从V6升级到新安装程序

推荐：新安装

就地升级，可以删除一些文件，调整

还有其他最佳方法可以做到吗？

扩展

集成

愚蠢的小酒馆

Openai兼容API

安装

手动安装

Docker设置

自己构建图像

兼容性 /错误

火炬被重新安装

控制台中的红色消息

树皮的额外声音，提示样品

树皮雷德姆

有关AI项目的管理模型，缓存和系统空间的信息

开源库

道德和负责任的使用

执照

代码库和依赖项

模型重量

相关文章

微信

左子网

QQ交流群