TTS WebUI /口琴
下载安装程序||安装|| Docker设置||愚蠢的小酒馆||扩展||反馈 /错误报告
视频
型号
| 文本到语音 | 音频/音乐发电 | 音频转换/工具 |
|---|---|---|
| 吠 | Musicgen | RVC |
| 龟 | 磁铁 | demucs |
| maha tts | 稳定的音频 | VOCOS |
| MMS | (扩展)即兴 | 耳语 |
| vall-e x | (扩展)Audiocraft Mac | AP BWE |
| styletts2 | (扩展)Audiocraft Plus | 类似于增强 |
| SeamlessM4T | 音频分离器 | |
| (扩展)XTTSV2 | ||
| (扩展)MARS5 | ||
| (扩展)F5-TTS | ||
| (扩展)Parler TTS | ||
| (扩展)OpenVoice | ||
| (扩展)OpenVoice V2 | ||
| (扩展)kokoro tts | ||
| (扩展)直径 | ||
| (扩展)cosyvoice | ||
| (扩展)GPT-Sovits | ||
| (扩展)吹笛者TT | ||
| (扩展)Kimi Audio 7b指示 | ||
| (扩展)ACE步长 |
例子
bark.narration.mp4 |
bark.japanese.mp4 |
Musicgen.mp4 |
|---|
屏幕截图
ChangElog
6月26日:
- FIX REECT REACT UI文件大小限制为4MB,现在50MB。谢谢https://gi*thu**b.com/superfurias! (#446)
6月20日:
- 升级Chatterbox以启用2-4倍加速的汇编。
- FIX REACT UI构建错误。
- 将“自动启动”选项添加到OpenAI-API。
6月10日:
- 补丁eslint警告构建期间。
- 修复Extension_CUDA_ToolKit定义。
6月9日:
- 添加CUDA工具包扩展名。
- pytorch 2.7.0每晚的hotfix。
- 将Docker更新为2.7.0
6月8日:
- 固定装饰器的生成器。
- Refactor Server.py代码。
- Docker的Hotfix,感谢https://githu*b*.*com/chrislawso的报告。
6月7日:
- Chatterbox升级用于流媒体。
6月6日:
- 更新float16支持的直径扩展。
- 改善用于流媒体使用的装饰器。
6月4日:
- 尝试Dockerfile修复。
- 将交互性添加到模型卸载按钮,改进Gradio随机种子UI。
- 添加样本声音。
6月1日:
- 添加预设API。
- 将API预设配置添加到React UI。
2025年5月
5月31日:
- 改进反应UI音频播放器。
- 修复ROCM安装版本。
5月30日:
- 默认安装OpenAI API扩展名(Extension_Kokoro_TTS_API)。
- 添加Favicon。
- 修复OpenVoice V2扩展。
- 改进STYLETTS2,MAHATTS,VALL-EX,PARLER TTS的UI布局
5月29日:
- 添加Chatterbox扩展名。
- 添加kokoro tts反应UI。
- FIX REACT构建,谢谢Noaht8um!
5月28日:
- 将Gr.Tabs还原到旧样式,以便于堆叠许多选项卡。
- 集成自定义ICONBUTTON。
- 修复Gradio的输出选项卡显示
- 添加教程部分
5月27日:
- 在每个扩展安装中包括gradio == 5.5.0。尽管这可能会导致某些扩展未能安装,但应防止扩展破坏UI。请报告无法安装的扩展名。感谢Cwlowden调试此问题。
- 使XTTS-RVC-UI成为不受道理的扩展。
5月26日:
- 添加修复程序,以使装饰器与非电视输入一起使用。
- 清理.env发电机,然后从设置中删除树皮环境变量。
- 添加音频簿扩展定义以备将来使用(尚不可用的扩展名)。
- 将SeamlessM4T音频修复到音频选项卡。
- 更新ACE步骤扩展。
- 改善Kokoro TTS API。
5月14日:
- 准备Python 3.11和3.12支持。
5月12日:
- 修复Windows的DeepSpeed。谢谢您的报告!
- 改善未来API的装饰器扩展。
- 改善Kokoro TTS API以兼容OpenAi兼容性,现在可与sillytavern一起使用。
- 添加setup.py用于将来的PIP安装。 sync versions.json与setup.py and package.json。
- 删除不建议的要求_*文件。
- 卸下Windows DeepSpeed,直到不再需要NVCC为止,谢谢您https://gith*ub.c*o*m/lcmiracle进行广泛的调试和测试。
5月10日:
- 修复缺失的目录错误,导致扩展未能加载。感谢Discord/Comstock发现该错误。
- 添加ACE步骤以反应UI。
- 为简单起见,将表情符号添加到Gradio UI类别中。
- 为每个更新和应用启动添加增强的日志记录,一旦发生问题,就可以更轻松地调试。
- 在加载或卸载型号时显示Gr.Info。
- 允许用户通过指定gradio_auth =“用户名:通行”环境变量,将用户与gradio auth一起使用。
5月7日:
- 添加Piper TTS扩展
- 添加ACE步骤扩展
5月6日:
- 添加Kimi Audio 7b指示扩展
- 修复React-Gradio文件代理缺少斜线
- 添加Kokoro TTS API扩展
2025年4月
4月25日:
- 添加OpenVoice V2扩展
4月24日:
- 添加OpenVoice V1扩展
4月23日:
- 使用直接扩展安装弃用要求_*文件。
- 在React UI中为Gradio文件添加代理。
- 添加了直径扩展。
4月22日:
- 允许更新版本的PIP
- 删除用于Apple M系列芯片的Pytorch的 +CPU
- 安装程序修复程序 – 修复CUDA维修,CRLF,警告有关GCC,如果PIP失败,则终止。
4月20日:
- 在扩展管理器中修复安装/卸载
- 添加Kokoro TTS扩展
4月18日:
- 修复扩展管理器启动
- 将大多数型号转换为扩展名,默认安装经典模型
- 尝试修复Linux安装程序
- 添加扩展名的“推荐”标志
4月17日:
- 创建扩展管理器
- 警告Windows用户是否已安装Conda
- 升级Dockerfile到Pytorch 2.6.0
4月12日:
- 升级到Pytorch 2.6.0 CUDA 12.4,切换到PIP for Pytorch install
- 为较旧型号添加兼容性层
- 修复Styletts2缺少NLKT下载器
- 重新排序TTS选项卡
- 允许在config.json中配置禁用扩展
- 通过PIP选项删除Pytorch CPU,多余
- 将所有核心conda软件包移至init_mamba脚本。
- 升级安装程序以包括基于Web的UI
- 添加conda存储优化器扩展程序
- hotfix:新的init_app错误导致安装程序冻结
4月11日:
- 添加AP BWE升级扩展
4月2日:
- 修复Pydantic(#465,#468)
- 添加-NO-REACT -NO-NO-DABASE高级标志
- 添加修复程序以避免在第一个React UI构建(#466)上的目录错误(#466)
2025年3月
3月21日:
- 添加cosyvoice扩展[不稳定]和gpt-sovits [alpha]扩展
3月20日:
- 添加可执行的MACOS脚本以双击启动
- 添加不稳定的cosyvoice扩展
3月18日:
- 删除旧的RVC文件
- 修复RVC的缺少Torchfcpe依赖性
3月17日:
- 将Google Colab升级为Pytorch 2.6.0,将Conda添加到python降级为3.10
- 当自动更新无法获取新代码时,不再流产(改进离线支持#457)
- 将乌龟升级为v3.0.1,用于变形金刚4.49.0#454
- 防止在Windows/System32文件夹中运行#459
2025年2月
2月15日:
- 修复稳定的音频以匹配新版本
2月14日:
- 引脚加速> = 0.33.0项目宽
- 添加基本的无缝M4T量化代码
2月13日:
- 修复稳定的音频和无缝M4T不兼容
- 使无缝M4T自动使用CUDA,否则CPU
2月10日:
- 改善读书中的安装说明
2025年1月
2024
单击以展开
有关2024年更改的详细列表,请参见2024 ChangElog。
2023
单击以展开
有关2023年更改的详细列表,请参见2023 ChangElog。
升级(用于旧安装)
如果出现问题,请随时与开发人员联系。
单击以展开
从V6升级到新安装程序
推荐:新安装
- 下载新版本并运行start_tts_webui.bat(Windows)或start_tts_webui.sh(MacOS,Linux)
- 完成后,关闭服务器。
- 推荐:将旧几代复制到新目录,例如收藏夹/输出/ outputs-rvc/ models/ collections/ config.json
- 谨慎行事:您可以将全新的TTS-Webui目录复制到旧的TTS-Webui目录,但是可能会丢失一些旧文件。
就地升级,可以删除一些文件,调整
- 使用update_平台脚本更新现有安装
- 更新后运行新的start_tts_webui.bat(windows)或start_tts_webui.sh(macOS,linux)在tts-webui目录内
- 服务器启动后,检查是否有效。
- 谨慎:如果新服务器有效,则在单键式插件目录中删除旧的installer_files。
还有其他最佳方法可以做到吗?
不确定的是,依赖关系发生冲突,尤其是在康达(Conda)和python之间(依赖项已经处于临界状态,将其转移到康达(Conda)是途中的)。因此,虽然有可能只用新的安装程序替换旧安装程序并运行更新,但问题是无法预测和不可修复的。对安装程序进行更新需要大量的测试,因此不会轻易完成。
扩展
扩展程序可从WebUI本身安装,或使用React UI。也可以使用扩展管理器安装它们。在内部,扩展只是使用PIP安装的Python软件包。可以同时安装多个扩展名,但是它们之间可能存在兼容性问题。安装或更新扩展程序后,您需要重新启动应用程序以加载它。
需要使用迷你控制面板手动进行更新:
集成
愚蠢的小酒馆
-
安装Kokoro TTS API扩展
-
启动API并使用Python请求进行测试
(可能无法安装OpenAI客户端,因此与Python OpenAi客户端的测试可能会失败)
-
一旦您看到音频生成成功生成,请转到愚蠢的小酒馆,然后添加新的TTS API默认提供商端点:
http://l**oca*lhost:7778/v1/audio/speech -
测试!
Openai兼容API
使用上面的说明,您可以安装OpenAI兼容的API,并将其与Silly Tavern或其他OpenAI兼容客户端一起使用。
安装
当前的基本安装尺寸约为10.7 GB。每个模型还需要2-8 GB的空间。
- 下载最新版本并提取。
- 运行start_tts_webui.bat或start_tts_webui.sh启动服务器。它会要求您选择所使用的GPU/芯片。一旦安装了所有内容,它将在http:// localhost:7770和http:// localhost:3000的React UI上启动Gradio服务器。
- 输出日志将在installer_scripts/output.log文件中可用。
- 注意:开始脚本设置了conda环境和python虚拟环境。因此,在此之前,您无需制作VENV,实际上,从另一个VENV启动可能会破坏此脚本。
手动安装
有关详细的手动安装说明,请参阅《手动安装指南》。
Docker设置
TTS-Webui也可以在Docker容器内部运行。在Docker内部使用CUDA(NVIDIA容器工具包)[https://docs.nv**id*ia.com/datacenter/cloud-native/container-toolkit/latest/latest/install-guide.html]。要开始,请从github容器注册表中取出图像:
docker pull ghcr.io/rsxdalv/tts-webui:main
一旦拉出图像,就可以从Docker组成开始:端口为Gradio后端的7770(ENV:TTS_PORT),而React前端的端口为3000(ENV:UI_PORT)。
docker compose up -d
在后台下载模型时,容器将花费一些时间来生成第一个输出。可以通过检查容器日志来验证此下载的状态:
docker logs tts-webui
自己构建图像
如果您想构建自己的Docker容器,则可以使用随附的Dockerfile:
docker build -t tts-webui .
请注意,需要编辑Docker-Compose才能使用您刚刚构建的图像。
兼容性 /错误
Audiocraft目前仅与Linux和Windows兼容。 MacOS支持仍然没有到达,尽管可以手动安装。
火炬被重新安装
由于Python软件包管理器(PIP)限制,火炬可以重新安装多次。这是PIP和火炬的广泛问题。
控制台中的红色消息
这些消息:
---- requires ----, but you have ---- which is incompatible.
完全正常。这既是PIP的限制,又是因为此Web UI将许多不同的AI项目结合在一起。由于这些项目并不总是彼此兼容,因此他们会抱怨安装的其他项目。这是正常且预期的。最后,尽管有警告/错误,项目仍将共同起作用。目前尚不清楚这种情况是否可以解决,但这是希望。
树皮的额外声音,提示样品
树皮雷德姆
readme_bark.md
有关AI项目的管理模型,缓存和系统空间的信息
#186(在线程中回复)
开源库
该项目利用以下开源库:
-
Suno -AI/Bark-麻省理工学院许可证
- 描述:树皮模型的推理代码。
- 存储库:Suno/Bark
-
乌龟-tts -Apache-2.0许可证
- 描述:针对各种平台的灵活的文本到语音综合库。
- 存储库:neonbjb/tortoise-tts
-
FFMPEG -LGPL许可证
- 描述:用于视频和音频处理的完整和跨平台解决方案。
- 存储库:ffmpeg
- 使用:编码vorbis ogg文件
-
FFMPEG -PYTHON -APACHE 2.0许可证
- 描述:用于处理多媒体文件的FFMPEG库的Python绑定。
- 存储库:Kkroening/ffmpeg-python
-
听众– 麻省理工学院许可证
- 描述:音频生成和音乐的库。
- 存储库:Facebook Research/Audiocraft
-
VOCOS-麻省理工学院许可证
- 描述:改进的Eccodec样品的解码器
- 存储库:CANCARTR-PLATFORM/VOCOS
-
RVC-麻省理工学院许可证
- 描述:基于VIT的易于使用的语音转换框架。
- 存储库:RVC项目/基于基于检索的voice-conversion-webui
道德和负责任的使用
该技术旨在实现促进和创造力,而不是危害。
通过与这种AI模型互动,您承认并同意遵守这些准则,以负责任的,道德和法律的方式采用AI模型。
- 非恶意的意图:请勿将此AI模型用于恶意,有害或非法活动。它只能用于合法和道德目的,以促进积极参与,知识共享和建设性对话。
- 没有模仿:不要使用这种AI模型来冒充或虚假陈述自己作为其他人,包括个人,组织或实体。它不应用来欺骗,欺诈或操纵他人。
- 没有欺诈活动:这种AI模型不得用于欺诈目的,例如财务骗局,网络钓鱼尝试或任何形式的欺骗性实践,旨在获取敏感信息,货币收益或未经授权的系统访问。
- 法律合规:确保您使用此AI模型符合有关AI使用,数据保护,隐私,知识产权以及您管辖范围内的任何其他相关法律义务的适用法律,法规和政策。
- 致谢:通过使用这种AI模型,您承认并同意以负责任,道德和法律方式使用AI模型,并同意遵守这些准则。
执照
代码库和依赖项
该代码库是根据MIT许可的。但是,重要的是要注意,在安装依赖项时,您也将受到各自的许可。尽管这些许可证中的大多数都是允许的,但可能没有一些许可证。因此,必须了解,允许许可仅适用于代码库本身,而不是整个项目。
话虽如此,目的是在整个项目中保持MIT兼容性。如果您遇到与MIT许可证不兼容的依赖性,请随时打开问题并引起我们的注意。
已知的非允许依赖性:
| 图书馆 | 执照 | 笔记 |
|---|---|---|
| Eccodec | CC BY-NC 4.0 | 较新的版本是麻省理工学院,但需要手动安装 |
| diffq | CC BY-NC 4.0 | 将来可以卸载的可选,不需要运行,应使用demucs更新 |
| la脚 | GPL许可证 | 未来版本将使它成为LGPL,但需要手动安装 |
| UNIDECODE | GPL许可证 | 不关键的任务可以用另一个图书馆代替:Neonbjb/Tortoise-TTS#494 |
模型重量
模型权重有不同的许可证,请注意您使用的模型的许可。
最值得注意的是:
- 树皮:麻省理工学院
- 乌龟:未知(根据repo的apache-2.0,但在拥抱面中没有许可证文件)
- Musicgen:CC BY-NC 4.0
- Audiogen:CC BY-NC 4.0
