TTS WebUI

2025-12-11 0 647

TTS WebUI /口琴

下载安装程序||安装|| Docker设置||愚蠢的小酒馆||扩展||反馈 /错误报告

视频

型号

文本到语音 音频/音乐发电 音频转换/工具
Musicgen RVC
磁铁 demucs
maha tts 稳定的音频 VOCOS
MMS (扩展)即兴 耳语
vall-e x (扩展)Audiocraft Mac AP BWE
styletts2 (扩展)Audiocraft Plus 类似于增强
SeamlessM4T 音频分离器
(扩展)XTTSV2
(扩展)MARS5
(扩展)F5-TTS
(扩展)Parler TTS
(扩展)OpenVoice
(扩展)OpenVoice V2
(扩展)kokoro tts
(扩展)直径
(扩展)cosyvoice
(扩展)GPT-Sovits
(扩展)吹笛者TT
(扩展)Kimi Audio 7b指示
(扩展)ACE步长

例子

bark.narration.mp4
bark.japanese.mp4
Musicgen.mp4

屏幕截图

ChangElog

6月26日:

  • FIX REECT REACT UI文件大小限制为4MB,现在50MB。谢谢https://gi*thu**b.com/superfurias! (#446)

6月20日:

  • 升级Chatterbox以启用2-4倍加速的汇编。
  • FIX REACT UI构建错误。
  • 将“自动启动”选项添加到OpenAI-API。

6月10日:

  • 补丁eslint警告构建期间。
  • 修复Extension_CUDA_ToolKit定义。

6月9日:

  • 添加CUDA工具包扩展名。
  • pytorch 2.7.0每晚的hotfix。
  • 将Docker更新为2.7.0

6月8日:

  • 固定装饰器的生成器。
  • Refactor Server.py代码。
  • Docker的Hotfix,感谢https://githu*b*.*com/chrislawso的报告。

6月7日:

  • Chatterbox升级用于流媒体。

6月6日:

  • 更新float16支持的直径扩展。
  • 改善用于流媒体使用的装饰器。

6月4日:

  • 尝试Dockerfile修复。
  • 将交互性添加到模型卸载按钮,改进Gradio随机种子UI。
  • 添加样本声音。

6月1日:

  • 添加预设API。
  • 将API预设配置添加到React UI。

2025年5月

5月31日:

  • 改进反应UI音频播放器。
  • 修复ROCM安装版本。

5月30日:

  • 默认安装OpenAI API扩展名(Extension_Kokoro_TTS_API)。
  • 添加Favicon。
  • 修复OpenVoice V2扩展。
  • 改进STYLETTS2,MAHATTS,VALL-EX,PARLER TTS的UI布局

5月29日:

  • 添加Chatterbox扩展名。
  • 添加kokoro tts反应UI。
  • FIX REACT构建,谢谢Noaht8um!

5月28日:

  • 将Gr.Tabs还原到旧样式,以便于堆叠许多选项卡。
  • 集成自定义ICONBUTTON。
  • 修复Gradio的输出选项卡显示
  • 添加教程部分

5月27日:

  • 在每个扩展安装中包括gradio == 5.5.0。尽管这可能会导致某些扩展未能安装,但应防止扩展破坏UI。请报告无法安装的扩展名。感谢Cwlowden调试此问题。
  • 使XTTS-RVC-UI成为不受道理的扩展。

5月26日:

  • 添加修复程序,以使装饰器与非电视输入一起使用。
  • 清理.env发电机,然后从设置中删除树皮环境变量。
  • 添加音频簿扩展定义以备将来使用(尚不可用的扩展名)。
  • 将SeamlessM4T音频修复到音频选项卡。
  • 更新ACE步骤扩展。
  • 改善Kokoro TTS API。

5月14日:

  • 准备Python 3.11和3.12支持。

5月12日:

  • 修复Windows的DeepSpeed。谢谢您的报告!
  • 改善未来API的装饰器扩展。
  • 改善Kokoro TTS API以兼容OpenAi兼容性,现在可与sillytavern一起使用。
  • 添加setup.py用于将来的PIP安装。 sync versions.json与setup.py and package.json。
  • 删除不建议的要求_*文件。
  • 卸下Windows DeepSpeed,直到不再需要NVCC为止,谢谢您https://gith*ub.c*o*m/lcmiracle进行广泛的调试和测试。

5月10日:

  • 修复缺失的目录错误,导致扩展未能加载。感谢Discord/Comstock发现该错误。
  • 添加ACE步骤以反应UI。
  • 为简单起见,将表情符号添加到Gradio UI类别中。
  • 为每个更新和应用启动添加增强的日志记录,一旦发生问题,就可以更轻松地调试。
  • 在加载或卸载型号时显示Gr.Info。
  • 允许用户通过指定gradio_auth =“用户名:通行”环境变量,将用户与gradio auth一起使用。

5月7日:

  • 添加Piper TTS扩展
  • 添加ACE步骤扩展

5月6日:

  • 添加Kimi Audio 7b指示扩展
  • 修复React-Gradio文件代理缺少斜线
  • 添加Kokoro TTS API扩展

2025年4月

4月25日:

  • 添加OpenVoice V2扩展

4月24日:

  • 添加OpenVoice V1扩展

4月23日:

  • 使用直接扩展安装弃用要求_*文件。
  • 在React UI中为Gradio文件添加代理。
  • 添加了直径扩展。

4月22日:

  • 允许更新版本的PIP
  • 删除用于Apple M系列芯片的Pytorch的 +CPU
  • 安装程序修复程序 – 修复CUDA维修,CRLF,警告有关GCC,如果PIP失败,则终止。

4月20日:

  • 在扩展管理器中修复安装/卸载
  • 添加Kokoro TTS扩展

4月18日:

  • 修复扩展管理器启动
  • 将大多数型号转换为扩展名,默认安装经典模型
  • 尝试修复Linux安装程序
  • 添加扩展名的“推荐”标志

4月17日:

  • 创建扩展管理器
  • 警告Windows用户是否已安装Conda
  • 升级Dockerfile到Pytorch 2.6.0

4月12日:

  • 升级到Pytorch 2.6.0 CUDA 12.4,切换到PIP for Pytorch install
  • 为较旧型号添加兼容性层
  • 修复Styletts2缺少NLKT下载器
  • 重新排序TTS选项卡
  • 允许在config.json中配置禁用扩展
  • 通过PIP选项删除Pytorch CPU,多余
  • 将所有核心conda软件包移至init_mamba脚本。
  • 升级安装程序以包括基于Web的UI
  • 添加conda存储优化器扩展程序
  • hotfix:新的init_app错误导致安装程序冻结

4月11日:

  • 添加AP BWE升级扩展

4月2日:

  • 修复Pydantic(#465,#468)
  • 添加-NO-REACT -NO-NO-DABASE高级标志
  • 添加修复程序以避免在第一个React UI构建(#466)上的目录错误(#466)

2025年3月

3月21日:

  • 添加cosyvoice扩展[不稳定]和gpt-sovits [alpha]扩展

3月20日:

  • 添加可执行的MACOS脚本以双击启动
  • 添加不稳定的cosyvoice扩展

3月18日:

  • 删除旧的RVC文件
  • 修复RVC的缺少Torchfcpe依赖性

3月17日:

  • 将Google Colab升级为Pytorch 2.6.0,将Conda添加到python降级为3.10
  • 当自动更新无法获取新代码时,不再流产(改进离线支持#457)
  • 将乌龟升级为v3.0.1,用于变形金刚4.49.0#454
  • 防止在Windows/System32文件夹中运行#459

2025年2月

2月15日:

  • 修复稳定的音频以匹配新版本

2月14日:

  • 引脚加速> = 0.33.0项目宽
  • 添加基本的无缝M4T量化代码

2月13日:

  • 修复稳定的音频和无缝M4T不兼容
  • 使无缝M4T自动使用CUDA,否则CPU

2月10日:

  • 改善读书中的安装说明

2025年1月

2024

单击以展开

有关2024年更改的详细列表,请参见2024 ChangElog。

2023

单击以展开

有关2023年更改的详细列表,请参见2023 ChangElog。

升级(用于旧安装)

如果出现问题,请随时与开发人员联系

单击以展开

从V6升级到新安装程序

推荐:新安装

  • 下载新版本并运行start_tts_webui.bat(Windows)或start_tts_webui.sh(MacOS,Linux)
  • 完成后,关闭服务器。
  • 推荐:将旧几代复制到新目录,例如收藏夹/输出/ outputs-rvc/ models/ collections/ config.json
  • 谨慎行事:您可以将全新的TTS-Webui目录复制到旧的TTS-Webui目录,但是可能会丢失一些旧文件。

就地升级,可以删除一些文件,调整

  • 使用update_平台脚本更新现有安装
  • 更新后运行新的start_tts_webui.bat(windows)或start_tts_webui.sh(macOS,linux)在tts-webui目录内
  • 服务器启动后,检查是否有效。
  • 谨慎:如果新服务器有效,则在单键式插件目录中删除旧的installer_files。

还有其他最佳方法可以做到吗?

不确定的是,依赖关系发生冲突,尤其是在康达(Conda)和python之间(依赖项已经处于临界状态,将其转移到康达(Conda)是途中的)。因此,虽然有可能只用新的安装程序替换旧安装程序并运行更新,但问题是无法预测和不可修复的。对安装程序进行更新需要大量的测试,因此不会轻易完成。

扩展

扩展程序可从WebUI本身安装,或使用React UI。也可以使用扩展管理器安装它们。在内部,扩展只是使用PIP安装的Python软件包。可以同时安装多个扩展名,但是它们之间可能存在兼容性问题。安装或更新扩展程序后,您需要重新启动应用程序以加载它。

需要使用迷你控制面板手动进行更新:

集成

愚蠢的小酒馆

  1. 安装Kokoro TTS API扩展

  2. 启动API并使用Python请求进行测试

    (可能无法安装OpenAI客户端,因此与Python OpenAi客户端的测试可能会失败)

  3. 一旦您看到音频生成成功生成,请转到愚蠢的小酒馆,然后添加新的TTS API默认提供商端点: http://l**oca*lhost:7778/v1/audio/speech

  4. 测试!

Openai兼容API

使用上面的说明,您可以安装OpenAI兼容的API,并将其与Silly Tavern或其他OpenAI兼容客户端一起使用。

安装

当前的基本安装尺寸约为10.7 GB。每个模型还需要2-8 GB的空间。

  • 下载最新版本并提取。
  • 运行start_tts_webui.bat或start_tts_webui.sh启动服务器。它会要求您选择所使用的GPU/芯片。一旦安装了所有内容,它将在http:// localhost:7770和http:// localhost:3000的React UI上启动Gradio服务器。
  • 输出日志将在installer_scripts/output.log文件中可用。
  • 注意:开始脚本设置了conda环境和python虚拟环境。因此,在此之前,您无需制作VENV,实际上,从另一个VENV启动可能会破坏此脚本。

手动安装

有关详细的手动安装说明,请参阅《手动安装指南》。

Docker设置

TTS-Webui也可以在Docker容器内部运行。在Docker内部使用CUDA(NVIDIA容器工具包)[https://docs.nv**id*ia.com/datacenter/cloud-native/container-toolkit/latest/latest/install-guide.html]。要开始,请从github容器注册表中取出图像:

 docker pull ghcr.io/rsxdalv/tts-webui:main

一旦拉出图像,就可以从Docker组成开始:端口为Gradio后端的7770(ENV:TTS_PORT),而React前端的端口为3000(ENV:UI_PORT)。

 docker compose up -d

在后台下载模型时,容器将花费一些时间来生成第一个输出。可以通过检查容器日志来验证此下载的状态:

 docker logs tts-webui

自己构建图像

如果您想构建自己的Docker容器,则可以使用随附的Dockerfile:

 docker build -t tts-webui .

请注意,需要编辑Docker-Compose才能使用您刚刚构建的图像。

兼容性 /错误

Audiocraft目前仅与Linux和Windows兼容。 MacOS支持仍然没有到达,尽管可以手动安装。

火炬被重新安装

由于Python软件包管理器(PIP)限制,火炬可以重新安装多次。这是PIP和火炬的广泛问题。

控制台中的红色消息

这些消息:

 ---- requires ----, but you have ---- which is incompatible.

完全正常。这既是PIP的限制,又是因为此Web UI将许多不同的AI项目结合在一起。由于这些项目并不总是彼此兼容,因此他们会抱怨安装的其他项目。这是正常且预期的。最后,尽管有警告/错误,项目仍将共同起作用。目前尚不清楚这种情况是否可以解决,但这是希望。

树皮的额外声音,提示样品

树皮雷德姆

readme_bark.md

有关AI项目的管理模型,缓存和系统空间的信息

#186(在线程中回复)

开源库

该项目利用以下开源库:
  • Suno -AI/Bark-麻省理工学院许可证

    • 描述:树皮模型的推理代码。
    • 存储库:Suno/Bark
  • 乌龟-tts -Apache-2.0许可证

    • 描述:针对各种平台的灵活的文本到语音综合库。
    • 存储库:neonbjb/tortoise-tts
  • FFMPEG -LGPL许可证

    • 描述:用于视频和音频处理的完整和跨平台解决方案。
    • 存储库:ffmpeg
    • 使用:编码vorbis ogg文件
  • FFMPEG -PYTHON -APACHE 2.0许可证

    • 描述:用于处理多媒体文件的FFMPEG库的Python绑定。
    • 存储库:Kkroening/ffmpeg-python
  • 听众– 麻省理工学院许可证

    • 描述:音频生成和音乐的库。
    • 存储库:Facebook Research/Audiocraft
  • VOCOS-麻省理工学院许可证

    • 描述:改进的Eccodec样品的解码器
    • 存储库:CANCARTR-PLATFORM/VOCOS
  • RVC-麻省理工学院许可证

    • 描述:基于VIT的易于使用的语音转换框架。
    • 存储库:RVC项目/基于基于检索的voice-conversion-webui

道德和负责任的使用

该技术旨在实现促进和创造力,而不是危害。

通过与这种AI模型互动,您承认并同意遵守这些准则,以负责任的,道德和法律的方式采用AI模型。

  • 非恶意的意图:请勿将此AI模型用于恶意,有害或非法活动。它只能用于合法和道德目的,以促进积极参与,知识共享和建设性对话。
  • 没有模仿:不要使用这种AI模型来冒充或虚假陈述自己作为其他人,包括个人,组织或实体。它不应用来欺骗,欺诈或操纵他人。
  • 没有欺诈活动:这种AI模型不得用于欺诈目的,例如财务骗局,网络钓鱼尝试或任何形式的欺骗性实践,旨在获取敏感信息,货币收益或未经授权的系统访问。
  • 法律合规:确保您使用此AI模型符合有关AI使用,数据保护,隐私,知识产权以及您管辖范围内的任何其他相关法律义务的适用法律,法规和政策。
  • 致谢:通过使用这种AI模型,您承认并同意以负责任,道德和法律方式使用AI模型,并同意遵守这些准则。

执照

代码库和依赖项

该代码库是根据MIT许可的。但是,重要的是要注意,在安装依赖项时,您也将受到各自的许可。尽管这些许可证中的大多数都是允许的,但可能没有一些许可证。因此,必须了解,允许许可仅适用于代码库本身,而不是整个项目。

话虽如此,目的是在整个项目中保持MIT兼容性。如果您遇到与MIT许可证不兼容的依赖性,请随时打开问题并引起我们的注意。

已知的非允许依赖性:

图书馆 执照 笔记
Eccodec CC BY-NC 4.0 较新的版本是麻省理工学院,但需要手动安装
diffq CC BY-NC 4.0 将来可以卸载的可选,不需要运行,应使用demucs更新
la脚 GPL许可证 未来版本将使它成为LGPL,但需要手动安装
UNIDECODE GPL许可证 不关键的任务可以用另一个图书馆代替:Neonbjb/Tortoise-TTS#494

模型重量

模型权重有不同的许可证,请注意您使用的模型的许可。

最值得注意的是:

  • 树皮:麻省理工学院
  • 乌龟:未知(根据repo的apache-2.0,但在拥抱面中没有许可证文件)
  • Musicgen:CC BY-NC 4.0
  • Audiogen:CC BY-NC 4.0

下载源码

通过命令行克隆项目:

git clone https://github.com/rsxdalv/TTS-WebUI.git

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 TTS WebUI https://www.zuozi.net/34157.html

tini
上一篇: tini
v2ray step by step
下一篇: v2ray step by step
常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务