我要发布

tts generation webui

Boss 编程相关

2025-12-10 0 986

tts generation webui /口琴

|| [安装]（＃安装）|| [DOCKER设置]（＃Docker-Setup）|| [反馈/错误报告]（https://forms.**gl*e/2L62OWHBSGFZDFBC8）

[] [] [] []

视频

型号

文本到语音	音频/音乐发电	音频转换/工具
[吠]	[Musicgen]	[RVC]
[龟]	[磁铁]	[demucs]
[maha tts]	[稳定音频]	[VOCOS]
[MMS]	[（扩展）即兴]	[耳语]
[vall-e x]	[（扩展）Audiocraft Mac]
[styletts2]	[（扩展）Audiocraft Plus]
[seamlessm4t]
[（扩展）XTTSV2]
[（扩展）MARS5]
[（扩展）F5-TTS]
[（扩展）Parler TTS]

例子

bark.narration.mp4	bark.japanese.mp4	Musicgen.mp4

屏幕截图

ChangElog

3月21日：

添加cosyvoice扩展[不稳定]和gpt-sovits [alpha]扩展

3月20日：

添加可执行的MACOS脚本以双击启动
添加不稳定的cosyvoice扩展

3月18日：

删除旧的RVC文件
修复RVC的缺少Torchfcpe依赖性

3月17日：

将Google Colab升级为Pytorch 2.6.0，将Conda添加到python降级为3.10
当自动更新无法获取新代码时，不再流产（改进离线支持＃457）
将乌龟升级为v3.0.1，用于变形金刚4.49.0＃454
防止在Windows/System32文件夹中运行＃459

2025年2月

2月15日：

修复稳定的音频以匹配新版本

2月14日：

引脚加速> = 0.33.0项目宽
添加基本的无缝M4T量化代码

2月13日：

修复稳定的音频和无缝M4T不兼容
使无缝M4T自动使用CUDA，否则CPU

2月10日：

改善读书中的安装说明

2025年1月

2024年12月

12月17日：

尝试修复＃429，＃428，＃427

2024年11月

11月23日：

添加Linux Fairseq Wheel以提高PIP兼容性。

11月22日：

切换到车轮，添加一声安装提示。

11月15日：

升级到Gradio 5.5.5，添加类似于增强（＃420）

11月14日：

添加实验性窗户深速车轮。
在树皮语音克隆中添加更多语言。

11月11日：

切换到固定的FairSeq版本，以减少安装冲突并加速更新。

2024年10月

单击以展开

10月28日：

添加了安装程序测试，模型下载器和pip cpu-for Torch选项。

10月24日：

由于错误，将Gradio降低到5.1.0。
添加了测试工作流和固定次要错误。

10月22日：

修复了dockerfile问题，以使部署更顺畅。

10月21日：

重新设计的读书文件：改进的耳语扩展，添加了8月，9月和10月的更改，更新了屏幕截图，并重新组织了内容。

10月19日：

修复了扩展日志并添加了新的扩展名。

10月18日：

系统改进：格式化项目，固定xformers+cuda安装，添加的日志系统，卸载扩展按钮和F5 TTS扩展。

10月16日：

现在，首先安装使用pip代替uv 。
碰撞主要版本并修复了Google Colab。
将PIP后备添加到稳定的音频中。
修复了DEMUC，更改了Postgres端口。
修复了huggingface_hub安装和树皮型号加载器。
重大升级：切换到Gradio 5，用于选项卡，Docker Fixes，优化的UI速度，添加.ENV.USER功能，改进的日志和升级的React React UI扩展名。

10月3日：

修复了GPU信息选项卡并添加了nvidia-ml-py 。
为Audiocraft Install Bug创建了解决方法。
修复了自动MSVC安装，并将服务器设置为127.0.0.1 。
修复了.git_version路径并删除了iconv ，以消除node-gyp要求。
改进的安装程序错误处理，添加升级哈希记录。
将node.js升级到22.9.0，添加了postgresql支持，在react ui中分组的选项卡。

2024年9月

单击以展开

9月23日：

自动将CUDA用于MMS。

9月22日：

添加了FFMPEG元数据扩展以反应UI。
为Maha TTS添加了单一通知。
HotFix避免节点20.17.0安装失败。

9月21日：

添加了稳定的音频演示以反应UI。
改进的UI布局。

9月19日：

升级的React React UI视觉外观具有新的滑块和更好的布局。
优化了RVC UI，修复了Colab，并添加了一个搜索命令框。
升级Node.js至20.17.0。

9月2日：

修复了Dockerfile和更新的Docker-Compose.yml。
修复了NPZ加载中的错误。

2024年8月

单击以展开

8月31日：

升级模型推理框架为装饰器。
将Python文件从src移至tts_webui文件夹。
重写MusicGen选项卡并修复了相关的错误。

8月20日：

升级为Gradio 4并添加了主题。
添加了为乌龟加载消息的模型。
固定了ReactUI的RVC。
重构超参数。
将管理添加到扩展名列表，XTTS-Simple扩展名。

8月5日：

修复React UI中的树皮，添加最大生成持续时间。
更改Audiocraft加上扩展模型目录为./data/models/audiocraft_plus/
改善MusicGen和Audiogen的模型卸载。将卸载型号按钮添加到MusicGen和Audiogen。
添加HuggingFace高速缓存管理器扩展。

8月4日：

添加XTTS-RVC-UI扩展名，XTTS微调演示扩展。

8月3日：

添加即兴扩展，Audiocraft MAC扩展，树皮遗产扩展。

8月2日：

将折旧警告添加到旧安装程序中。
统一错误处理和简化选项卡加载。

8月1日：

为外部扩展添加“尝试更新”按钮。
当不更改pip_packages版本时，跳过重新安装软件包。
将Gradio端口与React UI同步。
将默认的Gradio端口从7860更改为7770。

2024年7月

单击以展开

7月31日：

Fix React React UI的MusicGEN发生变化后。
添加卸载按钮以窃窃私语。

7月29日：

将FFMPEG从Conda-Forge更改为4.4.2，以支持包括Mac M1在内的更多平台。
禁用乌龟CVVP。

7月26日：

耳语延伸
实验AMD ROCM安装支持。（仅Linux）

7月25日：

添加用于MacOS和Linux的诊断脚本。
为选项卡添加更好的错误详细信息。
修复了Linux和MacOS上安装程序的.SH脚本执行权限。

7月21日：

添加画廊历史扩展（从旧画廊视图改编）
将简单的混音器转换为扩展程序
FIX update.py使用较新的火炬版本（update.py仅用于遗产目的，可能会破裂）
添加诊断脚本并为Windows重新安装脚本。

7月20日：

修复Discord加入链接
进一步简化树皮，消除代码中过度复杂性。
添加UI/模块化扩展，这些扩展允许在UI上安装新的型号和功能。将来，模型将以扩展为启动，然后再添加。
输出中禁用画廊视图
已知问题：Firefox未能显示出Gradio的输出，从而从后端获取它们失败了。在React UI中，这可以正常工作。

7月15日：

评论 – 随着React UI已经很长时间了，Gradio UI将只能为用户提供功能，而没有极为复杂的UI无法处理的功能。开发时间确实缺乏增加新的模型和功能，但是旧的集成方式并不可行。由于定义了新的API和“模型的作用”，因此可以为整个模型具有扩展名，从而更加灵活性和更轻的安装。
开始缩放缩放Gradio UI复杂性 – 删除发送到RVC/DEMUC/语音按钮。（删除内部组件Joutai）。
添加版本。将来以获得更好的更新。
将Gradio Bark的最大输出数减少到1。
将卸载模型按钮添加到乌龟中，还要在加载下一个/更改参数之前卸载模型，因此乌龟在设置时不再使用2X模型存储器。

7月14日：

重组级别选项卡成组 – 文本到语音，音频转换，音乐生成，输出和设置
清理标题，添加链接以进行反馈
将种子控制添加到稳定的音频
用新线修复稳定的音频文件名错误
禁用“简单混音” Gradio选项卡
再次修复树皮语音克隆和RVC
添加用于调试的“已安装软件包”选项卡

7月13日：

大量升级到火炬2.3.1和Xformers 0.0.27
- 现在，包括Mac和CPU在内的所有用户现在都具有相同的Pytorch版本。
将CUDA升级到11.8
强制Python为3.10.11
修改安装程序以允许升级Python和Torch而不重新安装（当前主要版本2）
修复磁铁默认参数以提高质量
改进安装程序脚本检查以避免错误
更新STYLETTS2

7月11日：

改善稳定的音频生成文件名
将力重新安装到火炬修复中
在运行之前将安装程序自动更新

7月8日：

更改安装过程，以减少包装冲突并启用火炬版本灵活性。

7月6日：

新的基于MAMBA的安装程序的初始版本。
将稳定的音频结果保存到Outputs-RVC/StableAudio文件夹中。
将免责声明添加到稳定的音频模型选择中，并在丢失文件时显示更好的错误消息。

7月1日：

一代后优化稳定的音频内存使用。
仅当Gradio也自动打开时，Open React UI会自动。
删除不必要的conda git重新安装。
更新到具有国会议员支持的LAST稳定音频（需要更新的火炬版本）。

2024年6月

单击以展开

6月22日： *将稳定音频添加到Gradio中。

6月21日：

添加vall-ex演示以反应UI。
在浏览器中自动打开React UI，再次修复链接。
添加长度分开以反应/乌龟。
修复UVR5演示文件夹。
将FairSeq版本设置为Linux和Mac的0.12.2。（＃323）
改善所有React UI选项卡的发电历史记录。

5月17日：

修复React UI中的乌龟预设。

5月9日：

添加MMS以反应UI。
改进React UI和代码库。

5月4日：

按月群

2024年4月

单击以展开

4月28日： *添加maha tts以反应UI。 *添加GPU信息以进行反应UI。

4月6日：

添加vall-ex生成演示选项卡。
添加MMS演示选项卡。
添加Maha TTS演示选项卡。
添加STYLETTS2演示选项卡。

4月5日：

修复RVC安装错误。
添加基本UVR5演示选项卡。

4月4日：

升级RVC包括RVMPE和FCPE。由于文件重复，删除模型和索引的直接文件输入。改进RVC的React UI接口。

2024年3月

单击以展开

3月28日：

添加GPU信息选项卡

3月27日：

添加有关语音克隆到标签语音克隆的信息

3月26日：

添加Maha TTS演示笔记本

3月22日：

VALL-E X演示通过笔记本（＃292）
将React UI添加到Docker图像
添加安装免责声明

3月16日：

将VOCOS升级到0.1.0

3月14日：

STYLETTS2演示笔记本

3月13日：

添加实验管道（bark / tortoise / musicgen / audiogen /磁铁 – > rvc / demucs / vocos）（＃287）
用模型重新加载在每一代中修复RVC错误。对于简短的输入，会导致可见的加速。

3月11日：

添加为音频播放，然后将声音保存到树皮（＃286）
更改UX以显示文件已从收藏夹中删除
修复未显示的树皮声音的图像
将音频播放修复到收藏夹中

3月10日：

将批处理添加到React UI磁铁（＃283）
将音频翻译添加到SeamlessM4T（＃284）

3月3日：

添加MMS演示作为笔记本
添加MultibandDiffusion高VRAM免责声明

2024年2月

单击以展开

2月21日：

使用Docker-audiocraft修复Docker容器构建和错误

2024年1月

单击以展开

1月21日：

在每个更新中添加CPU/M1 TORCH自动修复脚本。要禁用，编辑check_cuda.py并更改force_no_repair = true

1月16日：

升级音乐，增加了对立体声和大型旋律模型的支持
添加磁铁

1月15日：

将Gradio升至3.48.0
- 出现了几个视觉错误，如果它们很关键，请报告它们或降级Gradio。
- Gradio：压制无用的警告
Supress Triton警告
Gradio-Bark：修复“将最后一代用作历史记录”行为，空选择不再错误
改善扩展程序装载机显示器
从4.31.0升级到4.36.1
添加SeamlessM4T演示

1月14日：

1月13日：

React UI：修复了自动安装中缺少NPM构建步骤

1月12日：

React UI：修复音频动作的名称
Gradio：修复多个API警告
集成 – React UI现在与Gradio一起启动，并具有打开它的链接

1月11日：

React UI：使构建工作没有任何错误

1月9日：

反应UI
- 修复404处理程序的WaveSurfer
- 小组树皮选项卡在一起

1月8日：

释放反应UI

升级（用于旧安装）

如果出现问题，请随时与开发人员联系。

单击以展开

从V6升级到新安装程序

就地升级，可以删除一些文件，调整

使用update_平台脚本更新现有安装
更新后运行新的start_tts_webui.bat（Windows）或start_tts_webui.sh（macos，linux）在tts-generation-webui目录内
服务器启动后，检查是否有效。
谨慎：如果新服务器有效，则在单键式插件目录中删除旧的installer_files。

还有其他最佳方法可以做到吗？

不确定的是，依赖关系发生冲突，尤其是在康达（Conda）和python之间（依赖项已经处于临界状态，将其转移到康达（Conda）是途中的）。因此，虽然有可能只用新的安装程序替换旧安装程序并运行更新，但问题是无法预测和不可修复的。对安装程序进行更新需要大量的测试，因此不会轻易完成。

安装

下载[最新版本]并提取它。
运行start_tts_webui.bat或start_tts_webui.sh启动服务器。它会要求您选择所使用的GPU/芯片。一旦安装了所有内容，它将在http：// localhost：7770和http：// localhost：3000的React UI上启动Gradio服务器。
输出日志将在installer_scripts/output.log文件中可用。
注意：开始脚本设置了conda环境和python虚拟环境。因此，在此之前，您无需制作VENV，实际上，从另一个VENV启动可能会破坏此脚本。

手动安装（不建议）

这些说明可能无法反映所有最新的修复和调整，但可作为调试或理解安装程序的参考。希望它们可以成为支持新平台（例如AMD/Intel）的基础。
安装Conda（https://docs.***conda.io/projects/conda/en/latest/user-guide/install/index.html）
- （Windows）安装Visual Studio编译器/Visual Studio构建工具
建立环境： conda create -n venv
安装git，node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a）要么继续使用安装程序脚本
- 激活环境： conda activate venv和
- （VENV） node installer_scripts\\init_app.js
- 然后使用（venv） python server.py运行服务器
b）或手动安装要求
- 使用CUDA或CPU设置Pytorch（https://p**ytorch.*org/audio/stable/build.windows.html#install-pytorch）：
  - （VENV） conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch CPU/MAC
  - （VENV） conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8.*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia for cuda
- 克隆回购： git clone https://gi*thub*.com*/rsxdalv/tts-generation-webui.git
- 安装要求：
  - 安装所有要求*.txt（此列表可能不是最新的，请检查）：
    - （VENV） pip install -r requirements.txt
    - （VENV） pip install -r requirements_audiocraft.txt
    - （VENV） pip install -r requirements_bark_hubert_quantizer.txt
    - （VENV） pip install -r requirements_rvc.txt
    - （VENV） pip install hydra-core==1.3.2
    - （VENV） pip install -r requirements_styletts2.txt
    - （VENV） pip install -r requirements_vall_e.txt
    - （VENV） pip install -r requirements_maha_tts.txt
    - （VENV） pip install -r requirements_stable_audio.txt
    - （VENV） pip install soundfile==0.12.1
    - （VENV） pip install nvidia-ml-py
  - 构建React App ：（ VENV） cd react-ui && npm install && npm run build
- （可选）设置数据库：（ VENV） node installer_scripts/js/applyDatabaseConfig.js
- 运行服务器：（ venv） python server.py

反应UI

安装nodejs（如果尚未使用conda安装）
安装反应依赖性： npm install
构建React： npm run build
Run React： npm start
还运行Python服务器： python server.py或使用start_tts_webui脚本

Docker设置

TTS生成 – Webui也可以在Docker容器内部运行。在Docker内部使用CUDA（NVIDIA容器工具包）[https://docs.*nvi**dia.com/datacenter/cloud-native/container-toolkit/latest/latest/install-guide.html]。要开始，请从github容器注册表中取出图像：

 docker pull ghcr.io/rsxdalv/tts-generation-webui:main

一旦拉出图像，就可以从Docker组成开始：端口为Gradio后端的7770（ENV：TTS_PORT），而React前端的端口为3000（ENV：UI_PORT）。

 docker compose up -d

在后台下载模型时，容器将花费一些时间来生成第一个输出。可以通过检查容器日志来验证此下载的状态：

 docker logs tts-generation-webui

自己构建图像

如果您想构建自己的Docker容器，则可以使用随附的Dockerfile：

 docker build -t tts-generation-webui .

请注意，需要编辑Docker-Compose才能使用您刚刚构建的图像。

道德和负责任的使用

该技术旨在实现促进和创造力，而不是危害。

通过与这种AI模型互动，您承认并同意遵守这些准则，以负责任的，道德和法律的方式采用AI模型。

非恶意的意图：请勿将此AI模型用于恶意，有害或非法活动。它只能用于合法和道德目的，以促进积极参与，知识共享和建设性对话。
没有模仿：不要使用这种AI模型来冒充或虚假陈述自己作为其他人，包括个人，组织或实体。它不应用来欺骗，欺诈或操纵他人。
没有欺诈活动：这种AI模型不得用于欺诈目的，例如财务骗局，网络钓鱼尝试或任何形式的欺骗性实践，旨在获取敏感信息，货币收益或未经授权的系统访问。
法律合规：确保您使用此AI模型符合有关AI使用，数据保护，隐私，知识产权以及您管辖范围内的任何其他相关法律义务的适用法律，法规和政策。
致谢：通过使用这种AI模型，您承认并同意以负责任，道德和法律方式使用AI模型，并同意遵守这些准则。

执照

代码库和依赖项

该代码库是根据MIT许可的。但是，重要的是要注意，在安装依赖项时，您也将受到各自的许可。尽管这些许可证中的大多数都是允许的，但可能没有一些许可证。因此，必须了解，允许许可仅适用于代码库本身，而不是整个项目。

话虽如此，目的是在整个项目中保持MIT兼容性。如果您遇到与MIT许可证不兼容的依赖性，请随时打开问题并引起我们的注意。

已知的非允许依赖性：

图书馆	执照	笔记
Eccodec	CC BY-NC 4.0	较新的版本是麻省理工学院，但需要手动安装
diffq	CC BY-NC 4.0	将来可以卸载的可选，不需要运行，应使用demucs更新
la脚	GPL许可证	未来版本将使它成为LGPL，但需要手动安装
UNIDECODE	GPL许可证	不关键的任务可以用另一个图书馆代替：Neonbjb/Tortoise-TTS＃494

模型重量

模型权重有不同的许可证，请注意您使用的模型的许可。

最值得注意的是：

树皮：麻省理工学院
乌龟：未知（根据repo的apache-2.0，但在拥抱面中没有许可证文件）
Musicgen：CC BY-NC 4.0
Audiogen：CC BY-NC 4.0

兼容性 /错误

Audiocraft目前仅与Linux和Windows兼容。 MacOS支持仍然没有到达，尽管可以手动安装。

火炬被重新安装

由于Python软件包管理器（PIP）限制，火炬可以重新安装多次。这是PIP和火炬的广泛问题。

控制台中的红色消息

这些消息：

 ---- requires ----, but you have ---- which is incompatible.

完全正常。这既是PIP的限制，又是因为此Web UI将许多不同的AI项目结合在一起。由于这些项目并不总是彼此兼容，因此他们会抱怨安装的其他项目。这是正常且预期的。最后，尽管有警告/错误，项目仍将共同起作用。目前尚不清楚这种情况是否可以解决，但这是希望。

下载源码

从 GitHub 克隆

通过命令行克隆项目:

git clone https://github.com/mahshid1378/tts-generation-webui.git

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

申明：本文由第三方发布，内容仅代表作者观点，与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，也不代表本网对其真实性负责。

左子网编程相关 tts generation webui https://www.zuozi.net/33788.html

Boss

上一篇： Harmonify

下一篇： turnus.orcc

常见问题

发货方式是什么？

1、自动：拍下后，点击（下载）链接即可下载；2、手动：拍下后，联系卖家发放即可或者联系官方找开发者发货。

查看详情

交易周期是多久呢？

1、源码默认交易周期：手动发货商品为1-3天，并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放，如遇纠纷无限期延长收款金额直至纠纷解决或者退款！；

查看详情

能退款么？

1、描述：源码描述(含标题)与实际源码不一致的（例：货不对板）； 2、演示：有演示站时，与实际源码小于95%一致的（但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外）； 3、发货：不发货可无理由退款； 4、安装：免费提供安装服务的源码但卖家不履行的； 5、收费：价格虚标，额外收取其他费用的（但描述中有显著声明或双方交易前有商定的除外）； 6、其他：如质量方面的硬性常规问题BUG等。注：经核实符合上述任一，均支持退款，但卖家予以积极解决问题则除外。

查看详情

注意事项

1、左子会对双方交易的过程及交易商品的快照进行永久存档，以确保交易的真实、有效、安全！ 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保，请买家自行鉴别； 3、在源码同时有网站演示与图片演示，且站演与图演不一致时，默认按图演作为纠纷评判依据（特别声明或有商定除外）； 4、在没有”无任何正当退款依据”的前提下，商品写有”一旦售出，概不支持退款”等类似的声明，视为无效声明； 5、在未拍下前，双方在QQ上所商定的交易内容，亦可成为纠纷评判依据（商定与描述冲突时，商定为准）； 6、因聊天记录可作为纠纷评判依据，故双方联系时，只与对方在左子上所留的QQ、手机号沟通，以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小，但一定要保留如聊天记录、手机短信等这样的重要信息，以防产生纠纷时便于左子介入快速处理。

查看详情

左子网

分享最新WordPress教程共同学习，共同进步，共同成长！

QQ交流群

tts generation webui

tts generation webui /口琴

|| [安装]（＃安装）|| [DOCKER设置]（＃Docker-Setup）|| [反馈/错误报告]（https://forms.**gl*e/2L62OWHBSGFZDFBC8）

视频

型号

例子

屏幕截图

ChangElog

2025年2月

2025年1月

2024年12月

2024年11月

2024年10月

2024年9月

2024年8月

2024年7月

2024年6月

2024年4月

2024年3月

2024年2月

2024年1月

升级（用于旧安装）

从V6升级到新安装程序

推荐：新安装

就地升级，可以删除一些文件，调整

还有其他最佳方法可以做到吗？

安装

手动安装（不建议）

反应UI

Docker设置

自己构建图像

道德和负责任的使用

执照

代码库和依赖项

模型重量

兼容性 /错误

火炬被重新安装

控制台中的红色消息

相关文章

左子网