Voicetral
概述
该项目提供了Ollama模型与Applio的文本对语音(TTS)和语音转换服务之间的接口。它将用户语音输入转换为文本,使用Ollama生成响应,然后综合并使用Applio播放响应。
特征
- 语音到文本转换使用
speech_recognition。 - 使用Ollama模型的文本生成。
- 使用Applio的文本到语音转换和语音转换。
- 使用
sounddevice播放音频。 - 音频与
pydub进行重新采样和处理。
要求
软件依赖性
- Python 3.9
- FFMPEG(用于音频处理)
- Ollama :文本生成的模型服务。访问Ollama的网站以进行安装和使用说明。
- Applio :用于文本到语音和语音转换的服务。请访问Applio的网站以进行安装和使用说明。
Python包
所需的python软件包在requirements.txt中列出。要安装它们,请使用以下命令:
pip install -r requirements.txt
配置
-
FFMPEG :确保在系统路径中安装FFMPEG并可以访问。您可以从此处下载FFMPEG,并按照操作系统的安装说明进行操作。
-
Ollama :根据其网站上的说明安装和运行Ollama服务。确保在指定的URL上可以访问它。
-
Applio :根据其网站上的说明安装并运行Aptio服务。确保它在指定的端口上本地运行(默认值:
http://127.*0.**0.1:6969/://127.0.0.1:6969/)。 -
配置文件:使用环境的适当路径和设置更新
config.ini文件。-
START_PROMPT:Ollama模型的初始提示。 -
OLLAMA_MODEL:使用的Ollama模型的名称。 -
APPLIO_TTS_VOICE:Applio TTS的语音配置。 -
APPLIO_PTH_PATH:通往Applio模型文件的路径。 -
APPLIO_INDEX_PATH:通往Applio索引文件的路径。 -
APPLIO_TTS_OUTPUT_PATH:将保存TTS输出的路径。 -
APPLIO_RVC_OUTPUT_PATH:将保存RVC输出的路径。
-
安装
-
克隆存储库:
Voicetral\”>
git clone https://g*ithub*.c*om/Skulux/Voicetral cd Voicetral -
创建并激活虚拟环境:
python -m venv venv source venv/bin/activate # On Windows, use `venv\\Scripts\\activate`
-
安装所需的软件包:
pip install -r requirements.txt
-
确保安装FFMPEG并在路径中正确配置。
-
按照各自的说明安装并启动Ollama和Applio服务。
用法
-
使用“配置”部分中所述的必要设置配置您的
config.ini文件。 -
运行主脚本:
python main.py
-
遵循屏幕上的提示。向您的麦克风说话以与机器人互动。
-
说“退出”以停止程序。如果您想保存对话历史记录,这很重要。
执照
该项目是根据MIT许可证获得许可的 – 有关详细信息,请参见许可证文件。
贡献
如果您有建议或改进,请随时提交问题或提取请求。对于重大更改,请先开设一个问题,以讨论您想更改的内容。
接触
有关问题或反馈,请联系github@petrilionis.lt或在项目的GitHub存储库上打开问题。
外部服务
- Ollama :安装和使用说明
- Applio :安装和使用说明
