llamagpt
由Llama 2。私有的自托管,离线,类似于Chatgpt的聊天机器人,没有数据离开您的设备。
新:支持代码Llama模型和NVIDIA GPU。
umbrel.com(我们正在招聘)»
内容
- 演示
- 支持的模型
- 如何安装
- 在Umbrelos Home Server上
- 在M1/M2 Mac上
- 与Docker的其他任何地方
- Kubernetes
- 与OpenAI兼容的API
- 基准
- 路线图和贡献
- 致谢
演示
Llamagpt.mp4
支持的模型
目前,Llamagpt支持以下模型。支持运行自定义模型的支持在路线图上。
| 模型名称 | 型号大小 | 型号下载尺寸 | 需要内存 |
|---|---|---|---|
| Nous Hermes Llama 2 7b聊天(GGML Q4_0) | 7b | 3.79GB | 6.29GB |
| Nous Hermes Llama 2 13B聊天(GGML Q4_0) | 13b | 7.32GB | 9.82GB |
| Nous Hermes Llama 2 70B聊天(GGML Q4_0) | 70B | 38.87GB | 41.37GB |
| 代码LLAMA 7B聊天(GGUF Q4_K_M) | 7b | 4.24GB | 6.74GB |
| 代码Llama 13B聊天(GGUF Q4_K_M) | 13b | 8.06GB | 10.56GB |
| Phind Code Llama 34B聊天(GGUF Q4_K_M) | 34B | 20.22GB | 22.72GB |
如何安装
在您的Umbrelos家用服务器上安装Llamagpt
在Umbrelos家用服务器上运行Llamagpt是一键。只需在Umbrel App Store中安装它即可。
在M1/M2 Mac上安装Llamagpt
确保您安装了Docker和Xcode。
然后,克隆此存储库和CD中:
git clone https://github.c*o**m/getumbrel/llama-gpt.git cd llama-gpt
通过以下命令运行Llamagpt:
./run-mac.sh --model 7b
您可以通过http:// localhost:3000访问Llamagpt。
要运行13B或70B聊天模型,请分别用13B或70B替换7B。要运行7B,13B或34B代码Llama型号,请分别用代码-7B,代码13B或代码-34B替换7B。
为了停止Llamagpt,请在终端进行CTRL + C。
与Docker一起安装Llamagpt
您可以在任何X86或ARM64系统上运行Llamagpt。确保已安装了Docker。
然后,克隆此存储库和CD中:
git clone https://github.c*o**m/getumbrel/llama-gpt.git cd llama-gpt
通过以下命令运行Llamagpt:
./run.sh --model 7b
或者,如果您有nvidia gpu,则可以使用cuda支持使用-with-cuda标志,例如:
./run.sh --model 7b --with-cuda
您可以通过http:// localhost:3000访问Llamagpt。
要运行13B或70B聊天模型,请分别用13B或70B替换7B。要运行代码LLAMA 7B,13B或34B型号,请分别用代码-7B,代码13B或代码-34B替换7B。
为了停止Llamagpt,请在终端进行CTRL + C。
注意:在第一次运行中,模型可能需要一段时间才能下载到 /型号目录。您可能还会看到很多这样的输出几分钟,这是正常的:
llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-13b:8000] not yet available...自动下载和加载模型并运行API服务器后,您将看到一个输出,例如:
llama-gpt-ui_1 | ready - started server on 0.0.0.0:3000, url: http://localho***st:3000然后,您可以通过http:// localhost访问Llamagpt:3000。
与Kubernetes一起安装Llamagpt
首先,确保您拥有一个运行的kubernetes群集,并且Kubectl配置为与之交互。
然后,克隆此存储库和CD。
要部署到kubernetes首先创建一个名称空间:
kubectl create ns llama
然后使用 /exploy /kubernetes目录下的清单
kubectl apply -k deploy/kubernetes/. -n llama
但是,您通常会这样做。
Openai兼容API
多亏了Llama-CPP-Python,可以通过http:// localhost:3001获得OpenAi API的替换替换。打开http:// localhost:3001/docs查看API文档。
基准
我们已经在以下硬件上测试了Llamagpt模型,并使用默认系统提示和用户提示:“宇宙如何扩展?”在温度0以保证确定性结果。在前10代中,生成速度平均。
通过打开拉动请求,可以随意将自己的基准添加到这张桌子上。
Nous Hermes Llama 2 7b聊天(GGML Q4_0)
| 设备 | 生成速度 |
|---|---|
| M1 Max MacBook Pro(64GB RAM) | 54令牌/秒 |
| GCP C2-Standard-16 VCPU(64 GB RAM) | 16.7令牌/秒 |
| Ryzen 5700G 4.4GHz 4C(16 GB RAM) | 11.50令牌/秒 |
| GCP C2-Standard-4 VCPU(16 GB RAM) | 4.3令牌/秒 |
| Umbrel Home(16GB RAM) | 2.7令牌/秒 |
| Raspberry Pi 4(8GB RAM) | 0.9令牌/秒 |
Nous Hermes Llama 2 13B聊天(GGML Q4_0)
| 设备 | 生成速度 |
|---|---|
| M1 Max MacBook Pro(64GB RAM) | 20令牌/秒 |
| GCP C2-Standard-16 VCPU(64 GB RAM) | 8.6令牌/秒 |
| GCP C2-Standard-4 VCPU(16 GB RAM) | 2.2令牌/秒 |
| Umbrel Home(16GB RAM) | 1.5令牌/秒 |
Nous Hermes Llama 2 70B聊天(GGML Q4_0)
| 设备 | 生成速度 |
|---|---|
| M1 Max MacBook Pro(64GB RAM) | 4.8令牌/秒 |
| GCP E2-标准16 VCPU(64 GB RAM) | 1.75令牌/秒 |
| GCP C2-Standard-16 VCPU(64 GB RAM) | 1.62令牌/秒 |
代码LLAMA 7B聊天(GGUF Q4_K_M)
| 设备 | 生成速度 |
|---|---|
| M1 Max MacBook Pro(64GB RAM) | 41代币/秒 |
代码Llama 13B聊天(GGUF Q4_K_M)
| 设备 | 生成速度 |
|---|---|
| M1 Max MacBook Pro(64GB RAM) | 25令牌/秒 |
Phind Code Llama 34B聊天(GGUF Q4_K_M)
| 设备 | 生成速度 |
|---|---|
| M1 Max MacBook Pro(64GB RAM) | 10.26令牌/秒 |
路线图和贡献
我们正在寻找为Llamagpt添加更多功能。您可以在这里看到路线图。最高优先事项是:
- 将模型从Docker映像中移出并单独的卷。
- 添加对M1/M2 MAC的金属支撑。
- 添加对代码骆驼模型的支持。
- 添加对NVIDIA GPU的CUDA支持。
- 增加加载自定义模型的能力。
- 允许用户在模型之间切换。
如果您是希望提供任何其中任何一个的开发人员,请打开一个问题,讨论应对挑战的最佳方法。如果您想帮助但不确定从哪里开始,请查看这些特别标记为对新贡献者友好的问题。
致谢
非常感谢以下开发人员和团队使Llamagpt成为可能:
- McKay Wrigley构建Chatbot UI。
- Georgi Gerganov实施Llama.cpp。
- 安德烈(Andrei)为Llama.cpp构建Python绑定。
- Nousresearch旨在微调Llama 2 7b和13b型号。
- 用于微调代码Llama 34b型号的phind。
- 汤姆·乔布斯(Tom Jobbins)用于量化Llama 2型号。
- 根据允许许可,元版发布了骆驼2和代码骆驼。
umbrel.com
