ColossalAI - 左子网

巨大的

巨大的A：使大型AI型号更便宜，更快，更易于访问

纸|文档|示例|论坛| GPU云操场|博客

|英语| 中文|

没有设置就开始巨大的ai

立即为您的研究访问高端，按需计算，而无需设置。

立即注册，获得10美元的学分！

有限的学术奖金：

充值$ 1,000，并获得300个学分
增值500美元，并获得100个学分

为什么巨大的ai
特征
现实世界应用的巨大ai
- 开放式：揭示完整的模型参数，培训细节以及类似Sora的视频生成模型的所有内容
- 巨大的LALAMA-2：使用几百美元的半天培训产生的结果与主流大型型号，开源和无商业域特异性LLM解决方案相似
- Colossalchat：使用完整的RLHF管道克隆Chatgpt的开源解决方案
- AIGC：稳定扩散的加速度
- 生物医学：Alphafold蛋白结构的加速度
平行训练演示
- 骆驼1/2/3
- 萌
- GPT-3
- GPT-2
- 伯特
- 棕榈
- 选择
- VIT
- 建议系统模型
单GPU培训演示
- GPT-2
- 棕榈
推理
- 巨大推论：大型AI模型推断速度翻了一番
- grok-1：314b pytorch +拥抱面的模型
- SwiftInfer：打破多轮对话的LLM的长度限制，加速46％
安装
- PYPI
- 从源安装
使用Docker
社区
贡献
引用我们

为什么巨大的ai

James Demmel教授（加州大学伯克利分校）：巨大的AI使培训AI模型有效，容易且可扩展。

（返回到顶部）

特征

Colossal-AI为您提供了平行组件的集合。我们旨在支持您编写分布式深度学习模型，就像您在笔记本电脑上写模型一样。我们提供用户友好的工具来启动几行分布式培训和推断。

并行主义策略
- 数据并行性
- 管道并行性
- 1d，2d，2.5d，3D张量并行性
- 序列并行性
- 零冗余优化器（零）
- 自动并行
异构内存管理
- 帕特里克斯塔尔
友好的用法
- 基于配置文件的并行性

（返回到顶部）

现实世界中的巨大艾尔

开户

开放式：揭示完整的模型参数，培训详细信息以及类似Sora的视频生成模型[代码] [blog] [模型权重] [demo] [gpu cloud Playground] [opensora image]

（返回到顶部）

巨大的LALA-2

[GPU云操场] [Llama3图像]

7B：使用几百美元的半天培训产生与主流大型模型，开源和无商业域特异性LLM解决方案相似的结果。 [代码] [博客] [HuggingFace模型权重] [ModelsCope Model权重]
13B：构造精制的13B私人型号，仅$ 5000美元。 [代码] [博客] [HuggingFace模型权重] [ModelsCope Model权重]

模型	骨干	令牌消耗了	mmlu（5射）	cmmlu（5射）	Agieval（5射）	Gaokao（0射）	Ceval（5杆）
Baichuan-7b	–	1.2T	42.32（42.30）	44.53（44.02）	38.72	36.74	42.80
Baichuan-13b基础	–	1.4T	50.51（51.60）	55.73（55.30）	47.20	51.41	53.60
Baichuan2-7b基础	–	2.6t	46.97（54.16）	57.67（57.07）	45.76	52.60	54.00
baichuan2-13b bas	–	2.6t	54.84（59.17）	62.62（61.97）	52.08	58.25	58.10
chatglm-6b	–	1.0T	39.67（40.63）	41.17（ – ）	40.10	36.53	38.90
chatglm2-6b	–	1.4T	44.74（45.46）	49.40（ – ）	46.36	45.49	51.70
internlm-7b	–	1.6T	46.70（51.00）	52.00（ – ）	44.77	61.64	52.80
QWEN-7B	–	2.2t	54.29（56.70）	56.03（58.80）	52.47	56.42	59.60
Llama-2-7b	–	2.0t	44.47（45.30）	32.97（ – ）	32.60	25.46	–
Linly-ai/中文-lama-2-7b-hf	Llama-2-7b	1.0T	37.43	29.92	32.00	27.57	–
Wenge-Research/Yayi-7b-llama2	Llama-2-7b	–	38.56	31.52	30.99	25.95	–
Ziqingyang/中文-lama-2-7b	Llama-2-7b	–	33.86	34.69	34.52	25.18	34.2
Tigerresearch/Tigerbot-7b基础	Llama-2-7b	0.3T	43.73	42.04	37.64	30.61	–
Linksoul/Chinese-llama-2-7b	Llama-2-7b	–	48.41	38.31	38.45	27.72	–
Flagalpha/Atom-7b	Llama-2-7b	0.1T	49.96	41.10	39.83	33.00	–
IDEA-CCNL/ZIYA-LLAMA-13B-V1.1	Llama-13b	0.11T	50.25	40.99	40.04	30.54	–
巨大的lalama-2-7b基础	Llama-2-7b	0.0085t	53.06	49.89	51.48	58.82	50.2
巨大的lalama-2-13b基础	Llama-2-13b	0.025T	56.42	61.80	54.69	69.53	60.3

巨人

ColossalChat：使用完整的RLHF管道克隆Chatgpt的开源解决方案。 [代码] [博客] [demo] [教程]

RLHF PPO Stage 3培训的速度最多可快10倍

单个服务器培训的速度高达7.73倍，单个GPU推理的速度快1.42倍

一个GPU上的模型容量最高可增长10.3倍
迷你演示训练过程仅需要1.62GB的GPU内存（任何消费者级GPU）

在单个GPU上，微调模型的容量最多可达3.7倍
保持足够高的运行速度

（返回到顶部）

AIGC

AIGC（AI生成的含量）模型的加速度，例如稳定扩散V1和稳定的扩散V2。

培训：将稳定的扩散存储器消耗量最多减少5.6倍，硬件成本最高为46倍（从A100到RTX3060）。

Dreambooth微调：仅使用所需主题的3-5张图像个性化模型。

推理：将推理GPU记忆消耗降低2.5倍。

（返回到顶部）

生物医学

α蛋白结构的加速

FastFold：加速训练和对GPU簇的推断，更快的数据处理，包含10000多个残基的推理序列。

Intel的FastFold：3倍推理加速度和39％的成本降低。

Xtrimolultimer：蛋白质单体和多聚体的加速结构预测11倍。

（返回到顶部）

平行训练演示

Llama3

700亿参数Llama3模型培训加速了18％[代码] [GPU云游乐场] [Llama3 Image]

Llama2

700亿参数Llama2模型培训加速了195％[代码] [博客]

Llama1

38％[代码] [Blog]预处理的650亿参数大型模型

萌

增强的MOE并行性，开源MOE模型培训的效率可以高9倍[代码] [Blog]

GPT-3

节省50％的GPU资源和10.7％的加速度

GPT-2

11倍GPU的记忆消耗和张量并行性的超线性缩放效率

同一硬件上的24倍较大的型号大小
超过3倍加速度

伯特

更快的训练速度为2倍，序列长度长50％

棕榈

Palm- ColossalAI ：可扩展的Google Pathways语言模型（Palm）的实现。

选择

Meta发布的1750亿参数AI语言模型是开放式预审预告剂的变压器（OPT），该模型刺激了AI程序员，以执行各种下游任务和应用程序部署，这是由于公共预训练的模型权重。
45％的加速度微调OPT OPT OPT在线路上的低成本。 [示例] [在线服务]

请访问我们的文档和示例以获取更多详细信息。

VIT

14倍较大的批量尺寸，张量并行量更快的训练速度= 64

建议系统模型

缓存的嵌入，利用软件缓存来训练较大的GPU内存预算的较大嵌入式表。

（返回到顶部）

单GPU培训演示

GPT-2

同一硬件上的20倍型号大小

同一硬件上的120x型号较大（RTX 3080）

棕榈

同一硬件上的34x型号大小较大

（返回到顶部）

推理

巨大的推论

在某些情况下，与VLLM的离线推理性能相比，大型AI模型推理速度翻了一番。 [代码] [博客] [GPU云操场] [LLAMA3图像]

grok-1

3.8倍加速的3140亿参数Grok-1推理是一种易于使用的Python + Pytorch + HuggingFace版本，用于推理。

[代码] [博客] [Huggingface grok-1 Pytorch型号权重]

Swiftinfer

Swiftinfer：推理性能提高了46％，开源解决方案破坏了多轮对话的LLM的长度限制

（返回到顶部）

安装

要求：

pytorch> = 2.2
Python> = 3.7
cuda> = 11.0
NVIDIA GPU计算能力> = 7.0（V100/RTX20及更高）
Linux OS

如果您在安装方面遇到任何问题，则可能需要在此存储库中提出问题。

从PYPI安装

您可以使用以下命令轻松安装巨色。默认情况下，我们不会在安装过程中构建Pytorch扩展。

pip install ColossalAI

注意：目前仅支持Linux。

但是，如果要在安装过程中构建Pytorch扩展，则可以设置build_ext = 1。

BUILD_EXT=1 pip install ColossalAI

否则，当您实际需要时，将在运行时构建CUDA内核。

我们还每周都会向PYPI发布夜间版本。这使您可以访问主分支中未发布的功能和错误修复。可以通过

pip install ColossalAI -nightly

从来源下载

巨色AI的版本将与存储库的主要分支一致。如果您遇到任何问题，请随时提出问题。 🙂

ColossalAI

# install ColossalAI
pip install .\”>

git clone https://githu*b*.*com/hpcaitech/ColossalAI.git
cd ColossalAI

# install ColossalAI
pip install .

默认情况下，我们不编译CUDA/C ++内核。 ColossalAI将在运行时建造它们。如果要安装并启用CUDA内核融合（使用Fused Optimizer时强制安装）：

BUILD_EXT=1 pip install .

对于具有CUDA 10.2的用户，您仍然可以从源头构建ColossalAI 。但是，您需要手动下载Cub库并将其复制到相应的目录。

ColossalAI

# download the cub library
wget https://gith*u*b*.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip
unzip 1.8.0.zip
cp -r cub-1.8.0/cub/ ColossalAI /kernel/cuda_native/csrc/kernels/include/

# install
BUILD_EXT=1 pip install .\”>

 # clone the repository
git clone https://githu*b*.*com/hpcaitech/ColossalAI.git
cd ColossalAI

# download the cub library
wget https://gith*u*b*.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip
unzip 1.8.0.zip
cp -r cub-1.8.0/cub/ ColossalAI /kernel/cuda_native/csrc/kernels/include/

# install
BUILD_EXT=1 pip install .

（返回到顶部）

使用Docker

从dockerhub拉

您可以直接从我们的dockerhub页面摘取Docker映像。释放时将自动上传图像。

自己建立

运行以下命令从提供的Dockerfile构建Docker映像。

从头开始构建巨大的ai需要GPU支持，您需要在执行Docker Build时使用Nvidia Docker运行时作为默认值。可以在此处找到更多详细信息。我们建议您直接从我们的项目页面上安装巨大AI。

ColossalAI
docker build -t ColossalAI ./docker\”>

 cd ColossalAI
docker build -t ColossalAI ./docker

运行以下命令以在交互式模式下启动Docker容器。

docker run -ti --gpus all --rm --ipc=host ColossalAI bash

（返回到顶部）

社区

加入论坛，Slack和微信（微信）的Colossal-Ai社区，与我们的工程团队分享您的建议，反馈和问题。

贡献

指的是Bloom和稳定扩散的成功尝试，欢迎任何和所有开发人员和合作伙伴具有计算能力，数据集，模型，加入并建立巨大的AI社区，为大型AI模型时代做出了努力！

您可以联系我们或以以下方式参与：

留下一颗星星以展示自己的喜欢和支持。谢谢！
发布问题，或在GitHub上提交PR
将您的官方建议发送到电子邮件contact@hpcaitech.com

非常感谢我们所有出色的贡献者！

（返回到顶部）

CI/CD

我们利用GitHub动作的力量来自动化我们的开发，释放和部署工作流程。请查看有关如何操作自动工作流程的文档。

引用我们

该项目的灵感来自某些相关项目（我们的团队和其他组织的一些项目）。我们想归功于参考列表中列出的这些惊人的项目。

为了引用该项目，您可以使用以下Bibtex引用。

@inproceedings{10.1145/3605573.3605613,
author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang},
title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training},
year = {2023},
isbn = {9798400708435},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://**doi.org*/10.1145/3605573.3605613},
doi = {10.1145/3605573.3605613},
abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.},
booktitle = {Proceedings of the 52nd International Conference on Parallel Processing},
pages = {766–775},
numpages = {10},
keywords = {datasets, gaze detection, text tagging, neural networks},
location = {Salt Lake City, UT, USA},
series = {ICPP \'23}
}

Colossal-AI已被顶级会议Neurips，SC，AAAI，PPOPP，CVPR，ISC，NVIDIA GTC等接受为官方教程。

（返回到顶部）

巨大的

纸|文档|示例|论坛| GPU云操场|博客

没有设置就开始巨大的ai

最新消息

目录

为什么巨大的ai

特征

现实世界中的巨大艾尔

开户

巨大的LALA-2

巨人

AIGC

生物医学

平行训练演示

Llama3

Llama2

Llama1

萌

GPT-3

GPT-2

伯特

棕榈

选择

VIT

建议系统模型

单GPU培训演示

GPT-2

棕榈

推理

巨大的推论

grok-1

Swiftinfer

安装

从PYPI安装

从来源下载

使用Docker

从dockerhub拉

自己建立

社区

贡献

CI/CD

引用我们

相关文章

微信

左子网

QQ交流群