ColossalAI

2025-12-11 0 976

巨大

巨大的A:使大型AI型号更便宜,更快,更易于访问

纸|文档|示例|论坛| GPU云操场|博客

|英语| 中文|

没有设置就开始巨大的ai

立即为您的研究访问高端,按需计算,而无需设置。

立即注册,获得10美元的学分

有限的学术奖金:

  • 充值$ 1,000,并获得300个学分
  • 增值500美元,并获得100个学分

最新消息

  • [2025/02] DeepSeek 671B微调指南揭示了 – 一键单击升级的DeepSeek Suite,AI Players狂喜!
  • [2024/12]视频生成模型的开发成本节省了50%!现在可以使用H200 GPU代金券[代码] [凭证]提供开源解决方案
  • [2024/10]如何构建一个低成本的Sora状应用程序?解决方案
  • [2024/09]新加坡初创公司HPC-AI Tech获得了5000万美元的A系列资金,以建立视频生成AI模型和GPU平台
  • [2024/09]将AI大型型号培训成本降低30%仅需要FP8混合精确培训升级的一行代码
  • [2024/06]开放式Sora继续开源:一键单击生成任何16秒的720p HD视频,准备使用的模型权重
  • [2024/05]大型AI模型推理速度翻了一番,巨大的推断开源释放
  • [2024/04] Open-Sora揭幕了主要升级:通过单次拍摄16秒视频生成和720p分辨率的开源
  • [2024/04]针对Llama3系列量身定制的推理,微调和预处理的最具成本效益的解决方案

目录

  • 为什么巨大的ai
  • 特征
  • 现实世界应用的巨大ai
    • 开放式:揭示完整的模型参数,培训细节以及类似Sora的视频生成模型的所有内容
    • 巨大的LALAMA-2:使用几百美元的半天培训产生的结果与主流大型型号,开源和无商业域特异性LLM解决方案相似
    • Colossalchat:使用完整的RLHF管道克隆Chatgpt的开源解决方案
    • AIGC:稳定扩散的加速度
    • 生物医学:Alphafold蛋白结构的加速度
  • 平行训练演示
    • 骆驼1/2/3
    • GPT-3
    • GPT-2
    • 伯特
    • 棕榈
    • 选择
    • VIT
    • 建议系统模型
  • 单GPU培训演示
    • GPT-2
    • 棕榈
  • 推理
    • 巨大推论:大型AI模型推断速度翻了一番
    • grok-1:314b pytorch +拥抱面的模型
    • SwiftInfer:打破多轮对话的LLM的长度限制,加速46%
  • 安装
    • PYPI
    • 从源安装
  • 使用Docker
  • 社区
  • 贡献
  • 引用我们

为什么巨大的ai

James Demmel教授(加州大学伯克利分校):巨大的AI使培训AI模型有效,容易且可扩展。

(返回到顶部)

特征

Colossal-AI为您提供了平行组件的集合。我们旨在支持您编写分布式深度学习模型,就像您在笔记本电脑上写模型一样。我们提供用户友好的工具来启动几行分布式培训和推断。

  • 并行主义策略

    • 数据并行性
    • 管道并行性
    • 1d,2d,2.5d,3D张量并行性
    • 序列并行性
    • 零冗余优化器(零)
    • 自动并行
  • 异构内存管理

    • 帕特里克斯塔尔
  • 友好的用法

    • 基于配置文件的并行性

(返回到顶部)

现实世界中的巨大艾尔

开户

开放式:揭示完整的模型参数,培训详细信息以及类似Sora的视频生成模型[代码] [blog] [模型权重] [demo] [gpu cloud Playground] [opensora image]

(返回到顶部)

巨大的LALA-2

[GPU云操场] [Llama3图像]

  • 7B:使用几百美元的半天培训产生与主流大型模型,开源和无商业域特异性LLM解决方案相似的结果。 [代码] [博客] [HuggingFace模型权重] [ModelsCope Model权重]

  • 13B:构造精制的13B私人型号,仅$ 5000美元。 [代码] [博客] [HuggingFace模型权重] [ModelsCope Model权重]

模型 骨干 令牌消耗了 mmlu(5射) cmmlu(5射) Agieval(5射) Gaokao(0射) Ceval(5杆)
Baichuan-7b 1.2T 42.32(42.30) 44.53(44.02) 38.72 36.74 42.80
Baichuan-13b基础 1.4T 50.51(51.60) 55.73(55.30) 47.20 51.41 53.60
Baichuan2-7b基础 2.6t 46.97(54.16) 57.67(57.07) 45.76 52.60 54.00
baichuan2-13b bas 2.6t 54.84(59.17) 62.62(61.97) 52.08 58.25 58.10
chatglm-6b 1.0T 39.67(40.63) 41.17( – ) 40.10 36.53 38.90
chatglm2-6b 1.4T 44.74(45.46) 49.40( – ) 46.36 45.49 51.70
internlm-7b 1.6T 46.70(51.00) 52.00( – ) 44.77 61.64 52.80
QWEN-7B 2.2t 54.29(56.70) 56.03(58.80) 52.47 56.42 59.60
Llama-2-7b 2.0t 44.47(45.30) 32.97( – ) 32.60 25.46
Linly-ai/中文-lama-2-7b-hf Llama-2-7b 1.0T 37.43 29.92 32.00 27.57
Wenge-Research/Yayi-7b-llama2 Llama-2-7b 38.56 31.52 30.99 25.95
Ziqingyang/中文-lama-2-7b Llama-2-7b 33.86 34.69 34.52 25.18 34.2
Tigerresearch/Tigerbot-7b基础 Llama-2-7b 0.3T 43.73 42.04 37.64 30.61
Linksoul/Chinese-llama-2-7b Llama-2-7b 48.41 38.31 38.45 27.72
Flagalpha/Atom-7b Llama-2-7b 0.1T 49.96 41.10 39.83 33.00
IDEA-CCNL/ZIYA-LLAMA-13B-V1.1 Llama-13b 0.11T 50.25 40.99 40.04 30.54
巨大的lalama-2-7b基础 Llama-2-7b 0.0085t 53.06 49.89 51.48 58.82 50.2
巨大的lalama-2-13b基础 Llama-2-13b 0.025T 56.42 61.80 54.69 69.53 60.3

巨人

ColossalChat:使用完整的RLHF管道克隆Chatgpt的开源解决方案。 [代码] [博客] [demo] [教程]

  • RLHF PPO Stage 3培训的速度最多可快10倍

  • 单个服务器培训的速度高达7.73倍,单个GPU推理的速度快1.42倍

  • 一个GPU上的模型容量最高可增长10.3倍
  • 迷你演示训练过程仅需要1.62GB的GPU内存(任何消费者级GPU)

  • 在单个GPU上,微调模型的容量最多可达3.7倍
  • 保持足够高的运行速度

(返回到顶部)

AIGC

AIGC(AI生成的含量)模型的加速度,例如稳定扩散V1和稳定的扩散V2。

  • 培训:将稳定的扩散存储器消耗量最多减少5.6倍,硬件成本最高为46倍(从A100到RTX3060)。

  • Dreambooth微调:仅使用所需主题的3-5张图像个性化模型。

  • 推理:将推理GPU记忆消耗降低2.5倍。

(返回到顶部)

生物医学

α蛋白结构的加速

  • FastFold:加速训练和对GPU簇的推断,更快的数据处理,包含10000多个残基的推理序列。

  • Intel的FastFold:3倍推理加速度和39%的成本降低。

  • Xtrimolultimer:蛋白质单体和多聚体的加速结构预测11倍。

(返回到顶部)

平行训练演示

Llama3

  • 700亿参数Llama3模型培训加速了18%[代码] [GPU云游乐场] [Llama3 Image]

Llama2

  • 700亿参数Llama2模型培训加速了195%[代码] [博客]

Llama1

  • 38%[代码] [Blog]预处理的650亿参数大型模型

  • 增强的MOE并行性,开源MOE模型培训的效率可以高9倍[代码] [Blog]

GPT-3

  • 节省50%的GPU资源和10.7%的加速度

GPT-2

  • 11倍GPU的记忆消耗和张量并行性的超线性缩放效率
  • 同一硬件上的24倍较大的型号大小
  • 超过3倍加速度

伯特

  • 更快的训练速度为2倍,序列长度长50%

棕榈

  • Palm- ColossalAI :可扩展的Google Pathways语言模型(Palm)的实现。

选择

  • Meta发布的1750亿参数AI语言模型是开放式预审预告剂的变压器(OPT),该模型刺激了AI程序员,以执行各种下游任务和应用程序部署,这是由于公共预训练的模型权重。
  • 45%的加速度微调OPT OPT OPT在线路上的低成本。 [示例] [在线服务]

请访问我们的文档和示例以获取更多详细信息。

VIT

  • 14倍较大的批量尺寸,张量并行量更快的训练速度= 64

建议系统模型

  • 缓存的嵌入,利用软件缓存来训练较大的GPU内存预算的较大嵌入式表。

(返回到顶部)

单GPU培训演示

GPT-2

  • 同一硬件上的20倍型号大小

  • 同一硬件上的120x型号较大(RTX 3080)

棕榈

  • 同一硬件上的34x型号大小较大

(返回到顶部)

推理

巨大的推论

  • 在某些情况下,与VLLM的离线推理性能相比,大型AI模型推理速度翻了一番。 [代码] [博客] [GPU云操场] [LLAMA3图像]

grok-1

  • 3.8倍加速的3140亿参数Grok-1推理是一种易于使用的Python + Pytorch + HuggingFace版本,用于推理。

[代码] [博客] [Huggingface grok-1 Pytorch型号权重]

Swiftinfer

  • Swiftinfer:推理性能提高了46%,开源解决方案破坏了多轮对话的LLM的长度限制

(返回到顶部)

安装

要求:

  • pytorch> = 2.2
  • Python> = 3.7
  • cuda> = 11.0
  • NVIDIA GPU计算能力> = 7.0(V100/RTX20及更高)
  • Linux OS

如果您在安装方面遇到任何问题,则可能需要在此存储库中提出问题。

从PYPI安装

您可以使用以下命令轻松安装巨色。默认情况下,我们不会在安装过程中构建Pytorch扩展。

pip install ColossalAI

注意:目前仅支持Linux。

但是,如果要在安装过程中构建Pytorch扩展,则可以设置build_ext = 1。

BUILD_EXT=1 pip install ColossalAI

否则,当您实际需要时,将在运行时构建CUDA内核。

我们还每周都会向PYPI发布夜间版本。这使您可以访问主分支中未发布的功能和错误修复。可以通过

pip install ColossalAI -nightly

从来源下载

巨色AI的版本将与存储库的主要分支一致。如果您遇到任何问题,请随时提出问题。 🙂

ColossalAI

# install ColossalAI
pip install .\”>

git clone https://githu*b*.*com/hpcaitech/ColossalAI.git
cd ColossalAI

# install ColossalAI
pip install .

默认情况下,我们不编译CUDA/C ++内核。 ColossalAI将在运行时建造它们。如果要安装并启用CUDA内核融合(使用Fused Optimizer时强制安装):

BUILD_EXT=1 pip install .

对于具有CUDA 10.2的用户,您仍然可以从源头构建ColossalAI 。但是,您需要手动下载Cub库并将其复制到相应的目录。

ColossalAI

# download the cub library
wget https://gith*u*b*.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip
unzip 1.8.0.zip
cp -r cub-1.8.0/cub/ ColossalAI /kernel/cuda_native/csrc/kernels/include/

# install
BUILD_EXT=1 pip install .\”>

 # clone the repository
git clone https://githu*b*.*com/hpcaitech/ColossalAI.git
cd ColossalAI

# download the cub library
wget https://gith*u*b*.com/NVIDIA/cub/archive/refs/tags/1.8.0.zip
unzip 1.8.0.zip
cp -r cub-1.8.0/cub/ ColossalAI /kernel/cuda_native/csrc/kernels/include/

# install
BUILD_EXT=1 pip install .

(返回到顶部)

使用Docker

从dockerhub拉

您可以直接从我们的dockerhub页面摘取Docker映像。释放时将自动上传图像。

自己建立

运行以下命令从提供的Dockerfile构建Docker映像。

从头开始构建巨大的ai需要GPU支持,您需要在执行Docker Build时使用Nvidia Docker运行时作为默认值。可以在此处找到更多详细信息。我们建议您直接从我们的项目页面上安装巨大AI。

ColossalAI
docker build -t ColossalAI ./docker\”>

 cd ColossalAI
docker build -t ColossalAI ./docker

运行以下命令以在交互式模式下启动Docker容器。

docker run -ti --gpus all --rm --ipc=host ColossalAI bash

(返回到顶部)

社区

加入论坛,Slack和微信(微信)的Colossal-Ai社区,与我们的工程团队分享您的建议,反馈和问题。

贡献

指的是Bloom和稳定扩散的成功尝试,欢迎任何和所有开发人员和合作伙伴具有计算能力,数据集,模型,加入并建立巨大的AI社区,为大型AI模型时代做出了努力!

您可以联系我们或以以下方式参与:

  1. 留下一颗星星以展示自己的喜欢和支持。谢谢!
  2. 发布问题,或在GitHub上提交PR
  3. 将您的官方建议发送到电子邮件contact@hpcaitech.com

非常感谢我们所有出色的贡献者!

(返回到顶部)

CI/CD

我们利用GitHub动作的力量来自动化我们的开发,释放和部署工作流程。请查看有关如何操作自动工作流程的文档。

引用我们

该项目的灵感来自某些相关项目(我们的团队和其他组织的一些项目)。我们想归功于参考列表中列出的这些惊人的项目。

为了引用该项目,您可以使用以下Bibtex引用。

@inproceedings{10.1145/3605573.3605613,
author = {Li, Shenggui and Liu, Hongxin and Bian, Zhengda and Fang, Jiarui and Huang, Haichen and Liu, Yuliang and Wang, Boxiang and You, Yang},
title = {Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training},
year = {2023},
isbn = {9798400708435},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://**doi.org*/10.1145/3605573.3605613},
doi = {10.1145/3605573.3605613},
abstract = {The success of Transformer models has pushed the deep learning model scale to billions of parameters, but the memory limitation of a single GPU has led to an urgent need for training on multi-GPU clusters. However, the best practice for choosing the optimal parallel strategy is still lacking, as it requires domain expertise in both deep learning and parallel computing. The Colossal-AI system addressed the above challenge by introducing a unified interface to scale your sequential code of model training to distributed environments. It supports parallel training methods such as data, pipeline, tensor, and sequence parallelism and is integrated with heterogeneous training and zero redundancy optimizer. Compared to the baseline system, Colossal-AI can achieve up to 2.76 times training speedup on large-scale models.},
booktitle = {Proceedings of the 52nd International Conference on Parallel Processing},
pages = {766–775},
numpages = {10},
keywords = {datasets, gaze detection, text tagging, neural networks},
location = {Salt Lake City, UT, USA},
series = {ICPP \'23}
}

Colossal-AI已被顶级会议Neurips,SC,AAAI,PPOPP,CVPR,ISC,NVIDIA GTC等接受为官方教程。

(返回到顶部)

下载源码

通过命令行克隆项目:

git clone https://github.com/hpcaitech/ColossalAI.git

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 ColossalAI https://www.zuozi.net/33961.html

Cataclysm DDA
下一篇: Cataclysm DDA
常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务