全球分布式计算协调员⚡
计算数据(COD)
什么是bacalhau ?
bacalhau是一种开源分布式计算编排框架,旨在将计算带入数据。 bacalhau并没有将大型数据集移动到网络周围,而是使执行靠近数据位置的作业变得容易,从而大大减少了延迟和资源开销。
为什么要bacalhau ?
- ⚡快速工作处理: bacalhau的工作是在创建数据的地方处理的,默认情况下所有作业是平行的
- ?低成本:降低(或消除)入口/出口成本,因为工作靠近来源
- 安全:通过基于颗粒的代码许可模型,可以在迁移之前进行数据擦洗和安全性
- ?大尺度数据:有效地处理数据的petabytes,而无需大量数据传输
- ?数据主权:在安全边界内的过程敏感数据,而无需它离开您的前提
- ?交叉组织计算:允许在受保护数据集上进行特定的审查计算,而无需公开原始数据
关键功能
-
单个二进制简单性: bacalhau是一个单一的独立二进制,它是客户,编排和计算节点的功能,使设置和扩展非常容易
-
模块化体系结构:通过干净的接口支持多个执行引擎(Docker,WebAssembly)和存储提供商
-
编排计算模型:专用的编排坐标工作计划,而计算节点运行任务
-
灵活的存储集成:与S3,HTTP/HTTP,IPF和本地存储系统集成
-
多种工作类型:支持批处理,操作,守护程序和服务工作类型,以应对不同的工作流程要求
-
声明和命令式提交:在YAML(声明性)中定义工作或通过CLI通过参数(势在必行)
-
发布者支持:对本地卷,S3或其他存储后端的输出结果
入门
快速安装
bacalhau CLI (Linux/macOS)
curl -sL https://get.ba*c**alhau.org/install.sh | bash
# Verify installation
bacalhau version\”>
# Install bacalhau CLI (Linux/macOS) curl -sL https://get.ba*c**alhau.org/install.sh | bash # Verify installation bacalhau version
有关完整的快速启动指南,包括运行您的第一份工作,请参阅我们的快速启动文档。
用例
bacalhau的分布式计算框架可实现广泛的应用:
- 日志处理:通过直接在源上运行分布式作业来有效地规模上的流程日志
- 分布式数据仓库:查询和分析跨多个区域的数据,而无需移动大数据集
- 车队管理:有效地管理多个环境的分布式节点
- 分布式机器学习:在分布式计算机队中训练和部署ML模型
- 边缘计算:运行计算任务靠近需要低延迟的应用程序的数据源
文档
在此处阅读bacalhau文档指南》!
bacalhau文档包含您需要开始的所有信息:
- 安装教程
- 基本用法
- 常见的工作流程
社区和贡献
bacalhau有一个非常友好的社区,我们总是很乐意为您提供帮助:
- 加入Slack社区并前往#General频道 – 这是与社区中其他成员互动并获得帮助的最简单方法
如果您有兴趣为bacalhau项目做出贡献:
- 建立您的当地环境
- 查看我们的贡献指南
- 有关问题和功能请求,请打开一个GitHub问题
我们很高兴听到您的反馈!
开源
此存储库包含bacalhau软件,该软件被Apache-2.0许可证覆盖,除非注意(Apache许可证未涵盖任何bacalhau徽标或商标,应由许可证文件明确指出。)
bacalhau是该开源软件生产的产品,专门由Aspecto,Inc.。它是根据我们的商业条款分发的。
其他人则可以自己分发软件,但他们不能使用任何bacalhau商标,云服务等。
我们明确授予您在开发bacalhau软件本身时制作包括我们商标的构建的许可。您不得发布或共享构建,也不可能使用该构建来运行bacalhau软件。
我们已经从优秀系统倡议中借了上述开源条款
