更高效的数据处理解决方案:基于 MinIO 部署 Apache Doris 存算分离版本实践

2025-12-04 0 881

引言

现代数据处理在多维度面临严峻挑战,一方面,数据量的持续增长致使传统存储成本居高不下,非结构化数据所占比例日益攀升,进一步加重了存储负担,且数据质量问题推高了存储和清洗成本;另一方面,企业内部往往存在多套系统,数据难以集成,这对数据分析的成本和时效性也提出了更高的要求。

Apache Doris 作为一款具备高性能的实时分析数据库,拥有湖仓一体的能力。当它与 MinIO 这样高性能且 S3 兼容的对象存储系统相结合时,能够构建出一个高效且具备低成本特性的数据分析系统。本文将介绍基于 Apache Doris 和 MinIO 的存算分离部署教程与使用实践。

为什么选择 Apache Doris 和 MinIO

Apache Doris 是一款基于 MPP 架构的高性能、实时分析型数据库。它以高效、简单和统一的特性著称,能够在亚秒级的时间内返回海量数据的查询结果。Doris 具备以下优势:

  • 高性能:在海量数据下实现亚秒级查询响应,支持高并发点查询和复杂分析。
  • 实时分析:支持实时数据导入和查询,适合需要即时洞察的业务场景。
  • 易用性:设计简单,操作和维护成本低。
  • 可扩展性:通过 MPP 架构实现水平扩展,处理大规模数据和高并发请求。
  • 多场景支持:适用于报表分析、即席查询、用户画像、日志检索等多种场景。
  • 强大集成性:可与 MySQL、PostgreSQL、Hive、Flink 等数据源和工具无缝集成。
  • 活跃社区:拥有超过 600 名贡献者和全球 5000 多家企业的生产环境应用,得到 TikTok、Baidu 等巨头的验证。

与此同时,Doris 还支持存算一体和存算分离两种部署模式,在存算一体模型下,Doris 会在内部存储数据,而在存算分离模式下,Doris 可以选择第三方存储系统,如 MinIO。

为什么选择 Apache Doris 和 MinIO.png

MinIO 是一个开源、分布式对象存储系统,专为高性能和云原生工作负载设计。其主要优势包括:

  • 高性能:Minio 提供快速的数据访问,满足实时分析需求。
  • 可扩展性:支持水平扩展,能够轻松应对数据量增长。
  • 成本效益:作为开源软件,Minio 可在本地部署,避免云存储的高昂费用。
  • S3 兼容性:与 Amazon S3 API 完全兼容,易于与现有工具和应用集成。
  • 分布式架构:通过擦除码(Erasure Coding)技术,提供高可用性和数据冗余。
  • 灵活部署:支持裸金属、容器(如 Kubernetes)或云平台部署,适应多种环境。

这些特性使 Minio 成为 Apache Doris 存算分离架构的理想存储后端。

部署指南

01 规划

在我们进行部署之前,需要进行容量规划,如果你部署的是在生产环节,那么你应该考虑使用更高规格配置的机器,并且将各个组件独立部署。

软件版本准备:

规划-1.png

服务器规划:

规划-2.png

02 准备工作

  1. 操作系统参数修改

    swapoff -a
    
    cat >> /etc/sysctl.conf << EOF
    vm.max_map_count = 2000000
    EOF
    
    # Take effect immediately
    sysctl -p
    
    vi /etc/security/limits.conf 
    * soft nofile 1000000
    * hard nofile 1000000
    
  2. 安装必要的命令

    apt update
    apt install -y net-tools
    apt install -y cron
    apt install -y iputils-ping
    

03 部署 MinIO

  1. 下载 MinIO:访问 MinIO 下载页面,选择适合的版本和操作系统。

    wget https://dl.min.io/server/minio/release/linux-amd64/minio
    chmod +x minio
    
  2. 在每个节点上启动 MinIO 服务器:

      export MINIO_REGION_NAME=us-east-1
      export MINIO_ROOT_USER=minio
      export MINIO_ROOT_PASSWORD=minioadmin
      mkdir -p /mnt/disk{1..4}/minio
      nohup minio server --address :9000 --console-address :9001 http://172.20.1.{2...5}:9000/mnt/disk{1...4}/minio 2>&1 &
    
  3. 配置 MinIO 客户端:

      wget https://dl.min.io/client/mc/release/linux-amd64/mc
      chmod +x mc
      ./mc alias set myminio http://127.0.0.1:9000 minio minioadmin
      ./mc mb myminio/doris
    

04 部署 Doris Manager

  1. 下载 Doris Manager

      wget https://enterprise-doris-releases.oss-accelerate.aliyuncs.com/doris-manager/velodb-manager-25.0.0-x64-bin.tar.gz
    
  2. 解压并启动服务

    tar -zxf velodb-manager-25.0.0-x64-bin.tar.gz
    cd velodb-manager-25.0.0-x64-bin/webserver/bin
    bash start.sh
    
  3. 服务启动后,通过浏览器访问 http://:8004 即可进入管理界面并根据指引创建账号

    部署 Doris Manager.png

05 部署 Doris

  1. 下载 Doris

    wget https://apache-doris-releases.oss-accelerate.aliyuncs.com/apache-doris-3.0.6.2-bin-x64.tar.gz
       mv apache-doris-3.0.6.2-bin-x64.tar.gz /opt/downloads/doris
    
  2. 进入主界面,根据指引创建集群

    部署 Doris-1.png

  3. 选择指定版本并设置 root 密码

    部署 Doris-2.png

  4. 填写 MinIO 信息

    部署 Doris-3.png

  5. 填写节点信息

    1. 分别在每个节点执行以下命令
      wget http://172.20.1.2:8004/api/download/deploy.sh -O deploy_agent.sh && chmod +x deploy_agent.sh && ./deploy_agent.sh
      
    2. 在界面上填写节点 IP
      部署 Doris-4.png
  6. 配置 FE 节点

    部署 Doris-5.png

  7. 配置 BE 节点

    部署 Doris-6.png

  8. 部署你的集群

    部署 Doris-7.png

    部署 Doris-8.png

开始查询

01 准备数据

  1. 进入查询页面

    准备数据-1.png

    准备数据-2.png

  2. 创建 Doris 表:

    CREATE DATABASE IF NOT EXISTS `test`;
    USE `test`;
    CREATE TABLE `amazon_reviews` (  
      `review_date` int(11) NULL,  
      `marketplace` varchar(20) NULL,  
      `customer_id` bigint(20) NULL,  
      `review_id` varchar(40) NULL,
      `product_id` varchar(10) NULL,
      `product_parent` bigint(20) NULL,
      `product_title` varchar(500) NULL,
      `product_category` varchar(50) NULL,
      `star_rating` smallint(6) NULL,
      `helpful_votes` int(11) NULL,
      `total_votes` int(11) NULL,
      `vine` boolean NULL,
      `verified_purchase` boolean NULL,
      `review_headline` varchar(500) NULL,
      `review_body` string NULL
    ) ENGINE=OLAP
    DUPLICATE KEY(`review_date`)
    COMMENT \'OLAP\'
    DISTRIBUTED BY HASH(`review_date`) BUCKETS 16
    PROPERTIES (
      \"compression\" = \"ZSTD\"
    );
    
  3. 下载亚马逊评论数据:

    wget https://datasets-documentation.s3.eu-west-3.amazonaws.com/amazon_reviews/amazon_reviews_2010.snappy.parquet
    
  4. 导入数据到 Doris:

    curl --location-trusted -u root: 
    -T amazon_reviews_2010.snappy.parquet 
    -H \"format:parquet\" 
    http://127.0.0.1:8030/api/test/amazon_reviews/_stream_load
    
  5. 登录 MinIO 控制台,查看数据大小
    登录 MinIO 控制台.png

02 查询

SELECT
    product_id,
    AVG(product_title),
    AVG(star_rating) AS rating,
    COUNT() AS count
FROM
    amazon_reviews
WHERE
    review_body LIKE \'%is super awesome%\'
GROUP BY
    product_id
ORDER BY
    count DESC,
    rating DESC,
    product_id
LIMIT 5;

总结

在导入相同数据(3 副本配置)方面,相较于存算一体模式 3.98 GB 的存储占用,采用 MinIO 的存算分离模式仅占用 1.3 GB,存储占用是存算一体模式的 1/3;与此同时,在数据导入速度方面,采用 MinIO 仅需 15 秒,而存算一体模式需要 61 秒,导入速度快 4 倍

通过结合 MinIO 和 Apache Doris 的存算分离架构,用户可以充分利用 Minio 的高性能、低成本对象存储和 Doris 的实时分析能力。这种架构不仅提升了系统的可扩展性和灵活性,还显著降低了存储成本,同时确保了业务负载的隔离和稳定性。希望本教程能帮助您快速部署并体验这一高效的数据处理解决方案。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 开发教程 更高效的数据处理解决方案:基于 MinIO 部署 Apache Doris 存算分离版本实践 https://www.zuozi.net/3446.html

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务