Databend 十月月报:存储过程正式可用,数据流程全面自动化

2025-12-12 0 689

Hi,Databend 的朋友们!

十月,我们专注于生产自动化的落地。存储过程正式可用并移除了实验性标记,SQL 脚本引擎支持 dynamic schema introspection,能够处理复杂的 ETL 流程。同时,我们发布了 JSON 全文检索的 inverted index、智能内存溢出控制,并全面升级了运维工具——本月共发布了十一个版本。

月度数据

22 个新功能19 个 bug 修复15 项重构12 项维护更新

本月亮点

核心新功能

  • 存储过程正式可用 —— 支持 dynamic schema introspection,移除实验性标记,内置完整的脚本能力
  • ANY JOIN 操作 —— INNER/LEFT/RIGHT ANY JOIN,高效的集合成员检查和半连接模式
  • JSON 全文搜索 —— inverted index 支持 Variant 内部字段扫描,半结构化数据的快速文本搜索
  • COPY 历史追踪 —— 新增 copy_history 系统表,记录所有 COPY 操作的完整历史
  • Vacuum 保护 —— 不可逆的 DROP 操作需要明确确认,防止误删数据
  • 数学函数扩展 —— 新增 isnan()isinf() 函数,用于 IEEE 754 浮点数验证

性能与运维

  • 智能内存溢出 —— BackpressureSpiller 在内存压力下协调提前溢出,防止 OOM
  • Pipeline 优化 —— 修正 max_threads 计算,根据 pipe 宽度合理调整并行执行
  • S3 智能分层 —— 增强 AWS S3 存储类转换支持,降低延迟波动
  • 表达式解析加速 —— 复杂表达式的 SQL 解析更快
  • 统计信息增强 —— SHOW STATISTICS 现在包含虚拟列统计和 min/max 值,查询规划更准确

Meta 服务改进

  • 运维诊断 —— databend-meta -V 显示详细构建信息;新增 metactl dump-raft-log-wal 调试工具
  • I/O 计时 —— 追踪日志条目应用时间,快速定位性能瓶颈
  • RPC 整合 —— RpcHandler 统一计时指标,可观测性更好
  • 原子化 watch 流 —— 修复 watch 流注册的竞态条件,集群更稳定

稳定性与可靠性

  • CSV 内存修复 —— 大型 CSV COPY 操作不再 OOM,得益于流式处理改进
  • JWT 优化 —— 更智能的密钥查找,避免不必要的 JWKS 刷新请求
  • Parquet 流式处理 —— 修复基表列类型变更时的反序列化错误
  • Grouping sets —— 修正复杂 GROUP BY 操作的 shuffle 模式处理
  • 行访问策略 —— 修复参数顺序和大小写敏感问题
  • NULL 约束 —— 列修改时的正确验证

默认配置

  • Geo 和虚拟列 —— 现在默认为所有新部署启用
  • MERGE INTO —— 移除实验性标记;完全生产可用

社区

  • 欢迎新贡献者 @camilesing@RiversJin —— 感谢你们的参与!

核心功能:AI 训练数据自动化的存储过程

存储过程是十月的核心功能。SQL 脚本引擎支持 dynamic schema introspection 后,实验性标记也一并移除——现在开箱即用。你可以完全用 SQL 自动化复杂的数据处理流程,不再需要外部工具。

来看真实场景:自动驾驶模型训练。路测视频被提取成单帧,AI 自动标注每一帧(行人、车辆、天气、光照)。你需要根据特定条件筛选视频帧——比如\”城市夜景有行人\”或\”雨天城市镜头\”——来构建针对性的训练数据集。

这个教程演示了 LET 变量、IF 条件、临时表、子查询、多表聚合、RETURN TABLE——所有生产自动化需要的核心功能。

Step-by-Step 教程

1. 创建数据库和表

CREATE DATABASE IF NOT EXISTS av_training;
USE av_training;

-- 视频帧标注表(AI 生成的标签)
CREATE TABLE video_frames (
    video_id STRING,
    frame_id INT,
    scene_type STRING,        -- \'urban\', \'highway\'
    has_pedestrian BOOLEAN,
    has_vehicle BOOLEAN,
    lighting STRING,          -- \'day\', \'night\', \'dusk\'
    weather STRING,           -- \'clear\', \'rainy\', \'foggy\', \'sunny\'
    pedestrian_count INT,
    confidence FLOAT,         -- AI 标注置信度
    capture_date DATE
);

2. 插入样例数据

INSERT INTO video_frames VALUES
-- 城市夜景,有行人
(\'V001\', 1, \'urban\', true, true, \'night\', \'clear\', 2, 0.95, \'2025-10-20\'),
(\'V001\', 2, \'urban\', true, false, \'night\', \'clear\', 1, 0.92, \'2025-10-20\'),

-- 高速白天场景
(\'V002\', 1, \'highway\', false, true, \'day\', \'sunny\', 0, 0.98, \'2025-10-21\'),

-- 城市夜景雨天
(\'V003\', 1, \'urban\', true, true, \'night\', \'rainy\', 1, 0.89, \'2025-10-22\'),
(\'V003\', 2, \'urban\', true, false, \'night\', \'rainy\', 2, 0.91, \'2025-10-22\'),

-- 高速夜景(无行人)
(\'V004\', 1, \'highway\', false, true, \'night\', \'clear\', 0, 0.97, \'2025-10-23\'),

-- 城市白天场景
(\'V005\', 1, \'urban\', true, true, \'day\', \'clear\', 3, 0.88, \'2025-10-24\'),
(\'V005\', 2, \'urban\', true, false, \'day\', \'foggy\', 1, 0.93, \'2025-10-24\');

3. 创建视频帧筛选存储过程

这个存储过程保持业务逻辑简单:始终筛选高置信度(≥ 0.85)的行人场景,同时允许按场景类型和天气缩小范围:

CREATE PROCEDURE filter_training_frames(
    scene_filter STRING,       -- \'urban\', \'highway\', \'ALL\'
    weather_filter STRING,     -- \'clear\', \'rainy\', \'ALL\'
    date_from DATE,
    date_to DATE
)
RETURNS TABLE (
    scene_type STRING,
    lighting STRING,
    weather STRING,
    frame_count INT,
    pedestrians INT,
    avg_confidence DOUBLE,
    total_frames INT
)
LANGUAGE SQL
AS $$
BEGIN
    LET min_conf := 0.85;
    LET total_frames := 0;

    CREATE OR REPLACE TEMPORARY TABLE matched_frames AS
    SELECT
        video_id, frame_id, scene_type, lighting,
        weather, pedestrian_count, confidence
    FROM video_frames
    WHERE capture_date BETWEEN :date_from AND :date_to
      AND confidence >= min_conf
      AND (:scene_filter = \'ALL\' OR scene_type = :scene_filter)
      AND (:weather_filter = \'ALL\' OR weather = :weather_filter)
      AND has_pedestrian = true;

    LET total_frames := (SELECT COUNT(*) FROM matched_frames);

    IF total_frames = 0 THEN
        RETURN TABLE(
            SELECT NULL::STRING AS scene_type,
                   NULL::STRING AS lighting,
                   NULL::STRING AS weather,
                   0::INT AS frame_count,
                   0::INT AS pedestrians,
                   0.0::DOUBLE AS avg_confidence,
                   0::INT AS total_frames
        );
    END IF;

    RETURN TABLE(
        SELECT
            scene_type,
            lighting,
            weather,
            COUNT(*) AS frame_count,
            SUM(pedestrian_count) AS pedestrians,
            AVG(confidence) AS avg_confidence,
            :total_frames AS total_frames
        FROM matched_frames
        GROUP BY scene_type, lighting, weather
        ORDER BY frame_count DESC
    );
END;
$$;

4. 运行存储过程:筛选城市行人场景(任意天气)

CALL PROCEDURE filter_training_frames(
    \'urban\',                   -- 城市场景
    \'ALL\',                     -- 任意天气
    DATE \'2025-10-20\',
    DATE \'2025-10-24\'
);

预期输出:

scene_type | lighting | weather | frame_count | pedestrians | avg_confidence | total_frames
urban      | night    | rainy   |           2 |           3 |           0.90 |            6
urban      | night    | clear   |           2 |           3 |           0.94 |            6
urban      | day      | foggy   |           1 |           1 |           0.93 |            6
urban      | day      | clear   |           1 |           3 |           0.88 |            6

核心功能演示

核心能力

  • LET 用于计数器/阈值,IF 提前退出,临时表
  • 查询中的 :variable 插值和聚合的 RETURN TABLE

生产应用场景

这个模式适用于:

  • AI/ML 数据准备 —— 筛选和分析训练数据集
  • 数据质量检查 —— 验证并报告数据问题
  • ETL 流水线 —— 多步骤转换与中间暂存
  • 业务报表 —— 参数化报表与聚合
  • 数据验证 —— 带提前退出的条件检查

了解更多:存储过程与 SQL 脚本文档

以上完整示例可以在 databend.cn 注册体验

总结

存储过程的正式可用标志着 Databend 迈入新的阶段:从查询引擎进化为完整的数据平台。用户可以在统一的 Rust 引擎上,用 Snowflake 兼容的 SQL 语法,处理结构化分析、半结构化搜索、向量检索、地理空间分析和数据自动化——所有功能开箱即用,完全开源。

我们即将推出 table branching 功能,让数据表像代码一样支持分支、测试和合并,敬请期待!

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式湖仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

‍‍ Databend Cloud:databend.cn

Databend 文档:docs.databend.cn

Wechat:Databend

GitHub:github.com/databendlab…

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 Databend 十月月报:存储过程正式可用,数据流程全面自动化 https://www.zuozi.net/35913.html

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务