DLF 通过云监控提供了告警设置功能,通过对重要的监控指标设置报警规则,可以实时了解湖表优化的运行状况,及时处理潜在风险,保障湖表优化的稳定运行。
创建和管理报警规则
登录云监控控制台。
在左侧导航栏,选择。
单击创建报警规则,配置相关参数。
参数
说明
产品
数据湖构建(DLF)
资源范围
选择实例,报警规则作用于Catalog。
关联资源
单击添加实例,左上角选择目标地域,然后勾选需要监控的Catalog,单击确认。
规则描述
单击添加规则 > 简单指标或组合指标,进入设置规则描述面板。
云监控指标说明
Compaction延时_最新compact提交到最新非compact提交
定义:最新的compact提交的时间与最新的非compact提交时间的时间差。
语义:反映当前系统中未合并数据的时间跨度。
适用场景:
评估数据追赶进度。
该值越大,说明最新的Compaction任务落后于写入进度的幅度越大。
注意:该指标衡量的是 Compaction 任务相对于最新写入进度的落后程度(追赶差距),而非某条具体数据的等待时长。
Compaction延时_最早非compact提交
定义:根据最早未合并 Snapshot 的提交时间与当前系统时间计算出的时延。
语义:反映 Compaction 任务在调度层面的滞后程度。即最老的一批已提交数据等待合并的时长。
适用场景:
监控调度系统的响应速度。
排查 Compaction 资源是否不足。
注意:在高频提交场景下,该指标数值可能偏小,因为它忽略了数据写入过程的耗时。
Compaction延时_最早非compact文件
定义:根据最早未合并 Snapshot 的提交时间与当前系统时间计算出的时延。
语义:反映数据从物理落地到等待合并的端到端时效性。
适用场景:
需要严格监控数据新鲜度的场景。
长窗口流式写入或大批量导入场景(Checkpoints 间隔较大)。
注意:该指标包含了“上游写入数据及其 Checkpoint 的耗时”,通常大于“最早非 compact 提交”的延时,能更真实地反映最老数据的物理陈旧度。
该指标可通过API获取表合并信息进行查看具体时间。
当系统不存在待合并(Pending Compaction)的数据时,所有 Compaction 延时指标的值均为 0。
这些指标仅适用于 Paimon 主键表,且必须开启存储优化开关,即设置
write-only=true。DLF 全托管服务默认已开启此选项。
告警方案示例与推荐
场景 | 告警配置方案 |
高频更新的主键表配置监控方案 | 监控指标:组合(满足之一报警)
监控维度:表级别 |
数据目录或者库级配置监控方案 | 监控指标:简单
监控维度:库级别或数据目录(不填写) |
告警规则示例
参数 | 示例 |
规则名称 | Compaction延迟告警 |
指标类型 | 组合指标 |
报警级别 | 警告(Warn) |
多指标描述 | Compaction延时_最早非compact提交:监控值 >= 600 s Compaction延时_最早非compact文件:监控值 >= 600 s |
选择维度 | 表级别 |
多指标关系 | 有一个满足条件就报警 |
报警阈值触发次数 | 连续一个周期(1个周期=1分钟) |
