云数据库ClickHouse提供集群状态监控及报警功能,通过对重要的监控指标设置报警规则,让您在第一时间得知指标数据发生异常,帮您迅速定位处理故障。

背景信息

监控报警是通过云监控产品实现的。通过阿里云云监控,您可以设置监控项,在触发监控项报警规则时,通知报警联系组中的所有联系人。您也可以维护报警监控项对应的报警联系组,以便发生报警时,能及时通知到相关联系人。

为提升用户体验,云数据库ClickHouse对控制台进行了优化,2021年12月01日以后新购的社区兼容版集群,无需跳转至云监控控制台设置报警规则。本文分别介绍优化前后报警规则的设置方法。
说明 为方便理解,本文将优化之前的控制台称为旧控制台,优化之后的控制台称为新控制台,此分类仅适用于本功能。

2021年12月01日以后新购的社区兼容版集群,请参考新控制台操作步骤。2021年12月01日之前购买的社区兼容版集群,请参考旧控制台操作步骤

新控制台操作步骤

  1. 登录云数据库ClickHouse控制台
  2. 在页面左上角,选择目标集群所在的地域。
  3. 集群列表页面,单击目标集群ID。
  4. 单击左侧导航栏的监控信息
  5. 选择集群告警,单击创建报警
  6. 创建报警面板,执行以下操作。
    1. 可选:告警模板下拉列表,选择模板。
    2. 规则名称文本框,输入规则名称,例如:网络接收压力报警。
    3. 告警表达式文本框,输入告警表达式。例如:(sum(rate(kube_state_metrics_list_total{job="kube-state-metrics",result="error"}[5m])) / sum(rate(kube_state_metrics_list_total{job="kube-state-metrics"}[5m]))) > 0.01
      注意 PromQL语句中包含的$符号会导致报错,您需要删除包含$符号的语句中=左右两边的参数及=。例如:将sum (rate (container_network_receive_bytes_total{instance=~"^$HostIp.*"}[1m]))修改为sum (rate (container_network_receive_bytes_total[1m]))
    4. 持续时间文本框,输入持续时间N,当连续N分钟满足告警条件的时候才触发告警。例如:1分钟,当告警条件连续1分钟都满足时才会发送告警。
      说明 持续N分钟满足告警条件是指在连续N分钟内,您上面设置的PromQL语句条件都能满足。Prometheus默认数据采集周期为15s,如果没有连续N×60/15=4N个数据点满足告警条件(PromQL语句),就不会发送告警。如Prometheus告警规则默认持续时间为1分钟,既只有连续4个数据点都满足告警条件(PromQL语句)才会触发告警。如果您想在任何一个数据点满足告警条件(PromQL语句)就发送告警,请修改持续时间为0分钟。
    5. 告警消息文本框,输入告警消息。
    6. 可选:高级配置标签区域,单击创建标签可以设置报警标签,设置的标签可用作分派规则的选项。
    7. 可选:高级配置注释区域,单击创建注释,设置message,设置 {{变量名}}告警信息。设置完成后的格式为:message:{{变量名}}告警信息,例如:message:{{$labels.pod_name}}重启
      您可以自定义变量名,也可以选择已有的标签作为变量名。已有的标签包括:
      • 报警规则表达式指标中携带的标签。
      • 通过报警规则创建的标签。
      • ARMS系统自带的默认标签,默认标签说明如下。
        标签 说明
        alertname 告警名称,格式为:告警名称_集群名称。
        _aliyun_arms_alert_level 告警等级。
        _aliyun_arms_alert_type 告警类型。
        _aliyun_arms_alert_rule_id 告警规则对应的ID。
        _aliyun_arms_region_id 地域ID。
        _aliyun_arms_userid 用户ID。
        _aliyun_arms_involvedObject_type 关联对象子类型,如ManagedKubernetes,ServerlessKubernetes。
        _aliyun_arms_involvedObject_kind 关联对象分类,如app,cluster。
        _aliyun_arms_involvedObject_id 关联对象ID。
        _aliyun_arms_involvedObject_name 关联对象名称。
    8. 通知策略下拉列表,选择通知策略。
      如何创建通知策略,请参见通知策略
    9. 单击确定
    报警配置页面显示创建的报警。8

旧控制台操作步骤

  1. 登录云数据库ClickHouse控制台
  2. 在页面左上角,选择目标集群所在的地域。
  3. 集群列表页面,选择默认实例列表,单击目标集群ID。
  4. 单击左侧导航栏的监控信息
  5. 单击右上方导航栏的告警监控
  6. 在云监控控制台中,单击左侧导航栏中的报警服务 > 报警规则
  7. 阈值报警页签下,单击创建报警规则
  8. 创建报警规则页面,配置如下参数。
    1. 设置关联资源,参数说明如下。
      参数 说明
      产品 下拉选择云数据库ClickHouse
      资源范围
      • 全部资源:所选产品下任何集群满足报警规则描述时,都会发送报警通知。
      • 集群:选择指定的集群,则选中的集群满足报警规则描述时,才会发送报警通知。
      地域 资源范围集群时,需配置该参数。

      选择集群所属地域。

      集群 资源范围集群时,需配置该参数。

      选择集群ID,可选择多个集群。

    2. 设置报警规则,如何设置,具体请参见创建报警规则
    3. 设置报警通知方式
      说明 联系人通知组需要预先创建好,如何创建,具体请参见创建报警联系人或报警联系组
  9. 完成上述参数配置后,单击确认,报警规则将自动生效。