企业云监控支持通过自定义表达式对多个NAS监控指标进行联合计算并触发告警,例如当低频介质数据量占总数据量的比例超过阈值时发出通知。
前提条件
操作前,请确认已完成以下准备工作:
已创建NAS文件系统。具体操作,请参见创建文件系统。
已创建报警联系人组。具体操作,请参见创建报警联系人或报警联系人组。
已开通企业云监控。具体操作,请参见开通企业云监控。
已创建指标仓库。具体操作,请参见创建指标仓库。
高级告警配置
接入云产品指标。
创建报警规则。
在指标仓库页面,单击创建报警。
在创建报警规则面板,配置报警规则参数。
配置项
说明
规则名称
报警规则的名称。
指标仓库
选择步骤1中接入NAS指标所使用的指标仓库。
报警表达式
报警规则的触发条件,采用PromQL风格的表达式。支持对多个监控指标进行四则运算,并与阈值进行比较,满足条件时触发报警。
标签
报警规则的标签,以键值对形式设置。
注释
报警规则的注释,以键值对形式设置。
通道沉默周期
报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。
监控指标达到报警阈值时发送报警通知。
在通道沉默周期内,若监控指标持续超过阈值,不会重复发送报警通知。
通道沉默周期结束后,若监控指标仍未恢复正常,云监控再次发送报警通知。
例如:将通道沉默周期设置为12小时后,若报警未恢复,间隔12小时后云监控将再次发送通知。
生效时间
报警规则的生效时间段。规则仅在生效时间内检查监控指标并触发报警。
报警联系人组
接收报警通知的联系人组,可包含一个或多个报警联系人。
关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系人组。
报警级别
报警级别和对应的通知方式。取值:
普通(邮件+Webhook)
报警连续周期的取值:1、3、5、10、15、30、60、70、90、120和180。1周期等于1分钟。
报警回调
公网可访问的URL,云监控通过HTTP POST请求将报警信息推送至该地址。目前仅支持HTTP协议。
当您需要测试报警回调地址的连通性时,可以执行以下操作。
单击回调地址正后方的测试。
在WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。
说明您还可以设置Webhook的测试回调模板类型:和语言:,再次单击测试,获取对应的测试结果详情。
单击关闭。
弹性伸缩
开启弹性伸缩后,报警触发时自动执行伸缩规则。需设置地域、弹性伸缩组和弹性伸缩规则。
日志服务
开启日志服务后,报警触发时将报警信息写入日志服务。需设置地域、ProjectName和日志Logstore。
关于如何创建Project和Logstore,请参见使用LoongCollector采集并分析ECS文本日志。
轻量消息队列(原MNS)— topic
开启轻量消息队列(原 MNS)— topic后,报警触发时将报警信息写入轻量消息队列的主题。需设置消息队列的地域和主题。
关于如何创建主题,请参见创建主题。
函数计算
开启函数计算后,报警触发时将通知发送至函数计算进行自定义处理。需设置函数计算的地域、服务和函数。
关于如何创建服务和函数,请参见快速创建函数。
无数据处理方法
无监控数据时的报警处理方式。取值:
不做任何处理(默认值):不发送报警通知。适用于数据缺失属于正常情况的场景。
发送无数据报警:数据上报中断时发送报警。适用于数据缺失可能表示异常的场景,例如监控Agent下线。
视为恢复:将数据缺失视为正常状态并清除报警。若数据缺失可能表示故障,请勿选择此项。
单击确定。
可选:查看创建的报警规则。
在左侧导航栏,选择。
在报警规则列表页面,产品名称为Prometheus的报警规则即为本次创建的规则。
图标。