日志服务提供智能巡检功能,用于对监控指标、业务日志等数据进行全自动、智能化、自适应的异常巡检。本文以钉钉通知渠道为例,介绍如何对智能巡检的告警进行打标反馈,逐步调整模型,以获取符合预期的告警。

前提条件

  • 已升级为新版告警。具体操作,请参见升级为新版告警
    说明 新版告警需要配置告警策略、行动策略与内容模板。智能巡检提供了默认选项(告警策略:sls.builtin.dynamic、行动策略:sls.app.ml.builtin、内容模板:sls.app.ml.anomaly.cn),您只需要提供告警的通知渠道,就可以接收告警。
  • 已创建智能巡检作业。具体操作,请参见为指标创建智能巡检作业为日志创建智能巡检作业

操作步骤

  1. 在日志服务控制台,配置钉钉通知渠道。
    1. 登录日志服务控制台
    2. 在Project列表区域,单击目标Project。
    3. 在左侧导航栏,选择作业 > 智能巡检
    4. 智能巡检列表,单击目标智能巡检作业。
    5. 智能巡检页面右上角,单击修改
    6. 编辑智能巡检作业向导页面,单击下一步,直至跳转到告警配置页签。
    7. 告警配置页签下,选择极简模式,输入请求地址,然后单击完成

      请求地址为您在钉钉群里生成的Webhook链接。具体操作,请参见自定义机器人接入

      说明 智能巡检内置了内容模板SLS智能巡检内置内容模板,可以渲染时序图,并提供反馈入口。使用钉钉渠道发送告警进行了较好的前端适配,因此建议您使用钉钉渠道接收告警。如果您需要使用其他渠道接收告警,请参见配置其他通知渠道

      告警配置示例如下:

      AlertConfig
      参数 说明
      告警策略 告警策略用于合并、静默和抑制已产生的告警。选择极简模式时,您无需配置告警策略。日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。
      行动策略 行动策略用于控制告警通知渠道和频率等。选择极简模式时,您只需配置行动组即可。
      您配置行动组后,日志服务自动为您创建一个名为规则名称-行动策略的行动策略。由该告警监控规则触发的所有告警都通过该行动策略发送通知。如何配置,请参见通知渠道说明
      注意 您可以在行动策略管理页面,修改该行动策略。具体操作,请参见创建行动策略。如果您在修改行动策略时添加了判断条件,则此处的告警策略将自动变更为普通模式
    配置完成后,您可以在钉钉群收到告警通知。
  2. 在钉钉群,打标告警通知。
    • 如果告警符合预期,单击确认
    • 如果告警不符合预期,单击误报

    告警通知示例如下:

    告警通知
    参数 说明
    数据源 智能巡检的数据源。
    异常对象 异常的具体实体。
    异常程度 模型量化的异常程度。
    异常时序图 在捕捉异常时刻之前的一个观测长度里的指标变化。
    打标完成后,您的打标结果会被反馈给智能巡检。智能巡检将根据打标反馈,逐步调整模型,以使之后的告警符合您的预期。

配置其他通知渠道

如果您希望通过其他通知渠道打标告警,您可以为其他通知渠道配置内容模板。

  1. 解析钉钉渠道的内容模板。

    钉钉渠道的内容模板如下:

    ## 数据源
    + Project: ${results[0].project}
    + LogStore: ${results[0].store}
    
    ##  异常对象
    + Entity: ${labels}
    
    ## 异常程度
    + Score: ${annotations.anomaly_score}
    
    ## 异常时序图
    ![image](${annotations.__plot_image__})
    
    [[数据详情](${query_url})]
    [[作业详情](${alert_url})]
    
    [[确认](${annotations.__ensure_url__})]
    [[误报](${annotations.__mismatch_url__})]

    关于内容模板变量的说明,请参见内容模板变量说明(旧版)

  2. 根据钉钉渠道的内容模板,为其他通知渠道配置内容模板。

    如何进入内容模板管理页面,请参见步骤2