日志服务已内置监控规则模板,您只需开启对应的告警实例即可实时监控Logtail,并可通过钉钉等渠道接收到告警通知。本文介绍使用Logtail内置告警监控规则的相关操作。

前提条件

已为目标Project开启重要日志功能。具体操作,请参见开通服务日志

背景信息

当您为目标Project开启重要日志功能后,日志服务会自动在您所选择的Project下创建一个名为internal-diagnostic_log的Logstore,用于记录Logtail心跳日志。日志服务基于该日志预设了Logtail监控规则模板,用于实时监控Logtail。

操作步骤

  1. 登录日志服务控制台
  2. 在Project列表中,找到目标Project。
    该Project为您在开启重要日志时,所选择的Project。
  3. 在左侧导航栏中,单击告警
  4. 规则/事务页签中,单击SLS Logtail
    内置告警监控规则
  5. 在告警监控规则列表中,单击目标告警监控规则对应的开启
    每个告警监控规则已预设参数,您可以直接单击开启。如果您要修改参数设置,可单击设置,进行修改。关于参数说明的更多信息,请参见Logtail告警监控规则

Logtail告警监控规则

日志服务已内置如下告警监控规则模板,用于监控Logtail。

  • Logtail重启告警
    项目 说明
    作用 监控Logtail的重启行为。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个客户端出现Logtail重启次数超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 重启次数阈值(严重):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发严重级别的告警。默认值为3。
    • 重启次数阈值(高):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发高级别的告警。默认值为1。
  • Logtail采集延迟告警
    项目 说明
    作用 监控Logtail的采集延迟。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当有Logstore出现Logtail采集延迟时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
  • Logtail Quota超限告警
    项目 说明
    作用 监控Logtail Quota超限情况。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当有Logstore出现因Quota超限导致Logtail发送数据失败时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
  • Logtail日志解析错误告警
    项目 说明
    作用 监控Logtail日志解析错误的异常。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当有Logstore出现Logtail日志解析错误时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
  • 同一Project下的Logtail采集错误数监控
    项目 说明
    作用 监控Logtail采集错误的数量。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Project出现Logtail采集错误数量超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 采集错误数量阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量大于该阈值时,触发告警。
  • 同一Project下的Logtail采集错误数日同比监控
    项目 说明
    作用 监控Logtail采集错误数量的日同比变化情况。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 增长率阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。
  • 同一Logstore下的Logtail采集错误数监控
    项目 说明
    作用 监控Logtail采集错误的数量。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Logstore出现Logtail采集错误数量超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 采集错误数量阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量大于该阈值时,触发告警。
  • 同一Logstore下的Logtail采集错误数日同比监控
    项目 说明
    作用 监控Logtail采集错误数量的日同比变化情况。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略,您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 增长率阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。