日志服务提供智能巡检功能,可用于对监控指标进行自动化、智能化、自适应的异常巡检。本文以某公司的服务器监控指标日志为例,说明如何创建智能巡检作业,从而对机器运行状态进行监控与告警。

前提条件

  • 已采集日志到源Logstore。具体操作,请参见数据采集概述
  • 已配置源Logstore的索引。具体操作,请参见配置索引

操作步骤

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
  3. 在左侧导航栏中,选择作业 > 智能巡检
  4. 如果您是首次配置智能巡检作业,根据页面提示完成授权操作。
    说明
    • 巡检事件会统一写入名称为internal-ml-log的Logstore中,您需要授予日志服务使用阿里云系统角色AliyunLogETLRole执行该操作的权限。
    • 授权操作仅在首次配置时需要,且需由目标Project所属的阿里云账户完成。
  5. 智能巡检区域右侧,单击plus图标。
  6. 创建智能巡检作业配置向导页面的基本信息区域,完成以下配置,然后单击下一步
    参数 说明
    作业名称 智能巡检作业的名称。
    源日志库 用于存储源数据的Logstore名称。
  7. 创建智能巡检作业配置向导页面的算法配置区域,完成以下操作。
    1. 数据特征配置区域的数据类型,选择指标化数据,然后完成以下配置。
      metric
      参数 说明
      时间 源数据中用于标识时间列的字段。日志服务默认使用源Logstore中的_time_字段。
      粒度 数据的观测间隔。单位为秒。取值范围为5~3600。
      实体 源数据中用于标识具体实体的字段。智能巡检作业围绕实体标识聚合出时间序列。
      特征 源数据中用于标识具体特征数据的字段。您可设定取值的下(左)上(右)界。如果您不确定特征项的取值范围,您可以不设置该字段。
    2. 算法配置区域,完成以下配置,然后在数据采样中,选择一个实体,单击预览采样数据,验证您所配置的参数与您的数据是否适配,以及执行结果是否符合您的预期。
      algorithm_metric
      参数 说明
      算法选择 异常检测算法。默认为流式图算法
      时序分段个数 对时序数值进行划分,用于离散化时间序列,构造时序演化图,降低噪音的影响。
      • 默认值为8。
      • 建议值范围为[5,20]。
      • 分段越少,对噪音越不敏感。
      观测长度 所需观测的历史数据点个数。
      • 默认值为2880。
      • 建议值范围为[200,4000]。
      • 建议取值涵盖2个周期。例如,某个时间序列的观测点时间间隔为1分钟、周期为1天,则该时间序列2个周期有2880个观测点,建议观测长度的取值大于等于2880。
      敏感度 异常分数输出的敏感度。
      • 异常分数大于0.5表示异常,异常分数大于0.75则触发告警。
      • 敏感度设置越高,模型量化每个异常点的分数越高。
    3. 调度配置区域,设置智能巡检作业开始执行的时间位置。
      说明 智能巡检作业默认从设置的位置开始一直往后执行。
    4. 单击下一步
  8. 创建智能巡检作业配置向导页面的告警配置区域,完成以下配置,然后单击完成
    参数 说明
    告警策略 告警策略用于合并、静默和抑制已产生的告警。
    • 选择极简模式普通模式时,您无需配置告警策略。日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。
    • 选择高级模式时,您可以选择内置的或自定义的告警策略进行告警管理。如何创建告警策略,请参见创建告警策略
    行动策略 行动策略用于控制告警通知渠道和频率等。
    • 告警策略选择为极简模式时,您只需配置行动组即可。
      您配置行动组后,日志服务自动为您创建一个名为规则名称-行动策略的行动策略。由该告警监控规则触发的所有告警都通过该行动策略发送通知。如何配置,请参见通知渠道说明
      注意 您可以在行动策略管理页面,修改该行动策略。具体操作,请参见创建行动策略。如果您在修改行动策略时添加了判断条件,则此处的告警策略将自动变更为普通模式
    • 告警策略选择为普通模式高级模式时,您可以选择内置的或自定义的行动策略进行告警通知。如何创建行动策略,请参见创建行动策略

      其中,您选择告警策略选择为高级模式时,还可以开启或关闭自定义行动策略。更多信息,请参见动态行动策略机制

    重复等待 在重复等待时间内,重复的告警只触发一次行动策略,即只发送一次告警通知。

执行结果

创建智能巡检作业后,智能巡检页面显示您创建的智能巡检作业的基础信息。

metric_task

等待一段时间后,智能巡检页面显示您创建的智能巡检作业的巡检结果等信息。

metric_result

相关操作

创建智能巡检作业后,您可以在智能巡检页面修改或删除智能巡检作业。

注意 智能巡检作业被删除后,不可恢复,请您谨慎操作。