日志服务提供智能巡检功能,用于对监控指标、业务日志等数据进行全自动、智能化、自适应的异常巡检。本文介绍智能巡检所输出结果的数据格式。

前提条件

已创建智能巡检作业,并且智能巡检结果已成功写入名为internal-ml-log的日志库中。具体操作,请参见为指标创建智能巡检作业为日志创建智能巡检作业

操作步骤

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
  3. 日志存储 > 日志库页签中,单击名为internal-ml-log的Logstore。
  4. 在查询和分析页面的原始日志页签中,查看智能巡检结果数据。
    名为internal-ml-log的Logstore中包含单个异常事件日志和实体巡检进度输出日志。

单个异常事件日志

单个异常事件日志用于记录异常事件的相关信息。

  • 日志样例智能巡检结果
  • 字段说明
    字段 含义
    __tag__:__apply_time__ 模型对批次数据进行巡检的时间。
    __tag__:__batch_id__ 批次ID。每次巡检算法执行所处理的一批数据点,被标记为同一个批次ID。

    批次ID与告警ID相同。当前批次经过信息组合分析后,智能巡检任务判断是否发送告警。

    __tag__:__instance_name__ 作业实例名,由Project ID与Schedule ID组成。

    每个智能巡检作业对应后台服务端的实例名。

    __tag__:__schedule_id__ 作业实例ID。

    每个智能巡检作业对应后台服务端的实例ID。

    __tag__:__job_name__ 作业名,在同一Project下唯一。
    __tag__:__model_name__ 模型名。作业中的每个实体都会单独创建一个模型进行智能巡检,每一个模型名对应一个时序实体。
    __tag__:__region__ 作业所在地域。
    entity 实体项,JSON格式,来源于原始数据。用于标明一个监控实体的具体项。
    meta 配置项,JSON格式,来源于智能巡检作业的配置信息。
    meta.project_name 智能巡检原始数据所属的Project。
    meta.logstore_name 智能巡检原始数据所属的Logstore。
    meta.parent_keys 父节点关键字,来源于原始数据。

    主要用于根因分析场景,一般的智能巡检场景可以忽略该字段。

    meta.child_keys 子节点关键字,来源于原始数据。

    主要用于根因分析场景,一般的智能巡检场景可以忽略该字段。

    result 结果项。输出每一个数据点的智能巡检结果。
    result.dim_name 数值关键字,来源于原始数据。

    无论是单维时序还是多维时序,巡检输出的每个result都是指单维时序单个值的巡检结果。

    result.value 数值关键字的取值,来源于原始数据。用于标明原始数据中某个关键词的取值,即result.dim_name中关键字的取值。
    result.score 异常分数,模型对异常程度的量化结果。取值范围[0,1],分数越高,异常程度越高。
    result.is_anomaly 是否异常判断。
    • 如果result.score大于0.5,则判断为异常(true)。
    • 如果result.score大于0.75,则判断为异常(true),并且触发告警。
    result.anomaly_type 异常类型。模型对于异常现场的初步类型判别,包括5种类型:突刺、漂移、抖动、缺失、过阈值。更多信息,请参见异常类型说明
  • 异常类型说明
    异常类型 异常标记 说明
    突刺 Stab 数据在平稳情况下突然升高,在之后又回落,或漂移发生之前,取值发生变化。突刺
    漂移 Shift 数据相对之前的取值范围,跳到了另外一个取值范围,并维持稳定。漂移常出现在变更前后业务形态的变化。漂移
    抖动 Variance 数据整体均值没有明显改变,但波动形态发生变化(方差出现变化)。形态变化
    缺失 Lack 数据存在缺失。数据缺失
    过阈值 OverThreshold 数据超过了人为设置的阈值。当数据超过人为设置的阈值时,无论模型如何判断,都会触发告警。超过阈值

实体巡检进度的输出日志

当日志中包含__tag__:__data_type__:job_progress时,表示该日志为实体巡检进度的输出日志。实体巡检进度的输出日志可协助您判断是否出现了一个新实体、实体中是否已没有数据等问题。

  • 日志样例日志样例
  • 字段样例
    字段 含义
    __tag__:__apply_time__ 模型对批次数据进行巡检的时间。
    __tag__:__data_type__ 数据类型,用于标记实体巡检进度的输出日志。字段值固定为job_progress。
    __tag__:__instance_name__ 作业实例名,由Project ID与Schedule ID组成。

    每个智能巡检作业对应后台服务端的实例名。

    __tag__:__job_name__ 作业名,在同一Project下唯一。
    __tag__:__region__ 作业所在地域。
    entity 实体项,JSON格式,来源于原始数据。用于标明一个监控实体的具体项。
    meta 配置项,JSON格式,来源于智能巡检作业的配置信息。
    meta.project_name 智能巡检原始数据所属的Project。
    meta.logstore_name 智能巡检原始数据所属的Logstore。
    result 结果项。输出每一个数据点的智能巡检结果。
    result.new_entity 标记当前实体是否为一个新实体。
    result.recently_arrived_time 该实体所消费的最后一条数据的时间戳。