阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、通知等处理。

前提条件

云监控配置

  1. 登录云监控控制台
  2. 在左侧导航栏中,选择报警服务 > 报警联系人
  3. 编辑告警联系人信息。
    1. 报警联系人页面,单击目标告警联系人对应的编辑
    2. 设置报警联系人面版中,修改Webhook(http|https)或钉钉机器人,然后单击确认
      设置Webhook(http|https)或钉钉机器人为您在日志服务中创建开放告警服务和应用后生成的公网域名接口信息(完整URL)。如何获取,请参见获取接口信息
  4. 在云监控的各类告警规则中,设置通知对象为已创建的报警联系组。
    具体操作,请参见创建阈值报警规则创建事件报警规则

    设置完成后,云监控产生的告警消息将被发送到日志服务告警系统中,由日志服务完成告警降噪、通知等处理。

告警消息语言

您在创建开放告警应用时,选择协议阿里云云监控,则日志服务将根据控制台语言自动添加标注__user_language__ ,值可以为en(英文)或cn(中文)。云监控告警标注

告警严重度映射关系

云监控告警消息与日志服务告警消息的严重度映射关系如下表所示。

云监控 日志服务
CRITICAL critical
WARN medium
INFO info

阈值告警消息解析

云监控阈值告警消息被发送到日志服务告警系统后,日志服务会对应生成一条告警消息,两者的映射关系如下:

  • 云监控阈值告警消息示例

    关于云监控阈值告警消息的更多内容,请参见使用阈值报警回调

    {
        "alertName": "连接数",
        "alertState": "ALERT",
        "curValue": "4.5",
        "dimensions": "{instanceId=i-bp1d7111111115htda, state=TCP_TOTAL, userId=11596111111355}",
        "expression": "$Average>=1",
        "instanceName": "launch-advisor-20210607/11.11.111.111",
        "lastTime": "27天19小时47分钟",
        "metricName": "Host.tcpconnection",
        "metricProject": "acs_ecs",
        "namespace": "acs_ecs",
        "preTriggerLevel": "WARN",
        "productGroupName": "null",
        "rawMetricName": "net_tcpconnection",
        "regionId": "cn-hangzhou",
        "regionName": "华东1(杭州)",
        "ruleId": "i-bp11111111115111_111111-0703-4811-9113-1c1111111111",
        "signature": "F111111w1111qN1111bw=",
        "timestamp": "1625455812126",
        "triggerLevel": "WARN",
        "userId": "11596111111355"
    }
  • 日志服务告警消息示例

    云监控阈值告警消息被接入到日志服务后,映射为日志服务告警内容。示例如下:

    {
        "aliuid": "aliuid1",
        "alert_instance_id": "",
        "alert_id": "i-bp11111111115111_111111-0703-4811-9113-1c1111111111",
        "alert_type": "sls_pub",
        "alert_name": "连接数",
        "region": "cn-hangzhou",
        "project": "sls-alert--",
        "project_id": 0,
        "next_eval_interval": 0,
        "alert_time": 1625455812,
        "fire_time": 1625455812,
        "fire_results": null,
        "fire_results_count": 0,
        "resolve_time": 0,
        "status": "firing",
        "results": null,
        "labels": {
            "instanceId": "i-bp1d7111111115htda",
            "namespace": "acs_ecs",
            "regionId": "cn-hangzhou",
            "state": "TCP_TOTAL",
            "userId": "11596111111355"
        },
        "annotations": {
            "__cloud_monitor_type__": "threshold",
            "__config_app__": "sls_pub_alert",
            "__pub_alert_app__": "appid1",
            "__pub_alert_protocol__": "cloud_monitor",
            "__pub_alert_region__": "e",
            "__pub_alert_service__": "serverid1",
            "curValue": "4.5",
            "desc": "Host.tcpconnection $Average>=1 持续: 27天19小时47分钟, 详情: {instanceId=i-bp1d7111111115htda, state=TCP_TOTAL, userId=11596111111355}",
            "expression": "$Average\u003e=1",
            "instanceName": "launch-advisor-20210607/11.11.1111.1111",
            "lastTime": "27天19小时47分钟",
            "metricName": "Host.tcpconnection",
            "metricProject": "acs_ecs",
            "namespace": "acs_ecs",
            "preTriggerLevel": "WARN",
            "rawMetricName": "net_tcpconnection",
            "title": "acs_ecs Host.tcpconnection 当前值: 4.5"
        },
        "severity": 6,
        "policy": {
            "alert_policy_id": "",
            "action_policy_id": "",
            "use_default": false,
            "repeat_interval": "0s"
        },
        "template": null,
        "drill_down_query": "https://cloudmonitor.console.aliyun.com/index.htm#/alarmInfo/name=i-bp11111111115111_111111-0703-4811-9113-1c1111111111\u0026searchValue=\u0026searchType=name\u0026searchProduct=/history//"
    }
  • 字段映射

    日志服务告警属性与云监控字段的映射关系如下表所示。

    日志服务 云监控 说明
    aliuid 用于接入告警的开放告警应用所属的阿里云账号ID。
    alert_id ruleId 告警监控规则ID。
    alert_type 告警类型,固定为sls_pub。
    alert_name alertName 告警监控规则名称。
    status alertState 告警状态。
    • 如果云监控告警消息中的alertState值为OK,则对应日志服务中的status值为resolved。
    • 如果云监控告警消息中的alertState值为其他值(例如alerting),则对应日志服务中的status值为firing。
    next_eval_interval 告警评估时间间隔,固定为0。
    alert_time timestamp 日志服务接收到云监控告警消息的时间。
    fire_time timestamp 日志服务接收到云监控告警消息的时间。
    resolve_time 告警恢复时间,如果alertState为OK,则显示为当前时间,否则显示0。
    labels dimensions 告警标签信息。
    • regionId字段映射为云监控告警消息中的regionId字段。
    • namespace字段映射为云监控告警消息中的namespace字段或metricProject字段。
    说明 如果您在创建开放告警应用时 ,在信息加工中添加了标签信息,则此标签信息将被添加到labels字段中。
    annotations 云监控告警被接入到日志服务后,日志服务告警的annotations字段中将添加如下额外字段。
    • __cloud_monitor_type__: "threshold"
    • __config_app__: "sls_pub_alert"
    • __pub_alert_service__: {所属的开放告警服务id}
    • __pub_alert_app__: {所属的开放告警应用id}
    • __pub_alert_protocol__: "cloud_monitor"
    • __pub_alert_region__: {告警消息发送的endpoint对应的region}

    云监控告警消息中的大部分字段都将被添加到annotations中,以下字段除外:ruleId字段、alertName字段、alertState字段、dimensions字段、signature字段、timestamp字段、regionId字段、regionName字段、triggerLevel字段、userId字段。

    说明 如果您在创建开放告警应用时 ,在信息加工中添加了标注信息,则此标注信息将被添加到annotations字段中。
    severity triggerLevelpreTriggerLevel 告警严重度。更多信息,请参见告警严重程度
    policy 您在开放告警应用中配置的告警策略。更多信息,请参见Policy结构
    project 告警中心所属的Project。更多信息,请参见项目(Project)
    region regionId Project所属地域。
    drill_down_query 由云监控控制台URL和ruleId组成。单击该链接,可跳转到云监控的报警历史页面。

事件告警消息解析

云监控事件告警消息被发送到日志服务告警系统后,日志服务会对应生成一条告警消息,两者的映射关系如下:

  • 云监控事件告警消息示例

    关于云监控事件告警消息的更多内容,请参见使用系统事件报警回调

    {
        "traceId": "411112-c49d-4143-a38e-c111159e-0",
        "resourceId": "acs:ecs:cn-hangzhou:115111111111355:instance/i-bp1d71111111x15htda",
        "product": "ECS",
        "ver": "1.0",
        "instanceName": "launch-advisor-20210607",
        "level": "INFO",
        "userId": "115111111111355",
        "content": {
            "resourceId": "i-bp1d7411111111g111htda",
            "publicIpAddress": "127.0.0.1",
            "instanceName": "launch-advisor-20210607",
            "state": "Running",
            "privateIpAddress": "127.0.0.1",
            "resourceType": "ALIYUN::ECS::Instance"
        },
        "regionId": "cn-hangzhou",
        "eventTime": "20210705T113013.398+0800",
        "name": "Instance:StateChange",
        "id": "26111205-51113-4D118-8119-3111113CB735",
        "timeMetrics": {
            "ingestion_in_time": 1625455813563,
            "ingestion_out_time": 1625455816000,
            "notify_in_time": 1625455819578,
            "engine_in_time": 1625455816467,
            "event_time": 1625455813398,
            "engine_out_time": 1625455818000
        },
        "status": "Normal"
    }
  • 日志服务告警消息示例

    云监控事件告警消息被接入到日志服务后,映射为日志服务告警内容。示例如下:

    {
        "aliuid": "aliuid1",
        "alert_instance_id": "26111205-51113-4D118-8119-3111113CB735",
        "alert_id": "Instance:StateChange",
        "alert_type": "sls_pub",
        "alert_name": "Instance:StateChange",
        "region": "cn-hangzhou",
        "project": "sls-alert--",
        "project_id": 0,
        "next_eval_interval": 0,
        "alert_time": 1625455813,
        "fire_time": 1625743445,
        "fire_results": null,
        "fire_results_count": 0,
        "resolve_time": 0,
        "status": "firing",
        "results": null,
        "labels": {
            "resourceId": "acs:ecs:cn-hangzhou:115111111111355:instance/i-bp1d71111111x15htda"
        },
        "annotations": {
            "__cloud_monitor_type__": "event",
            "__config_app__": "sls_pub_alert",
            "__pub_alert_app__": "appid1",
            "__pub_alert_protocol__": "cloud_monitor",
            "__pub_alert_region__": "e",
            "__pub_alert_service__": "serverid1",
            "content_instanceName": "launch-advisor-20210607",
            "content_privateIpAddress": "127.0.0.1",
            "content_publicIpAddress": "127.0.0.1",
            "content_resourceId": "i-bp1d7411111111g111htda",
            "content_resourceType": "ALIYUN::ECS::Instance",
            "content_state": "Running",
            "desc": "事件Instance:StateChange触发, 详情: {\"instanceName\":\"launch-advisor-20210607\",\"privateIpAddress\":\"127.0.0.1\",\"publicIpAddress\":\"127.0.0.1\",\"resourceId\":\"i-bp1d7411111111g111htda\",\"resourceType\":\"ALIYUN::ECS::Instance\",\"state\":\"Running\"}",
            "instanceName": "launch-advisor-20210607",
            "level": "INFO",
            "product": "ECS",
            "status": "Normal",
            "title": "Instance:StateChange: Normal",
            "traceId": "411112-c49d-4143-a38e-c111159e-0",
            "userId": "115111111111355"
        },
        "severity": 4,
        "policy": {
            "alert_policy_id": "",
            "action_policy_id": "",
            "use_default": false,
            "repeat_interval": "0s"
        },
        "template": null,
        "drill_down_query": "https://cloudmonitor.console.aliyun.com/index.htm#/eventmonitoring/events/detail?product=ECS\u0026eventName=Instance:StateChange"
    }
  • 字段映射

    日志服务告警属性与云监控字段的映射关系如下表所示。

    日志服务 云监控 说明
    aliuid 用于接入告警的开放告警应用所属的阿里云账号ID。
    alert_instance_id id 告警消息ID。
    alert_id name 告警监控规则ID。
    alert_type 告警类型,固定为sls_pub。
    alert_name name 告警监控规则名称。
    status 告警状态,固定为firing。
    next_eval_interval 告警评估时间间隔,固定为0。
    alert_time 日志服务接收到云监控告警消息的时间。
    fire_time eventTime 解析eventTime,并转为时间戳。
    resolve_time 告警恢复时间,固定为0。
    labels 告警标签信息。

    regionId字段映射为云监控告警消息中的regionId字段。

    说明 如果您在创建开放告警应用时 ,在信息加工中添加了标签信息,则此标签信息将被添加到labels字段中。
    annotations 云监控告警被接入到日志服务后,日志服务告警的annotations字段中将添加如下额外字段。
    • __cloud_monitor_type__: "event"
    • __config_app__: "sls_pub_alert"
    • _pub_alert_service__: {所属的开放告警服务id}
    • __pub_alert_app__: {所属的开放告警应用id}
    • __pub_alert_protocol__: "cloud_monitor"
    • __pub_alert_region__: {告警消息发送的endpoint对应的region}

    云监控告警消息中的大部分字段都将被添加到annotations中,以下字段除外:name字段、id字段、eventTime字段、timeMetrics字段、content字段、ver字段、resourceId字段。

    其中,content字段内的键值对将被展开,并添加前缀content_,例如"content_snapshotType": "timer"

    说明 如果您在创建开放告警应用时 ,在信息加工中添加了标注信息,则此标注信息将被添加到annotations字段中。
    severity level 告警严重度。更多信息,请参见告警严重程度
    policy 您在开放告警应用中配置的告警策略。更多信息,请参见Policy结构
    project 告警中心所属的Project。更多信息,请参见项目(Project)
    region regionId Project所属地域。
    drill_down_query 链接形式,由云监控控制台URL、productname组成。单击该链接,可跳转到云监控的事件监控页面。