本文通过具体案例为您介绍如何通过云监控实现内网监控。

背景信息

随着越来越多的用户从经典网络迁移到更安全、更可靠的VPC网络环境,如何监控VPC内部服务是否正常响应就成为需要关注的问题。本文将通过具体案例说明如何监控VPC内ECS上的服务是否可用、VPC内ECS到RDS、Redis的连通性如何、VPC内SLB是否正常响应。

准备工作

内网监控的原理如下图所示。内网监控

首先需要您在主机上安装云监控插件,然后通过控制台创建监控任务,选择已安装插件的主机作为探测源,并配置需要探测的目标URL或端口。创建监控任务成功后,作为探测源的主机会通过云监控插件每分钟发送一个HTTP请求或Telnet请求到目标URL或端口,并将响应时间和状态码收集到云监控进行报警和图表展示。

操作步骤

说明
  • 作为探测源的服务器需要安装云监控插件。
  • 需要创建应用分组,并将作为探测源的服务器加入到分组中。
  1. 登录云监控控制台
  2. 在左侧导航栏,单击应用分组
  3. 应用分组页签,单击目标应用分组名称链接。
  4. 在目标应用分组的左侧导航栏,单击可用性监控
  5. 单击添加可用性监控
  6. 创建任务页面,设置任务相关参数。
    参数 描述
    任务名称 可用性监控的任务名称。
    探测源 待探测的实例ID。
    探测目标 待探测目标。取值:
    • URL或者IP:仅用于云服务器ECS。
    • 云数据库RDS版:仅用于云数据库RDS版。
    • 云数据库Redis版:仅用于云数据库Redis版。
    探测类型 待探测类型。
    探测目标URL或者IP时,支持如下探测类型:
    • HTTP(S):需要输入待探测目标的URL地址。
    • TELNET:需要输入待探测目标的IP地址。
    • PING:需要输入待探测目标的IP地址。
    探测目标云数据库RDS版云数据库Redis版时,支持如下探测类型:
    • TELNET:需要选择实例ID和探测连接地址。
    • PING:需要选择实例ID和探测连接地址。
    请求方法 探测类型的请求方法。请求方法包括HEADGETPOST
    说明探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。
    监控频率 探测周期。

    取值:15秒、30秒、1分钟、2分钟、5分钟、15分钟、30分钟和60分钟。例如:选择1分钟频率,云监控将以1分钟/次的频率监控目标实例。

    说明探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。
    Headers 站点探测时HTTP或HTTPS的Headers。

    Header格式:parameter1:value1

    多个Header之间用半角逗号(,)分隔。

    说明探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。
    提交内容 站点探测时POST的请求内容。

    提交内容格式:parameter1=value1&parameter2=value2,仅支持英文。

    说明探测目标URL或者IP探测类型HTTP(S)请求方法POST时,需要设置该参数。
    匹配响应内容 站点探测的匹配响应方式和匹配响应信息。
    当匹配响应信息非空时,站点探测读取HTTP服务器回应Body的前64KB,从中查找匹配响应信息。匹配响应方式取值:
    • 包含匹配内容则报警
    • 不包含匹配内容则报警
    说明探测目标URL或者IP,且探测类型HTTP(S)时,需要设置该参数。
    说明
    • 需要监控VPC内ECS本地进程是否响应正常时,可在探测源中选中所有需要监控的ECS,在探测目标中填写localhost:port/path格式的地址,进行本地探测。
    • 当您需要监控VPC内SLB是否正常响应时,可选择与SLB在同一VPC网络内的ECS实例作为探测源,在探测目标中填写SLB的地址进行探测。
    • 当您需要监控VPC内ECS实例中使用的RDS或Redis是否正常响应时,可将与ECS在同一VPC网络内的RDS或Redis添加到应用分组,并在探测源中选择相应的ECS实例,探测目标中选择RDS或Redis实例。
  7. 单击下一步
  8. 报警设置页面,设置报警相关参数。
    参数 描述
    状态码

    当探测的状态码满足报警设置时,触发报警。

    状态码响应时间其中之一达到阈值后都会触发报警,报警会发送给应用分组的报警联系人组。

    响应时间

    当探测的响应时间满足报警设置时,触发报警。

    状态码响应时间其中之一达到阈值后都会触发报警,报警会发送给应用分组的报警联系人组。

    报警级别 报警级别和报警通知方式。取值:

    Info(邮件+钉钉机器人)

    报警回调 公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调
    通道沉默时间 报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    生效时间 报警规则的生效时间。报警规则只在生效时间内发送报警通知,非生效时间内产生的报警只记录报警历史。
  9. 单击确定
  10. 单击目标任务对应操作列的图表
    您可以在监控图表中查看监控详情。监控图表