您可以使用阿里云云监控服务来监控NAT网关。云监控可以从NAT网关中监控并收集近乎实时的指标,并在NAT网关控制台生成可视化的时序曲线图,您可以根据各监控指标来排查问题。

增强型NAT网关

查看NAT网关监控

  1. 登录NAT网关管理控制台
  2. 在顶部菜单栏处,选择NAT网关的地域。
  3. NAT网关页面,找到目标NAT网关,单击监控列下的图标查看监控。

    NAT网关类型不同,监控指标也不同。

    表 1. 增强型NAT网关
    监控指标分类 监控项 说明
    Snat Session统计 并发连接数 NAT网关可同时容纳的TCP/UDP连接数量。
    并发丢弃连接数 NAT网关连接数超过并发连接数限制,而导致无法新建被丢弃的连接数。
    新建连接速率 NAT网关每秒可新建的TCP/UDP连接数量。
    新建丢弃连接数 NAT网关每秒新建连接数超过每秒最大新建连接限制,而导致无法新建被丢弃的连接数。
    并发连接水位 已消耗连接数占总连接数的百分比。
    新建连接水位 已消耗的新建连接数占总新建连接数的百分比。
    入方向统计 入方向流量速率 入方向每秒接受的流量,包括:
    • 从公网来流量速率。
    • 入VPC流量速率。
    入方向流量 入方向所消耗的流量,包括:
    • 从公网来流量。
    • 入VPC流量。
    入方向包速率 入方向每秒接受的数据包数量,包括:
    • 从公网来包速率。
    • 入VPC包速率。
    入方向包量 入方向所消耗的数据包数量,包括:
    • 从公网来包量。
    • 入VPC包量。
    出方向统计 出方向流量速率 出方向每秒接受的流量,包括:
    • 入公网流量速率。
    • 从VPC来流量速率。
    出方向流量 出方向所消耗的流量,包括:
    • 入公网流量。
    • 从VPC来流量。
    出方向包速率 出方向每秒接受的数据包数量,包括:
    • 入公网包速率。
    • 从VPC来包速率。
    出方向包量 出方向所消耗的数据包数量,包括:
    • 入公网包量。
    • 从VPC来包量。
    表 2. 普通型NAT网关
    监控项 说明
    SNAT连接数 NAT网关实例每分钟的SNAT连接数。
    容量限制丢弃连接数 NAT网关的不同规格,对应不同的SNAT最大连接数限制。该指标表示实例连接数超过NAT网关规格对应的SNAT最大连接数限制,而导致无法新建被丢弃的SNAT连接数。
    说明 该指标为累积值,不会清零。
    • 如果容量限制丢弃连接数在一定时间内持续上升,您需要考虑升配NAT网关的规格。
    • 如果容量限制丢弃连接数在一定时间为一条水平线,则表明这段时间没有出现由NAT网关规格对应的最大连接数限制而导致的丢包。
    限速丢弃连接数 NAT网关的不同规格,对应着不同的SNAT每秒最大新建连接数限制。该指标表示实例SNAT每秒新建连接数超过NAT网关规格对应的SNAT每秒最大新建连接限制,而导致无法新建被丢弃的SNAT连接数。
    说明 该指标为累积值,不会清零。
    • 如果限速丢弃连接数在一定时间内持续上升,则您需要考虑升配NAT网关的规格。
    • 如果限速丢弃连接数在一定时间为一条水平线,则表明这段时间没有出现由NAT网关规格对应的SNAT每秒最大连接数限制而导致的丢包。

查看NAT绑定的弹性公网IP监控

  1. 登录NAT网关管理控制台
  2. 在顶部菜单栏处,选择NAT网关的地域。
  3. NAT网关页面,找到目标NAT网关,单击操作列下的管理
  4. 单击监控页签。
  5. 单击NAT绑定的弹性公网IP监控页签查看监控指标。
    监控项 说明
    流入带宽 从公网进入ECS实例的带宽,单位:bps。
    流出带宽 从ECS实例发往公网的带宽,单位:bps。
    流入包速率 每秒从公网进入ECS实例的包数量。
    流出包速率 每秒从ECS实例发往公网的包数量。
    限速丢包速率 限制每秒丢包的数量。
    网络流入带宽利用率 从公网进入ECS实例的带宽的利用率。
    网络流出带宽利用率 从ECS实例发往公网的带宽的利用率。

创建阈值报警规则

如果您需要监控NAT网关实例的使用和运行情况,您可以通过创建阈值报警规则,实时监控NAT网关实例运行情况,保证业务的稳定。

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警规则
  3. 阈值报警页签,单击创建报警规则
  4. 创建报警规则页面,设置报警规则相关信息。
    参数 说明
    产品 云监控可管理的产品名称。例如:增强型NAT网关。
    资源范围 报警规则的作用范围。取值:
    • 全部资源:表示该规则作用在用户名下对应产品的全部实例上。例如:您设置了全部资源粒度的MongoDB CPU使用率大于80%报警,则只要用户名下有MongoDB CPU使用率大于80%,就会发送报警通知。资源范围选择全部资源时,报警的资源最多1000个,超过1000个可能会导致达到阈值不报警的问题,建议您使用应用分组按业务划分资源后再设置报警。
    • 实例:表示该规则只作用在某个具体实例上。例如:您如果设置了实例粒度的主机CPU使用率大于80%报警,则当该实例CPU使用率大于80%时,会发送报警通知。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。例如:CPU使用率5分钟平均值>=90%,持续3个周期,则报警服务5分钟检查一次数据是否满足平均值>=90%,只检测3次。
    通道沉默周期 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组。
    报警级别

    邮件+钉钉机器人

    弹性伸缩 如果您选中弹性伸缩,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 如果您选中日志服务,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectLogstore

    创建Project和Logstore的操作方法,请参见快速入门

    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  5. 单击确认