本文介绍如何为云原生数据仓库AnalyticDB PostgreSQL版配置云监控报警,实时监控集群数据。系统在监控数据满足条件时,会通知报警联系组中的所有联系人。

背景信息

云监控报警是通过阿里云云监控实现的。通过云监控,您可以设置监控项,在触发监控项报警规则时,通知报警联系组中的所有联系人。您也可以维护报警监控项对应的报警联系组,以便发生报警时,能及时通知到相关联系人。

目前云监控的报警,分为阈值报警和事件报警,支持情况如下:
实例资源类型 阈值报警 事件报警
资源弹性 支持 不支持
资源预留 支持 支持
说明 云监控的两种报警,都需要您手动配置才能接收报警。

查看监控数据

  1. 登录云原生数据仓库AnalyticDB PostgreSQL版管理控制台
  2. 选择实例所在的地域。
  3. 单击实例名称,进入基本信息页面。
  4. 单击界面右上方的云监控,进入实例对应的云监控控制台

    目前,资源弹性和资源预留实例在云监控上的指标名不同,但云监控不支持根据资源类型展示相应的图表。因此进入到监控页面后,会看到资源弹性和资源预留两种图表,您只需要专注相应资源类型的监控项即可。

  5. 将光标放在图表上,会出现放大按钮,单击放大按钮,可查看监控大图。2021040608
    说明 目前云监控展示的指标数据,和AnalyticDB PostgreSQL版控制台上展示的数据有所差别,虽然展示的都是计算组的数据,但AnalyticDB PostgreSQL版控制台上,展示为计算节点,云监控展示的是计算节点的主机名。

添加阈值报警

  1. 云监控控制台上,将光标放在图表上,单击报警按钮,添加该指标的阈值报警。2021040609
  2. 在弹出的界面设置报警规则。单击添加报警规则,可添加多个报警规则,对多个指标设置报警。对每个指标会分别创建一个报警,如果有某个指标值超过阈值,就会触发报警。2021040606
    • 监控项:资源弹性实例,选择【资源弹性】开头的监控项;资源预留实例,选择【资源预留】开头的监控项。

      关于监控项的具体信息和推荐值,请参见监控项与系统事件

    • 1分钟周期:是指把一个时间段内的监控数据聚合为1个监控数据点,然后使用聚合后的数据点和阈值做比较。目前云监控系统是1分钟1个监控数据点,设置1分钟周期,则只有一个数据点,不需要聚合;设置5分钟周期,则有5个数据点,需要把5个数据点聚合为1个数据点。
    • 持续周期:以选择1分钟周期为例,若选择持续3个周期,则代表连续3分钟的监控数据超过阈值后触发报警。
    • 平均值/最大值/最小值:若选择5分钟周期,则有5个数据点需要聚合,假设5个数据分别为10、20、30、40、50,平均值=30,最大值=50,最小值=10,您需要指定使用平均值、最大值或最小值与阈值做比较。
    • instance_component:选择对所有的服务器/组件报警,还是对某个服务器/组件报警。
    • 通道沉默周期:指报警发生后如果未恢复正常,间隔多久发送一次报警通知。
  3. 选择已有联系人组,或快速创建联系人组。
  4. 填写报警邮件内容(非必填)。
  5. 单击确定,跳转至阈值报警列表页面,完成阈值报警规则创建。

    可在阈值报警列表,查看报警状态、报警历史、或者禁用报警。

添加事件报警

  1. 云监控控制台,单击报警服务 > 报警规则
  2. 事件报警页签,单击创建事件报警
    • 产品类型:选择AnalyticDB PostgreSQL版
    • 事件类型:可选择全部类型或具体类型。
    • 事件等级:可选全部级别或具体级别。
    • 事件名称:可选全部事件或具体事件。

      关于系统事件的具体信息,请参见监控项与系统事件

  3. 选择联系人组和报警方式,单击确定,完成事件报警规则的创建。

    可在报警列表的事件报警页签,查看报警状态、报警历史、或者禁用报警。