云消息队列 Kafka 版支持监控您账户下创建的资源,包括实例、Topic、Group,帮助您实时掌握资源状态。您还可以为云监控项设置报警规则,当监控项数据超过设定的报警阈值时,云监控可以通过电话、短信、邮件、钉钉机器人等方式通知您,帮助您及时应对异常情况。
计费说明
使用云监控功能云消息队列 Kafka 版不收取费用。
前提条件
创建服务关联角色
角色名称:AliyunServiceRoleForAlikafka
角色策略名称:AliyunServiceRolePolicyForAlikafka
权限说明:允许云消息队列 Kafka 版使用该角色访问您的服务(云监控和ARMS服务)以完成云监控和仪表盘相关功能。
具体文档说明:服务关联角色。
监控项
监控项的数据聚合周期为1分钟,即1分钟计算一次,计算出来每秒字节数。您可以将该数据理解为一分钟内的平均值。
监控项的数据延时1分钟。
针对各资源类型提供的监控项如下:
Metric Name | Metric Id | Dimensions | 单位 |
实例集群流入流量(包含副本复制流量) | ClusterMessageInputV3 | userId,instanceId | B/s |
实例磁盘使用率 | DiskInstanceRatioV3 | userId,instanceId | % |
实例业务实际流入流量 | InstanceMessageInputV3 | userId,instanceId | B/s |
实例业务实际流出流量 | InstanceMessageOutputV3 | userId,instanceId | B/s |
实例消息生产条数 | InstanceMessageNumInputV3 | userId,instanceId | count/s |
实例消息消费条数 | InstanceMessageNumOutputV3 | userId,instanceId | count/s |
实例消息发送次数 | InstanceReqsInputV3 | userId,instanceId | count/s |
实例消息消费次数 | InstanceReqsOutputV3 | userId,instanceId | count/s |
实例存储大小 | InstanceDiskLogSizeV3 | userId,instanceId | B |
实例公网写入带宽 | InstanceInternetTxRateV3 | userId,instanceId | bit/s |
实例公网读取带宽 | InstanceInternetRxRateV3 | userId,instanceId | bit/s |
实例单节点最大连接数(公网+内网) | InstanceMaxConnectionV3 | userId,instanceId | count |
实例单节点最大连接数(公网) | InstanceMaxInternetConnectionV3 | userId,instanceId | count |
实例总连接数(公网+内网) | InstanceTotalConnectionV3 | userId,instanceId | count |
实例总连接数(公网) | InstanceTotalInternetConnectionV3 | userId,instanceId | count |
实例单节点最大连接数使用率(公网+内网) | InstanceMaxConnectionRatioV3 | userId,instanceId | % |
实例单节点最大连接数使用率(公网) | InstanceMaxInternetConnectionRatioV3 | userId,instanceId | % |
最大节点生产流量在节点弹性上限占比 | InstanceMaxNodeInputRatioV3 | userId,instanceId | % |
最大节点消费流量在节点弹性上限占比 | InstanceMaxNodeOutputRatioV3 | userId,instanceId | % |
生产流量在弹性上限占比 | InstanceMessageInputRatioV3 | userId,instanceId | % |
消费流量在弹性上限占比 | InstanceMessageOutputRatioV3 | userId,instanceId | % |
实例生产限流时间 | InstanceThrottleTimeP99InputV3 | userId,instanceId | ms |
实例消费限流时间 | InstanceThrottleTimeP99OutputV3 | userId,instanceId | ms |
实例分区使用率 | PartitionInstanceRatioV3 | userId,instanceId | % |
消息堆积量 | MessageAccumulationV3 | userId,instanceId,consumerGroup | count |
ConsumerGroup未消费此Topic消息数 | MessageAccumulationOnetopicV3 | userId,instanceId,consumerGroup,topic | count |
MessageNumOutputV3 | GroupMessageNumOutputV3 | userId,instanceId,consumerGroup | count/s |
MessageNumOutputOnetopicV3 | GroupMessageNumOutputOnetopicV3 | userId,instanceId,consumerGroup,topic | count/s |
MessageNumOutputOnetopicOnepartitionV3 | GroupMessageNumOutputOnetopicOnepartitionV3 | userId,instanceId,consumerGroup,topic,partition | count/s |
topic 发生非正常 HA 的 partition 数量 | TopicAbnormalHaPartitionNumV3 | userId,instanceId,topic | count |
查看云监控数据
查看监控数据的步骤如下:
登录云消息队列 Kafka 版控制台,在概览页面的资源分布区域,选择地域。
在实例列表页面,单击目标实例名称。
在左侧导航栏,选择。
在监控图表页签,设置时间范围,查看监控数据。
页面会自动显示当前资源所有的监控项图表。
设置报警规则
设置报警的操作步骤如下:
在概览页面的资源分布区域,选择地域。
在实例列表页面,单击目标实例名称。
在左侧导航栏,选择。
在云监控页面,单击报警规则页签,然后单击创建报警规则。
在创建报警规则面板,设置报警规则和通知方式,单击确定。
如果您需要对已创建的规则进行修改,请单击规则名称右侧操作列的修改进行修改。
查看报警信息
查看报警信息的步骤如下:
在概览页面的资源分布区域,选择地域。
在实例列表页面,单击目标实例名称。
在左侧导航栏,选择。
在云监控页面,单击报警规则,然后单击规则名称右侧操作列的详情查看报警信息。