云监控为您提供基础的容器监控功能,您可以查看容器服务Kubernetes版集群的概览、节点、命名空间和工作负载的监控数据,时刻掌握容器服务的运行情况。您还可以为容器服务Kubernetes版的集群、节点或容器组(pod)创建报警规则,当符合报警规则时,云监控自动发送报警通知,便于您及时了解容器服务的异常并快速进行处理。
背景信息
容器服务Kubernetes版集群的metrics-server组件必须升级到V0.3.8及以上版本,操作方法请参见升级Kubernetes集群的metrics-server组件。
查看集群概览
- 登录云监控控制台。
- 在左侧导航栏,单击。
- 在容器监控页面,单击目标集群的集群名称链接或查看详情。
- 在集群概览页面,查看目标集群的基本信息和监控数据。
- 在集群监控统计概览页签,您可以查看容器组和节点的运行情况,以及CPU和内存消耗的Top数据。
- 在集群监控图表页签,您可以查看指定时间段内所有监控项的监控图表。
查看节点
- 登录云监控控制台。
- 在左侧导航栏,单击。
- 在容器监控页面,单击目标集群的集群名称链接或查看详情。
- 在左侧导航栏,单击节点。
- 在节点页面,单击目标节点的实例ID链接或查看详情。
- 在监控图表页签,查看指定时间段内所有监控项的监控图表。
查看命名空间
- 登录云监控控制台。
- 在左侧导航栏,单击。
- 在容器监控页面,单击目标集群的集群名称链接或查看详情。
- 在左侧导航栏,单击命名空间。
- 在命名空间页面,单击目标命名空间的名称链接或查看详情。
- 在监控图表页签,查看指定时间段内容器组的运行情况,以及CPU和内存消耗的Top监控图表。
查看工作负载
- 登录云监控控制台。
- 在左侧导航栏,单击。
- 在容器监控页面,单击目标集群的集群名称链接或查看详情。
- 在左侧导航栏,单击工作负载。
- 在工作负载页面,查看应用和容器组的监控图表,以及容器组的CPU和内存消耗的Top数据。
- 在无状态、有状态、守护进程集、定时任务或任务页签,单击目标应用名称链接或操作列的查看详情,查看应用的监控图表、容器组列表和容器组热点。
- 在容器组页签,单击目标容器组名称链接或操作列的查看详情,查看工作负载中的所有容器组的监控图表。
- 在工作负载的无状态页签,单击目标工作负载的名称链接或查看详情。
您可以从无状态、有状态、守护进程集、定时任务、任务和容器组维度查看工作负载的CPU和内存的使用量。
- 从部署应用、容器组列表和容器组热点维度查看工作负载的基本信息和监控图表。
创建报警规则
- 登录云监控控制台。
- 在左侧导航栏,单击。
- 在容器监控页面,单击目标集群对应操作列的报警规则。
- 在报警规则页面,单击创建报警规则。
- 在创建报警规则面板,设置报警规则相关参数。
参数 |
描述 |
资源范围 |
报警规则的作用范围。取值:
- 集群:报警规则作用于目标集群。
- 节点:报警规则作用于目标集群的全部节点或指定节点。
- 容器组(pod):报警规则作用于目标集群的指定命名空间下应用中的全部容器组或指定容器组。
|
规则描述 |
报警规则的主体。当监控数据满足指定条件时,触发报警规则。 |
通道沉默周期 |
报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。
某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。
|
生效时间 |
报警规则的生效时间。报警规则只在生效时间内才会检查监控数据是否需要报警。 |
报警回调 |
公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调。
|
报警联系组 |
发送报警的联系人组。
应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。
关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系组。
|
- 单击确定。