在安装Kubernetes集群后,如果发现Service、Deployment等性能数据缺失,可以按照以下步骤进行排查。

步骤一:Kubernetes监控组件是否安装成功

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称。
  4. 在左侧导航栏选择工作负载 > 任务
  5. 在页面顶部选择命名空间kube-system,然后查看任务页面是否存在cmonitor-post-installer任务。
    • 如果不存在cmonitor-post-installer任务,说明组件安装成功。
    • 如果存在cmonitor-post-installer任务,单击cmonitor-post-installer名称,然后单击日志页签,查看任务日志。
      • 如果任务日志中出现如下报错,则说明需要手动添加ARMS和链路追踪权限策略。容器监控组件安装失败
      • 如果出现其他报错信息,请联系Kubernetes监控答疑钉钉群(群号:31588365)获取帮助。

步骤二:Kubernetes监控探针状态

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称。
  4. 在左侧导航栏选择工作负载 > 守护进程集
  5. 在页面顶部选择命名空间arms-prom,然后查看守护进程集页面是否存在cmonitor-agent
    • 如果存在且容器组数量总数和就绪数量一致,说明Kubernetes监控探针状态正常。容器监控探针状态
    • 如果不存在或者容器组数量总数和就绪数量不一致,则说明Kubernetes监控探针安装失败,请联系容器服务答疑钉钉群(群号:31588365)获取帮助。
  6. 单击cmonitor-agent名称,然后单击事件页签。
    如果存在Readiness探针安装失败的事件,说明Kubernetes监控不支持当前机器的内核版本。Kubernetes监控支持的内核版本,请参见 Kubernetes监控运行环境要求和限制存在readiness异常事件
  7. 单击日志页签。
    查看容器组日志运行状态。
    • 正常运行状态的日志将会持续打印版本号,不会出现任何异常日志。容器组日志正常状态
    • 如果日志存在以下报错,请执行以下操作重启Arms Prometheus Operator。容器监控探针组日志异常
      1. 在左侧导航栏选择工作负载 > 容器组
      2. 在页面顶部选择命名空间arms-prom,然后在arms-prometheus-****的Pod右侧单击删除

        Pod删除后将自动重启。

    • 如果日志存在其他报错,请联系Kubernetes监控答疑钉钉群(群号:31588365)获取帮助。

步骤三:Prometheus Operator状态

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称。
  4. 在左侧导航栏选择工作负载 > 无状态
  5. 在页面顶部选择命名空间arms-prom,然后查看无状态页面是否存在arms-prom-ack-arms-prometheus
    • 如果存在且容器组数量总数和就绪数量一致,说明Prometheus Operator状态正常。容器监控无状态下Prometheus组件状态
    • 如果不存在或者Kubernetes组数量总数和就绪数量不一致,则说明Kubernetes监控探针安装失败,请联系Kubernetes监控答疑钉钉群(群号:31588365)获取帮助。
  6. 单击arms-prom-ack-arms-prometheus名称,然后单击日志页签。
    查看容器组日志运行状态。如果日志存在异常,请联系Kubernetes监控答疑钉钉群(群号: 31588365)获取帮助。