全部产品
Search
文档中心

通过Prometheus监控GPU实例

更新时间: 2021-06-01

接入Prometheus监控后,您可以通过预定义的大盘监控Kubernetes集群中ECI GPU实例的性能指标。本文主要为您介绍如何在Prometheus中监控ECI GPU实例。

前提条件

已创建ASK集群,且集群已部署了ARMS Prometheus监控。具体操作,请参见ASK接入ARMS Prometheus监控

操作步骤

  1. 登录容器服务管理控制台

  2. 创建一个ECI GPU实例。

    yaml示例如下:

    apiVersion: v1
    kind: Pod
    metadata:
      name: cg-gpu-0
      annotations:
        # 指定GPU实例规格
        k8s.aliyun.com/eci-use-specs : "ecs.gn6i-c4g1.xlarge"
    spec:
      containers:
      - image: nginx
        name: cg
        resources: 
          limits:
            cpu: 500m
            # 指定容器使用的GPU个数
            nvidia.com/gpu: '1'
        command: ["bash","-c","sleep 100000"]
      dnsPolicy: ClusterFirst
      restartPolicy: Always
  3. 查看GPU指标。

    1. 找到GPU实例所属的集群,单击集群名称。

    2. 在在集群信息页面,单击右上角的Prometheus监控

    3. 单击GPU APP页签或者GPU Node页签,查看对应的监控详情。

      ASK集群接入ARMS Prometheus监控后,您无需部署额外插件,即可监控ECI GPU实例。默认情况下,系统已为您提前创建好了对应的监控大盘。

      • GPU APP

        在GPU APP大盘中,您可以查看单个Pod对应GPU的数据。如下图所示。

        GPU监控1
      • GPU Node

        在GPU Node大盘中,您可以查看节点上所有GPU的数据。如下图所示。GPU监控