接入可观测监控Prometheus版后,您可以通过预定义的大盘监控Kubernetes集群中ECI GPU实例的性能指标。本文主要为您介绍如何通过Prometheus监控ECI GPU实例。
前提条件
已创建ACK Serverless集群,且集群已接入可观测监控Prometheus版。具体操作,请参见接入ARMS Prometheus监控。
操作步骤
登录容器服务管理控制台。
创建一个ECI GPU实例。
以Deployment为例,YAML示例如下:
apiVersion: apps/v1 kind: Deployment metadata: name: gpu-monitor spec: replicas: 1 selector: matchLabels: app: test template: metadata: labels: app: test alibabacloud.com/eci: "true" annotations: k8s.aliyun.com/eci-use-specs : "ecs.gn6i-c4g1.xlarge" #指定GPU规格 spec: containers: - name: bert-container image: registry.cn-beijing.aliyuncs.com/eci_open/nginx:1.14.2 ports: - containerPort: 80 resources: limits: nvidia.com/gpu: 1 #指定容器使用的GPU个数
查看GPU指标。