本文为您介绍如何通过云监控控制台和API查询GPU监控数据。
监控指标说明
GPU相关监控指标提供如下三个维度的数据:GPU、实例、分组。
- GPU维度监控指标
GPU维度的监控指标采集每个GPU层面的监控数据,GPU维度的监控指标如下表所示:
MetricName 单位 名称 dimensions gpu_memory_freespace Byte GPU维度显存空闲量 instanceId,gpuId gpu_memory_totalspace Byte GPU维度显存总量 instanceId,gpuId gpu_memory_usedspace Byte GPU维度显存使用量 instanceId,gpuId gpu_gpu_usedutilization % GPU维度GPU使用率 instanceId,gpuId gpu_encoder_utilization % GPU维度编码器使用率 instanceId,gpuId gpu_decoder_utilization % GPU维度解码器使用率 instanceId,gpuId gpu_gpu_temperature ℃ GPU维度GPU温度 instanceId,gpuId gpu_power_readings_power_draw W GPU维度GPU功率 instanceId,gpuId gpu_memory_freeutilization % GPU维度显存空闲率 instanceId,gpuId gpu_memory_useutilization % GPU维度显存使用率 instanceId,gpuId - 实例维度监控指标
实例维度监控指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合,便于查询实例层面的整体使用情况。
MetricName 单位 名称 dimensions instance_gpu_decoder_utilization % 实例维度GPU解码器使用率 instanceId instance_gpu_encoder_utilization % 实例维度GPU编码器使用率 instanceId instance_gpu_gpu_temperature ℃ 实例维度GPU温度 instanceId instance_gpu_gpu_usedutilization % 实例维度GPU使用率 instanceId instance_gpu_memory_freespace Byte 实例维度GPU显存空闲量 instanceId instance_gpu_memory_freeutilization % 实例维度GPU显存空闲率 instanceId instance_gpu_memory_totalspace Byte 实例维度GPU显存总量 instanceId instance_gpu_memory_usedspace Byte 实例维度GPU显存使用量 instanceId instance_gpu_memory_usedutilization % 实例维度GPU显存使用率 instanceId instance_gpu_power_readings_power_draw W 实例维度GPU功率 instanceId - 分组维度监控指标
分组维度监控指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合,便于查询集群层面的整体使用情况。
MetricName 单位 名称 dimensions group_gpu_decoder_utilization % 分组维度GPU解码器使用率 groupId group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId group_gpu_gpu_temperature ℃ 分组维度GPU温度 groupId group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId group_gpu_memory_freespace Byte 分组维度GPU显存空闲量 groupId group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId group_gpu_memory_totalspace Byte 分组维度GPU显存总量 groupId group_gpu_memory_usedspace Byte 分组维度GPU显存使用量 groupId group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId
通过云监控控制台查询GPU监控数据
您在购买ECS的GPU计算型实例后,只需安装GPU驱动和云监控插件,即可查看GPU相关监控图表、配置监控图表或设置报警规则。
查看监控图表
- 登录云监控控制台。
- 单击左侧导航栏中的主机监控,进入主机监控页面。
- 在实例列表中,单击实例名称,进入实例详情页面,单击GPU监控页签,切换至GPU监控页签,可查看GPU相关监控图表。

配置监控图表
- 登录云监控控制台。
- 单击左侧导航栏中Dashboard下的自定义大盘,进入当前监控大盘页面。
- 单击创建监控大盘,弹出创建视图组对话框,输入监控大盘名称后,单击创建按钮即可。
- 单击右上角的添加图表,进入添加图表页面。
- 选择图表类型:从折线图、面积图、TopN表格、热力图和饼图中选择您需要的图表类型。
- 选择监控项:在监控项下拉列表中,选择您需要的监控指标,配置完成后,点击发布即可。

设置报警规则
为新增GPU监控指标添加报警规则,建议您通过创建模板后将模板应用于分组的方式批量添加GPU报警规则,请参考报警模板最佳实践。
通过API查询GPU监控数据
- 通过API查询GPU监控数据,请参考DescribeMetricList。
- 参数说明:Namespace参数的取值为acs_ecs_dashboard,MetricName及Dimensions的取值,请参考上述表格中的GPU指标。