云监控通过安装在阿里云主机(ECS实例)上的云监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。
前提条件
请确保您已在云服务器ECS上创建GPU计算型实例,且已安装GPU驱动。具体操作,请参见创建GPU实例。
说明如果您先安装云监控插件,再安装GPU驱动,则需要重启云监控插件。关于如何重启云监控插件,请参见如何重启云监控C++版本插件?。
请确保您已在云服务器ECS上安装云监控插件。具体操作,请参见安装云监控插件。
监控项说明
您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。
监控项 | 单位 | MetricName | Dimensions |
(Agent)GPU维度解码器使用率 | % | gpu_decoder_utilization | userId、instanceId、gpuId |
(Agent)GPU维度编码器使用率 | % | gpu_encoder_utilization | userId、instanceId、gpuId |
(Agent)GPU维度GPU温度 | ℃ | gpu_gpu_temperature | userId、instanceId、gpuId |
(Agent)GPU维度GPU使用率 | % | gpu_gpu_usedutilization | userId、instanceId、gpuId |
(Agent)GPU维度显存空闲量 | Byte | gpu_memory_freespace | userId、instanceId、gpuId |
(Agent)GPU维度显存空闲率 | % | gpu_memory_freeutilization | userId、instanceId、gpuId |
(Agent)GPU维度显存使用量 | Byte | gpu_memory_usedspace | userId、instanceId、gpuId |
(Agent)GPU维度显存使用率 | % | gpu_memory_usedutilization | userId、instanceId、gpuId |
(Agent)GPU维度GPU功率 | W | gpu_power_readings_power_draw | userId、instanceId、gpuId |
查看GPU的监控数据
登录云监控控制台。
在左侧导航栏,选择
。在主机监控页面,单击目标主机的实例名称链接,或单击目标主机对应操作列的监控图表。
单击GPU监控页签。