GPU監控資料可以通過兩種方式查詢:Cloud Monitor控制台和API。

通過Cloud Monitor控制台查詢GPU監控資料

在您購買ECS的GPU計算型執行個體後,只需安裝GPU驅動和Cloud Monitor外掛程式的1.2.28版本,即可查看GPU相關監控圖表、配置監控圖表或設定警示規則。

查看監控圖表

若要查看GPU相關監控圖表,執行如下步驟:

  1. 登入Cloud Monitor控制台
  2. 點擊導覽列中的主機監控
  3. GPU監控頁面查詢GPU相關監控圖表,如下圖所示。


配置監控圖表

  1. 登入Cloud Monitor控制台
  2. 點擊導覽列中的Dashboard
  3. Dashboard頁面單擊建立監控大盤
  4. 在彈出的對話方塊中,輸入建立監控大盤名稱後,單擊建立
  5. 在重新整理的頁面中,單擊添加圖表
  6. 添加圖表頁面,選擇您需要的圖表類型,然後選擇監控項,如下圖所示。


  7. 在下拉式功能表中選擇您需要的監控指標,此處以執行個體維度GPU溫度為例,如下圖所示。

設定警示規則

為新增GPU監控指標添加警示規則的方式同為ECS的其他指標添加相同。推薦通過建立模板後將模板應用於分組的方式大量新增GPU警示規則。詳情參見最佳實務警示模板

監控指標說明

GPU相關監控指標提供如下三個維度資料:GPU、執行個體、分組。

GPU維度監控指標

GPU維度監控指標採集每個GPU層面的監控資料。GPU維度監控指標如下表所示。

MetricName 單位 名稱 dimensions
gpu_memory_freespace Bytes GPU維度顯存空閑量 instanceId,gpuId
gpu_memory_totalspace Bytes GPU維度顯存總量 instanceId,gpuId
gpu_memory_usedspace Bytes GPU維度顯存使用量 instanceId,gpuId
gpu_gpu_usedutilization % GPU維度GPU使用率 instanceId,gpuId
gpu_encoder_utilization % GPU維度編碼器使用率 instanceId,gpuId
gpu_decoder_utilization % GPU維度解碼器使用率 instanceId,gpuId
gpu_gpu_temperature GPU維度GPU溫度 instanceId,gpuId
gpu_power_readings_power_draw W GPU維度GPU功率 instanceId,gpuId
gpu_memory_freeutilization % GPU維度顯存空閑率 instanceId,gpuId
gpu_memory_useutilization % GPU維度顯存使用率 instanceId,gpuId

執行個體維度監控指標

執行個體維度監控指標對單個ECS執行個體上的多個GPU監控資料做最大值、最小值、平均值的彙總,便於查詢執行個體層面的整體使用方式。

MetricName 單位 名稱 dimensions
instance_gpu_decoder_utilization % 執行個體維度GPU解碼器使用率 instanceId
instance_gpu_encoder_utilization % 執行個體維度GPU編碼器使用率 instanceId
instance_gpu_gpu_temperature 執行個體維度GPU溫度 instanceId
instance_gpu_gpu_usedutilization % 執行個體維度GPU使用率 instanceId
instance_gpu_memory_freespace Bytes 執行個體維度GPU顯存空閑量 instanceId
instance_gpu_memory_freeutilization % 執行個體維度GPU顯存空閑率 instanceId
instance_gpu_memory_totalspace Bytes 執行個體維度GPU顯存總量 instanceId
instance_gpu_memory_usedspace Bytes 執行個體維度GPU顯存使用量 instanceId
instance_gpu_memory_usedutilization % 執行個體維度GPU顯存使用率 instanceId
instance_gpu_power_readings_power_draw W 執行個體維度GPU功率 instanceId

分組維度監控指標

分組維度監控指標對單個應用分組裡的多個ECS 執行個體的監控資料做最大值、最小值、平均值的彙總,便於查詢叢集層面的整體使用方式。

MetricName 單位 名稱 dimensions
group_gpu_decoder_utilization % 分組維度GPU解碼器使用率 groupId
group_gpu_encoder_utilization % 分組維度GPU編碼器使用率 groupId
group_gpu_gpu_temperature 分組維度GPU溫度 groupId
group_gpu_gpu_usedutilization % 分組維度GPU使用率 groupId
group_gpu_memory_freespace Bytes 分組維度GPU顯存空閑量 groupId
group_gpu_memory_freeutilization % 分組維度GPU顯存空閑率 groupId
group_gpu_memory_totalspace Bytes 分組維度GPU顯存總量 groupId
group_gpu_memory_usedspace Bytes 分組維度GPU顯存使用量 groupId
group_gpu_memory_usedutilization % 分組維度GPU顯存使用率 groupId
group_gpu_power_readings_power_draw W 分組維度GPU功率 groupId

通過API查詢GPU監控資料

  • 詳見QueryMetricList
  • 參數說明:Project參數的取值為acs_ecs_dashboard。Metric及Dimensions的取值,請參考上述表格中的GPU指標。