GPU監控資料可以通過兩種方式查詢:Cloud Monitor控制台和API。
通過Cloud Monitor控制台查詢GPU監控資料
在您購買ECS的GPU計算型執行個體後,只需安裝GPU驅動和Cloud Monitor外掛程式的1.2.28版本,即可查看GPU相關監控圖表、配置監控圖表或設定警示規則。
查看監控圖表
若要查看GPU相關監控圖表,執行如下步驟:
- 登入Cloud Monitor控制台。
- 點擊導覽列中的主機監控。
- 在GPU監控頁面查詢GPU相關監控圖表,如下圖所示。
配置監控圖表
- 登入Cloud Monitor控制台。
- 點擊導覽列中的Dashboard。
- 在Dashboard頁面單擊建立監控大盤。
- 在彈出的對話方塊中,輸入建立監控大盤名稱後,單擊建立。
- 在重新整理的頁面中,單擊添加圖表。
- 在添加圖表頁面,選擇您需要的圖表類型,然後選擇監控項,如下圖所示。
- 在下拉式功能表中選擇您需要的監控指標,此處以執行個體維度GPU溫度為例,如下圖所示。
設定警示規則
為新增GPU監控指標添加警示規則的方式同為ECS的其他指標添加相同。推薦通過建立模板後將模板應用於分組的方式大量新增GPU警示規則。詳情參見最佳實務警示模板。
監控指標說明
GPU相關監控指標提供如下三個維度資料:GPU、執行個體、分組。
GPU維度監控指標
GPU維度監控指標採集每個GPU層面的監控資料。GPU維度監控指標如下表所示。
MetricName | 單位 | 名稱 | dimensions |
---|---|---|---|
gpu_memory_freespace | Bytes | GPU維度顯存空閑量 | instanceId,gpuId |
gpu_memory_totalspace | Bytes | GPU維度顯存總量 | instanceId,gpuId |
gpu_memory_usedspace | Bytes | GPU維度顯存使用量 | instanceId,gpuId |
gpu_gpu_usedutilization | % | GPU維度GPU使用率 | instanceId,gpuId |
gpu_encoder_utilization | % | GPU維度編碼器使用率 | instanceId,gpuId |
gpu_decoder_utilization | % | GPU維度解碼器使用率 | instanceId,gpuId |
gpu_gpu_temperature | ℃ | GPU維度GPU溫度 | instanceId,gpuId |
gpu_power_readings_power_draw | W | GPU維度GPU功率 | instanceId,gpuId |
gpu_memory_freeutilization | % | GPU維度顯存空閑率 | instanceId,gpuId |
gpu_memory_useutilization | % | GPU維度顯存使用率 | instanceId,gpuId |
執行個體維度監控指標
執行個體維度監控指標對單個ECS執行個體上的多個GPU監控資料做最大值、最小值、平均值的彙總,便於查詢執行個體層面的整體使用方式。
MetricName | 單位 | 名稱 | dimensions |
---|---|---|---|
instance_gpu_decoder_utilization | % | 執行個體維度GPU解碼器使用率 | instanceId |
instance_gpu_encoder_utilization | % | 執行個體維度GPU編碼器使用率 | instanceId |
instance_gpu_gpu_temperature | ℃ | 執行個體維度GPU溫度 | instanceId |
instance_gpu_gpu_usedutilization | % | 執行個體維度GPU使用率 | instanceId |
instance_gpu_memory_freespace | Bytes | 執行個體維度GPU顯存空閑量 | instanceId |
instance_gpu_memory_freeutilization | % | 執行個體維度GPU顯存空閑率 | instanceId |
instance_gpu_memory_totalspace | Bytes | 執行個體維度GPU顯存總量 | instanceId |
instance_gpu_memory_usedspace | Bytes | 執行個體維度GPU顯存使用量 | instanceId |
instance_gpu_memory_usedutilization | % | 執行個體維度GPU顯存使用率 | instanceId |
instance_gpu_power_readings_power_draw | W | 執行個體維度GPU功率 | instanceId |
分組維度監控指標
分組維度監控指標對單個應用分組裡的多個ECS 執行個體的監控資料做最大值、最小值、平均值的彙總,便於查詢叢集層面的整體使用方式。
MetricName | 單位 | 名稱 | dimensions |
---|---|---|---|
group_gpu_decoder_utilization | % | 分組維度GPU解碼器使用率 | groupId |
group_gpu_encoder_utilization | % | 分組維度GPU編碼器使用率 | groupId |
group_gpu_gpu_temperature | ℃ | 分組維度GPU溫度 | groupId |
group_gpu_gpu_usedutilization | % | 分組維度GPU使用率 | groupId |
group_gpu_memory_freespace | Bytes | 分組維度GPU顯存空閑量 | groupId |
group_gpu_memory_freeutilization | % | 分組維度GPU顯存空閑率 | groupId |
group_gpu_memory_totalspace | Bytes | 分組維度GPU顯存總量 | groupId |
group_gpu_memory_usedspace | Bytes | 分組維度GPU顯存使用量 | groupId |
group_gpu_memory_usedutilization | % | 分組維度GPU顯存使用率 | groupId |
group_gpu_power_readings_power_draw | W | 分組維度GPU功率 | groupId |
通過API查詢GPU監控資料
- 詳見QueryMetricList。
- 參數說明:Project參數的取值為acs_ecs_dashboard。Metric及Dimensions的取值,請參考上述表格中的GPU指標。