本文介紹ACS叢集中提供的GPU-HPN節點層級的Prometheus指標。
指標說明
指標 | 指標描述 | 標籤 | 範例 |
node_cpu_seconds_total | 節點CPU使用時間總計。 |
| node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988 |
node_boot_time_seconds | 購買GPU-HPN節點預留的時間點,當節點發生故障自愈時,該指標會更新為最近一次自愈完成的時間點。 | 無 | node_boot_time_seconds 1.735635132e+09 |
node_memory_MemAvailable_bytes | 節點可用記憶體大小(位元組)。 |
| node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12 |
node_memory_MemFree_bytes | 節點空閑記憶體大小(位元組)。 |
| node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12 |
node_memory_MemTotal_bytes | 節點總記憶體大小(位元組)。 |
| node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12 |
node_disk_read_bytes_total | 節點磁碟讀取位元組總計。 |
| node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08 |
node_disk_reads_completed_total | 節點磁碟讀取完成總數。 |
| node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530 |
node_disk_writes_completed_total | 節點磁碟寫入完成總數。 |
| node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965 |
node_disk_written_bytes_total | 節點磁碟寫入位元組總數。 |
| node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09 |
node_network_receive_bytes_total | 節點累計接收位元組總數。 |
| node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07 |
node_network_transmit_bytes_total | 節點累計發送位元組總數。 |
| node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07 |
DCGM_FI_DEV_COUNT | 裝置數量。 |
| DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8 |
DCGM_FI_DEV_FB_TOTAL | 表示總框架緩衝區(以MB為單位)。 |
| DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06 |
DCGM_FI_DEV_FB_USED | 表示已用框架緩衝區大小(以MB為單位)。 |
| DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672 |
DCGM_FI_DEV_GPU_UTIL | GPU利用率(以百分比表示)。 |
| DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56 |
sysom_imc_node_event | 節點層級的記憶體頻寬效能監控(多個NUMA Socket的加和),採集時間視窗為30秒。 |
| sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780 |