全部產品
Search
文件中心

Container Compute Service:ACS GPU-HPN節點層級監控指標

更新時間:Sep 23, 2025

本文介紹ACS叢集中提供的GPU-HPN節點層級的Prometheus指標。

指標說明

指標

指標描述

標籤

範例

node_cpu_seconds_total

節點CPU使用時間總計。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

  • mode:時間片類型,包括idle,iowait,irq,nice,softirq,steal,system,user。

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988

node_boot_time_seconds

購買GPU-HPN節點預留的時間點,當節點發生故障自愈時,該指標會更新為最近一次自愈完成的時間點。

node_boot_time_seconds 1.735635132e+09

node_memory_MemAvailable_bytes

節點可用記憶體大小(位元組)。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12

node_memory_MemFree_bytes

節點空閑記憶體大小(位元組)。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12

node_memory_MemTotal_bytes

節點總記憶體大小(位元組)。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12

node_disk_read_bytes_total

節點磁碟讀取位元組總計。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08

node_disk_reads_completed_total

節點磁碟讀取完成總數。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530

node_disk_writes_completed_total

節點磁碟寫入完成總數。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965

node_disk_written_bytes_total

節點磁碟寫入位元組總數。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09

node_network_receive_bytes_total

節點累計接收位元組總數。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07

node_network_transmit_bytes_total

節點累計發送位元組總數。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07

DCGM_FI_DEV_COUNT

裝置數量。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8

DCGM_FI_DEV_FB_TOTAL

表示總框架緩衝區(以MB為單位)。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06

DCGM_FI_DEV_FB_USED

表示已用框架緩衝區大小(以MB為單位)。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

  • UUID:裝置唯一標識。

  • modelName:裝置型號名稱。

  • device:裝置名稱。

  • gpu:裝置編號。

DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672

DCGM_FI_DEV_GPU_UTIL

GPU利用率(以百分比表示)。

  • NodeName:節點名稱,對應Node對象中的spec.nodeName

  • instance:節點名稱,對應Node對象中的spec.nodeName

  • UUID:裝置唯一標識。

  • modelName:裝置型號名稱。

  • device:裝置名稱。

  • gpu:裝置編號。

DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56

sysom_imc_node_event

節點層級的記憶體頻寬效能監控(多個NUMA Socket的加和),採集時間視窗為30秒。

  • instance:節點名稱,對應Node對象中的spec.nodeName

  • value:記憶體頻寬的指標類型。

    • bw_rd:讀頻寬(MB/s) 。

    • bw_wr:寫頻寬(MB/s) 。

    • rlat:讀平均延遲(ns)。

    • 其他類型目前未支援

sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780

FAQ

ACS Pod指標中有相同名稱的指標,例如DCGM_FI_DEV_FB_USED,配置Grafana看板時如何區分?

Pod指標中會帶有Namespace和Pod標籤,在PromQL編寫時可用於過濾篩選。

累計實值型別指標(如node_cpu_seconds_total指標)突然跳變的原因是什嗎?

累計實值型別指標,如node_cpu_seconds_total指標,表示累計的CPU時間總量。在傳統的ECS節點中,該值來自於作業系統的統計,當ECS節點重啟時,該值會被直接置零。ACS叢集中的GPU-HPN節點並不是真實的機器,累計值來自於ACS監控組件。組件的變更或升級,以及GPU-HPN節點在其生命週期內可能會有故障遷移等行為,對應的實體資源會發生變化,這些都會導致累計值指標重新歸零計數。

建議對累計指標的觀測採用irate等計算方法,以獲得更直觀的利用率資料。若您對相關指標配置了閾值警示,建議增加過濾參數,避免個別毛刺資料產生誤判。

原始指標中的時間戳記代表什麼含義?

GPU-HPN Node層級的指標包含了時間戳記屬性,是標準的Prometheus格式,表示該資源指標採集時刻的時間戳記,格式如下:

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="idle"} 17.509999999999998 1735112457237

您可以搭配Prometheus的honor_timestamps配置使用。ACS內建的Promethues大盤預設已經開啟了該能力。