全部產品
Search
文件中心

Application Real-Time Monitoring Service:容器叢集基礎指標

更新時間:Oct 29, 2025

本文介紹可觀測監控 Prometheus 版支援的容器叢集基礎指標。

重要
  • Managed Service for Prometheus按寫入量或者按上報次數收費。指標分為兩種類型:

    • 基礎指標:可觀測 Prometheus 版針對阿里雲Container Service(ACK/ACS/ASK/ACK One/ACK Edge 等)中採集基礎指標享有上報或寫入免費的權益,其他類型容器叢集不享有該權益。

    • 自訂指標:非基礎指標即是自訂指標。自訂指標於2020年01月06日開始收費。

  • 可觀測監控 Prometheus 版將於2024年11月12日00:00:00(UTC+8)起,對採集的阿里雲Container Service叢集基礎指標範圍進行調整,調整後的指標範圍請參見下方內容。

請注意,預設採集的容器叢集基礎指標僅限本文所示範圍。

本文範圍之外的容器叢集指標為自訂指標,是計費指標。收費標準請參見Prometheus 執行個體計費

cAdvisor(Job名稱:_arms/kubelet/cadvisor)

指標

描述

container_cpu_usage_seconds_total

容器CPU使用時間總計

container_fs_usage_bytes

容器檔案系統使用位元組

container_memory_cache

容器記憶體緩衝

container_memory_usage_bytes

容器記憶體使用量位元組

container_memory_working_set_bytes

容器記憶體工作集位元組

container_network_receive_bytes_total

容器網路接收位元組總計

container_network_transmit_bytes_total

容器網路傳輸位元組總計

container_scrape_error

容器指標抓取錯誤

DCGM_CUSTOM_CONTAINER_CP_ALLOCATED

表示為容器分配的一張GPU卡上部分算力占該GPU卡總算力的比例。值的區間為[0,1]。 獨佔GPU或者共用GPU只申請顯存時,該指標的值為0,表示不限制算力。 假設GPU卡有100算力,為一個容器分配30算力,那麼為該容器分配的算力比例為30/100=0.3。

DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED

表示為容器分配顯存

DCGM_CUSTOM_DEV_FB_ALLOCATED

表示GPU卡已指派顯存佔總顯存的比例,值的區間為[0,1]

DCGM_CUSTOM_DEV_FB_TOTAL

表示GPU卡的總顯存

DCGM_CUSTOM_DEV_HEALTH

GPU健康狀態

DCGM_CUSTOM_PROCESS_DECODE_UTIL

表示GPU線程的解碼器利用率

DCGM_CUSTOM_PROCESS_ENCODE_UTIL

表示GPU線程的編碼器利用率

DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL

表示GPU線程的記憶體拷貝利用率

DCGM_CUSTOM_PROCESS_MEM_USED

表示GPU線程當前使用的顯存

DCGM_CUSTOM_PROCESS_SM_UTIL

表示GPU線程的SM利用率

DCGM_CUSTOM_PROF_MEM_BANDWIDTH_USED

顯存頻寬使用

DCGM_CUSTOM_PROF_TENS_TFPS_USED

表示GPU張量核心使用方式

DCGM_FI_DEV_DEC_UTIL

表示解碼器利用率

DCGM_FI_DEV_ENC_UTIL

表示編碼器利用率

DCGM_FI_DEV_FB_FREE

表示幀緩衝(Framebuffer Memory)剩餘數

DCGM_FI_DEV_FB_USED

表示幀緩衝已使用數。該值與nvidia-smi命令中Memory-Usage的已使用值對應

DCGM_FI_DEV_GPU_TEMP

表示GPU溫度

DCGM_FI_DEV_GPU_UTIL

表示GPU利用率,即在一個周期時間內(1s或1/6s,根據GPU產品而定),一個或多個核函數處於Active的時間。該指標僅能夠展示有核函數在用的GPU資源,但無法展示具體的使用方式

DCGM_FI_DEV_MEM_CLOCK

表示記憶體時鐘頻率

DCGM_FI_DEV_MEM_COPY_UTIL

表示記憶體頻寬利用率。以英偉達GPU V100為例,其最大記憶體頻寬為900 GB/sec,如果當前的記憶體頻寬為450 GB/sec,則記憶體頻寬利用率為50%

DCGM_FI_DEV_POWER_USAGE

表示功率

DCGM_FI_DEV_SM_CLOCK

表示SM時鐘頻率

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

表示從驅動載入開始,已消耗的能量

DCGM_FI_DEV_XID_ERRORS

表示一段時間內,最後發生的XID錯誤號碼

DCGM_FI_PROF_DRAM_ACTIVE

表示記憶體頻寬利用率(Memory BW Utilization)將資料發送到裝置記憶體或從裝置記憶體接收資料的周期分數。

該值表示時間間隔內的平均值,而不是瞬時值。

較高的值表示裝置記憶體的利用率較高。

該值為1(100%)表示在整個時間間隔內的每個周期執行一條 DRAM 指令(實際上,峰值約為 0.8 (80%) 是可實現的最大值)。

假設該值為0.2(20%),表示20%的周期在時間間隔內讀取或寫入裝置記憶體。

DCGM_FI_PROF_NVLINK_RX_BYTES

表示通過NVLink傳輸/接收的資料速率,不包括協議標題。

該值表示一個時間間隔內的平均值,而不是瞬時值。

該速率在時間間隔內平均。例如,在1秒內傳輸1 GB資料,則無論以恒定速率還是突發傳輸資料,速率都是1 GB/s。理論上,最大NVLink Gen2頻寬為每個方向每個鏈路25 GB/s。

DCGM_FI_PROF_NVLINK_TX_BYTES

通過NVLINK傳輸的總位元組數(發送方向)

DCGM_FI_PROF_PCIE_RX_BYTES

表示通過PCIe匯流排傳輸/接收的資料速率,包括協議標題和資料承載。

該值表示一個時間間隔內的平均值,而不是瞬時值。

該速率在時間間隔內平均。例如,在1秒內傳輸1 GB資料,則無論以恒定速率還是突發傳輸資料,速率都是1 GB/s。理論上的最大PCIe Gen3頻寬為每通道985 MB/s。

DCGM_FI_PROF_PCIE_TX_BYTES

表示通過PCIe匯流排傳輸/接收的資料速率,包括協議標題和資料承載。

該值表示一個時間間隔內的平均值,而不是瞬時值。

該速率在時間間隔內平均。例如,在1秒內傳輸1 GB資料,則無論以恒定速率還是突發傳輸資料,速率都是1 GB/s。理論上的最大PCIe Gen3頻寬為每通道985 MB/s。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

表示Tensor(HMMA/IMMA) Pipe處於Active狀態的周期分數。

該值表示一個時間間隔內的平均值,而不是瞬時值。

較高的值表示Tensor Cores的利用率較高。

該值為1(100%)表示在整個時間間隔內每隔一個指令周期發出一個Tensor指令(兩個周期完成一條指令)。

假設該值為0.2(20%),可能有如下情況:

在整個時間間隔內,有20%的SM的Tensor Core以100%的利用率運行。

在整個時間間隔內,有100%的SM的Tensor Core以20%的利用率運行。

在整個時間間隔的1/5時間內,有100%的SM上的Tensor Core以100%利用率運行。

其他組合模式。

DCGM_FI_PROF_SM_ACTIVE

表示在一個時間間隔內,至少一個線程束在一個SM(Streaming Multiprocessor)上處於Active的時間佔比。該值表示所有SM的平均值,且該值對每個塊的線程數不敏感。 線程束處於Active是指一個線程束被調度且分配資源後的狀態,可能是 Computing、也可能是非Computing狀態(例如等待記憶體請求)。 該值小於0.5表示未高效利用GPU,大於0.8是必要的。 假設一個GPU有N個SM: 一個核函數在整個時間間隔內使用N個線程塊運行在所有的SM上,此時該值為1(100%)。 一個核心數在一個時間間隔內運行N/5個線程塊,此時該值為0.2。 一個核函數使用N個線程塊,在一個時間間隔內,僅運行了1/5個周期的時間,此時該值為0.2。

machine_cpu_cores

機器CPU核心數

node_exporter_build_info

節點匯出程式構建資訊

nvidia_gpu_duty_cycle

NVIDIA GPU周期百分比

nvidia_gpu_memory_total_bytes

NVIDIA GPU總記憶體位元組

nvidia_gpu_memory_used_bytes

NVIDIA GPU使用記憶體量

nvidia_gpu_num_devices

NVIDIA GPU裝置數量

nvidia_gpu_power_usage_milliwatts

NVIDIA GPU功耗(毫瓦)

nvidia_gpu_temperature_celsius

NVIDIA GPU溫度(攝氏度)

rdma_service_monitor_local_ack_timeout_err

RDMA網路逾時錯誤數

rdma_service_monitor_out_of_seq

RDMA網路資料報文亂序數

rdma_service_monitor_packet_seq_err

RDMA網路發包亂序錯誤數

rdma_service_monitor_rx_bytes

RDMA網路接收吞吐

rdma_service_monitor_rx_packets

RDMA網路接收包數

rdma_service_monitor_tx_bytes

RDMA網路發送吞吐

rdma_service_monitor_tx_packets

RDMA網路發送包數

up

指標採集的串連性

ACK ControlPlane APIServer(包含ACK Pro控制面組件:APIServer、ETCD、Scheduler、KCM、CCM等組件,ACK專有版叢集只包含APIServer)(Job名稱:apiserver)

指標

描述

aggregator_discovery_aggregation_count_total

彙總器發現彙總計數總數

aggregator_openapi_v2_regeneration_count

彙總器OpenAPI V2重產生次數

aggregator_openapi_v2_regeneration_duration

彙總器OpenAPI V2重產生期間

aggregator_unavailable_apiservice

彙總器不可用APIService

aggregator_unavailable_apiservice_count

彙總器不可用APIService計數

aggregator_unavailable_apiservice_total

彙總器不可用APIService總數

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus Agent追加耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus Agent作業發現狀態

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus Agent按目標抓取總數

aliyun_prometheus_agent_target_info

阿里雲Prometheus Agent目標資訊

apiextensions_apiserver_validation_ratcheting_seconds_bucket

APIServer驗證遞增秒數桶

apiextensions_apiserver_validation_ratcheting_seconds_count

APIServer驗證遞增秒數計數

apiextensions_apiserver_validation_ratcheting_seconds_sum

APIServer驗證遞增秒數總和

apiextensions_openapi_v2_regeneration_count

Apiextensions OpenAPI V2重產生次數

apiextensions_openapi_v3_regeneration_count

Apiextensions OpenAPI V3重產生次數

apiserver_accepted_listall_requests_total

APIServer接受listall請求總數

apiserver_admission_controller_admission_duration_seconds_bucket

APIServer准入控制器准入耗時秒數桶

apiserver_admission_controller_admission_duration_seconds_count

APIServer准入控制器准入耗時秒數計數

apiserver_admission_controller_admission_duration_seconds_sum

APIServer准入控制器准入耗時秒數總和

apiserver_admission_step_admission_duration_seconds_bucket

APIServer准入步驟准入耗時秒數桶

apiserver_admission_step_admission_duration_seconds_count

APIServer准入步驟准入耗時秒數計數

apiserver_admission_step_admission_duration_seconds_sum

APIServer准入步驟准入耗時秒數總和

apiserver_admission_step_admission_duration_seconds_summary

APIServer准入步驟准入耗時秒數摘要

apiserver_admission_step_admission_duration_seconds_summary_count

APIServer准入步驟准入耗時秒數摘要計數

apiserver_admission_step_admission_duration_seconds_summary_sum

APIServer准入步驟准入耗時秒數摘要總和

apiserver_admission_webhook_admission_duration_seconds_bucket

APIServer准入Webhook准入耗時秒數桶

apiserver_admission_webhook_admission_duration_seconds_count

APIServer准入Webhook准入耗時秒數計數

apiserver_admission_webhook_admission_duration_seconds_sum

APIServer准入Webhook准入耗時秒數總和

apiserver_admission_webhook_fail_open_count

APIServer准入Webhook故障開放計數

apiserver_admission_webhook_rejection_count

APIServer准入Webhook拒絕計數

apiserver_admission_webhook_request_total

APIServer准入Webhook請求總數

apiserver_audit_error_total

APIServer審計錯誤總數

apiserver_audit_event_total

APIServer審計事件總數

apiserver_audit_level_total

APIServer審計層級總數

apiserver_audit_requests_rejected_total

APIServer審計請求被拒總數

apiserver_authorization_decisions_total

APIServer授權決定總數

apiserver_cache_list_fetched_objects_total

APIServer緩衝列表擷取對象總數

apiserver_cache_list_returned_objects_total

APIServer緩衝列表返回對象總數

apiserver_cache_list_total

APIServer緩衝列表操作總數

apiserver_cacher_received_events

APIServer緩衝接收事件

apiserver_cacher_sended_events_latency_milliseconds_bucket

APIServer緩衝器發送事件延遲的毫秒數分布情況

apiserver_cacher_sended_events_latency_milliseconds_count

APIServer緩衝器發送事件延遲的毫秒數計數

apiserver_cacher_sended_events_latency_milliseconds_sum

APIServer緩衝器發送事件延遲的總毫秒數

apiserver_cacher_watcher_channel_length

APIServer緩衝器觀察者通道長度

apiserver_cel_compilation_duration_seconds_bucket

APIServer CEL編譯期間的秒數分布情況

apiserver_cel_compilation_duration_seconds_count

APIServer CEL編譯次數計數

apiserver_cel_compilation_duration_seconds_sum

APIServer CEL編譯總期間(秒)

apiserver_cel_evaluation_duration_seconds_bucket

APIServer CEL評估期間的秒數分布情況

apiserver_cel_evaluation_duration_seconds_count

APIServer CEL評估次數計數

apiserver_cel_evaluation_duration_seconds_sum

APIServer CEL評估總期間(秒)

apiserver_client_certificate_expiration_seconds_bucket

APIServer用戶端認證到期前剩餘秒數分布情況

apiserver_client_certificate_expiration_seconds_count

APIServer用戶端認證到期前剩餘秒數計數

apiserver_client_certificate_expiration_seconds_sum

APIServer用戶端認證到期前剩餘總秒數

apiserver_clusterip_repair_ip_errors_total

APIServer修複ClusterIP錯誤總數

apiserver_clusterip_repair_reconcile_errors_total

APIServer修複ClusterIP reconcile錯誤總數

apiserver_conversion_webhook_duration_seconds_bucket

APIServer轉換Webhook期間的秒數分布情況

apiserver_conversion_webhook_duration_seconds_count

APIServer轉換Webhook調用次數計數

apiserver_conversion_webhook_duration_seconds_sum

APIServer轉換Webhook總期間(秒)

apiserver_conversion_webhook_request_total

APIServer轉換Webhook請求總數

apiserver_crd_conversion_webhook_duration_seconds_bucket

APIServer CRD轉換Webhook期間的秒數分布情況

apiserver_crd_conversion_webhook_duration_seconds_count

APIServer CRD轉換Webhook調用次數計數

apiserver_crd_conversion_webhook_duration_seconds_sum

APIServer CRD轉換Webhook總期間(秒)

apiserver_crd_webhook_conversion_duration_seconds_bucket

APIServer CRD Webhook轉換期間的秒數分布情況

apiserver_crd_webhook_conversion_duration_seconds_count

APIServer CRD Webhook轉換次數計數

apiserver_crd_webhook_conversion_duration_seconds_sum

APIServer CRD Webhook轉換總期間(秒)

apiserver_created_watchers

APIServer建立的觀察者數量

apiserver_current_inflight_requests

APIServer當前正在處理的請求數量

apiserver_current_inqueue_requests

APIServer當前隊列中的請求數量

apiserver_dropped_requests_total

APIServer丟棄的請求總數

apiserver_encryption_config_controller_automatic_reload_failures_total

APIServer加密配置控制器自動重載失敗次數

apiserver_encryption_config_controller_automatic_reload_success_total

APIServer加密配置控制器自動重載成功次數

apiserver_envelope_encryption_dek_cache_fill_percent

APIServer信封加密DEK緩衝填充百分比

apiserver_error_watchers

APIServer錯誤觀察者數量

apiserver_flowcontrol_current_executing_requests

APIServer流控當前執行的請求數

apiserver_flowcontrol_current_executing_seats

APIServer流控當前佔用的座位元

apiserver_flowcontrol_current_inqueue_requests

APIServer流控隊列中的請求數

apiserver_flowcontrol_current_inqueue_seats

APIServer流控隊列中的座位元

apiserver_flowcontrol_current_limit_seats

APIServer流控當前限制的座位元

apiserver_flowcontrol_current_r

APIServer流控當前R值

apiserver_flowcontrol_demand_seats_average

APIServer流控需求座位的平均值

apiserver_flowcontrol_demand_seats_bucket

APIServer流控需求座位分布情況

apiserver_flowcontrol_demand_seats_count

APIServer流控需求座位計數

apiserver_flowcontrol_demand_seats_high_watermark

APIServer流控需求座位高水位標記

apiserver_flowcontrol_demand_seats_smoothed

APIServer流控需求座位平滑值

apiserver_flowcontrol_demand_seats_stdev

APIServer流控需求座位標準差

apiserver_flowcontrol_demand_seats_sum

APIServer流控需求座位總和

apiserver_flowcontrol_dispatch_r

APIServer流控調度R值

apiserver_flowcontrol_dispatched_requests_total

APIServer流控已調度的請求數總量

apiserver_flowcontrol_latest_s

APIServer流控最近的S值界限

apiserver_flowcontrol_lower_limit_seats

APIServer流控下限座位元

apiserver_flowcontrol_next_discounted_s_bounds

APIServer流控下次折後S值界限

apiserver_flowcontrol_next_s_bounds

APIServer流控下次S值界限

apiserver_flowcontrol_nominal_limit_seats

APIServer流控名義上的座位元上限

apiserver_flowcontrol_priority_level_request_count_samples_bucket

APIServer流控優先順序層級請求數樣本分布情況

apiserver_flowcontrol_priority_level_request_count_samples_count

APIServer流控優先順序層級請求數樣本計數

apiserver_flowcontrol_priority_level_request_count_samples_sum

APIServer流控優先順序層級請求數樣本總和

apiserver_flowcontrol_priority_level_request_count_watermarks_bucket

APIServer流控優先順序層級請求數水位標記分布情況

apiserver_flowcontrol_priority_level_request_count_watermarks_count

APIServer流控優先順序層級請求數水位標記計數

apiserver_flowcontrol_priority_level_request_count_watermarks_sum

APIServer流控優先順序層級請求數水位標記總和

apiserver_flowcontrol_priority_level_request_utilization_bucket

APIServer流控優先順序層級請求利用率分布情況

apiserver_flowcontrol_priority_level_request_utilization_count

APIServer流控優先順序層級請求利用率計數

apiserver_flowcontrol_priority_level_request_utilization_sum

APIServer流控優先順序層級請求利用率總和

apiserver_flowcontrol_priority_level_seat_count_samples_bucket

APIServer流控優先順序層級座位元樣本分布情況

apiserver_flowcontrol_priority_level_seat_count_samples_count

APIServer流控優先順序層級座位元樣本計數

apiserver_flowcontrol_priority_level_seat_count_samples_sum

APIServer流控優先順序層級座位元樣本總和

apiserver_flowcontrol_priority_level_seat_count_watermarks_bucket

APIServer流控優先順序層級座位元水位標記分布情況

apiserver_flowcontrol_priority_level_seat_count_watermarks_count

APIServer流控優先順序層級座位元水位標記計數

apiserver_flowcontrol_priority_level_seat_count_watermarks_sum

APIServer流控優先順序層級座位元水位標記總和

apiserver_flowcontrol_priority_level_seat_utilization_bucket

APIServer流控優先順序層級座位利用率分布情況

apiserver_flowcontrol_priority_level_seat_utilization_count

APIServer流控優先順序層級座位利用率計數

apiserver_flowcontrol_priority_level_seat_utilization_sum

APIServer流控優先順序層級座位利用率總和

apiserver_flowcontrol_read_vs_write_current_requests_bucket

APIServer流控讀寫當前請求數量桶

apiserver_flowcontrol_read_vs_write_current_requests_count

APIServer流控讀寫當前請求數量計數

apiserver_flowcontrol_read_vs_write_current_requests_sum

APIServer流控讀寫當前請求數量總和

apiserver_flowcontrol_read_vs_write_request_count_samples_bucket

APIServer流控讀寫請求計數樣本桶

apiserver_flowcontrol_read_vs_write_request_count_samples_count

APIServer流控讀寫請求計數樣本數量

apiserver_flowcontrol_read_vs_write_request_count_samples_sum

APIServer流控讀寫請求計數樣本總和

apiserver_flowcontrol_read_vs_write_request_count_watermarks_bucket

APIServer流控讀寫請求計數浮水印桶

apiserver_flowcontrol_read_vs_write_request_count_watermarks_count

APIServer流控讀寫請求計數浮水印數量

apiserver_flowcontrol_read_vs_write_request_count_watermarks_sum

APIServer流控讀寫請求計數浮水印總和

apiserver_flowcontrol_rejected_requests_total

APIServer流控拒絕請求總數

apiserver_flowcontrol_request_concurrency_in_use

APIServer流控請求並發請求

apiserver_flowcontrol_request_concurrency_limit

APIServer流控請求並發限制

apiserver_flowcontrol_request_dispatch_no_accommodation_total

APIServer流控請求調度無法容納總數

apiserver_flowcontrol_request_execution_seconds_bucket

APIServer流控請求執行秒數桶

apiserver_flowcontrol_request_execution_seconds_count

APIServer流控請求執行秒數計數

apiserver_flowcontrol_request_execution_seconds_sum

APIServer流控請求執行秒數總和

apiserver_flowcontrol_request_queue_length_after_enqueue_bucket

APIServer流控請求隊列入隊後長度桶

apiserver_flowcontrol_request_queue_length_after_enqueue_count

APIServer流控請求隊列入隊後長度計數

apiserver_flowcontrol_request_queue_length_after_enqueue_sum

APIServer流控請求隊列入隊後長度總和

apiserver_flowcontrol_request_wait_duration_seconds_bucket

APIServer流控請求等待時間長度秒數桶

apiserver_flowcontrol_request_wait_duration_seconds_count

APIServer流控請求等待時間長度秒數計數

apiserver_flowcontrol_request_wait_duration_seconds_sum

APIServer流控請求等待時間長度秒數總和

apiserver_flowcontrol_seat_fair_frac

APIServer包含了上一個借用調整期間確定的公平分配比例

apiserver_flowcontrol_target_seats

APIServer流控目標座位元

apiserver_flowcontrol_upper_limit_seats

APIServer流控上限座位元

apiserver_flowcontrol_watch_count_samples_bucket

APIServer流控觀察計數樣本桶

apiserver_flowcontrol_watch_count_samples_count

APIServer流控觀察計數樣本數量

apiserver_flowcontrol_watch_count_samples_sum

APIServer流控觀察計數樣本總和

apiserver_flowcontrol_work_estimated_seats_bucket

APIServer流控工作預估座位元桶

apiserver_flowcontrol_work_estimated_seats_count

APIServer流控工作預估座位元計數

apiserver_flowcontrol_work_estimated_seats_sum

APIServer流控工作預估座位元總和

apiserver_init_events_total

APIServer初始化事件總數

apiserver_kube_aggregator_x509_insecure_sha1_total

使用不安全SHA1簽名的請求數

apiserver_kube_aggregator_x509_missing_san_total

APIServerkube彙總器x509缺失SAN總計

apiserver_longrunning_gauge

APIServer長時間運行計量器

apiserver_longrunning_requests

APIServer長時間運行請求

apiserver_nodeport_repair_reconcile_errors_total

APIServer節點連接埠修複協調錯誤總數

apiserver_realtime_watchers

APIServer即時觀察者數量

apiserver_registered_watchers

APIServer登入觀察者數量

apiserver_request_aborts_total

APIServer請求中止總數

apiserver_request_body_size_bytes_bucket

APIServer請求體大小位元組桶

apiserver_request_body_size_bytes_count

APIServer請求體大小位元組計數

apiserver_request_body_size_bytes_sum

APIServer請求體大小位元組總和

apiserver_request_count

APIServer請求數量

apiserver_request_duration_seconds_bucket

APIServer請求處理時間(以秒為單位)的桶

apiserver_request_duration_seconds_count

APIServer請求期間秒數計數

apiserver_request_duration_seconds_sum

APIServer請求期間秒數總和

apiserver_request_filter_duration_seconds_bucket

APIServer請求過濾器期間秒數桶

apiserver_request_filter_duration_seconds_count

APIServer請求過濾器期間秒數計數

apiserver_request_filter_duration_seconds_sum

APIServer請求過濾器期間秒數總和

apiserver_request_latencies_summary

APIServer請求延遲分布摘要

apiserver_request_no_resourceversion_list_total

無資源版本LIST請求總數

apiserver_request_post_timeout_total

API請求POST逾時總數

apiserver_request_sli_duration_seconds_bucket

API請求SLI(服務等級指標)期間秒數桶

apiserver_request_sli_duration_seconds_count

API請求SLI期間秒數計數

apiserver_request_sli_duration_seconds_sum

API請求SLI期間秒數總和

apiserver_request_slo_duration_seconds_bucket

API請求SLO(服務等級目標)期間秒數桶

apiserver_request_slo_duration_seconds_count

API請求SLO期間秒數計數

apiserver_request_slo_duration_seconds_sum

API請求SLO期間秒數總和

apiserver_request_terminations_total

API請求終止總數

apiserver_request_timestamp_comparison_time_bucket

API請求時間戳記比較時間分布桶

apiserver_request_timestamp_comparison_time_count

API請求時間戳記比較樣本計數

apiserver_request_timestamp_comparison_time_sum

API請求時間戳記比較時間總和

apiserver_request_total

API總請求數

apiserver_requested_deprecated_apis

請求已廢棄API的APIServer請求數

apiserver_response_sizes_bucket

API響應大小分布桶

apiserver_response_sizes_count

API響應大小計數

apiserver_response_sizes_sum

API響應大小總和

apiserver_selfrequest_total

APIServer自我請求總數

apiserver_storage_data_key_generation_duration_seconds_bucket

APIServer儲存資料密鑰產生期間秒數桶

apiserver_storage_data_key_generation_duration_seconds_count

APIServer儲存資料密鑰產生期間秒數計數

apiserver_storage_data_key_generation_duration_seconds_sum

APIServer儲存資料密鑰產生期間秒數總和

apiserver_storage_data_key_generation_failures_total

APIServer儲存資料密鑰產生失敗總數

apiserver_storage_db_total_size_in_bytes

APIServer儲存資料庫總大小(位元組)

apiserver_storage_decode_errors_total

APIServer儲存解碼錯誤總數

apiserver_storage_envelope_transformation_cache_misses_total

APIServer儲存信封轉換緩衝未命中總數

apiserver_storage_events_received_total

APIServer儲存接收到的事件總數

apiserver_storage_list_evaluated_objects_total

APIServer儲存列表評估對象總數

apiserver_storage_list_fetched_objects_total

APIServer儲存列表擷取對象總數

apiserver_storage_list_returned_objects_total

APIServer儲存列表返回對象總數

apiserver_storage_list_total

APIServer儲存列表操作總數

apiserver_storage_objects

APIServer儲存物件數量

apiserver_storage_size_bytes

APIServer儲存大小(位元組)

apiserver_terminated_watchers_total

APIServer終止的觀察者總數

apiserver_tls_handshake_errors_total

APIServerTLS握手錯誤請求總數

apiserver_too_large_resourceversion_errors

APIServer資源版本過大錯誤請求數

apiserver_watch_cache_events_dispatched_total

APIServer觀察緩衝分發事件總數

apiserver_watch_cache_events_received_total

APIServer觀察緩衝接收事件總數

apiserver_watch_cache_initializations_total

APIServer觀察緩衝初始化總數

apiserver_watch_cache_read_wait_seconds_bucket

APIServer觀察緩衝讀取等待時間秒數桶

apiserver_watch_cache_read_wait_seconds_count

APIServer觀察緩衝讀取等待時間秒數計數

apiserver_watch_cache_read_wait_seconds_sum

APIServer觀察緩衝讀取等待時間秒數總和

apiserver_watch_cache_watch_cache_initializations_total

APIServer觀察緩衝初始化總數

apiserver_watch_events_sizes_bucket

APIServer觀察事件大小分布桶

apiserver_watch_events_sizes_count

APIServer觀察事件大小計數

apiserver_watch_events_sizes_sum

APIServer觀察事件大小總和

apiserver_watch_events_total

APIServer觀察事件總數

apiserver_webhooks_x509_insecure_sha1_total

使用不安全SHA1簽名的請求數

apiserver_webhooks_x509_missing_san_total

APIServerWebhooks中缺失SAN總計

authenticated_user_requests

經過身分識別驗證的使用者請求總數

authentication_attempts

認證嘗試次數

authentication_duration_seconds_bucket

認證過程期間秒數分布桶

authentication_duration_seconds_count

認證過程期間秒數計數

authentication_duration_seconds_sum

認證過程期間秒數總和

authentication_token_cache_active_fetch_count

認證令牌緩衝主動擷取計數

authentication_token_cache_fetch_total

認證令牌緩衝擷取總數

authentication_token_cache_request_duration_seconds_bucket

認證令牌緩衝請求耗時秒數分布桶

authentication_token_cache_request_duration_seconds_count

認證令牌緩衝請求耗時秒數計數

authentication_token_cache_request_duration_seconds_sum

認證令牌緩衝請求耗時秒數總和

authentication_token_cache_request_total

認證令牌緩衝請求總數

authorization_attempts_total

授權嘗試總數

authorization_duration_seconds_bucket

授權過程期間秒數分布桶

authorization_duration_seconds_count

授權過程期間秒數計數

authorization_duration_seconds_sum

授權過程期間秒數總和

cardinality_enforcement_unexpected_categorizations_total

分類執行意外分類總計

count

計數

cpu_utilization_core

CPU使用率(核心)

disabled_metric_total

禁用指標總數

disabled_metrics_total

禁用指標總數

etcd_bookmark_counts

ETCD書籤計數

etcd_db_total_size_in_bytes

ETCD資料庫總大小(位元組)

etcd_lease_object_counts_bucket

ETCD租約對象計數分布桶

etcd_lease_object_counts_count

ETCD租約對象計數總計

etcd_lease_object_counts_sum

ETCD租約對象計數總和

etcd_object_counts

ETCD對象計數

etcd_request_duration_seconds_bucket

ETCD請求處理時間(以秒為單位)的貯體計數器

etcd_request_duration_seconds_count

ETCD請求期間秒數計數

etcd_request_duration_seconds_sum

ETCD請求期間秒數總和

etcd_request_errors_total

ETCD請求錯誤總數

etcd_requests_total

ETCD請求總數

etcd_watcher_channel_length

ETCD觀察者通道長度

etcd_watcher_received_events

ETCD觀察者接收到的事件

etcd_watcher_sended_events_latency_milliseconds_bucket

ETCD觀察者發送事件延遲毫秒分布桶

etcd_watcher_sended_events_latency_milliseconds_count

ETCD觀察者發送事件延遲毫秒計數

etcd_watcher_sended_events_latency_milliseconds_sum

ETCD觀察者發送事件延遲毫秒總和

field_validation_request_duration_seconds_bucket

欄位驗證請求期間秒數分布桶

field_validation_request_duration_seconds_count

欄位驗證請求期間秒數計數

field_validation_request_duration_seconds_sum

欄位驗證請求期間秒數總和

get_token_count

擷取令牌計數

get_token_fail_count

擷取令牌失敗計數

grpc_client_handled_total

gRPC用戶端:處理總數

grpc_client_msg_received_total

gRPC用戶端:接收訊息總數

grpc_client_msg_sent_total

gRPC用戶端:發送訊息總數

grpc_client_started_total

gRPC用戶端:啟動總數

hidden_metric_total

隱藏指標:總數

hidden_metrics_total

隱藏指標:總數

http_request_duration_microseconds

HTTP請求:期間(微秒)

http_request_size_bytes

HTTP請求:大小(位元組)

http_requests_total

HTTP請求:總數

http_response_size_bytes

HTTP響應:大小(位元組)

job

job名稱

job_instance_mode

job執行個體模式

kube_apiserver_clusterip_allocator_allocated_ips

Kubernetes APIServer:ClusterIP分配器已指派IP數

kube_apiserver_clusterip_allocator_allocation_errors_total

Kubernetes APIServer:ClusterIP分配器分配錯誤總數

kube_apiserver_clusterip_allocator_allocation_total

Kubernetes APIServer:ClusterIP分配器分配總數

kube_apiserver_clusterip_allocator_available_ips

Kubernetes APIServer:ClusterIP分配器可用IP數

kube_apiserver_nodeport_allocator_allocated_ports

Kubernetes APIServer:NodePort分配器已指派連接埠數

kube_apiserver_nodeport_allocator_allocation_errors_total

Kubernetes APIServer:NodePort分配器分配錯誤總數

kube_apiserver_nodeport_allocator_allocation_total

Kubernetes APIServer:NodePort分配器分配總數

kube_apiserver_nodeport_allocator_available_ports

Kubernetes APIServer:NodePort分配器可用連接埠數

kube_apiserver_pod_logs_backend_tls_failure_total

Kubernetes APIServer:TLS驗證失敗而導致的pods/logs請求總數

kube_apiserver_pod_logs_insecure_backend_total

Kubernetes APIServer:不安全pods/logs請求總數

kube_apiserver_pod_logs_pods_logs_backend_tls_failure_total

Kubernetes APIServer:TLS驗證失敗而導致的pods/logs請求總數

kube_apiserver_pod_logs_pods_logs_insecure_backend_total

Kubernetes APIServer:不安全pods/logs請求總數

kubelet_container_log_filesystem_used_bytes

Kubelet:容器記錄檔系統使用位元組數

kubelet_node_name

Kubelet:節點名稱

kubelet_pleg_relist_duration_seconds_bucket

Kubelet:PLEG重列期間秒數分桶

kubelet_pod_worker_duration_seconds_bucket

Kubelet:Pod工作器期間秒數分桶

kubelet_volume_stats_available_bytes

Kubelet:卷統計可用位元組數

kubelet_volume_stats_capacity_bytes

Kubelet:卷統計容量位元組數

kubelet_volume_stats_inodes

Kubelet:卷統計可用inode數

kubelet_volume_stats_inodes_free

Kubelet:卷統計空閑inode數

kubelet_volume_stats_inodes_used

Kubelet:卷統計已用inode數

kubelet_volume_stats_used_bytes

Kubelet:卷統計已用位元組數

kubernetes_build_info

Kubernetes構建資訊

kubernetes_feature_enabled

Kubernetes功能:啟用狀態

last_list_all_response_size_in_bytes

最近一次列表所有響應大小(位元組)

memory_utilization_byte

記憶體利用率:位元組數

node_authorizer_graph_actions_duration_seconds_bucket

節點授權器:圖操作耗時秒數分桶

node_authorizer_graph_actions_duration_seconds_count

節點授權器:圖操作耗時秒數計數

node_authorizer_graph_actions_duration_seconds_sum

節點授權器:圖操作耗時秒數總和

pod_security_evaluations_total

Pod安全評估總次數

pod_security_exemptions_total

Pod安全豁免總次數

process_cpu_seconds_total

進程CPU使用秒數總計

process_max_fds

進程最大檔案描述符數

process_open_fds

進程開啟的檔案描述符數

process_resident_memory_bytes

進程駐留記憶體位元組數

process_start_time_seconds

進程啟動時間(秒)

process_virtual_memory_bytes

進程虛擬記憶體位元組數

process_virtual_memory_max_bytes

進程虛擬記憶體最大位元組數

registered_metric_total

註冊指標:總數

registered_metrics_total

註冊指標:總計

rest_client_exec_plugin_certificate_rotation_age_bucket

REST用戶端外掛程式:認證輪換年齡秒數分桶

rest_client_exec_plugin_certificate_rotation_age_count

REST用戶端外掛程式:認證輪換年齡秒數計數

rest_client_exec_plugin_certificate_rotation_age_sum

REST用戶端外掛程式:認證輪換年齡秒數總和

rest_client_exec_plugin_ttl_seconds

REST用戶端外掛程式:認證TTL秒數

rest_client_request_duration_seconds_bucket

REST用戶端:請求耗時秒數分桶

rest_client_request_duration_seconds_count

REST用戶端:請求耗時秒數計數

rest_client_request_duration_seconds_sum

REST用戶端:請求耗時秒數總和

rest_client_request_latency_seconds_bucket

REST用戶端:請求延遲秒數分桶

rest_client_request_size_bytes_bucket

REST用戶端:請求大小(位元組)分桶

rest_client_request_size_bytes_count

REST用戶端:請求大小(位元組)計數

rest_client_request_size_bytes_sum

REST用戶端:請求大小(位元組)總和

rest_client_requests_total

REST用戶端:請求總數

rest_client_response_size_bytes_bucket

REST用戶端:響應大小(位元組)分桶

rest_client_response_size_bytes_count

REST用戶端:響應大小(位元組)計數

rest_client_response_size_bytes_sum

REST用戶端:響應大小(位元組)總和

rest_client_transport_cache_entries

REST用戶端:傳輸緩衝條目數

rest_client_transport_create_calls_total

REST用戶端:傳輸建立調用總數

scheduler_pending_pods

調度器:待調度Pod數

scheduler_pod_scheduling_attempts_bucket

調度器:Pod調度嘗試次數分桶

scheduler_scheduler_cache_size

調度器:調度器緩衝大小

scrape_duration_seconds

抓取期間(秒)

scrape_samples_post_metric_relabeling

抓取樣本數(指標重標籤後)

scrape_samples_scraped

抓取樣本數

scrape_series_added

抓取新增序列數

serviceaccount_invalid_legacy_auto_token_uses_total

無效的舊版自動服務賬戶令牌使用次數總計

serviceaccount_legacy_auto_token_uses_total

舊版自動服務賬戶令牌使用次數總計

serviceaccount_legacy_manual_token_uses_total

舊版手動服務賬戶令牌使用次數總計

serviceaccount_legacy_tokens_total

舊版服務賬戶令牌總數

serviceaccount_stale_tokens_total

陳舊的服務賬戶令牌總數

serviceaccount_valid_tokens_total

有效服務賬戶令牌總數

ssh_tunnel_open_count

SSH隧道開啟計數

ssh_tunnel_open_fail_count

SSH隧道開啟失敗計數

up

指標採集的串連性

watch_cache_capacity

監控緩衝容量

watch_cache_capacity_decrease_total

監控緩衝容量減少總計

watch_cache_capacity_increase_total

監控緩衝容量增加總計

workqueue_adds_total

工作隊列添加總數

workqueue_depth

工作隊列深度

workqueue_longest_running_processor_seconds

工作隊列中最長運行處理器時間(秒)

workqueue_queue_duration_seconds_bucket

工作隊列排隊時間長度(秒)分位桶

workqueue_queue_duration_seconds_count

工作隊列排隊時間長度(秒)計數

workqueue_queue_duration_seconds_sum

工作隊列排隊時間長度(秒)總和

workqueue_retries_total

工作隊列重試總數

workqueue_unfinished_work_seconds

工作隊列未完成工作時間長度(秒)

workqueue_work_duration_seconds_bucket

工作隊列工作時間長度(秒)分位桶

workqueue_work_duration_seconds_count

工作隊列工作時間長度(秒)計數

workqueue_work_duration_seconds_sum

工作隊列工作時間長度(秒)總和

Node Exporter(Job名稱:node-exporter)

指標

描述

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

job

job名稱

node_boot_time_seconds

節點啟動時間(秒)

node_context_switches_total

節點環境切換總數

node_cpu_seconds_total

節點CPU使用時間總計

node_disk_io_now

節點磁碟I/O當前量

node_disk_io_time_seconds_total

節點磁碟I/O時間總計(秒)

node_disk_io_time_weighted_seconds_total

節點磁碟I/O加權時間總計(秒)

node_disk_read_bytes_total

節點磁碟讀取位元組總計

node_disk_read_time_seconds_total

節點磁碟讀取時間總計(秒)

node_disk_reads_completed_total

節點磁碟讀取完成總數

node_disk_reads_merged_total

節點磁碟讀取合并總數

node_disk_write_time_seconds_total

節點磁碟寫入時間總秒數

node_disk_writes_completed_total

節點磁碟寫入完成總數

node_disk_writes_merged_total

節點磁碟寫入合并總數

node_disk_written_bytes_total

節點磁碟寫入位元組總數

node_exporter_build_info

節點匯出器構建資訊

node_filefd_allocated

節點檔案描述符已指派

node_filefd_maximum

節點檔案描述符最大值

node_filesystem_avail_bytes

節點檔案系統可用位元組數

node_filesystem_free_bytes

節點檔案系統空閑位元組數

node_filesystem_size_bytes

節點檔案系統總大小位元組數

node_intr_total

節點中斷總數

node_load1

節點1分鐘負載

node_load15

節點15分鐘負載

node_load5

節點5分鐘負載

node_memory_MemAvailable_bytes

節點可用記憶體大小(位元組)

node_memory_MemFree_bytes

節點空閑記憶體大小(位元組)

node_memory_MemTotal_bytes

節點總記憶體大小(位元組)

node_memory_Slab_bytes

節點Slab記憶體大小(位元組)

node_memory_SReclaimable_bytes

節點SReclaimable記憶體大小(位元組)

node_netstat_Tcp_InErrs

TCP接收錯誤數

node_netstat_Tcp_InSegs

TCP接收資料區段數

node_netstat_Tcp_OutSegs

TCP發送資料區段數

node_netstat_Tcp_PassiveOpens

TCP被動開啟串連數

node_netstat_Tcp_RetransSegs

TCP重傳資料區段數

node_network_receive_bytes_total

累計接收位元組總數

node_network_receive_drop_total

接收丟包總數

node_network_receive_errs_total

接收錯誤總數

node_network_receive_packets_total

接收資料包總數

node_network_transmit_bytes_total

累計發送位元組總數

node_network_transmit_drop_total

發送丟包總數

node_network_transmit_errs_total

發送錯誤總數

node_network_transmit_packets_total

發送資料包總數

node_network_up

網路介面是否啟用

node_processes_max_processes

最大進程數

node_processes_max_threads

最大線程數

node_processes_pids

進程ID數

node_processes_state

進程狀態分布

node_processes_threads

線程數

node_schedstat_running_seconds_total

調度統計-運行秒總數

node_sockstat_TCP_alloc

TCP通訊端分配數

node_sockstat_TCP_inuse

TCP通訊端使用中

node_sockstat_TCP_mem

TCP通訊端記憶體使用量量

node_sockstat_TCP_mem_bytes

TCP通訊端記憶體使用量位元組數

node_sockstat_TCP_tw

TCP TIME_WAIT通訊端數

node_time_zone_offset_seconds

時區位移秒數

node_timex_offset_seconds

時間位移(秒)

node_timex_sync_status

時鐘同步狀態

node_uname_info

系統資訊(uname)

node_vmstat_pgfault

VM統計-頁故障次數

node_vmstat_pgmajfault

VM統計-重大頁故障次數

node_vmstat_pgpgin

VM統計-頁入次數

node_vmstat_pgpgout

VM統計-頁出次數

up

指標採集的串連性

kube-state-metrics(Job名稱:_kube-state-metrics)

指標

描述

kube_configmap_info

Kubernetes ConfigMap資訊

kube_cronjob_annotations

Kubernetes CronJob註解

kube_cronjob_created

Kubernetes CronJob建立時間

kube_cronjob_info

Kubernetes CronJob資訊

kube_cronjob_labels

Kubernetes CronJob標籤

kube_cronjob_metadata_resource_version

Kubernetes CronJob中繼資料資源版本

kube_cronjob_next_schedule_time

Kubernetes CronJob下次調度時間

kube_cronjob_spec_failed_job_history_limit

Kubernetes CronJob失敗作業歷史保留限制

kube_cronjob_spec_starting_deadline_seconds

Kubernetes CronJob啟動期限秒數

kube_cronjob_spec_successful_job_history_limit

Kubernetes CronJob成功作業歷史保留限制

kube_cronjob_spec_suspend

Kubernetes CronJob暫停狀態

kube_cronjob_status_active

Kubernetes CronJob活躍作業數

kube_cronjob_status_last_schedule_time

Kubernetes CronJob上一次調度時間

kube_cronjob_status_last_successful_time

Kubernetes CronJob上一次成功執行時間

kube_daemonset_created

Kubernetes DaemonSet建立時間

kube_daemonset_status_current_number_scheduled

Kubernetes DaemonSet當前計劃的節點數量

kube_daemonset_status_desired_number_scheduled

Kubernetes DaemonSet期望計劃的節點數量

kube_daemonset_status_number_available

Kubernetes DaemonSet可用節點數量

kube_daemonset_status_number_misscheduled

Kubernetes DaemonSet錯過的調度節點數量

kube_daemonset_status_number_ready

Kubernetes DaemonSet就緒節點數量

kube_daemonset_status_number_unavailable

Kubernetes DaemonSet不可用節點數量

kube_daemonset_status_updated_number_scheduled

Kubernetes DaemonSet已更新的計劃節點數量

kube_daemonset_updated_number_scheduled

Kubernetes DaemonSet已更新的計劃節點數量

kube_deployment_created

Kubernetes Deployment建立時間

kube_deployment_labels

Kubernetes Deployment標籤

kube_deployment_metadata_generation

Kubernetes Deployment中繼資料產生代數

kube_deployment_spec_replicas

Kubernetes Deployment規格副本數

kube_deployment_spec_strategy_rollingupdate_max_unavailable

Kubernetes Deployment變換最大不可用數

kube_deployment_status_observed_generation

Kubernetes Deployment觀察到的產生代數

kube_deployment_status_replicas

Kubernetes Deployment副本總數

kube_deployment_status_replicas_available

Kubernetes Deployment可用副本數

kube_deployment_status_replicas_ready

Kubernetes Deployment就緒副本數

kube_deployment_status_replicas_unavailable

Kubernetes Deployment不可用副本數

kube_deployment_status_replicas_updated

Kubernetes Deployment已更新副本數

kube_horizontalpodautoscaler_info

Kubernetes HorizontalPodAutoscaler資訊

kube_horizontalpodautoscaler_labels

Kubernetes HorizontalPodAutoscaler標籤

kube_horizontalpodautoscaler_metadata_generation

Kubernetes HorizontalPodAutoscaler中繼資料產生代數

kube_horizontalpodautoscaler_spec_max_replicas

Kubernetes HorizontalPodAutoscaler規格最大副本數

kube_horizontalpodautoscaler_spec_min_replicas

Kubernetes HorizontalPodAutoscaler規格最小副本數

kube_horizontalpodautoscaler_spec_target_metric

Kubernetes HorizontalPodAutoscaler目標指標

kube_horizontalpodautoscaler_status_condition

Kubernetes HorizontalPodAutoscaler狀態條件

kube_horizontalpodautoscaler_status_current_replicas

Kubernetes HorizontalPodAutoscaler當前副本數

kube_horizontalpodautoscaler_status_desired_replicas

Kubernetes HorizontalPodAutoscaler期望副本數

kube_hpa_labels

kube_hpa標籤

kube_hpa_metadata_generation

Kubernetes HorizontalPodAutoscaler中繼資料產生代數

kube_hpa_spec_max_replicas

Kubernetes HorizontalPodAutoscaler最大副本數規格

kube_hpa_spec_min_replicas

Kubernetes HorizontalPodAutoscaler最小副本數規格

kube_hpa_spec_target_metric

Kubernetes HorizontalPodAutoscaler目標指標

kube_hpa_status_condition

Kubernetes HorizontalPodAutoscaler狀態條件

kube_hpa_status_current_replicas

Kubernetes HorizontalPodAutoscaler當前副本數狀態

kube_hpa_status_desired_replicas

Kubernetes HorizontalPodAutoscaler期望副本數狀態

kube_ingress_info

Ingress資訊

kube_job_created

job建立時間

kube_job_failed

job失敗總數

kube_job_info

job資訊

kube_job_spec_completions

job完成次數規格

kube_job_status_active

job活躍狀態數

kube_job_status_failed

job失敗狀態數

kube_job_status_succeeded

job成功狀態數

kube_namespace_created

命名空間建立時間

kube_namespace_labels

命名空間標籤

kube_namespace_status_phase

命名空間狀態階段

kube_node_info

節點資訊

kube_node_labels

節點標籤

kube_node_spec_taint

節點汙點配置

kube_node_spec_unschedulable

節點是否可調度標誌

kube_node_status_allocatable

節點可分配資源量

kube_node_status_allocatable_cpu_cores

節點可分配CPU核心數

kube_node_status_allocatable_memory_bytes

節點可分配記憶體位元組數

kube_node_status_allocatable_pods

節點可分配Pod數量

kube_node_status_capacity

節點容量

kube_node_status_capacity_cpu_cores

節點容量CPU核心數

kube_node_status_capacity_memory_bytes

節點容量記憶體位元組數

kube_node_status_capacity_pods

節點容量Pod數量

kube_node_status_condition

節點狀態條件

kube_persistentvolume_status_phase

持久卷狀態階段

kube_persistentvolumeclaim_info

持久卷聲明資訊

kube_persistentvolumeclaim_resource_requests_storage_bytes

持久卷聲明儲存資源請求量

kube_persistentvolumeclaim_status_phase

持久卷聲明狀態階段

kube_pod_completion_time

Pod完成時間

kube_pod_container_info

Pod容器資訊

kube_pod_container_resource_limits

Pod容器資源限制

kube_pod_container_resource_limits_cpu_cores

Pod容器資源限制CPU核心數

kube_pod_container_resource_limits_memory_bytes

Pod容器資源限制記憶體位元組數

kube_pod_container_resource_requests

Pod容器資源請求

kube_pod_container_resource_requests_cpu_cores

Pod容器資源請求CPU核心數

kube_pod_container_resource_requests_memory_bytes

Pod容器資源請求記憶體位元組數

kube_pod_container_status_last_terminated_reason

Pod容器最後終止原因

kube_pod_container_status_ready

Pod容器就緒狀態

kube_pod_container_status_restarts_total

Pod容器重啟總數

kube_pod_container_status_running

Pod容器運行狀態

kube_pod_container_status_terminated

Pod容器終止狀態

kube_pod_container_status_terminated_reason

Pod容器終止原因

kube_pod_container_status_waiting

Pod容器等待狀態

kube_pod_container_status_waiting_reason

Pod容器等待原因

kube_pod_created

Pod建立時間

kube_pod_deletion_timestamp

Pod刪除時間戳記

kube_pod_info

Pod資訊

kube_pod_labels

Pod標籤

kube_pod_owner

Pod所屬對象

kube_pod_start_time

Pod啟動時間

kube_pod_status_container_ready_time

Pod狀態容器就緒時間

kube_pod_status_initialized_time

Pod狀態初始化完成時間

kube_pod_status_phase

Pod狀態階段

kube_pod_status_ready

Pod就緒狀態

kube_pod_status_ready_time

Pod就緒時間

kube_pod_status_reason

Pod狀態原因

kube_pod_status_scheduled_time

Pod調度時間

kube_pod_status_unschedulable

Pod未調度標誌

kube_replicaset_owner

複本集所屬對象

kube_replicaset_status_ready_replicas

複本集就緒副本數

kube_resource_relationship

資源關係

kube_resourcequota

資源配額

kube_resourcequota_created

資源配額建立時間

kube_secret_info

secret資訊

kube_service_info

服務資訊

kube_service_spec_type

服務類型規格

kube_service_status_load_balancer_ingress

服務狀態負載平衡入口資訊

kube_statefulset_created

有狀態複本集建立時間

kube_statefulset_metadata_generation

有狀態複本集中繼資料產生代數

kube_statefulset_replicas

有狀態複本集副本數

kube_statefulset_status_replicas

有狀態複本集狀態副本數

kube_statefulset_status_replicas_available

有狀態複本集狀態可用副本數

kube_statefulset_status_replicas_ready

有狀態複本集狀態就緒副本數

kube_statefulset_status_replicas_updated

有狀態複本集狀態更新副本數

rest_client_requests_total

REST用戶端請求總數

up

指標採集的串連性

workqueue_adds_total

工作隊列添加總數

workqueue_depth

工作隊列深度

workqueue_queue_duration_seconds_bucket

工作隊列排隊時間長度秒數分布

kube-events(Job名稱:_arms/kube-event)

指標

描述

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrape_custom_error

阿里雲Prometheus探針自訂採集錯誤數

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

eventer_events_error_total

事件處理錯誤總數

eventer_events_normal_total

事件正常總數

eventer_events_warning_total

事件警告總數

eventer_exporter_duration_milliseconds_count

事件匯出耗時毫秒數的樣本數

eventer_exporter_duration_milliseconds_sum

事件匯出耗時毫秒數總和

eventer_manager_last_time_seconds

事件管理器最近操作時間秒數

eventer_scraper_duration_milliseconds_count

事件抓取期間(毫秒)計數

eventer_scraper_duration_milliseconds_sum

事件抓取期間(毫秒)總和

eventer_scraper_events_total_number

事件抓取事件總數

eventer_scraper_last_time_seconds

事件抓取最後執行時間(秒)

up

指標採集的串連性

CoreDNS(Job名稱:arms-ack-coredns)

指標

描述

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrape_custom_error

阿里雲Prometheus探針自訂採集錯誤數

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

coredns_autopath_success_count_total

CoreDNS自動路徑成功次數總計

coredns_autopath_success_total

CoreDNS自動路徑成功次數總計

coredns_build_info

CoreDNS構建資訊

coredns_cache_drops_total

CoreDNS緩衝丟棄次數總計

coredns_cache_entries

CoreDNS緩衝條目數

coredns_cache_evictions_total

CoreDNS緩衝逐出次數總計

coredns_cache_hits_total

CoreDNS快取命中次數總計

coredns_cache_misses_total

CoreDNS緩衝未叫用次數總計

coredns_cache_requests_total

CoreDNS緩衝請求總數

coredns_cache_size

CoreDNS緩衝大小

coredns_dns_do_requests_total

CoreDNS DNS DO請求總數

coredns_dns_request_count_total

CoreDNS DNS請求計數總計

coredns_dns_request_duration_seconds_bucket

CoreDNS DNS請求期間(秒)分位元

coredns_dns_request_duration_seconds_count

CoreDNS DNS請求期間(秒)計數

coredns_dns_request_duration_seconds_sum

CoreDNS DNS請求期間(秒)總和

coredns_dns_request_size_bytes_bucket

CoreDNS DNS請求大小(位元組)分位元

coredns_dns_request_size_bytes_count

CoreDNS DNS請求大小(位元組)計數

coredns_dns_request_size_bytes_sum

CoreDNS DNS請求大小(位元組)總和

coredns_dns_request_type_count_total

CoreDNS DNS請求類型計數總計

coredns_dns_requests_total

CoreDNS DNS請求總數

coredns_dns_response_rcode_count_total

CoreDNS DNS響應代碼計數總計

coredns_dns_response_size_bytes_bucket

CoreDNS DNS響應大小(位元組)分位元

coredns_dns_response_size_bytes_count

CoreDNS DNS響應大小(位元組)計數

coredns_dns_response_size_bytes_sum

CoreDNS DNS響應大小(位元組)總和

coredns_dns_responses_total

CoreDNS DNS響應總數

coredns_forward_conn_cache_hits_total

CoreDNS轉寄串連快取命中次數總計

coredns_forward_conn_cache_misses_total

CoreDNS轉寄串連緩衝未叫用次數總計

coredns_forward_healthcheck_broken_total

CoreDNS轉寄健全狀態檢查失敗總數

coredns_forward_healthcheck_failure_count_total

CoreDNS轉寄健全狀態檢查失敗計數總計

coredns_forward_healthcheck_failures_total

CoreDNS轉寄健全狀態檢查故障總數

coredns_forward_max_concurrent_rejects_total

CoreDNS轉寄最大並發拒絕次數總計

coredns_forward_request_count_total

CoreDNS轉寄請求計數總計

coredns_forward_request_duration_seconds_bucket

CoreDNS轉寄請求期間(秒)分位元

coredns_forward_request_duration_seconds_count

CoreDNS轉寄請求期間(秒)計數

coredns_forward_request_duration_seconds_sum

CoreDNS轉寄請求期間(秒)總和

coredns_forward_requests_total

CoreDNS轉寄請求總數

coredns_forward_response_rcode_count_total

CoreDNS轉寄響應代碼計數總計

coredns_forward_responses_total

CoreDNS轉寄響應總數

coredns_forward_sockets_open

CoreDNS轉寄開啟的通訊端數

coredns_health_request_duration_seconds_bucket

CoreDNS健全狀態檢查請求期間(秒)分位元

coredns_health_request_duration_seconds_count

CoreDNS健全狀態檢查請求期間(秒)計數

coredns_health_request_duration_seconds_sum

CoreDNS健全狀態檢查請求期間(秒)總和

coredns_health_request_failures_total

CoreDNS健全狀態檢查請求失敗總數

coredns_hosts_entries

CoreDNS主機條目數

coredns_hosts_reload_timestamp_seconds

CoreDNS主機重新載入時間戳記(秒)

coredns_kubernetes_dns_programming_duration_seconds_bucket

CoreDNS Kubernetes DNS編程期間(秒)分位元

coredns_kubernetes_dns_programming_duration_seconds_count

CoreDNS Kubernetes DNS編程期間(秒)計數

coredns_kubernetes_dns_programming_duration_seconds_sum

CoreDNS Kubernetes DNS編程耗時總和

coredns_local_localhost_requests_total

CoreDNS本地localhost請求總數

coredns_panic_count_total

CoreDNS panic總數

coredns_panics_total

CoreDNS panic計數總計

coredns_plugin_enabled

CoreDNS外掛程式啟用狀態

coredns_reload_failed_total

CoreDNS重載失敗次數總計

coredns_reload_version_info

CoreDNS重載版本資訊

coredns_template_matches_total

CoreDNS模板匹配總數

up

指標採集的串連性

CSI(叢集維度)(Job名稱:k8s-csi-cluster-pv)

指標

描述

alibaba_cloud_storage_operator_build_info

阿里雲儲存營運構建資訊

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrape_custom_error

阿里雲Prometheus探針自訂採集錯誤數

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

cluster_pv_detail_num_total

叢集PV詳細資料總數

cluster_pv_status_num_total

叢集PV狀態總數

cluster_pvc_detail_num_total

叢集PVC詳細資料總數

cluster_pvc_status_num_total

叢集PVC狀態總數

cluster_scrape_collector_duration_seconds

叢集抓取收集器耗時(秒)

cluster_scrape_collector_success

叢集抓取收集器成功次數

up

指標採集的串連性

CSI(節點維度)(Job名稱:k8s-csi-node-pv)

指標

描述

alibaba_cloud_csi_driver_build_info

阿里雲CSI驅動構建資訊

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrape_custom_error

阿里雲Prometheus探針自訂採集錯誤數

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

cluster_scrape_collector_duration_seconds

叢集抓取收集器耗時(秒)

cluster_scrape_collector_success

叢集抓取收集器成功次數

container_fs_available_bytes

容器檔案系統可用位元組數

container_fs_inodes_free

容器檔案系統可用inode數

container_fs_inodes_total

容器檔案系統inode總數

container_fs_inodes_used

容器檔案系統已用inode數

container_fs_limit_bytes

容器檔案系統限制位元組數

container_fs_usage_bytes

容器檔案系統使用位元組數

ephemeral_storage_pod_available_bytes

臨時儲存Pod可用位元組數

ephemeral_storage_pod_inodes_free

臨時儲存Pod可用inode數

ephemeral_storage_pod_inodes_total

臨時儲存Pod inode總數

ephemeral_storage_pod_inodes_used

臨時儲存Pod已用inode數

ephemeral_storage_pod_limit_bytes

臨時儲存Pod限制位元組數

ephemeral_storage_pod_usage_bytes

臨時儲存Pod使用位元組數

node_volume_backend_posix_access_total_counter

節點卷後端POSIX訪問計數器總計

node_volume_backend_posix_getattr_total_counter

節點卷後端POSIX getattr調用計數器總計

node_volume_backend_posix_getmode_total_counter

節點卷後端POSIX擷取模式計數器總計

node_volume_backend_posix_link_total_counter

節點卷後端POSIX連結操作計數器總計

node_volume_backend_posix_lookup_total_counter

節點卷後端POSIX尋找操作計數器總計

node_volume_backend_posix_mknod_total_counter

節點卷後端POSIX建立節點操作計數器總計

node_volume_backend_posix_readdir_total_counter

節點卷後端POSIX讀目錄操作計數器總計

node_volume_backend_posix_readlink_total_counter

節點卷後端POSIX讀連結操作計數器總計

node_volume_backend_posix_remove_total_counter

節點卷後端POSIX刪除操作計數器總計

node_volume_backend_posix_rename_total_counter

節點卷後端POSIX重新命名操作計數器總計

node_volume_backend_posix_setattr_total_counter

節點卷後端POSIX設定屬性操作計數器總計

node_volume_backend_posix_statfs_total_counter

節點卷後端POSIX統計檔案系統操作計數器總計

node_volume_backend_read_bytes_total_counter

節點卷後端讀取位元組總計計數器

node_volume_backend_read_completed_total_counter

節點卷後端讀請求完成總數

node_volume_backend_read_time_milliseconds_total_counter

節點卷後端讀取時間毫秒總數

node_volume_backend_write_bytes_total_counter

節點卷後端寫入位元組總數

node_volume_backend_write_completed_total_counter

節點卷後端寫請求完成總數

node_volume_backend_write_time_milliseconds_total_counter

節點卷後端寫入時間毫秒總數

node_volume_capacity_bytes_available

節點卷可用容量(位元組)

node_volume_capacity_bytes_available_counter

節點卷可用容量(位元組)

node_volume_capacity_bytes_total

節點卷總容量位元組數

node_volume_capacity_bytes_total_counter

節點卷總容量位元組數計數器

node_volume_capacity_bytes_used

節點卷已用容量位元組數

node_volume_capacity_bytes_used_counter

節點卷已用容量位元組數計數器

node_volume_hot_spot_head_file_top

節點卷熱點頭部檔案排行

node_volume_hot_spot_read_file_top

節點卷熱點讀取檔案排行

node_volume_hot_spot_write_file_top

節點卷熱點寫入檔案排行

node_volume_inode_bytes_available_counter

節點卷inode可用位元組計數器

node_volume_inode_bytes_total_counter

節點卷inode總位元組計數器

node_volume_inode_bytes_used_counter

節點卷inode已用位元組計數器

node_volume_inodes_available

節點卷可用inode數

node_volume_inodes_total

節點卷總inode數

node_volume_inodes_used

節點卷已用inode數

node_volume_io_now

節點卷當前I/O數量

node_volume_io_time_seconds_total

節點卷I/O時間總秒數

node_volume_oss_delete_object_total_counter

節點卷OSS刪除對象總數計數器

node_volume_oss_get_object_total_counter

節點卷OSS擷取對象總數計數器

node_volume_oss_head_object_total_counter

節點卷OSS頭部對象總數計數器

node_volume_oss_post_object_total_counter

節點卷OSS POST對象總數計數器

node_volume_oss_put_object_total_counter

節點卷OSS PUT對象總數計數器

node_volume_posix_access_total_counter

節點卷POSIX訪問總數計數器

node_volume_posix_chmod_total_counter

節點卷POSIX更改模式總數計數器

node_volume_posix_chown_total_counter

節點卷POSIX更改所有者總數計數器

node_volume_posix_create_total_counter

節點卷POSIX建立總數計數器

node_volume_posix_flush_total_counter

節點卷POSIX重新整理總數計數器

node_volume_posix_fsync_total_counter

節點卷POSIX同步總數計數器

node_volume_posix_mkdir_total_counter

節點卷POSIX建立目錄總數計數器

node_volume_posix_open_total_counter

節點卷POSIX開啟總數計數器

node_volume_posix_opendir_total_counter

節點卷POSIX開啟目錄總數計數器

node_volume_posix_read_total_counter

節點卷POSIX讀取總數計數器

node_volume_posix_readdir_total_counter

節點卷POSIX讀取目錄總數計數器

node_volume_posix_release_total_counter

節點卷POSIX釋放總數計數器

node_volume_posix_rename_total_counter

節點卷POSIX重新命名總數計數器

node_volume_posix_rmdir_total_counter

節點卷POSIX刪除目錄總數計數器

node_volume_posix_truncate_total_counter

節點卷POSIX截斷總數計數器

node_volume_posix_write_total_counter

節點卷POSIX寫入總數計數器

node_volume_read_bytes_total

節點卷讀取位元組總數

node_volume_read_bytes_total_counter

節點卷讀取位元組總數計數器

node_volume_read_completed_total

節點卷讀請求完成總數

node_volume_read_completed_total_counter

節點卷讀請求完成總數計數器

node_volume_read_merged_total

節點卷讀取合併作業總數

node_volume_read_queue_time_milliseconds_total

節點卷讀取隊列時間毫秒總數

node_volume_read_rtt_time_milliseconds_total

節點卷讀取往返時間毫秒總數

node_volume_read_sent_bytes_total

節點卷讀取發送位元組總數

node_volume_read_time_milliseconds_total

節點卷讀取時間毫秒總數

node_volume_read_time_milliseconds_total_counter

節點卷讀取時間毫秒總數計數器

node_volume_read_timeouts_total

節點卷讀取逾時總數

node_volume_read_transmissions_total

節點卷讀取傳輸總數

node_volume_vg_free_bytes

節點卷VG空閑位元組數

node_volume_vg_size_bytes

節點卷VG總位元組數

node_volume_write_bytes_total

節點卷寫入位元組總數

node_volume_write_bytes_total_counter

節點卷寫入位元組總數計數器

node_volume_write_completed_total

節點卷寫請求完成總數

node_volume_write_completed_total_counter

節點卷寫請求完成總數計數器

node_volume_write_merged_total

節點卷寫入合併作業總數

node_volume_write_queue_time_milliseconds_total

節點卷寫入隊列時間毫秒總數

node_volume_write_recv_bytes_total

節點卷寫入接收位元組總數

node_volume_write_rtt_time_milliseconds_total

節點卷寫入往返時間毫秒總數

node_volume_write_time_milliseconds_total

節點卷寫入時間毫秒總數

node_volume_write_time_milliseconds_total_counter

節點卷寫入時間毫秒總數計數器

node_volume_write_timeouts_total

節點卷寫入逾時總數

node_volume_write_transmissions_total

節點卷寫入傳輸總數

up

指標採集的串連性

GPU-Exporter(Job名稱:gpu-exporter)

指標

描述

DCGM_CUSTOM_ALLOCATE_MODE

表示節點啟動並執行模式,有如下幾種: 0:代表值為None,表示當前節點沒有GPU Pod在運行。 1:代表值為Exclusive,表示None當前節點的GPU Pod以獨佔GPU方式運行。 2:代表值為Share,表示當前節點GPU Pod以共用GPU方式運行。

DCGM_CUSTOM_CONTAINER_CP_ALLOCATED

表示為容器分配的一張GPU卡上部分算力占該GPU卡總算力的比例。值的區間為[0,1]。 獨佔GPU或者共用GPU只申請顯存時,該指標的值為0,表示不限制算力。 假設GPU卡有100算力,為一個容器分配30算力,那麼為該容器分配的算力比例為30/100=0.3。

DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED

表示為容器分配顯存。

DCGM_CUSTOM_DEV_FB_ALLOCATED

表示GPU卡已指派顯存佔總顯存的比例,值的區間為[0,1]。

DCGM_CUSTOM_DEV_FB_TOTAL

表示GPU卡的總顯存。

DCGM_CUSTOM_ILLEGAL_PROCESS_DECODE_UTIL

非法進程解碼利用率

DCGM_CUSTOM_ILLEGAL_PROCESS_ENCODE_UTIL

非法進程編碼利用率

DCGM_CUSTOM_ILLEGAL_PROCESS_MEM_COPY_UTIL

非法進程記憶體複製利用率

DCGM_CUSTOM_ILLEGAL_PROCESS_MEM_USED

非法進程使用的記憶體

DCGM_CUSTOM_ILLEGAL_PROCESS_SM_UTIL

非法進程流式多處理器(SM)利用率

DCGM_CUSTOM_PROCESS_DECODE_UTIL

表示GPU線程的解碼器利用率。

DCGM_CUSTOM_PROCESS_ENCODE_UTIL

表示GPU線程的編碼器利用率。

DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL

表示GPU線程的記憶體拷貝利用率。

DCGM_CUSTOM_PROCESS_MEM_USED

表示GPU線程當前使用的顯存。

DCGM_CUSTOM_PROCESS_SM_UTIL

表示GPU線程的SM利用率。

DCGM_FI_DEV_APP_MEM_CLOCK

表示記憶體應用時鐘頻率。

DCGM_FI_DEV_APP_SM_CLOCK

表示SM應用時鐘頻率。

DCGM_FI_DEV_BAR1_FREE

表示剩餘的BAR1。

DCGM_FI_DEV_BAR1_TOTAL

裝置BAR1總大小(Base Address Register 1,用於映射GPU記憶體到系統地址空間)

DCGM_FI_DEV_BAR1_USED

表示已使用的BAR1。

DCGM_FI_DEV_BOARD_LIMIT_VIOLATION

表示由於電路板限制而導致的違規,該值為違規的時間。

DCGM_FI_DEV_CLOCK_THROTTLE_REASONS

表示時鐘慢下來的原因。

DCGM_FI_DEV_COUNT

裝置數量

DCGM_FI_DEV_DEC_UTIL

表示解碼器利用率。

DCGM_FI_DEV_ENC_UTIL

表示編碼器利用率。

DCGM_FI_DEV_FB_FREE

表示幀緩衝(Framebuffer Memory)剩餘數。

DCGM_FI_DEV_FB_USED

表示幀緩衝已使用數。該值與nvidia-smi命令中Memory-Usage的已使用值對應。

DCGM_FI_DEV_GPU_TEMP

表示GPU溫度。

DCGM_FI_DEV_GPU_UTIL

表示GPU利用率,即在一個周期時間內(1s或1/6s,根據GPU產品而定),一個或多個核函數處於Active的時間。該指標僅能夠展示有核函數在用的GPU資源,但無法展示具體的使用方式。

DCGM_FI_DEV_LOW_UTIL_VIOLATION

表示低利用率限制導致的違規,該值為違規的時間。

DCGM_FI_DEV_MEM_CLOCK

表示記憶體時鐘頻率。

DCGM_FI_DEV_MEM_COPY_UTIL

表示記憶體頻寬利用率。以英偉達GPU V100為例,其最大記憶體頻寬為900 GB/sec,如果當前的記憶體頻寬為450 GB/sec,則記憶體頻寬利用率為50%。

DCGM_FI_DEV_MEMORY_TEMP

表示記憶體溫度。

DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL

NVLINK總頻寬

DCGM_FI_DEV_PCIE_REPLAY_COUNTER

PCIe重播計數器(記錄資料轉送錯誤需重試的次數)

DCGM_FI_DEV_POWER_USAGE

表示功率。

DCGM_FI_DEV_POWER_VIOLATION

表示因功率上限而導致的違規,該值為違規的時間。

DCGM_FI_DEV_PSTATE

裝置電源狀態

DCGM_FI_DEV_RELIABILITY_VIOLATION

表示電路板可靠性限制導致違規,該值為違規的時間。

DCGM_FI_DEV_RETIRED_DBE

表示用雙bit錯誤而停用的頁面。

DCGM_FI_DEV_RETIRED_PENDING

即將退役的頁面數(GPU記憶體中因錯誤而被標記為停用頁面)

DCGM_FI_DEV_RETIRED_SBE

表示由單bit錯誤而停用的頁面。

DCGM_FI_DEV_SM_CLOCK

表示SM時鐘頻率。

DCGM_FI_DEV_SYNC_BOOST_VIOLATION

表示由於同步提升限制而導致的違規,該值為違規的時間。

DCGM_FI_DEV_THERMAL_VIOLATION

表示由於熱限制導致的違規,該值為違規的時間。

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

表示從驅動載入開始,已消耗的能量.

DCGM_FI_DEV_VIDEO_CLOCK

視頻時鐘頻率

DCGM_FI_DEV_XID_ERRORS

表示一段時間內,最後發生的XID錯誤號碼。

DCGM_FI_PROF_DRAM_ACTIVE

表示記憶體頻寬利用率(Memory BW Utilization)將資料發送到裝置記憶體或從裝置記憶體接收資料的周期分數。

該值表示時間間隔內的平均值,而不是瞬時值。

較高的值表示裝置記憶體的利用率較高。

該值為1(100%)表示在整個時間間隔內的每個周期執行一條 DRAM 指令(實際上,峰值約為 0.8 (80%) 是可實現的最大值)。

假設該值為0.2(20%),表示20%的周期在時間間隔內讀取或寫入裝置記憶體。

DCGM_FI_PROF_GR_ENGINE_ACTIVE

表示在一個時間間隔內,Graphics或Compute引擎處於Active的時間佔比。該值表示所有Graphics和Compute引擎的平均值。Graphics或Compute引擎處於Active是指Graphics或Compute Context綁定到線程,並且Graphics或Compute Context處於Busy狀態。

DCGM_FI_PROF_NVLINK_RX_BYTES

表示通過NVLink傳輸/接收的資料速率,不包括協議標題。

該值表示一個時間間隔內的平均值,而不是瞬時值。

該速率在時間間隔內平均。例如,在1秒內傳輸1 GB資料,則無論以恒定速率還是突發傳輸資料,速率都是1 GB/s。理論上,最大NVLink Gen2頻寬為每個方向每個鏈路25 GB/s。

DCGM_FI_PROF_NVLINK_TX_BYTES

通過NVLINK傳輸的總位元組數(發送方向)

DCGM_FI_PROF_PCIE_RX_BYTES

表示通過PCIe匯流排傳輸/接收的資料速率,包括協議標題和資料承載。

該值表示一個時間間隔內的平均值,而不是瞬時值。

該速率在時間間隔內平均。例如,在1秒內傳輸1 GB資料,則無論以恒定速率還是突發傳輸資料,速率都是1 GB/s。理論上的最大PCIe Gen3頻寬為每通道985 MB/s。

DCGM_FI_PROF_PCIE_TX_BYTES

表示通過PCIe匯流排傳輸/接收的資料速率,包括協議標題和資料承載。

該值表示一個時間間隔內的平均值,而不是瞬時值。

該速率在時間間隔內平均。例如,在1秒內傳輸1 GB資料,則無論以恒定速率還是突發傳輸資料,速率都是1 GB/s。理論上的最大PCIe Gen3頻寬為每通道985 MB/s。

DCGM_FI_PROF_PIPE_FP16_ACTIVE

表示FP16(半精度)管道處於Active的周期分數。

該值表示一個時間間隔內的平均值,而不是瞬時值。

較高的值代表FP16 Cores有較高的利用率。

該值為 1 (100%) 表示在整個時間間隔內上每兩個周期(Volta類型卡為例)執行一次FP16指令。

假設該值為0.2(20%),可能有如下情況:

在整個時間間隔內,有20%的SM的FP16 Core以100%的利用率運行。

在整個時間間隔內,有100%的SM的FP16 Core以20%的利用率運行。

在整個時間間隔的1/5時間內,有100%的SM上的FP16 Core以100%利用率運行。

其他組合模式。

DCGM_FI_PROF_PIPE_FP32_ACTIVE

表示乘加操作FMA(Fused Multiply-Add)管道處於Active的周期分數,乘加操作包括FP32(單精確度)和整數。

該值表示一個時間間隔內的平均值,而不是瞬時值。

較高的值代表FP32 Cores有較高的利用率。

該值為1(100%)表示在整個時間間隔內上每兩個周期(Volta類型卡為例)執行一次FP32指令。

假設該值為0.2(20%),可能有如下情況:

在整個時間間隔內,有20%的SM的FP32 Core以100%的利用率運行。

在整個時間間隔內,有100%的SM的FP32 Core以20%的利用率運行。

在整個時間間隔的1/5時間內,有100%的SM上的FP32 Core以100%利用率運行。

其他組合模式。

DCGM_FI_PROF_PIPE_FP64_ACTIVE

表示FP64(雙精確度)Pipe處於Active狀態的周期分數。

該值表示一個時間間隔內的平均值,而不是瞬時值。

較高的值代表FP64 Cores有較高的利用率。

該值為 1(100%)表示在整個時間間隔內上每四個周期(以Volta類型卡為例)執行一次FP64指令。

假設該值為0.2(20%),可能有如下情況:

在整個時間間隔內,有20%的SM的FP64 Core以100%的利用率運行。

在整個時間間隔內,有100%的SM的FP64 Core以20%的利用率運行。

在整個時間間隔的1/5時間內,有100%的SM上的FP64 Core以100%利用率運行。

其他組合模式。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

表示Tensor(HMMA/IMMA) Pipe處於Active狀態的周期分數。

該值表示一個時間間隔內的平均值,而不是瞬時值。

較高的值表示Tensor Cores的利用率較高。

該值為1(100%)表示在整個時間間隔內每隔一個指令周期發出一個Tensor指令(兩個周期完成一條指令)。

假設該值為0.2(20%),可能有如下情況:

在整個時間間隔內,有20%的SM的Tensor Core以100%的利用率運行。

在整個時間間隔內,有100%的SM的Tensor Core以20%的利用率運行。

在整個時間間隔的1/5時間內,有100%的SM上的Tensor Core以100%利用率運行。

其他組合模式。

DCGM_FI_PROF_SM_ACTIVE

表示在一個時間間隔內,至少一個線程束在一個SM(Streaming Multiprocessor)上處於Active的時間佔比。該值表示所有SM的平均值,且該值對每個塊的線程數不敏感。 線程束處於Active是指一個線程束被調度且分配資源後的狀態,可能是 Computing、也可能是非Computing狀態(例如等待記憶體請求)。 該值小於0.5表示未高效利用GPU,大於0.8是必要的。 假設一個GPU有N個SM: 一個核函數在整個時間間隔內使用N個線程塊運行在所有的SM上,此時該值為1(100%)。 一個核心數在一個時間間隔內運行N/5個線程塊,此時該值為0.2。 一個核函數使用N個線程塊,在一個時間間隔內,僅運行了1/5個周期的時間,此時該值為0.2。

DCGM_FI_PROF_SM_OCCUPANCY

表示在一個時間間隔內,駐留在SM上的線程束與該SM最大可駐留線程束的比例。該值表示一個時間間隔內的所有SM的平均值。佔用率越高不代表GPU使用率越高。只有在GPU記憶體頻寬受限的工作負載(DCGM_FI_PROF_DRAM_ACTIVE)情況下,更高的佔用率表示更有效GPU使用率。

nvidia_gpu_allocated_num_devices

分配的gpu裝置數量,Warining:將來將棄用

nvidia_gpu_memory_allocated_bytes

gpu裝置已滿記憶體,Warining:將來將棄用,由DCGM_CUSTOM_DEV_FB_allocated代替

nvidia_gpu_sharing_memory

gpu共用時分配的記憶體,Warining:將來將棄用,DCGM_CUSTOM_DEV_FB_allocated

up

指標採集的串連性

Cost-Exporter(Job名稱:alibaba-cloud-cost-exporter)

指標

描述

deducted_by_cash_coupons

當前執行個體對應一筆賬單的賬單優惠券抵扣

deducted_by_prepaid_card

當前執行個體對應一筆賬單的預付卡抵扣

invoice_discount

當前執行個體對應一筆賬單的優惠金額

list_price

當前執行個體對應一筆賬單的單價

node_current_price

當前節點實際價格

node_payAsYouGo_price

當前節點以隨用隨付策略的節點價格

node_payByPeriod_price

當前節點以訂用帳戶付費策略的節點價格

node_spot_price

當前節點以同規格搶佔執行個體Spot策略的節點價格

outstanding_amount

當前執行個體對應一筆賬單的未結清金額

payent_amount

當前執行個體對應一筆賬單的現金支付金額

pretax_amount

當前執行個體對應一筆賬單的應付金額

pretax_gross_amount

當前執行個體對應一筆賬單的原始金額

usage

當前執行個體對應一筆賬單的資源用量

up

指標採集的串連性

Ingress(Job名稱:arms-ack-ingress、ingress-ask-default

指標

描述

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrape_custom_error

阿里雲Prometheus探針自訂採集錯誤數

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

nginx_ingress_controller_admission_config_size

Nginx Ingress控制器 - Admission Config大小

nginx_ingress_controller_admission_render_duration

Nginx Ingress控制器 - 渲染耗時

nginx_ingress_controller_admission_render_ingresses

Nginx Ingress控制器 - 渲染的Ingress數量

nginx_ingress_controller_admission_roundtrip_duration

Nginx Ingress控制器 - 往返處理耗時

nginx_ingress_controller_admission_tested_duration

Nginx Ingress控制器 - 測試耗時

nginx_ingress_controller_admission_tested_ingresses

Nginx Ingress控制器 - 測試的Ingress數量

nginx_ingress_controller_build_info

Nginx Ingress控制器 - 構建資訊

nginx_ingress_controller_bytes_sent_bucket

Nginx Ingress控制器 - 發送位元組總計(桶)

nginx_ingress_controller_bytes_sent_count

Nginx Ingress控制器 - 發送位元組總計(計數)

nginx_ingress_controller_bytes_sent_sum

Nginx Ingress控制器 - 發送位元組總計(總和)

nginx_ingress_controller_check_errors

Nginx Ingress控制器 - 檢查錯誤數

nginx_ingress_controller_check_success

Nginx Ingress控制器 - 檢查成功數

nginx_ingress_controller_config_hash

Nginx Ingress控制器 - 配置雜湊

nginx_ingress_controller_config_last_reload_successful

Nginx Ingress控制器 - 配置最後載入是否成功

nginx_ingress_controller_config_last_reload_successful_timestamp_seconds

Nginx Ingress控制器 - 配置最後成功載入時間(秒)

nginx_ingress_controller_connect_duration_seconds_bucket

Nginx Ingress控制器 - 串連耗時(秒)- 桶

nginx_ingress_controller_connect_duration_seconds_count

Nginx Ingress控制器 - 串連耗時(秒)- 計數

nginx_ingress_controller_connect_duration_seconds_sum

Nginx Ingress控制器 - 串連耗時(秒)- 總和

nginx_ingress_controller_errors

Nginx Ingress控制器 - 錯誤數

nginx_ingress_controller_header_duration_seconds_bucket

Nginx Ingress控制器 - 頭部處理耗時(秒)- 桶

nginx_ingress_controller_header_duration_seconds_count

Nginx Ingress控制器 - 頭部處理耗時(秒)- 計數

nginx_ingress_controller_header_duration_seconds_sum

Nginx Ingress控制器頭部耗時總和(秒)

nginx_ingress_controller_ingress_upstream_latency_seconds

Nginx Ingress控制器上遊延遲時間(秒)

nginx_ingress_controller_ingress_upstream_latency_seconds_count

Nginx Ingress控制器上遊延遲計數

nginx_ingress_controller_ingress_upstream_latency_seconds_sum

Nginx Ingress控制器上遊延遲總和(秒)

nginx_ingress_controller_leader_election_status

Nginx Ingress控制器Leader選舉狀態

nginx_ingress_controller_nginx_process_connections

Nginx Ingress控制器nginx進程串連數

nginx_ingress_controller_nginx_process_connections_total

Nginx Ingress控制器nginx進程總串連數

nginx_ingress_controller_nginx_process_cpu_seconds_total

Nginx Ingress控制器nginx進程CPU使用秒總數

nginx_ingress_controller_nginx_process_num_procs

Nginx Ingress控制器nginx進程數量

nginx_ingress_controller_nginx_process_oldest_start_time_seconds

Nginx Ingress控制器nginx進程最老啟動時間(秒)

nginx_ingress_controller_nginx_process_read_bytes_total

Nginx Ingress控制器nginx進程讀取位元組總數

nginx_ingress_controller_nginx_process_requests_total

Nginx Ingress控制器nginx進程請求總數

nginx_ingress_controller_nginx_process_resident_memory_bytes

Nginx Ingress控制器nginx進程駐留記憶體位元組數

nginx_ingress_controller_nginx_process_virtual_memory_bytes

Nginx Ingress控制器nginx進程虛擬記憶體位元組數

nginx_ingress_controller_nginx_process_write_bytes_total

Nginx Ingress控制器nginx進程寫入位元組總數

nginx_ingress_controller_orphan_ingress

Nginx Ingress控制器孤立Ingress數量

nginx_ingress_controller_request_duration_seconds_bucket

Nginx Ingress控制器請求耗時分布(秒)

nginx_ingress_controller_request_duration_seconds_count

Nginx Ingress控制器請求耗時計數(秒)

nginx_ingress_controller_request_duration_seconds_sum

Nginx Ingress控制器請求耗時總和(秒)

nginx_ingress_controller_request_size_bucket

Nginx Ingress控制器請求大小分布

nginx_ingress_controller_request_size_count

Nginx Ingress控制器請求大小計數

nginx_ingress_controller_request_size_sum

Nginx Ingress控制器請求大小總和

nginx_ingress_controller_requests

Nginx Ingress控制器請求總數

nginx_ingress_controller_response_duration_seconds_bucket

Nginx Ingress控制器響應耗時分布(秒)

nginx_ingress_controller_response_duration_seconds_count

Nginx Ingress控制器響應耗時計數(秒)

nginx_ingress_controller_response_duration_seconds_sum

Nginx Ingress控制器響應耗時總和(秒)

nginx_ingress_controller_response_size_bucket

Nginx Ingress控制器響應大小分布

nginx_ingress_controller_response_size_count

Nginx Ingress控制器響應大小計數

nginx_ingress_controller_response_size_sum

Nginx Ingress控制器響應大小總和

nginx_ingress_controller_ssl_certificate_info

Nginx Ingress控制器SSL認證資訊

nginx_ingress_controller_ssl_expire_time_seconds

Nginx Ingress控制器SSL認證到期時間(秒)

nginx_ingress_controller_success

Nginx Ingress控制器成功次數

up

指標採集的串連性

Koordinator(Job名稱:kube-system/koordlet-metrics-podmonitor、koord-manager-metrics-service

指標

描述

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

koord_manager_recommender_recommendation_workload_target

資源畫像功能工作負載推薦規格指標

koordlet_container_resource_limits

容器資源limit指標

koordlet_container_resource_requests

容器資源request指標

koordlet_node_priority_resource_reclaimable

節點資源優先順序指標

koordlet_node_resource_allocatable

節點分配資源指標

slo_manager_recommender_recommendation_workload_target

資源畫像功能工作負載推薦規格指標(已廢棄)

up

指標採集的串連性

ACK專有版ETCD組件(Job名稱:etcd)

指標

描述

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrape_custom_error

阿里雲Prometheus探針自訂採集錯誤數

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

cpu_utilization_core

CPU核心利用率

etcd_cluster_version

ETCD叢集版本

etcd_debugging_auth_revision

ETCD調試認證修訂編號

etcd_debugging_disk_backend_commit_rebalance_duration_seconds_bucket

ETCD調試磁碟後端提交重新平衡期間分布(秒)

etcd_debugging_disk_backend_commit_rebalance_duration_seconds_count

ETCD調試MVCC資料庫壓縮重新平衡期間計數(秒)

etcd_debugging_disk_backend_commit_rebalance_duration_seconds_sum

ETCD調試磁碟後端提交重新平衡期間總和(秒)

etcd_debugging_disk_backend_commit_spill_duration_seconds_bucket

ETCD調試磁碟後端提交溢寫期間分布

etcd_debugging_disk_backend_commit_spill_duration_seconds_count

ETCD調試磁碟後端提交溢出期間秒計數

etcd_debugging_disk_backend_commit_spill_duration_seconds_sum

ETCD調試磁碟後端提交溢寫期間總和(秒)

etcd_debugging_disk_backend_commit_write_duration_seconds_bucket

ETCD調試磁碟後端提交寫入期間分布(秒)

etcd_debugging_disk_backend_commit_write_duration_seconds_count

ETCD調試磁碟後端提交寫入期間計數(秒)

etcd_debugging_disk_backend_commit_write_duration_seconds_sum

ETCD調試磁碟後端提交寫入期間秒總和

etcd_debugging_lease_granted_total

ETCD調試租約授予總數

etcd_debugging_lease_renewed_total

ETCD調試租約續期總數

etcd_debugging_lease_revoked_total

ETCD調試租約撤銷總數

etcd_debugging_lease_ttl_total_bucket

ETCD調試租約TTL總數桶

etcd_debugging_lease_ttl_total_count

ETCD調試租約TTL總數計數

etcd_debugging_lease_ttl_total_sum

ETCD租賃TTL總和(秒)

etcd_debugging_mvcc_compact_revision

ETCD調試MVCC壓縮修訂編號

etcd_debugging_mvcc_current_revision

ETCD調試MVCC當前修訂版本

etcd_debugging_mvcc_db_compaction_keys_total

ETCD調試MVCC資料庫壓縮鍵總數

etcd_debugging_mvcc_db_compaction_last

ETCD調試MVCC資料庫最後壓縮時間

etcd_debugging_mvcc_db_compaction_pause_duration_milliseconds_bucket

ETCD調試MVCC資料庫壓縮暫停時間長度毫秒桶

etcd_debugging_mvcc_db_compaction_pause_duration_milliseconds_count

ETCD調試MVCC資料庫壓縮暫停時間長度毫秒計數

etcd_debugging_mvcc_db_compaction_pause_duration_milliseconds_sum

ETCD調試MVCC資料庫壓縮暫停時間長度總和(毫秒)

etcd_debugging_mvcc_db_compaction_total_duration_milliseconds_bucket

ETCD調試MVCC資料庫壓縮總時間長度分布(毫秒)

etcd_debugging_mvcc_db_compaction_total_duration_milliseconds_count

ETCD調試MVCC資料庫壓縮總時間長度計數(毫秒)

etcd_debugging_mvcc_db_compaction_total_duration_milliseconds_sum

ETCD調試MVCC資料庫壓縮總時間長度總和(毫秒)

etcd_debugging_mvcc_db_total_size_in_bytes

ETCD調試MVCC資料庫總大小(位元組)

etcd_debugging_mvcc_delete_total

ETCD調試MVCC刪除操作總數

etcd_debugging_mvcc_events_total

ETCD調試事件總數

etcd_debugging_mvcc_index_compaction_pause_duration_milliseconds_bucket

ETCD調試MVCC索引壓縮暫停時間長度毫秒桶

etcd_debugging_mvcc_index_compaction_pause_duration_milliseconds_count

ETCD調試MVCC索引壓縮暫停時間長度毫秒計數

etcd_debugging_mvcc_index_compaction_pause_duration_milliseconds_sum

ETCD調試MVCC索引壓縮暫停時間長度毫秒總和

etcd_debugging_mvcc_keys_total

ETCD調試MVCC鍵總數

etcd_debugging_mvcc_pending_events_total

ETCD調試MVCC待處理事件總數

etcd_debugging_mvcc_put_total

ETCD調試MVCC放置操作總數

etcd_debugging_mvcc_range_total

ETCD MVCC範圍查詢總數

etcd_debugging_mvcc_slow_watcher_total

ETCD調試緩慢觀察者總數

etcd_debugging_mvcc_total_put_size_in_bytes

ETCD調試MVCC總Put大小(位元組)

etcd_debugging_mvcc_txn_total

ETCD調試MVCC事務總數

etcd_debugging_mvcc_watch_stream_total

ETCD調試快照流總數

etcd_debugging_mvcc_watcher_total

ETCD調試觀察者總數

etcd_debugging_server_lease_expired_total

ETCD調試伺服器租約到期總數

etcd_debugging_snap_save_marshalling_duration_seconds_bucket

ETCD調試快照儲存序列化期間分布

etcd_debugging_snap_save_marshalling_duration_seconds_count

ETCD調試快照儲存序列化期間計數(秒)

etcd_debugging_snap_save_marshalling_duration_seconds_sum

ETCD調試快照儲存序列化期間秒總和

etcd_debugging_snap_save_total_duration_seconds_bucket

ETCD調試快照儲存總期間秒桶

etcd_debugging_snap_save_total_duration_seconds_count

ETCD調試快照儲存總時間長度計數(秒)

etcd_debugging_snap_save_total_duration_seconds_sum

ETCD調試快照儲存總期間秒總和

etcd_debugging_store_expires_total

ETCD調試儲存到期總數

etcd_debugging_store_reads_total

ETCD調試儲存讀取總數

etcd_debugging_store_watch_requests_total

ETCD調試儲存觀察請求總數

etcd_debugging_store_watchers

ETCD調試儲存觀察者數量

etcd_debugging_store_writes_total

ETCD調試儲存寫入總數

etcd_disk_backend_commit_duration_seconds_bucket

ETCD磁碟後端提交期間秒桶

etcd_disk_backend_commit_duration_seconds_count

ETCD磁碟後端提交期間秒計數

etcd_disk_backend_commit_duration_seconds_sum

ETCD磁碟後端提交期間總和(秒)

etcd_disk_backend_defrag_duration_seconds_bucket

ETCD磁碟WAL fsync期間分布

etcd_disk_backend_defrag_duration_seconds_count

ETCD磁碟後端磁碟重組期間秒計數

etcd_disk_backend_defrag_duration_seconds_sum

ETCD磁碟後端磁碟重組期間秒總和

etcd_disk_backend_snapshot_duration_seconds_bucket

ETCD磁碟後端快照期間分布(秒)

etcd_disk_backend_snapshot_duration_seconds_count

ETCD磁碟後端快照期間計數(秒)

etcd_disk_backend_snapshot_duration_seconds_sum

ETCD磁碟後端快照期間秒總和

etcd_disk_defrag_inflight

ETCD磁碟磁碟重組進行中

etcd_disk_wal_fsync_duration_seconds_bucket

ETCD磁碟WAL同步期間秒桶

etcd_disk_wal_fsync_duration_seconds_count

ETCD磁碟WAL同步期間秒計數

etcd_disk_wal_fsync_duration_seconds_sum

ETCD磁碟WAL fsync期間總和(秒)

etcd_disk_wal_write_bytes_total

ETCD磁碟WAL寫入位元組總數

etcd_grpc_proxy_cache_hits_total

ETCD gRPC代理快取命中總數

etcd_grpc_proxy_cache_keys_total

ETCD gRPC代理緩衝鍵總數

etcd_grpc_proxy_cache_misses_total

ETCD gRPC代理緩衝未命中總數

etcd_grpc_proxy_events_coalescing_total

ETCD gRPC代理事件彙總總數

etcd_grpc_proxy_watchers_coalescing_total

ETCD gRPC代理觀察者合并總數

etcd_mvcc_db_open_read_transactions

ETCD MVCC資料庫開啟讀取事務數

etcd_mvcc_db_total_size_in_bytes

ETCD MVCC資料庫總大小(位元組)

etcd_mvcc_db_total_size_in_use_in_bytes

ETCD MVCC資料庫實際使用總大小(位元組)

etcd_mvcc_delete_total

ETCD MVCC刪除總數

etcd_mvcc_hash_duration_seconds_bucket

ETCD MVCC雜湊期間秒桶

etcd_mvcc_hash_duration_seconds_count

ETCD MVCC雜湊期間計數(秒)

etcd_mvcc_hash_duration_seconds_sum

ETCD MVCC雜湊期間總和(秒)

etcd_mvcc_hash_rev_duration_seconds_bucket

ETCD MVCC雜湊修訂期間分布(秒)

etcd_mvcc_hash_rev_duration_seconds_count

ETCD MVCC雜湊修訂期間秒計數

etcd_mvcc_hash_rev_duration_seconds_sum

ETCD MVCC雜湊修訂期間秒總和

etcd_mvcc_put_total

ETCD MVCC Put操作總數

etcd_mvcc_range_total

ETCD MVCC範圍查詢總數

etcd_mvcc_txn_total

ETCD多版本並發控制事務總數

etcd_network_active_peers

ETCD網路活躍對等節點數

etcd_network_client_grpc_received_bytes_total

ETCD網路用戶端gRPC接收位元組總數

etcd_network_client_grpc_sent_bytes_total

ETCD網路用戶端gRPC發送位元組總數

etcd_network_disconnected_peers_total

ETCD網路中斷連線的同伴總數

etcd_network_peer_received_bytes_total

ETCD網路對等節點接收位元組總數

etcd_network_peer_received_failures_total

ETCD網路同伴接收失敗總數

etcd_network_peer_round_trip_time_seconds_bucket

ETCD網路對等節點往返時間分布(秒)

etcd_network_peer_round_trip_time_seconds_count

ETCD網路對等節點往返時間秒計數

etcd_network_peer_round_trip_time_seconds_sum

ETCD網路對等節點往返時間秒總和

etcd_network_peer_sent_bytes_total

ETCD網路對等節點發送位元組總數

etcd_network_peer_sent_failures_total

ETCD網路對等節點發送失敗總數

etcd_network_server_stream_failures_total

ETCD網路伺服器流失敗總數

etcd_network_snapshot_receive_inflights_total

ETCD網路快照接收中的並發請求數

etcd_network_snapshot_receive_success

ETCD網路快照接收成功

etcd_network_snapshot_receive_total_duration_seconds_bucket

ETCD網路快照接收總時間長度(秒)分布桶

etcd_network_snapshot_receive_total_duration_seconds_count

ETCD網路快照接收總時間長度(秒)計數

etcd_network_snapshot_receive_total_duration_seconds_sum

ETCD網路快照接收總時間長度(秒)總和

etcd_network_snapshot_send_inflights_total

ETCD網路快照發送中的並發請求數

etcd_network_snapshot_send_success

ETCD網路快照發送成功

etcd_network_snapshot_send_total_duration_seconds_bucket

ETCD網路快照發送總時間長度分布(秒)

etcd_network_snapshot_send_total_duration_seconds_count

ETCD網路快照發送總時間長度(秒)計數

etcd_network_snapshot_send_total_duration_seconds_sum

ETCD網路快照發送總時間長度(秒)總和

etcd_server_apply_duration_seconds_bucket

ETCD伺服器應用期間分布(秒)

etcd_server_apply_duration_seconds_count

ETCD伺服器應用期間計數(秒)

etcd_server_apply_duration_seconds_sum

ETCD伺服器應用期間秒總和

etcd_server_client_requests_total

ETCD伺服器用戶端請求總數

etcd_server_go_version

ETCD伺服器Go版本

etcd_server_has_leader

ETCD伺服器有Leader

etcd_server_health_failures

ETCD伺服器健全狀態檢查失敗次數

etcd_server_health_success

ETCD伺服器健全狀態檢查成功

etcd_server_heartbeat_send_failures_total

ETCD伺服器心跳發送失敗總數

etcd_server_id

ETCD伺服器ID

etcd_server_is_leader

ETCD伺服器是否為Leader

etcd_server_is_learner

ETCD伺服器是否為Learner

etcd_server_leader_changes_seen_total

ETCD伺服器見證Leader變更總數

etcd_server_learner_promote_successes

ETCD伺服器Learner提升成功次數

etcd_server_proposals_applied_total

ETCD伺服器已應用提案總數

etcd_server_proposals_committed_total

ETCD伺服器已提交提案總數

etcd_server_proposals_failed_total

ETCD伺服器提案失敗總數

etcd_server_proposals_pending

ETCD伺服器待處理提案數

etcd_server_quota_backend_bytes

ETCD伺服器後端儲存配額位元組

etcd_server_read_indexes_failed_total

ETCD伺服器讀索引失敗總數

etcd_server_slow_apply_total

ETCD伺服器慢應用總數

etcd_server_slow_read_indexes_total

ETCD伺服器慢讀索引總數

etcd_server_snapshot_apply_in_progress_total

ETCD伺服器快照應用中總數

etcd_server_version

ETCD伺服器版本

etcd_snap_db_fsync_duration_seconds_bucket

ETCD快照資料庫fsync期間分布(秒)

etcd_snap_db_fsync_duration_seconds_count

ETCD快照資料庫fsync次數總計

etcd_snap_db_fsync_duration_seconds_sum

ETCD快照資料庫fsync總時間長度(秒)

etcd_snap_db_save_total_duration_seconds_bucket

ETCD快照資料庫儲存總期間秒桶

etcd_snap_db_save_total_duration_seconds_count

ETCD快照資料庫儲存總期間秒計數

etcd_snap_db_save_total_duration_seconds_sum

ETCD快照資料庫儲存總時間長度總和(秒)

etcd_snap_fsync_duration_seconds_bucket

ETCD快照fsync期間分布(秒)

etcd_snap_fsync_duration_seconds_count

ETCD快照同步期間秒計數

etcd_snap_fsync_duration_seconds_sum

ETCD快照fsync總時間長度(秒)

grpc_server_handled_total

gRPC伺服器處理總數

grpc_server_msg_received_total

gRPC伺服器接收到的訊息總數

grpc_server_msg_sent_total

gRPC伺服器訊息發送總數

grpc_server_started_total

gRPC伺服器啟動總數

memory_utilization_byte

記憶體利用率位元組

os_fd_limit

作業系統檔案描述符限制

os_fd_used

作業系統檔案描述符使用數

up

指標採集的串連性

ACK專有版Scheduler組件(Job名稱:ack-scheduler)

指標

描述

aggregator_discovery_aggregation_count_total

彙總器發現彙總計數總計

aliyun_prometheus_agent_append_duration_seconds

阿里雲Prometheus探針追加操作耗時(秒)

aliyun_prometheus_agent_job_discovery_status

阿里雲Prometheus探針採集作業發現狀態

aliyun_prometheus_agent_scrape_custom_error

阿里雲Prometheus探針自訂採集錯誤數

aliyun_prometheus_agent_scrapes_by_target_total

阿里雲Prometheus探針按Target抓取總次數

aliyun_prometheus_agent_target_info

阿里雲Prometheus探針的Target資訊

apiserver_audit_event_total

APIServer審計事件總數

apiserver_audit_requests_rejected_total

APIServer審計請求拒絕總數

apiserver_client_certificate_expiration_seconds_bucket

APIServer用戶端認證到期剩餘秒數分布

apiserver_client_certificate_expiration_seconds_count

APIServer用戶端認證到期剩餘秒數計數

apiserver_client_certificate_expiration_seconds_sum

APIServer用戶端認證到期剩餘秒數總和

apiserver_delegated_authn_request_duration_seconds_bucket

APIServer委託認證請求期間分布(秒)

apiserver_delegated_authn_request_duration_seconds_count

APIServer委託認證請求期間計數

apiserver_delegated_authn_request_duration_seconds_sum

APIServer委託認證請求期間總和

apiserver_delegated_authn_request_total

APIServer委託認證請求總數

apiserver_delegated_authz_request_duration_seconds_bucket

APIServer委託授權請求期間分布(秒)

apiserver_delegated_authz_request_duration_seconds_count

APIServer委派認證請求期間秒數計數

apiserver_delegated_authz_request_duration_seconds_sum

APIServer委託授權請求期間秒和

apiserver_delegated_authz_request_total

APIServer委託授權請求總數

apiserver_encryption_config_controller_automatic_reload_failures_total

APIServer加密配置控制器自動重載失敗總數

apiserver_encryption_config_controller_automatic_reload_success_total

APIServer加密配置控制器自動重載成功總數

apiserver_envelope_encryption_dek_cache_fill_percent

APIServer信封加密DEK緩衝填充百分比

apiserver_storage_data_key_generation_duration_seconds_bucket

APIServer儲存資料鍵產生期間分布

apiserver_storage_data_key_generation_duration_seconds_count

APIServer儲存資料密鑰產生期間計數

apiserver_storage_data_key_generation_duration_seconds_sum

APIServer儲存資料密鑰產生期間總和(秒)

apiserver_storage_data_key_generation_failures_total

APIServer儲存資料鍵產生失敗總數

apiserver_storage_envelope_transformation_cache_misses_total

APIServer儲存封裝轉換緩衝未命中總數

apiserver_webhooks_x509_insecure_sha1_total

APIServerWebhooks X509不安全SHA1計數總計

apiserver_webhooks_x509_missing_san_total

APIServerWebhooks缺少SAN總計

authenticated_user_requests

認證使用者請求

authentication_attempts

認證嘗試次數

authentication_duration_seconds_bucket

認證期間分布

authentication_duration_seconds_count

認證期間計數

authentication_duration_seconds_sum

認證耗時秒和

authentication_token_cache_active_fetch_count

認證令牌緩衝主動擷取計數

authentication_token_cache_fetch_total

認證令牌緩衝擷取總數

authentication_token_cache_request_duration_seconds_bucket

認證令牌緩衝請求期間分布

authentication_token_cache_request_duration_seconds_count

認證令牌緩衝請求期間計數

authentication_token_cache_request_duration_seconds_sum

認證令牌緩衝請求期間總和(秒)

authentication_token_cache_request_total

身分識別驗證令牌緩衝請求總數

authorization_attempts_total

授權嘗試總數

authorization_duration_seconds_bucket

授權期間分布(秒)

authorization_duration_seconds_count

授權期間計數

authorization_duration_seconds_sum

授權期間總和

cardinality_enforcement_unexpected_categorizations_total

基數強制執行意外分類總數

kubernetes_build_info

Kubernetes構建資訊

kubernetes_feature_enabled

Kubernetes特性啟用

leader_election_master_status

Leader選舉主狀態

registered_metric_total

註冊指標總數

registered_metrics_total

註冊指標總數

rest_client_exec_plugin_certificate_rotation_age_bucket

REST用戶端執行外掛程式認證輪換年齡桶

rest_client_exec_plugin_certificate_rotation_age_count

REST用戶端執行外掛程式認證輪換年齡計數

rest_client_exec_plugin_certificate_rotation_age_sum

REST用戶端執行外掛程式認證輪換年齡總和

rest_client_rate_limiter_duration_seconds_bucket

REST用戶端速率限制器期間分布

rest_client_rate_limiter_duration_seconds_count

REST用戶端速率限制器期間秒數計數

rest_client_rate_limiter_duration_seconds_sum

REST用戶端速率限制器期間總和(秒)

rest_client_request_duration_seconds_bucket

REST用戶端請求期間秒桶

rest_client_request_duration_seconds_count

REST用戶端請求期間計數

rest_client_request_duration_seconds_sum

REST用戶端請求期間秒和

rest_client_request_retries_total

REST用戶端請求重試總數

rest_client_request_size_bytes_bucket

REST用戶端請求大小位元組分布

rest_client_request_size_bytes_count

REST用戶端請求大小位元組計數

rest_client_request_size_bytes_sum

REST用戶端請求大小位元組總和

rest_client_requests_total

REST用戶端請求總數

rest_client_response_size_bytes_bucket

REST用戶端響應大小位元組數桶

rest_client_response_size_bytes_count

REST用戶端響應大小位元組計數

rest_client_response_size_bytes_sum

REST用戶端響應大小位元組總和

rest_client_transport_cache_entries

REST用戶端傳輸緩衝條目數

rest_client_transport_create_calls_total

REST用戶端傳輸建立調用總數

scheduler_binding_duration_seconds_bucket

調度器綁定期間秒數桶

scheduler_binding_duration_seconds_count

綁定期間計數

scheduler_binding_duration_seconds_sum

調度器綁定期間秒數和

scheduler_e2e_scheduling_duration_seconds_bucket

調度器端到端調度期間分布

scheduler_e2e_scheduling_duration_seconds_count

調度器端到端調度期間計數

scheduler_e2e_scheduling_duration_seconds_sum

調度器端到端調度期間秒數和

scheduler_framework_extension_point_duration_seconds_bucket

調度器架構擴充點期間分布

scheduler_framework_extension_point_duration_seconds_count

調度器架構擴充點期間計數

scheduler_framework_extension_point_duration_seconds_sum

調度器架構擴充點期間總和

scheduler_goroutines

調度器goroutine數量

scheduler_pending_pods

調度器待處理Pod數

scheduler_plugin_evaluation_total

調度器外掛程式評估總數

scheduler_plugin_execution_duration_seconds_bucket

調度器外掛程式執行期間分布(秒)

scheduler_plugin_execution_duration_seconds_count

調度器外掛程式執行期間計數

scheduler_plugin_execution_duration_seconds_sum

調度器外掛程式執行耗時秒和

scheduler_pod_preemption_victims_bucket

調度器預占受害者分桶

scheduler_pod_preemption_victims_count

調度器預占受害者計數

scheduler_pod_preemption_victims_sum

調度器預占受害者之和

scheduler_pod_scheduling_attempts_bucket

調度器Pod調度嘗試次數桶

scheduler_pod_scheduling_attempts_count

調度器Pod調度嘗試次數計數

scheduler_pod_scheduling_attempts_sum

調度器Pod調度嘗試總和

scheduler_pod_scheduling_duration_seconds_bucket

調度器Pod調度時間長度秒桶

scheduler_pod_scheduling_duration_seconds_count

調度器Pod調度期間計數

scheduler_pod_scheduling_duration_seconds_sum

調度器Pod調度期間總和(秒)

scheduler_pod_scheduling_sli_duration_seconds_bucket

Pod調度SLI期間桶

scheduler_pod_scheduling_sli_duration_seconds_count

調度器Pod調度SLI期間計數

scheduler_pod_scheduling_sli_duration_seconds_sum

Pod調度SLI期間總和

scheduler_preemption_attempts_total

調度器搶佔嘗試總數

scheduler_preemption_victims_bucket

調度器預搶佔受害者桶

scheduler_preemption_victims_count

調度器搶佔受害者計數

scheduler_preemption_victims_sum

調度器預搶佔受害者總數

scheduler_queue_incoming_pods_total

調度器入隊Pod總數

scheduler_schedule_attempts_total

調度器調度嘗試總數

scheduler_scheduler_cache_size

調度器緩衝大小

scheduler_scheduler_goroutines

調度器goroutine

scheduler_scheduling_algorithm_duration_seconds_bucket

調度器調度演算法期間分布(秒)

scheduler_scheduling_algorithm_duration_seconds_count

調度器調度演算法期間秒計數

scheduler_scheduling_algorithm_duration_seconds_sum

調度器調度演算法期間秒數和

scheduler_scheduling_algorithm_predicate_evaluation_seconds_bucket

調度器調度演算法謂詞評估秒數分桶

scheduler_scheduling_algorithm_predicate_evaluation_seconds_count

調度演算法謂詞評估秒數計數

scheduler_scheduling_algorithm_predicate_evaluation_seconds_sum

調度演算法謂詞評估秒數總和

scheduler_scheduling_algorithm_preemption_evaluation_seconds_bucket

調度演算法預占評估秒數桶

scheduler_scheduling_algorithm_preemption_evaluation_seconds_count

調度演算法預占評估秒數計數

scheduler_scheduling_algorithm_preemption_evaluation_seconds_sum

調度演算法預占評估秒數總和

scheduler_scheduling_algorithm_priority_evaluation_seconds_bucket

調度器調度演算法優先順序評估耗時秒桶

scheduler_scheduling_algorithm_priority_evaluation_seconds_count

調度演算法優先順序評估秒數計數

scheduler_scheduling_algorithm_priority_evaluation_seconds_sum

調度演算法優先順序評估秒數總和

scheduler_scheduling_attempt_duration_seconds_bucket

調度器調度嘗試期間分布

scheduler_scheduling_attempt_duration_seconds_count

調度器調度嘗試期間計數

scheduler_scheduling_attempt_duration_seconds_sum

調度器調度嘗試期間秒數和

scheduler_scheduling_duration_seconds

調度器調度期間秒數

scheduler_scheduling_duration_seconds_count

調度期間計數

scheduler_scheduling_duration_seconds_sum

調度期間總和

scheduler_total_preemption_attempts

調度器總預占嘗試次數

scheduler_unschedulable_pods

調度器未調度Pod數

scheduler_volume_scheduling_duration_seconds_bucket

卷調度期間桶

scheduler_volume_scheduling_duration_seconds_count

調度器卷調度期間秒數計數

scheduler_volume_scheduling_duration_seconds_sum

調度器卷調度期間秒數之和

scheduler_volume_scheduling_stage_error_total

調度器卷調度階段錯誤總數

scrape_duration_seconds

抓取期間(秒)

scrape_samples_post_metric_relabeling

抓取樣本數(指標重標籤後)

scrape_samples_scraped

抓取樣本數

scrape_series_added

抓取新增序列數

up

指標採集的串連性

workqueue_adds_total

工作隊列添加總數

workqueue_depth

工作隊列深度

workqueue_longest_running_processor_seconds

工作隊列最長運行處理器秒數

workqueue_queue_duration_seconds_bucket

工作隊列排隊時間長度秒桶

workqueue_queue_duration_seconds_count

工作隊列期間秒數計數

workqueue_queue_duration_seconds_sum

工作隊列期間總和(秒)

workqueue_retries_total

工作隊列重試總數

workqueue_unfinished_work_seconds

工作隊列未完成工作秒數

workqueue_work_duration_seconds_bucket

工作隊列工作期間分布

workqueue_work_duration_seconds_count

工作隊列工作期間計數

workqueue_work_duration_seconds_sum

工作隊列任務期間總和(秒)

相關文檔