本文詳細列舉了AnalyticDB for MySQL所有的監控指標的資訊。
叢集健康狀態
企業版和基礎版
監控項 | 監控指標 | 相關文檔 |
叢集接入節點狀態 | AnalyticDB for MySQL接入層由多個接入節點群組成,主要負責協議層接入、SQL解析和最佳化、即時寫入Sharding、資料調度和查詢調度。 叢集接入節點狀態包括:
| |
彈性計算節點健康狀態 | 彈性計算節點指叢集在分時彈性或按需彈性時臨時彈起的計算資源,可做到秒級、分鐘級的資源擴充,實現了資源的有效利用。 彈性計算節點健康狀態包括:
| |
預留資源節點健康狀態 | 預留資源節點指的是叢集中預先購買好的資源,通過變更配置或分時彈性可以改變預留資源的單節點規格和節點數。企業版和基礎版的預留資源節點為存算一體架構,同時運行計算和儲存引擎。 預留資源節點群組健康狀態包括:
|
湖倉版和數倉版
監控項 | 監控指標 | 相關文檔 |
叢集接入節點狀態 | AnalyticDB for MySQL接入層由多個執行個體接入節點群組成,主要負責協議層接入、SQL解析和最佳化、即時寫入Sharding、資料調度和查詢調度。 執行個體接入節點狀態包含:
| |
計算節點健康狀態 | 計算節點即AnalyticDB for MySQL的計算引擎,具備分布式MPP和DAG融合執行能力,結合智能最佳化器,可支援高並發和複雜SQL混合負載。同時藉助雲原生基礎設施,計算節點實現了彈性調度,可根據業務需求做到分鐘級甚至秒級擴充,實現了資源的有效利用。 計算節點組健康狀態包含:
| |
儲存節點健康狀態 | 儲存節點即AnalyticDB for MySQL的儲存引擎,基於Raft協議實現的分布式即時強一致高可用儲存引擎,通過資料分區和Multi-Raft實現並行儲存,利用階層式存放區實現冷熱分離降低成本,通過行列儲存和智能索引達到極高效能。 儲存節點群組健康狀態包含:
|
叢集效能監控
節點監控
企業版和基礎版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
CPU使用率 | AnalyticDB_CPU | 預留資源節點CPU最大使用率。 | worker_max_cpu_used | % | |
預留資源節點CPU P95使用率。 | worker_p95_cpu_used | ||||
預留資源節點CPU平均使用率。 | worker_avg_cpu_used | ||||
彈性計算節點CPU最大使用率。 | executor_max_cpu_used | ||||
彈性計算節點CPU P95使用率。 | executor_p95_cpu_used | ||||
彈性計算節點CPU平均使用率。 | executor_avg_cpu_used | ||||
Build任務數 | AnalyticDB_BuildTaskCount | 平均Build任務數。 說明 所有預留資源節點中啟動並執行Build任務數量的平均值。 | avg_build_task_count | 個 | |
最大Build任務數。 說明 所有預留資源節點中啟動並執行Build任務數量的最大值。 | max_build_task_count | ||||
節點不可用數 | AnalyticDB_UnavailableNodeCount | 預留資源節點掉線數。 | worker_unavailable_node_count | 個 | |
彈性計算節點掉線數。 | executor_unavailable_node_count | ||||
表讀取結果資料量 | AnalyticDB_Table_Read_Result_Size | 表最大讀取結果資料量。 | table_max_read_result_size | MB | |
表平均讀取結果資料量。 | table_avg_read_result_size | ||||
接入節點CPU使用率 | AnalyticDB_RC_CPU | 接入節點CPU最大使用率。 | rc_max_cpu_used | % | |
接入節點CPU P95使用率。 | rc_p95_cpu_used | ||||
接入節點CPU平均使用率。 | rc_controller_avg_cpu_used | ||||
磁碟IO吞吐 | AnalyticDB_IO | 預留資源節點磁碟最大讀輸送量。 | worker_max_read_bytes_ratio | MB/s | |
預留資源節點磁碟P95讀輸送量。 | worker_p95_read_bytes_ratio | ||||
預留資源節點磁碟平均讀輸送量。 | worker_avg_read_bytes_ratio | ||||
預留資源節點磁碟最大寫輸送量。 | worker_max_write_bytes_ratio | ||||
預留資源節點磁碟P95寫輸送量。 | worker_p95_write_bytes_ratio | ||||
預留資源節點磁碟平均寫輸送量。 | worker_avg_write_bytes_ratio | ||||
磁碟IOPS | AnalyticDB_IOPS | 預留資源節點磁碟最大讀次數。 | worker_max_read_ratio | io/s | |
預留資源節點磁碟P95讀次數。 | worker_p95_read_ratio | ||||
預留資源節點磁碟平均讀次數。 | worker_avg_read_ratio | ||||
預留資源節點磁碟最大寫次數。 | worker_max_write_ratio | ||||
預留資源節點磁碟P95寫次數。 | worker_p95_write_ratio | ||||
預留資源節點磁碟平均寫次數。 | worker_avg_write_ratio | ||||
磁碟IO使用率 | AnalyticDB_IO_UTIL | 預留資源節點磁碟最大IO使用率。 | worker_max_io_util | % | |
預留資源節點磁碟P95 IO使用率。 | worker_p95_io_util | ||||
預留資源節點磁碟平均IO使用率。 | worker_avg_io_util | ||||
磁碟IO等待時間 | AnalyticDB_IO_WAIT | 預留資源節點磁碟最大IO等待時間。 | worker_max_io_await | ms | |
預留資源節點磁碟P95 IO等待時間。 | worker_p95_io_await | ||||
預留資源節點磁碟平均IO等待時間。 | worker_avg_io_await | ||||
接入節點記憶體使用量率 | AnalyticDB_RC_MemoryUsedRatio | 接入節點最大記憶體使用量率。 | rc_max_memory_used_ratio | % | |
接入節點P95記憶體使用量率。 | rc_p95_memory_used_ratio | ||||
接入節點平均記憶體使用量率。 | rc_avg_memory_used_ratio | ||||
接入節點磁碟IO吞吐 | AnalyticDB_RC_IO | 接入節點最大讀輸送量。 | rc_max_read_mebibytes | MB/s | |
接入節點P95讀輸送量。 | rc_p95_read_mebibytes | ||||
接入節點平均讀輸送量。 | rc_avg_read_mebibytes | ||||
接入節點最大寫輸送量。 | rc_max_write_mebibytes | ||||
接入節點P95寫輸送量。 | rc_p95_write_mebibytes | ||||
接入節點平均寫輸送量。 | rc_avg_write_mebibytes | ||||
接入節點磁碟IOPS | AnalyticDB_RC_IOPS | 接入節點最大讀次數。 | rc_max_read_iops | io/s | |
接入節點P95讀次數。 | rc_p95_read_iops | ||||
接入節點平均讀次數。 | rc_avg_read_iops | ||||
接入節點最大寫次數。 | rc_max_write_iops | ||||
接入節點P95寫次數。 | rc_p95_write_iops | ||||
接入節點平均寫次數。 | rc_avg_write_iops |
湖倉版和數倉版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
CPU使用率 說明 數倉版預留模式C32規格變更配置為彈性模式後,CPU平均使用率會增大,詳情請參見常見問題。 | AnalyticDB_CPU | 計算節點CPU最大使用率。 | executor_max_cpu_used | % | |
計算節點CPU P95使用率。 | executor_p95_cpu_used | ||||
計算節點CPU平均使用率。 | executor_avg_cpu_used | ||||
儲存節點CPU最大使用率。 | worker_max_cpu_used | ||||
儲存節點CPU P95使用率。 | worker_p95_cpu_used | ||||
儲存節點CPU平均使用率。 | worker_avg_cpu_used | ||||
Build任務數 | AnalyticDB_BuildTaskCount | 平均Build任務數。 說明 所有預留資源節點中啟動並執行Build任務數量的平均值。 | avg_build_task_count | 個 | |
最大Build任務數。 說明 所有預留資源節點中啟動並執行Build任務數量的最大值。 | max_build_task_count | ||||
節點不可用數監控 | AnalyticDB_UnavailableNodeCount | 儲存節點掉線數。 | worker_unavailable_node_count | 個 | |
計算節點掉線數。 | executor_unavailable_node_count | ||||
表讀取結果資料量 | AnalyticDB_Table_Read_Result_Size | 表最大讀取結果資料量。 | table_max_read_result_size | MB | |
表平均讀取結果資料量。 | table_avg_read_result_size | ||||
接入節點CPU使用率 | AnalyticDB_RC_CPU | 接入節點CPU最大使用率。 | rc_max_cpu_used | % | |
接入節點CPU P95使用率。 | rc_p95_cpu_used | ||||
接入節點CPU平均使用率。 | rc_controller_avg_cpu_used | ||||
磁碟IO吞吐 | AnalyticDB_IO | 儲存節點磁碟最大讀輸送量。 | worker_max_read_bytes_ratio | MB/s | |
儲存節點磁碟P95讀輸送量。 | worker_p95_read_bytes_ratio | ||||
儲存節點磁碟平均讀輸送量。 | worker_avg_read_bytes_ratio | ||||
儲存節點磁碟最大寫輸送量。 | worker_max_write_bytes_ratio | ||||
儲存節點磁碟P95寫輸送量。 | worker_p95_write_bytes_ratio | ||||
儲存節點磁碟平均寫輸送量。 | worker_avg_write_bytes_ratio | ||||
磁碟IOPS | AnalyticDB_IOPS | 儲存節點磁碟最大讀次數。 | worker_max_read_ratio | io/s | |
儲存節點磁碟P95讀次數。 | worker_p95_read_ratio | ||||
儲存節點磁碟平均讀次數。 | worker_avg_read_ratio | ||||
儲存節點磁碟最大寫次數。 | worker_max_write_ratio | ||||
儲存節點磁碟P95寫次數。 | worker_p95_write_ratio | ||||
儲存節點磁碟平均寫次數。 | worker_avg_write_ratio | ||||
磁碟IO使用率 | AnalyticDB_IO_UTIL | 儲存節點磁碟最大IO使用率。 | worker_max_io_util | % | |
儲存節點磁碟P95 IO使用率。 | worker_p95_io_util | ||||
儲存節點磁碟平均IO使用率。 | worker_avg_io_util | ||||
磁碟IO等待時間 | AnalyticDB_IO_WAIT | 儲存節點磁碟最大IO等待時間。 | worker_max_io_await | ms | |
儲存節點磁碟P95 IO等待時間。 | worker_p95_io_await | ||||
儲存節點磁碟平均IO等待時間。 | worker_avg_io_await | ||||
接入節點記憶體使用量率 | AnalyticDB_RC_MemoryUsedRatio | 接入節點最大記憶體使用量率。 | rc_max_memory_used_ratio | % | |
接入節點P95記憶體使用量率。 | rc_p95_memory_used_ratio | ||||
接入節點平均記憶體使用量率。 | rc_avg_memory_used_ratio | ||||
接入节点磁盘IO吞吐 | AnalyticDB_RC_IO | 接入節點最大讀輸送量。 | rc_max_read_mebibytes | MB/s | |
接入節點P95讀輸送量。 | rc_p95_read_mebibytes | ||||
接入節點平均讀輸送量。 | rc_avg_read_mebibytes | ||||
接入節點最大寫輸送量。 | rc_max_write_mebibytes | ||||
接入節點P95寫輸送量。 | rc_p95_write_mebibytes | ||||
接入節點平均寫輸送量。 | rc_avg_write_mebibytes | ||||
接入節點磁碟IOPS | AnalyticDB_RC_IOPS | 接入節點最大讀次數。 | rc_max_read_iops | io/s | |
接入節點P95讀次數。 | rc_p95_read_iops | ||||
接入節點平均讀次數。 | rc_avg_read_iops | ||||
接入節點最大寫次數。 | rc_max_write_iops | ||||
接入節點P95寫次數。 | rc_p95_write_iops | ||||
接入節點平均寫次數。 | rc_avg_write_iops |
資料量監控
企業版和基礎版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
磁碟使用率 | AnalyticDB_DiskUsedRatio | 平均磁碟使用率。 | disk_used_ratio | % | |
最大磁碟使用率。 | worker_max_node_disk_used_ratio | ||||
磁碟使用量 | AnalyticDB_DiskUsedSize | 冷資料量。 | cold_disk_used | Byte | |
熱資料量。 | hot_disk_used | ||||
最大節點熱資料量。 | user_used_disk_max | ||||
平均節點熱資料量。 | user_used_disk_avg |
湖倉版和數倉版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
磁碟使用率 | AnalyticDB_DiskUsedRatio | 平均磁碟使用率。 | disk_used_ratio | % | |
最大磁碟使用率。 | worker_max_node_disk_used_ratio | ||||
磁碟使用量 | AnalyticDB_DiskUsedSize | 冷資料量。 | cold_disk_used | Byte | |
熱資料量。 | hot_disk_used | ||||
最大節點熱資料量。 | user_used_disk_max | ||||
平均節點熱資料量。 | user_used_disk_avg |
查詢負載監控
企業版和基礎版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
叢集串連數 | AnalyticDB_Connections | 成功建立串連的數量。 | connections | 個 | |
查詢失敗率1 | AnalyticDB_QueryFailedRatio | 查詢的失敗率。 | query_failed_ratio | % | |
查詢QPS | AnalyticDB_QPS | QPS。 | qps | op/s | |
ETL_QPS。 | etl_qps | ||||
查詢回應時間 | AnalyticDB_QueryRT | 平均查詢回應時間。 | query_avg_rt | ms | |
最大查詢回應時間。 | query_max_rt | ||||
查詢等待時間 | AnalyticDB_QueryWaitTime | 查詢平均等待時間長度。 | query_avg_wait_time | ms | |
查詢最大等待時間長度。 | query_max_wait_time | ||||
寫入TPS | AnalyticDB_InsertTPS | 叢集的寫入TPS。 | insert_tps | op/s | |
寫入回應時間 | AnalyticDB_InsertRT | 平均寫入回應時間。 | insert_avg_rt | ms | |
最大寫入回應時間。 | insert_max_rt | ||||
寫入輸送量 | AnalyticDB_InsertBytes | 叢集的平均寫入輸送量。 | insert_in_bytes | MB | |
更新TPS | AnalyticDB_UpdateTPS | 叢集的更新TPS。 | update_tps | op/s | |
更新回應時間 | AnalyticDB_UpdateRT | 平均更新回應時間。 | updateinto_avg_rt | ms | |
最大更新回應時間。 | updateinto_max_rt | ||||
刪除TPS | AnalyticDB_DeleteTPS | 刪除的寫入TPS。 | delete_tps | op/s | |
刪除回應時間 | AnalyticDB_DeleteRT | 平均刪除回應時間。 | delete_avg_rt | ms | |
最大刪除回應時間。 | delete_max_rt | ||||
匯入TPS | AnalyticDB_LoadTPS | 叢集的LOAD_TPS。 | load_tps | op/s |
湖倉版和數倉版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
叢集串連數 | AnalyticDB_Connections | 成功建立串連的數量。 | connections | 個 | |
查詢失敗率1 | AnalyticDB_QueryFailedRatio | 查詢的失敗率。 | query_failed_ratio | % | |
查詢QPS | AnalyticDB_QPS | QPS。 | qps | op/s | |
ETL_QPS。 | etl_qps | ||||
查詢回應時間 | AnalyticDB_QueryRT | 平均查詢回應時間。 | query_avg_rt | ms | |
最大查詢回應時間。 | query_max_rt | ||||
查詢等待時間 | AnalyticDB_QueryWaitTime | 查詢平均等待時間長度。 | query_avg_wait_time | ms | |
查詢最大等待時間長度。 | query_max_wait_time | ||||
寫入TPS | AnalyticDB_InsertTPS | 叢集的寫入TPS。 | insert_tps | op/s | |
寫入回應時間 | AnalyticDB_InsertRT | 平均寫入回應時間。 | insert_avg_rt | ms | |
最大寫入回應時間。 | insert_max_rt | ||||
寫入輸送量 | AnalyticDB_InsertBytes | 叢集的平均寫入輸送量。 | insert_in_bytes | MB | |
更新TPS | AnalyticDB_UpdateTPS | 叢集的更新TPS。 | update_tps | op/s | |
更新回應時間 | AnalyticDB_UpdateRT | 平均更新回應時間。 | updateinto_avg_rt | ms | |
最大更新回應時間。 | updateinto_max_rt | ||||
刪除TPS | AnalyticDB_DeleteTPS | 叢集的刪除TPS。 | delete_tps | op/s | |
刪除回應時間 | AnalyticDB_DeleteRT | 平均刪除回應時間。 | delete_avg_rt | ms | |
最大刪除回應時間。 | delete_max_rt | ||||
匯入TPS | AnalyticDB_LoadTPS | 叢集的LOAD_TPS。 | load_tps | op/s |
查詢失敗率1:
若您選擇的查詢時間是24小時以內的某個時間段,計算方法為:
查詢失敗率=(一分鐘內的SQL失敗數/一分鐘內的SQL總數)*100%。若您選擇的查詢時間是24小時以外的某個時間段,計算方法為:
查詢失敗率=(五分鐘內的SQL失敗數/五分鐘內的SQL總數)*100%。
資源群組監控
企業版、基礎版和湖倉版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
CPU使用率 | AnalyticDB_RP_CPU | 監控資源群組的CPU平均使用率。 | AnalyticDB_RP_CPU | % | |
查詢QPS | AnalyticDB_RP_QPS | 監控資源群組的查詢QPS。 | AnalyticDB_RP_QPS | op/s | |
查詢回應時間 | AnalyticDB_RP_RT | 監控資源群組下查詢的平均回應時間。 | AnalyticDB_RP_RT | ms | |
查詢等待時間 | AnalyticDB_RP_WaitTime | 監控資源群組下查詢的平均等待總耗時。 | AnalyticDB_RP_WaitTime | ms | |
(Xihe)運行中SQL數量 | AnalyticDB_RP_RunningQueries_Count | 監控資源群組下正在啟動並執行SQL數量。 | AnalyticDB_RP_RunningQueries_Count | 個 | |
排隊的SQL數量 | AnalyticDB_RP_QueuedQueries_Count | 監控資源群組下排隊的SQL數量。 | AnalyticDB_RP_QueuedQueries_Count | 個 | |
計算資源使用方式 說明 僅湖倉版支援該指標。 | 無 | 總計算資源。 | TotalAcuNumber | ACU | |
計算預留資源。 | ReservedAcuNumber | ||||
儲存資源使用方式 說明 僅湖倉版支援該指標。 | 無 | 總儲存資源。 | TotalAcuNumber | ACU | |
儲存預留資源。 | ReservedAcuNumber | ||||
資源使用方式 | 無 | 總計算資源。 | TotalAcuNumber | ACU | |
預留資源。 | ReservedAcuNumber | ||||
Interactive型資源群組 | 無 | 計算最小資源。 | ReservedAcuNumber | ACU | 操作文檔:查看資源群組的計算資源用量 |
計算最大資源。 | MaxAcuNumber | ||||
當前計算資源使用量。 | CurrentAcuNumber | ||||
Job型資源群組 | 無 | 計算最小資源。 | ReservedAcuNumber | ACU | |
計算最大資源。 | MaxAcuNumber | ||||
當前計算資源使用量。 | CurrentAcuNumber | ||||
競價執行個體資源使用量。 | SpotAcuNumber | ||||
作業使用總ACU時 | 無 | 作業使用ACU的平均值。 | TotalAcuNumber | ACU | 操作文檔:查看作業的計算資源用量 |
預留ACU時 | 無 | 在作業總共使用的ACU時中,預留ACU時的數量。 | ReservedAcuNumber | ACU | |
彈性ACU時 | 無 | 在作業總共使用的ACU時中,彈性ACU時的數量。 | ElasticAcuNumber | ACU |
數倉版
監控項 | 監控項Key | 監控指標 | 監控指標Value Name | 單位 | 相關文檔 |
CPU使用率 | AnalyticDB_RP_CPU | 監控資源群組的CPU平均使用率。 | AnalyticDB_RP_CPU | % | |
查詢QPS | AnalyticDB_RP_QPS | 監控資源群組的查詢QPS。 | AnalyticDB_RP_QPS | op/s | |
查詢回應時間 | AnalyticDB_RP_RT | 監控資源群組下查詢的平均回應時間。 | AnalyticDB_RP_RT | ms | |
查詢等待時間 | AnalyticDB_RP_WaitTime | 監控資源群組下查詢的平均等待總耗時。 | AnalyticDB_RP_WaitTime | ms | |
實際彈出數 | AnalyticDB_RP_ActualNode | 監控資源群組分時彈性計劃中實際生效的節點數(即執行擴容計劃時實際增加的節點數)。 | AnalyticDB_RP_ActualNode | 個 | |
計劃彈出數 | AnalyticDB_RP_PlanNode | 監控資源群組分時彈性計劃中需要增加的節點數。 如何新增資源群組彈性計劃,請參見建立資源彈性計劃。 | AnalyticDB_RP_PlanNode | 個 | |
總節點數 | AnalyticDB_RP_TotalNode | 監控資源群組擁有的總節點數,總節點數=基礎節點數+實際生效的分時彈性節點數。 | AnalyticDB_RP_TotalNode | 個 | |
基礎節點數 | AnalyticDB_RP_OriginalNode | 監控資源群組中的基礎節點數。 | AnalyticDB_RP_OriginalNode | 個 |
Spark監控
AnalyticDB for MySQL不支援在控制台直接查看Spark監控,需要跳轉至CloudMonitor控制台查看。
監控項 | 監控指標 | MetricName | 單位 | 相關文檔 |
Spark CPU 利用率(%) | Spark CPU利用率。 |
| % | |
Spark 記憶體 利用率(%) | Spark記憶體使用量率。 |
| % | |
Execution 堆內記憶體使用量量峰值(B) | Spark作業運行時,佔用JVM堆記憶體的最大值。 | SparkExecutorOnHeapExecutionMemoryBytes | Byte | |
Execution 堆外記憶體使用量量峰值(B) | Spark作業運行時,除JVM堆記憶體外,額外使用記憶體的最大值。 | SparkExecutorOffHeapExecutionMemoryBytes | Byte | |
Storage 堆內記憶體使用量量峰值(B) | Spark儲存資料(例如緩衝的RDD)時,在JVM堆記憶體中佔用的最大空間。 | SparkExecutorOnHeapStorageMemoryBytes | Byte | |
Storage 堆外記憶體使用量量峰值(B) | Spark儲存資料(例如緩衝的RDD)時,在JVM堆外記憶體中佔用的最大空間。 | SparkExecutorOffHeapStorageMemoryBytes | Byte | |
RDD Storage 磁碟使用量(B) | Spark中RDD(彈性分布式資料集)佔用的磁碟空間。 | SparkExecutorDiskUsedBytes | Byte | |
Major GC 次數(count) | Spark作業運行時,JVM垃圾收集機制執行的老年代垃圾收集(Major GC)的次數。 | SparkExecutorMajorGCCount | 個 | |
Minor GC 次數統計(count) | Spark作業運行時,JVM垃圾收集機制執行的年輕代垃圾收集(Minor GC)的次數。 | SparkExecutorMinorGCCount | 個 | |
Spark GC 耗時(s) | Spark的GC耗時。 | SparkExecutorTotalGCTimeSeconds | s | |
Spark Shuffle 讀資料量(B) | Spark Shuffle的讀資料量。 | SparkExecutorTotalShuffleReadBytes | Byte | |
Spark Shuffle 寫資料量(B) | Spark Shuffle的寫資料量。 | SparkExecutorTotalShuffleWriteBytes | Byte |
相關文檔
通過監控資訊調優叢集效能:瞭解叢集效能與運行狀態的監控指標,分析異常原因並提供排查和最佳化方法。