SelectDB如何配置警示 - ApsaraDB for SelectDB

ApsaraDB for SelectDB整合了阿里雲應用即時監控服務ARMS（Application Real-Time Monitoring Service）產品的警示功能，支援您在雲資料庫SelectDB控制台設定警示規則。您可以設定監控項，在觸發監控項警示規則時，通知警示聯絡組中的所有連絡人。您也可以維護警示監控項對應的警示聯絡組，以便發生警示時，能及時通知到相關連絡人。通過對重要的監控指標設定警示規則，您可以及時得知雲資料庫SelectDB執行個體指標資料發生異常，迅速定位處理故障。本文介紹如何在雲資料庫SelectDB控制台設定警示規則。

說明

您也可以在阿里雲監控（CloudMonitor）產品控制台設定適用於雲資料庫SelectDB執行個體的警示規則。具體操作，請參見雲產品監控。

前提條件

已建立ApsaraDB for SelectDB服務關聯角色AliyunServiceRoleForSelectDB（該角色預設已擷取阿里雲ARMS服務的存取權限）。具體操作，請參見服務關聯角色。
如果您需要將雲資料庫SelectDB執行個體監控資訊上報到自己的阿里雲ARMS中統一監控和警示，則需要先開通阿里雲ARMS服務。具體操作，請參見開通ARMS。

控制台操作步驟

登入雲資料庫 SelectDB 控制台。
在頁面左上方，選擇執行個體所在地區。
在執行個體列表頁面，單擊目標執行個體ID，進入到執行個體詳情頁面。
在左側導覽列，單擊監控警示。
在監控警示頁面，選擇警示管理頁簽，單擊建立SelectDB監控警示。
說明
選擇警示管理，進入SelectDB監控警示列表頁面時，頁面載入較慢，可能需要3~5秒。

在建立SelectDB監控警示版面設定參數。

您可以選擇通過靜態閾值或自訂PromQL建立SelectDB警示規則。

靜態閾值：提供了系統預設的警示指標，通過選擇已有的警示指標，您可以通過語義化的方式快速建立對應指標項的警示規則。
自訂PromQL：如果需要對靜態閾值中系統預設指標之外的指標進行監控警示，可以通過自訂PromQL來建立警示規則。

靜態閾值

參數	說明	樣本
告警名称	警示的名稱。	CPU使用率警示
检测类型	選擇静态阈值。	靜態閾值
執行個體	選擇需要建立警示規則的執行個體。預設值為遍曆，即建立的警示規則對所有執行個體都生效。	selectdb-cn-7213n****
叢集	選擇需要建立警示規則的叢集。預設值為遍曆，即建立的警示規則對所有執行個體都生效。	selectdb-cn-7213n****-be
警示分組	選擇警示分組。不同Prometheus類型支援的警示分組不同，警示分組備選項會隨著選擇的Prometheus執行個體類型的不同產生變化。	SelectDB監控警示
警示指標	選擇配置警示的指標，每個警示分組對應不同的指標。	CPU使用率
警示條件	基於警示指標預置內容設定警示事件產生條件。	當CPU使用率大於80%時，發送警示。
篩選條件	無篩選	無
數據預覽	數據預覽地區展示警示條件對應的PromQL語句，並以時序曲線的形式展示當前警示規則配置的監控指標的值。預設僅展示一個資源的即時值，您可以在該地區的篩選框中選擇目標資源以及時間區間來查看不同時間區間和不同資源的值。說明警示閾值將會以一條紅色虛線的形式顯示在面板中，滿足警示閾值的時序曲線顯示為深紅色，不滿足警示閾值的時序曲線顯示為藍色。將滑鼠懸浮於時序曲線上，可以查看對應時間點的資源詳情。在時序曲線上選中一段時間，可以查看對應時間段的時序曲線。	無
期間	當警示條件滿足時，直接產生警示事件：有任何一個資料點滿足閾值，就會產生警示事件。當警示條件滿足持續N分鐘時，才產生警示事件：即只有當滿足閾值的時間大於等於N分鐘時，才產生警示事件。	1
警示等級	自訂警示等級。預設警示等級為預設，警示嚴重程度從預設、P4、P3、P2、P1逐級上升。	P2
警示內容	使用者收到的警示資訊。您可以使用Go template文法在警示內容中自訂警示參數變數。	節點：{{$labels.pod_name}} CPU使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%，當前值 {{ printf "%.2f" $value }}%
告警通知	極簡模式：可以快速配置通知對象，通知时段，重复策略。普通模式：選擇通知策略，如果沒有通知策略，您也可以單擊建立通知策略建立新的通知策略，具體操作，請參見通知策略。重要快速指定通知策略只能保證當前警示規則產生的警示事件一定能夠被所選的通知策略匹配到並且產生對應警示。但是，當前警示規則產生的事件同時也可能被其它設定了模糊比對的通知策略匹配到並且產生警示。警示規則產生的警示事件和通知策略之間是多對多的匹配關係。	無
告警通知		無
進階設定	告警检查周期：指警示規則每隔N分鐘進行一次檢查，判斷資料是否滿足警示條件。預設1分鐘，最少設定1分鐘。資料完整後檢查：查看資料的齊全度，預設為是，建議保持該配置不變。标签（labels）：設定警示標籤，設定的標籤可用作通知策略匹配規則的選項。注釋(Annotations)：設定警示的注釋。	警示檢查周期：1分鐘資料完整後檢查：是標籤（labels）：無注釋（annotations）：無

自訂PromQL

參數	說明	樣本
告警名称	警示的名稱。	Pod的CPU使用率大於80%
检测类型	設定為自定义PromQL。	自訂PromQL
執行個體	選擇需要建立警示規則的執行個體。	selectdb-cn-7213n****
叢集	選擇需要建立警示規則的叢集。	selectdb-cn-7213n****-be
参考告警分组	選擇警示分組。不同Prometheus類型支援的警示分組不同，警示分組備選項會隨著選擇的Prometheus執行個體類型的不同產生變化。	SelectDB監控警示
参考告警指标	（可選）參考指標中包括了常見指標的自訂PromQL配置方法，您可以選擇已有的類似指標來進行填充，然後參考對應指標的配置方式進行修改以完成警示配置。參考指標參數會根據選擇的Prometheus執行個體類型自動過濾支援的警示指標。說明参考告警指标提供的自定义PromQL语句模板並不是完整的PromQL，您需要根據自身需求進行修改和完善。	99th 查詢耗時
自定义PromQL语句	使用PromQL語句設定警示則運算式。	avg(doris_fe_query_latency_ms{quantile="0.99",pod=~,cluster_id=~}) by (cluster_id) > 300
數據預覽	數據預覽地區展示警示條件對應的PromQL語句，並以時序曲線的形式展示當前警示規則配置的監控指標的值。預設僅展示一個資源的即時值，您可以在該地區的篩選框中選擇目標資源以及時間區間來查看不同時間區間和不同資源的值。說明警示閾值將會以一條紅色虛線的形式顯示在面板中，滿足警示閾值的時序曲線顯示為深紅色，不滿足警示閾值的時序曲線顯示為藍色。將滑鼠懸浮於時序曲線上，可以查看對應時間點的資源詳情。在時序曲線上選中一段時間，可以查看對應時間段的時序曲線。	無
期間	当告警条件满足时，直接产生告警事件：有任何一個資料點滿足閾值，就會產生警示事件。當警示條件滿足持續N分鐘時，才產生警示事件：即只有當滿足閾值的時間大於等於N分鐘時，才產生警示事件。	1
警示等級	自訂警示等級。預設警示等級為預設，警示嚴重程度從預設、P4、P3、P2、P1逐級上升。	預設
警示內容	使用者收到的警示資訊。您可以使用Go template文法在警示內容中自訂警示參數變數。	命名空間：{{$labels.namespace}}/Pod: {{$labels.pod_name}}/磁碟裝置：{{$labels.device}} 使用率超過90%，當前值{{ printf "%.2f" $value }}%
告警通知	極簡模式：可以快速配置通知對象，通知时段，重复策略。普通模式：選擇通知策略，如果沒有通知策略，您也可以單擊建立通知策略建立新的通知策略，具體操作，請參見通知策略。重要快速指定通知策略只能保證當前警示規則產生的警示事件一定能夠被所選的通知策略匹配到並且產生對應警示。但是，當前警示規則產生的事件同時也可能被其它設定了模糊比對的通知策略匹配到並且產生警示。警示規則產生的警示事件和通知策略之間是多對多的匹配關係。	無
進階設定	告警检查周期：指警示規則每隔N分鐘進行一次檢查，判斷資料是否滿足警示條件。預設1分鐘，最少設定1分鐘。資料完整後檢查：查看資料的齊全度，預設為是，建議保持該配置不變。标签（labels）：設定警示標籤，設定的標籤可用作通知策略匹配規則的選項。注釋(Annotations)：設定警示的注釋。	警示檢查周期：1分鐘資料完整後檢查：是標籤（labels）：無注釋（annotations）：無

設定完成後單擊儲存，警示規則將自動生效。

警示配置建議

您可以根據自己的需求配置警示，以下是常見各指標的配置建議。

指標名稱	建議閾值	建議持續時間長度（分鐘）	警示配置建議
查詢速率	>5000	5	查詢的平均耗時指標（毫秒），需根據您的業務調整閾值，建議配置。
99th查詢耗時	>60000	5	長尾查詢耗時指標（毫秒），需根據您的業務調整閾值，建議配置。
查询成功率	<90	5	SQL的查詢成功率，建議配置。
CPU 使用率	>80	15	BE叢集的CPU使用率，是常用業務監控指標，建議配置。
内存使用率	>80	15	BE叢集的記憶體使用量率，是常用的業務監控指標，建議配置。
FE CPU 使用率	>60	15	FE CPU使用率，建議配置，不足時請提工單申請免費擴容。
FE JVM記憶體使用量率	>80	15	FE JVM記憶體使用量率，建議配置，不足時請提工單申請免費擴容。
失效节点数	>0	1	計算叢集底層節點重啟次數，按需配置。
資料合併Base Score	<1500	15	值越高，代表計算節點資料合併壓力越大，建議配置。
資料合併Cumulative Score	<1500	15	值越高，代表計算節點資料合併壓力越大，建議配置。
缓存命中率	<90	15	快取命中率會影響查詢耗時，建議配置。如果該指標降低，需評估是否需要擴容。如需擴容，請參見伸縮叢集。
用户连接数	>150	15	資料庫使用者與資料庫的串連總數，每個使用者的最大串連數預設為200，業務相關，建議配置。
每秒查詢次數 (QPS)	無	無	業務相關，可按需配置。
硬碟寫次數 (IOPS)	無	無	底層指標，一般無需業務關注，您可按需配置。
硬碟讀次數 (IOPS)	無	無	底層指標，一般無需業務關注，您可按需配置。
對象儲存容量	無	無	若您關注儲存使用方式，可按需配置。
导入数据速度	無	無	若您關注匯入資料的速度，可按需配置。
缓存写吞吐量	無	無	底層指標，一般無需業務關注，您可按需配置。
缓存读吞吐量	無	無	底層指標，一般無需業務關注，您可按需配置。
网络流入吞吐量	無	無	底層指標，一般無需業務關注，您可按需配置。
网络流出吞吐量	無	無	底層指標，一般無需業務關注，您可按需配置。
远端存储读吞吐量	無	無	底層指標，一般無需業務關注，您可按需配置。