ApsaraDB for SelectDB整合了阿里雲應用即時監控服務ARMS(Application Real-Time Monitoring Service)產品的警示功能,支援您在雲資料庫SelectDB控制台設定警示規則。您可以設定監控項,在觸發監控項警示規則時,通知警示聯絡組中的所有連絡人。您也可以維護警示監控項對應的警示聯絡組,以便發生警示時,能及時通知到相關連絡人。通過對重要的監控指標設定警示規則,您可以及時得知雲資料庫SelectDB執行個體指標資料發生異常,迅速定位處理故障。本文介紹如何在雲資料庫SelectDB控制台設定警示規則。
您也可以在阿里雲監控(CloudMonitor)產品控制台設定適用於雲資料庫SelectDB執行個體的警示規則。具體操作,請參見雲產品監控。
前提條件
控制台操作步驟
在頁面左上方,選擇執行個體所在地區。
在執行個體列表頁面,單擊目標執行個體ID,進入到執行個體詳情頁面。
在左側導覽列,單擊監控警示。
在監控警示頁面,選擇警示管理頁簽,單擊建立SelectDB監控警示。
說明選擇警示管理,進入SelectDB監控警示列表頁面時,頁面載入較慢,可能需要3~5秒。
在建立SelectDB監控警示版面設定參數。
您可以選擇通過靜態閾值或自訂PromQL建立SelectDB警示規則。
靜態閾值:提供了系統預設的警示指標,通過選擇已有的警示指標,您可以通過語義化的方式快速建立對應指標項的警示規則。
自訂PromQL:如果需要對靜態閾值中系統預設指標之外的指標進行監控警示,可以通過自訂PromQL來建立警示規則。
靜態閾值
參數
說明
樣本
警示名稱
警示的名稱。
CPU使用率警示
檢測類型
選擇靜態閾值。
靜態閾值
執行個體
選擇需要建立警示規則的執行個體。
預設值為遍曆,即建立的警示規則對所有執行個體都生效。
selectdb-cn-7213n****
叢集
選擇需要建立警示規則的叢集。
預設值為遍曆,即建立的警示規則對所有執行個體都生效。
selectdb-cn-7213n****-be
警示分組
選擇警示分組。
不同Prometheus類型支援的警示分組不同,警示分組備選項會隨著選擇的Prometheus執行個體類型的不同產生變化。
SelectDB監控警示
警示指標
選擇配置警示的指標,每個警示分組對應不同的指標。
CPU使用率
警示條件
基於警示指標預置內容設定警示事件產生條件。
當CPU使用率大於80%時,發送警示。
篩選條件
無篩選
無
資料預覽
資料預覽地區展示警示條件對應的PromQL語句,並以時序曲線的形式展示當前警示規則配置的監控指標的值。
預設僅展示一個資源的即時值,您可以在該地區的篩選框中選擇目標資源以及時間區間來查看不同時間區間和不同資源的值。
說明警示閾值將會以一條紅色虛線的形式顯示在面板中,滿足警示閾值的時序曲線顯示為深紅色,不滿足警示閾值的時序曲線顯示為藍色。
將滑鼠懸浮於時序曲線上,可以查看對應時間點的資源詳情。
在時序曲線上選中一段時間,可以查看對應時間段的時序曲線。
無
期間
當警示條件滿足時,直接產生警示事件:有任何一個資料點滿足閾值,就會產生警示事件。
當警示條件滿足持續N分鐘時,才產生警示事件:即只有當滿足閾值的時間大於等於N分鐘時,才產生警示事件。
1
警示等級
自訂警示等級。預設警示等級為預設,警示嚴重程度從預設、P4、P3、P2、P1逐級上升。
P2
警示內容
使用者收到的警示資訊。您可以使用Go template文法在警示內容中自訂警示參數變數。
節點:{{$labels.pod_name}} CPU使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,當前值 {{ printf "%.2f" $value }}%
警示通知
極簡模式:可以快速配置通知對象,通知時段,重複策略。
普通模式:選擇通知策略,如果沒有通知策略,您也可以單擊建立通知策略建立新的通知策略,具體操作,請參見通知策略。
重要快速指定通知策略只能保證當前警示規則產生的警示事件一定能夠被所選的通知策略匹配到並且產生對應警示。但是,當前警示規則產生的事件同時也可能被其它設定了模糊比對的通知策略匹配到並且產生警示。警示規則產生的警示事件和通知策略之間是多對多的匹配關係。
無
進階設定
警示檢查周期:指警示規則每隔N分鐘進行一次檢查,判斷資料是否滿足警示條件。預設1分鐘,最少設定1分鐘。
資料完整後檢查:查看資料的齊全度,預設為是,建議保持該配置不變。
標籤(labels):設定警示標籤,設定的標籤可用作通知策略匹配規則的選項。
注釋(annotations):設定警示的注釋。
警示檢查周期:1分鐘
資料完整後檢查:是
標籤(labels):無
注釋(annotations):無
自訂PromQL
參數
說明
樣本
警示名稱
警示的名稱。
Pod的CPU使用率大於80%
檢測類型
設定為自訂PromQL。
自訂PromQL
執行個體
選擇需要建立警示規則的執行個體。
selectdb-cn-7213n****
叢集
選擇需要建立警示規則的叢集。
selectdb-cn-7213n****-be
參考警示分組
選擇警示分組。
不同Prometheus類型支援的警示分組不同,警示分組備選項會隨著選擇的Prometheus執行個體類型的不同產生變化。
SelectDB監控警示
參考警示指標
(可選)參考指標中包括了常見指標的自訂PromQL配置方法,您可以選擇已有的類似指標來進行填充,然後參考對應指標的配置方式進行修改以完成警示配置。
參考指標參數會根據選擇的Prometheus執行個體類型自動過濾支援的警示指標。
說明參考警示指標提供的自訂PromQL語句模板並不是完整的PromQL,您需要根據自身需求進行修改和完善。
99th 查詢耗時
自訂PromQL語句
使用PromQL語句設定警示則運算式。
avg(doris_fe_query_latency_ms{quantile="0.99",pod=~,cluster_id=~}) by (cluster_id) > 300
資料預覽
資料預覽地區展示警示條件對應的PromQL語句,並以時序曲線的形式展示當前警示規則配置的監控指標的值。
預設僅展示一個資源的即時值,您可以在該地區的篩選框中選擇目標資源以及時間區間來查看不同時間區間和不同資源的值。
說明警示閾值將會以一條紅色虛線的形式顯示在面板中,滿足警示閾值的時序曲線顯示為深紅色,不滿足警示閾值的時序曲線顯示為藍色。
將滑鼠懸浮於時序曲線上,可以查看對應時間點的資源詳情。
在時序曲線上選中一段時間,可以查看對應時間段的時序曲線。
無
期間
當警示條件滿足時,直接產生警示事件:有任何一個資料點滿足閾值,就會產生警示事件。
當警示條件滿足持續N分鐘時,才產生警示事件:即只有當滿足閾值的時間大於等於N分鐘時,才產生警示事件。
1
警示等級
自訂警示等級。預設警示等級為預設,警示嚴重程度從預設、P4、P3、P2、P1逐級上升。
預設
警示內容
使用者收到的警示資訊。您可以使用Go template文法在警示內容中自訂警示參數變數。
命名空間:{{$labels.namespace}}/Pod: {{$labels.pod_name}}/磁碟裝置:{{$labels.device}} 使用率超過90%,當前值{{ printf "%.2f" $value }}%
警示通知
極簡模式:可以快速配置通知對象,通知時段,重複策略。
普通模式:選擇通知策略,如果沒有通知策略,您也可以單擊建立通知策略建立新的通知策略,具體操作,請參見通知策略。
重要快速指定通知策略只能保證當前警示規則產生的警示事件一定能夠被所選的通知策略匹配到並且產生對應警示。但是,當前警示規則產生的事件同時也可能被其它設定了模糊比對的通知策略匹配到並且產生警示。警示規則產生的警示事件和通知策略之間是多對多的匹配關係。
無
進階設定
警示檢查周期:指警示規則每隔N分鐘進行一次檢查,判斷資料是否滿足警示條件。預設1分鐘,最少設定1分鐘。
資料完整後檢查:查看資料的齊全度,預設為是,建議保持該配置不變。
標籤(labels):設定警示標籤,設定的標籤可用作通知策略匹配規則的選項。
注釋(annotations):設定警示的注釋。
警示檢查周期:1分鐘
資料完整後檢查:是
標籤(labels):無
注釋(annotations):無
設定完成後單擊儲存,警示規則將自動生效。
警示配置建議
您可以根據自己的需求配置警示,以下是常見各指標的配置建議。
指標名稱 | 建議閾值 | 建議持續時間長度(分鐘) | 警示配置建議 |
查詢平均耗時 | >5000 | 5 | 查詢的平均耗時指標(毫秒),需根據您的業務調整閾值,建議配置。 |
99th查詢耗時 | >60000 | 5 | 長尾查詢耗時指標(毫秒),需根據您的業務調整閾值,建議配置。 |
查詢成功率 | <90 | 5 | SQL的查詢成功率,建議配置。 |
CPU使用率 | >80 | 15 | BE叢集的CPU使用率,是常用業務監控指標,建議配置。 |
記憶體使用量率 | >80 | 15 | BE叢集的記憶體使用量率,是常用的業務監控指標,建議配置。 |
FE CPU使用率 | >60 | 15 | FE CPU使用率,建議配置,不足時請提工單申請免費擴容。 |
FE JVM記憶體使用量率 | >80 | 15 | FE JVM記憶體使用量率,建議配置,不足時請提工單申請免費擴容。 |
失效節點數 | >0 | 1 | 計算叢集底層節點重啟次數,按需配置。 |
資料合併Base Score | <1500 | 15 | 值越高,代表計算節點資料合併壓力越大,建議配置。 |
資料合併Cumulative Score | <1500 | 15 | 值越高,代表計算節點資料合併壓力越大,建議配置。 |
快取命中率 | <90 | 15 | 快取命中率會影響查詢耗時,建議配置。如果該指標降低,需評估是否需要擴容。如需擴容,請參見伸縮叢集。 |
使用者串連數 | >150 | 15 | 資料庫使用者與資料庫的串連總數,每個使用者的最大串連數預設為200,業務相關,建議配置。 |
每秒查詢次數 (QPS) | 無 | 無 | 業務相關,可按需配置。 |
硬碟寫次數 (IOPS) | 無 | 無 | 底層指標,一般無需業務關注,您可按需配置。 |
硬碟讀次數 (IOPS) | 無 | 無 | 底層指標,一般無需業務關注,您可按需配置。 |
Object Storage Service容量 | 無 | 無 | 若您關注儲存使用方式,可按需配置。 |
匯入資料速度 | 無 | 無 | 若您關注匯入資料的速度,可按需配置。 |
緩衝寫輸送量 | 無 | 無 | 底層指標,一般無需業務關注,您可按需配置。 |
緩衝讀輸送量 | 無 | 無 | 底層指標,一般無需業務關注,您可按需配置。 |
網路流入輸送量 | 無 | 無 | 底層指標,一般無需業務關注,您可按需配置。 |
網路流出輸送量 | 無 | 無 | 底層指標,一般無需業務關注,您可按需配置。 |
遠端儲存讀輸送量 | 無 | 無 | 底層指標,一般無需業務關注,您可按需配置。 |