全部產品
Search
文件中心

ApsaraDB for ClickHouse:設定警示規則

更新時間:Dec 21, 2024

雲資料庫ClickHouse支援為叢集重要監控項設定警示功能,當監控項的值不在設定的閾值範圍內時,系統會向警示聯絡組中連絡人發出警示通知,協助您迅速定位問題。本文介紹如何為雲資料庫ClickHouse的叢集設定警示則。

前提條件

  • 叢集為社區相容版或者企業版。

  • 雲資料庫ClickHouse的警示依賴於ARMS警示管理服務。如果您是RAM使用者,您需要具有管理業務即時監控服務(ARMS)AliyunARMSFullAccess的許可權。如何授權,請參見為RAM使用者授權

注意事項

企業版叢集暫不支援通過CloudMonitor查看監控資訊。

操作步驟

通過雲資料庫ClickHouse控制台

說明

如果您的叢集滿足以下兩個條件,請參見舊控制台操作步驟

  • 叢集的建立時間為2021年12月01日之前。

  • 叢集所在的地區是華北1(青島)和華北5(呼和浩特)。

  1. 登入雲資料庫ClickHouse控制台

  2. 在頁面左上方,選擇目的地組群所在的地區。

  3. 叢集列表頁面,選擇社區版執行個體列表或者企業版執行個體列表,單擊目的地組群ID。

  4. 單擊左側導覽列的監控警示

  5. 監控資訊頁面,單擊叢集警示

  6. 單擊建立叢集警示規則按鈕。

    說明

    社區版叢集此按鈕為建立ClickHouse警示規則

    企業版叢集此按鈕為建立企業版ClickHouse警示規則

  7. 建立ClickHouse警示規則或者建立企業版ClickHouse警示規則版面設定以下參數。

    說明

    雲資料庫ClickHouse警示規則檢測類型分為靜態閾實值型別和自訂PromQL類型,不同的檢測類型配置的參數不同。

    • 靜態閾值檢查類型提供了系統預設的警示指標,通過選擇已有的警示指標,快速建立對應的指標項的警示規則。

    • PromQL檢測類型用於建立非系統預設的警示指標。

    靜態域值

    參數

    說明

    樣本

    警示名稱

    警示的名稱。

    CPU使用率警示

    檢測類型

    選擇靜態閾值

    靜態閾值

    叢集

    選擇需要建立警示規則的叢集。

    cc-bp1lxbo89u95****

    警示分組

    選擇警示分組。

    不同Prometheus類型支援的警示分組不同,警示分組備選項會隨著選擇的Prometheus執行個體類型的不同產生變化。

    ClickHouse開源版

    警示指標

    選擇想要配置警示的指標,每個警示分組對應不同的指標。

    CPU使用率

    警示條件

    基於警示指標預置內容設定警示事件產生條件。

    當CPU使用率大於80%時,滿足警示條件。

    篩選條件

    無篩選

    資料預覽

    資料預覽地區展示警示條件對應的PromQL語句,並以時序曲線的形式展示當前警示規則配置的監控指標的值。

    • 預設僅展示一個資源的即時值。

    • 您可以在此地區的篩選框中,選擇目標資源和時間區間,以查看不同時間段和不同資源的數值。

    說明
    • 警示閾值將會以一條紅色直線的形式顯示在時序曲線中,滿足警示閾值的時序曲線顯示為深紅色,不滿足警示閾值的時序曲線顯示為藍色。

    • 將滑鼠懸浮於時序曲線上,可以查看對應時間點的資源詳情。

    • 在時序曲線上選中一段時間,可以查看對應時間段的時序曲線。

    期間

    • 一旦滿足警示條件,將直接產生警示事件:只要有任何一個資料點達到閾值,就會觸發警示事件。

    • 當警示條件滿足持續N分鐘時,才產生警示事件:即只有當滿足閾值的時間大於等於N分鐘時,才產生警示事件。

    1

    警示等級

    自訂警示等級。預設警示等級為預設,警示嚴重程度從預設、P4、P3、P2、P1逐級上升。

    P2

    警示內容

    使用者收到的警示資訊。您可以使用Go template文法在警示內容中自訂警示參數變數。

    節點:{{$labels.pod_name}} CPU使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,當前值 {{ printf "%.2f" $value }}%

    警示通知

    極簡模式

    通知對象:警示發生後,要通知的對象。

    通知時段:只在指定的時間段內產生的警示才會被發送,其它時間產生的警示會被忽略。

    重複策略:在發生警示時的通知策略。

    image

    普通模式

    指定快速指定通知策略

    重要

    快速指定通知策略只能保證當前警示規則產生的警示事件一定能夠被所選的通知策略匹配到並且產生對應警示。但是,當前警示規則產生的事件同時也可能被其它設定了模糊比對的通知策略匹配到並且產生警示。警示規則產生的警示事件和通知策略之間是多對多的匹配關係。

    • 不指定通知規則。

    • 已建立的通知策略。

      說明

      可以通過單擊建立通知策略按鈕,建立新的通知策略,具體操作,請參見通知策略

    不定通知策略

    進階設定

    警示檢查周期

    警示規則每隔N分鐘進行一次檢查,判斷資料是否滿足警示條件。預設值為1分鐘,至少設定為1分鐘。

    1分鐘

    資料完整後再檢查

    等待資料擷取傳輸寫入儲存後,再進行警示檢查。預設選擇“是”,一般情況下不需要修改。

    標籤

    設定警示標籤,設定的標籤可用作通知策略匹配規則的選項。

    注釋

    設定警示的注釋。

    PromQL類型

    參數

    說明

    樣本

    警示名稱

    警示的名稱。

    Pod的CPU使用率大於8%

    檢測類型

    設定為自訂PromQL

    自訂PromQL

    叢集

    選擇需要建立警示規則的叢集。

    cc-bp1lxbo89u95****

    參考警示分組

    選擇警示分組。

    不同Prometheus類型支援的警示分組不同,警示分組備選項會隨著選擇的Prometheus執行個體類型的不同產生變化

    ClickHouse開源版

    參考警示指標

    可選。參考指標中包括了常見指標的自訂PromQL配置方法,您可以選擇已有的類似指標來進行填充,然後參考對應指標的配置方式進行修改以完成警示配置。

    參考指標參數會根據選擇的Prometheus執行個體類型自動過濾支援的警示指標。

    HTTP串連數

    自訂PromQL語句

    使用PromQL語句設定警示則運算式。

    clickhouse_http_conn_usage_count{} > 1000

    資料預覽

    期間

    • 當警示條件滿足時,直接產生警示事件:有任何一個資料點滿足閾值,就會產生警示事件。

    • 當警示條件滿足持續N分鐘時,才產生警示事件:即只有當滿足閾值的時間大於等於N分鐘時,才會產生警示事件。

    1

    警示等級

    自訂警示等級。預設警示等級為預設,警示嚴重程度從預設、P4、P3、P2、P1逐級上升。

    預設

    警示內容

    使用者收到的警示資訊。您可以使用Go template文法在警示內容中自訂警示參數變數。

    命名空間:{{$labels.namespace}}/Pod: {{$labels.pod_name}}/磁碟裝置:{{$labels.device}} 使用率超過90%,當前值{{ printf "%.2f" $value }}%

    警示通知

    極簡模式

    通知對象:警示發生後,要通知的對象。

    通知時段:只在指定的時間段內產生的警示才會被發送,其它時間產生的警示會被忽略。

    重複策略:在發生警示時的通知策略。

    image

    普通模式

    指定快速指定通知策略

    重要

    快速指定通知策略只能保證當前警示規則產生的警示事件一定能夠被所選的通知策略匹配到並且產生對應警示。但是,當前警示規則產生的事件同時也可能被其它設定了模糊比對的通知策略匹配到並且產生警示。警示規則產生的警示事件和通知策略之間是多對多的匹配關係。

    • 不指定通知規則。

    • 已建立的通知策略。

      說明

      可以通過單擊建立通知策略按鈕,建立新的通知策略,具體操作,請參見通知策略

    不定通知策略

    進階設定

    警示檢查周期

    指警示規則每隔N分鐘進行一次檢查,判斷資料是否滿足警示條件。預設1分鐘,最少設定1分鐘。

    1分鐘

    資料完整後再檢查

    等待資料擷取傳輸寫入儲存後,再進行警示檢查。預設選擇“是”,一般情況下不需要修改。

    標籤

    設定警示標籤,所設定的標籤可用作通知策略匹配規則的選項。

    注釋

    設定警示的注釋。

  8. 設定完成後,單擊完成

通過CloudMonitor控制台

  1. 登入CloudMonitor控制台

  2. 單擊左側導覽列警示服務 > 警示規則

  3. 警示規則頁面,單擊建立警示規則

  4. 建立警示規則面板,設定以下參數。

    參數

    說明

    產品

    填寫雲資料庫ClickHouse的叢集類型。取值:

    • 雲資料庫Clickhouse:2021年12月01日之前購買的雲資料庫ClickHouse社區相容版。

    • 雲資料庫Clickhouse社區相容版:2021年12月01日之後購買的雲資料庫ClickHouse社區相容版。

    資源範圍

    警示規則作用的資源範圍。取值:

    • 全部資源:警示規則作用於指定雲產品的全部資源上,對於新加入的資源生效。

    • 應用分組:警示規則作用於指定雲產品的指定應用分組內的全部資源上,對於新加入的資源生效。

    • 執行個體:警示規則作用於指定雲產品的指定資源上。

    規則描述

    警示規則的主體。當監控資料滿足警示條件時,觸發警示規則。規則描述的設定方法如下:

    1. 單擊添加規則

    2. 設定規則描述面板,先輸入規則名稱,再設定規則條件。

      • 單指標:先選擇監控指標,再為其設定閾值和警示層級。

      • 多指標:先選擇警示層級,再為兩個或兩個以上的監控指標設定警示條件。

      • 智能閾值:關於智能閾值的更多資訊,請參見概覽建立智能閾值警示規則

        說明

        智能閾值功能處於邀測階段,您需要提交工單申請。

    3. 單擊確定

    說明

    關於如何設定複雜的警示條件,請參見警示規則運算式說明

    通道沉默周期

    警示發生後未恢複正常,間隔多久重複發送一次警示通知。取值:5分鐘、15分鐘、30分鐘、60分鐘、3小時、6小時、12小時和24小時。

    某監控指標達到警示閾值時發送警示,如果監控指標在通道沉默周期內持續超過警示閾值,在通道沉默周期內不會重複發送警示通知;如果監控指標在通道沉默周期後仍未恢複正常,則CloudMonitor再次發送警示通知。

    例如:當通道沉默周期選擇12小時時,如果警示未恢複正常,則間隔12小時後,CloudMonitor會再次發送警示通知。

    生效時間

    警示規則的生效時間。警示規則僅在生效期內才會發送警示通知。

    說明

    當警示規則不在生效期時,不會發送警示通知,但是警示記錄仍然會顯示在報警歷史列表中。

    警示連絡人群組

    發送警示的連絡人群組。

    應用分組的警示通知會發送給該警示連絡人群組中的警示連絡人。警示連絡人群組是一組警示連絡人,可以包含一個或多個警示連絡人。

    關於如何建立警示連絡人和警示連絡人群組,請參見建立警示連絡人或警示連絡人群組

    標籤

    警示規則的標籤。包括標籤名稱和標籤值。

    說明

    您最多可設定6組標籤。

    進階設定

    警示回調

    公網可訪問的URL,用於接收CloudMonitor通過POST請求推送的警示資訊。目前僅支援HTTP協議。關於如何設定警示回調,請參見使用閾值警示回調

    當您需要測試警示回調地址的連通性時,可以執行以下操作。

    1. 單擊回調地址正後方的測試

      WebHook測試面板,您可以通過Webhook返回的狀態代碼和測試結果詳情對警示回調地址的連通性進行判斷和排查。

      說明

      您還可以設定Webhook的回調模板類型語言,再次單擊測試,擷取對應的測試結果詳情。

    2. 單擊關閉

    Auto Scaling

    如果您開啟Auto Scaling開關,當警示發生時,會觸發相應的伸縮規則。您需要設定Auto Scaling的地區Auto Scaling組Auto Scaling規則

    Log Service

    如果您開啟Log Service開關,當警示發生時,會將警示資訊發送至Log Service的日誌庫。您需要設定Log Service的地區ProjectNameLogstore

    關於如何建立Project和Logstore,請參見快速入門

    輕量訊息佇列(原 MNS)— topic

    如果您開啟Message ServiceMNS-Topic開關,當警示發生時,會將警示資訊發送至輕量訊息佇列(原 MNS)的主題。

    開啟此開關,您需要設定輕量訊息佇列(原 MNS)的地區和主題。如何建立主題,請參見建立主題

    Function Compute

    如果您開啟Function Compute開關,當警示發生時,會將警示通知發送至Function Compute進行格式處理。您需要設定Function Compute的地區、服務和函數。

    關於如何建立服務和函數,請參見快速建立函數

    無資料處理方法

    無監控資料時警示的處理方式。取值:

    • 不做任何處理(預設值)

    • 發送無資料警示

    • 視為恢複

(可選)舊控制台操作步驟

  1. 登入雲資料庫ClickHouse控制台

  2. 在頁面左上方,選擇目的地組群所在的地區。

  3. 叢集列表頁面,選擇預設執行個體列表,單擊目的地組群ID。

  4. 單擊左側導覽列的監控資訊

  5. 單擊右上方導覽列的警示監控

  6. 在CloudMonitor控制台中,單擊左側導覽列中的警示服務 > 警示規則

  7. 閾值警示頁簽下,單擊建立警示規則

  8. 建立警示規則頁面,配置如下參數。

    1. 設定關聯資源,參數說明如下。

      參數

      說明

      產品

      下拉選擇雲資料庫ClickHouse

      資源範圍

      • 全部資源:所選產品下任何叢集滿足警示規則描述時,都會發送警示通知。

      • 叢集:選擇指定的叢集,則選中的叢集滿足警示規則描述時,才會發送警示通知。

      地區

      資源範圍叢集時,需配置該參數。

      選擇叢集所屬地區。

      叢集

      資源範圍叢集時,需配置該參數。

      選擇叢集ID,可選擇多個叢集。

    2. 設定警示規則,如何設定,具體請參見建立警示規則

    3. 設定警示通知方式

      說明

      連絡人通知群組需要預先建立好,如何建立,具體請參見建立警示連絡人或警示連絡人群組

  9. 完成上述參數配置後,單擊確認,警示規則將自動生效。

後續步驟

管理通過ClickHouse控制台設定的警示規則,請參見警示規則管理

相關文檔

如果您還不瞭解CloudMonitor,請參見什麼是CloudMonitor