Control Center支援檢測監控資料中的例外狀況事件並配置警示。您可以通過配置電子郵件來及時擷取叢集故障資訊。每個觸發器都基於一個帶有條件值標準的指標,該條件決定觸發器應何時觸發。當條件滿足時,它會執行所有未超出其關聯的已啟用操作。本文介紹如何在Control Center為雲訊息佇列 Confluent 版叢集設定警示。
警示指標
Metrics
類型 | 名稱 | 含義 |
Broker觸發器 | Bytes in | 一個Broker每秒產生的位元組數。 |
Bytes out | 每秒從一個Broker擷取的位元組數(不考慮內部複製流量)。 | |
Fetch request latency | 在中位元、第95、第99 或第99.9個百分位元對此Broker的擷取請求的延遲。單位:毫秒。 | |
Production request count | 每分鐘對Broker的生產請求總數。 | |
Production request latency | 在中位元、第95、第99或第99.9個百分位向此Broker發出的生產請求的延遲。單位:毫秒。 | |
叢集觸發器 | Cluster down | 監控叢集是否關閉。 |
Leader election rate | 分區Leader選舉的次數。 | |
Offline topic partitions | 叢集中離線的Topic分區總數。如果具有副本的Broker宕機,或者不乾淨的Leader選舉被禁用並且副本不同步,導致沒有Leader(可能需要確保沒有訊息丟失),就會發生這種情況。建立觸發器應設定該值大於0。 | |
Unclear election count | 上一個時間間隔內報告的叢集中不乾淨分區中Leader選舉的次數。當在非同步的副本之間舉行不乾淨的Leader選舉時,如果在前Leader離線之前,該副本沒有同步任何訊息,則有可能發生資料丟失。因此,如果不乾淨的選舉數量大於0,可以查詢Broker日誌以確定為什麼Leader被重新選舉,並尋找警告或錯誤訊息。建議將brokers配置參數設定為unclean.leader.election.enable=false,以便同步複本集之外的副本永遠不會被選為Leader,建立觸發器時應設定該值不等於0。 | |
Under replicated topic partitions | 叢集中副本不足的Topic分區總數,即同步複本數小於複製因子的分區。建立觸發器時應設定該值大於0。 | |
ZK Disconnected | Brokers是否可以串連到ZooKeeper,取值範圍:
| |
ZooKeeper expiration rate | Broker遇到ZooKeeper會話到期的速率。 | |
Consumer Group觸發器 | Average latency | 消費者組的平均延遲。要監控此指標,您必須為消費者組中的用戶端配置Confluent監控攔截器。單位:毫秒。 |
Consumer lag | 消費者應用程式在從生產者應用程式消費時落後多久。消費者滯後是結束位移量和當前位移量之間的差值。 | |
Consumer lead | 消費者應用程式在從生產者應用程式消費時提前量。消費者提前是當前位移量和開始位移量之間的差值。例如,從位移量0開始的分區中,位移量15處的消費者將有15的提前。該指標指示消費何時接近最早的可用訊息,這意味著存在資料丟失的可能性。 | |
Consumption difference | 給定時間段內預期消耗值與實際消耗值之間的差值。通常,預期和實際消耗之間存在非常接近即時的差距。這種差距應該會隨著時間的推移而縮小。 | |
Maximum latency | 消費者組的最大延遲。要監控此指標,您必須為消費者組中的用戶端配置Confluent監控攔截器。單位:毫秒。 | |
Topic觸發器 | Bytes in | 每秒進入Topic的位元組數。 |
Bytes out | 每秒從Topic輸出的位元組數(不考慮內部複製流量)。 | |
Out of sync replica count | 叢集中與Leader同步的Topic Partition副本總數。即分區的總和(Topic分區 * Topic複製因子)。 | |
Production request count | 每秒對叢集中topic的生產請求量。 | |
Under replicated topic partitions | 複製不足的Topic分區的數量。該指標可監測Kafka Broker是否會在持有特定Topic分區時崩潰。 |
Condition
當被監控的度量值與使用者佈建的值之間的比較條件為真時,觸發器將觸發。取值如下:
Equal to:等於
Greater than:大於
Less than:小於
Not equal to:不等於
建立觸發器
在頂部功能表列,單擊
表徵圖。在Overview頁面,單擊Triggers頁簽,然後單擊Add a trigger。
在New trigger頁面,設定觸發器名稱、觸發條件,單擊Save。
建立完成後,可在Triggers頁簽單擊目標觸發器名稱,在頁面底部編輯或者刪除該觸發器。
建立動作表單
在Overview頁面,單擊Actions頁簽,然後單擊Add an action。
在New action頁面,設定以下參數,單擊Save。
配置項
說明
Action Name
操作的名稱。
Triggers
選擇觸發器。
Action
要執行的操作類型。取值如下:
Subject
與此操作關聯的一個或多個電子郵件地址。每次執行操作時,都會向指定的電子郵件地址發送一條訊息。用逗號分隔多個電子郵件地址。
Max send rate
執行操作的最大速率,與Frequency同時設定。
例如,輸入1並設定Frequency為每天,表示每天發送一次警報。
Frequency
與Max send rate同時設定,可取每小時(預設)、每分鐘、每 4 小時、每 8 小時、每天。
例如,選擇每天並將Max send rate設定為1,表示每天發送一次警報。
單擊Save。
建立完成後,可在Actions頁簽單擊目標Action名稱,在頁面底部編輯或者刪除該Action。
暫停和恢複所有警報
出於維護或故障排除需要,必要時可暫停所有啟用的警報。在暫停和恢複期間會遵守啟用或禁用的單個操作的現有設定,暫停時會忽略滿足和觸發的任何觸發條件,並抑制與觸發器關聯的所有已啟用操作。恢複警報後,下次觸發條件觸發時,其啟用的操作會發送相應的警報。如果您停止並重新啟動雲訊息佇列 Confluent 版或Control Center,暫停操作將恢複並再次變為活動狀態。
操作步驟
在Overview頁面,單擊Actions頁簽。
開啟Pause all actions開關。
閱讀提示對話方塊中的內容,單擊Confirm。
若要再次啟用Action,請重複該過程並開啟Pause all actions開關。
恢複暫停警報操作
在Overview頁面,單擊Actions頁簽。
關閉Pause all actions開關。
閱讀提示對話方塊中的內容,單擊Confirm。
禁用和啟用警報
建立Action時,預設情況下它處於啟用狀態。如果您不希望某個Action處於活動狀態,請禁用該Action。暫停和恢複Action優先順序低於Action的禁用設定,恢複暫停警報不會啟用禁用的Action。
操作步驟
在Overview頁面,單擊Actions頁簽。
在Actions頁簽,單擊目標Action。
在Action詳情頁面,單擊Edit,然後關閉Enabled開關。
若要再次啟用Action,請重複該過程並開啟Enabled開關。
相關文檔
關於警示設定的更多資訊,請參見Confluent官方文檔。