全部產品
Search
文件中心

ApsaraMQ for Kafka:Control Center設定警示

更新時間:Jul 06, 2024

Control Center支援檢測監控資料中的例外狀況事件並配置警示。您可以通過配置電子郵件來及時擷取叢集故障資訊。每個觸發器都基於一個帶有條件值標準的指標,該條件決定觸發器應何時觸發。當條件滿足時,它會執行所有未超出其關聯的已啟用操作。本文介紹如何在Control Center為雲訊息佇列 Confluent 版叢集設定警示。

警示指標

Metrics

類型

名稱

含義

Broker觸發器

Bytes in

一個Broker每秒產生的位元組數。

Bytes out

每秒從一個Broker擷取的位元組數(不考慮內部複製流量)。

Fetch request latency

在中位元、第95、第99 或第99.9個百分位元對此Broker的擷取請求的延遲。單位:毫秒。

Production request count

每分鐘對Broker的生產請求總數。

Production request latency

在中位元、第95、第99或第99.9個百分位向此Broker發出的生產請求的延遲。單位:毫秒。

叢集觸發器

Cluster down

監控叢集是否關閉。

Leader election rate

分區Leader選舉的次數。

Offline topic partitions

叢集中離線的Topic分區總數。如果具有副本的Broker宕機,或者不乾淨的Leader選舉被禁用並且副本不同步,導致沒有Leader(可能需要確保沒有訊息丟失),就會發生這種情況。建立觸發器應設定該值大於0。

Unclear election count

上一個時間間隔內報告的叢集中不乾淨分區中Leader選舉的次數。當在非同步的副本之間舉行不乾淨的Leader選舉時,如果在前Leader離線之前,該副本沒有同步任何訊息,則有可能發生資料丟失。因此,如果不乾淨的選舉數量大於0,可以查詢Broker日誌以確定為什麼Leader被重新選舉,並尋找警告或錯誤訊息。建議將brokers配置參數設定為unclean.leader.election.enable=false,以便同步複本集之外的副本永遠不會被選為Leader,建立觸發器時應設定該值不等於0。

Under replicated topic partitions

叢集中副本不足的Topic分區總數,即同步複本數小於複製因子的分區。建立觸發器時應設定該值大於0。

ZK Disconnected

Brokers是否可以串連到ZooKeeper,取值範圍:

  • 離線

  • 線上

ZooKeeper expiration rate

Broker遇到ZooKeeper會話到期的速率。

Consumer Group觸發器

Average latency

消費者組的平均延遲。要監控此指標,您必須為消費者組中的用戶端配置Confluent監控攔截器。單位:毫秒。

Consumer lag

消費者應用程式在從生產者應用程式消費時落後多久。消費者滯後是結束位移量和當前位移量之間的差值。

Consumer lead

消費者應用程式在從生產者應用程式消費時提前量。消費者提前是當前位移量和開始位移量之間的差值。例如,從位移量0開始的分區中,位移量15處的消費者將有15的提前。該指標指示消費何時接近最早的可用訊息,這意味著存在資料丟失的可能性。

Consumption difference

給定時間段內預期消耗值與實際消耗值之間的差值。通常,預期和實際消耗之間存在非常接近即時的差距。這種差距應該會隨著時間的推移而縮小。

Maximum latency

消費者組的最大延遲。要監控此指標,您必須為消費者組中的用戶端配置Confluent監控攔截器。單位:毫秒。

Topic觸發器

Bytes in

每秒進入Topic的位元組數。

Bytes out

每秒從Topic輸出的位元組數(不考慮內部複製流量)。

Out of sync replica count

叢集中與Leader同步的Topic Partition副本總數。即分區的總和(Topic分區 * Topic複製因子)。

Production request count

每秒對叢集中topic的生產請求量。

Under replicated topic partitions

複製不足的Topic分區的數量。該指標可監測Kafka Broker是否會在持有特定Topic分區時崩潰。

Condition

當被監控的度量值與使用者佈建的值之間的比較條件為真時,觸發器將觸發。取值如下:

  • Equal to:等於

  • Greater than:大於

  • Less than:小於

  • Not equal to:不等於

建立觸發器

  1. 登入Control Center

  2. 在頂部功能表列,單擊image.png表徵圖。

  3. Overview頁面,單擊Triggers頁簽,然後單擊Add a trigger

  4. New trigger頁面,設定觸發器名稱、觸發條件,單擊Save

    建立完成後,可在Triggers頁簽單擊目標觸發器名稱,在頁面底部編輯或者刪除該觸發器。

建立動作表單

  1. Overview頁面,單擊Actions頁簽,然後單擊Add an action

  2. New action頁面,設定以下參數,單擊Save

    配置項

    說明

    Action Name

    操作的名稱。

    Triggers

    選擇觸發器。

    Action

    要執行的操作類型。取值如下:

    • Send email:郵件通知。

    • Send PagerDuty notification:PagerDuty通知方式。詳情請參見PagerDuty

    • Send Slack notification:Slack通知方式。詳情請參見Slack

    Subject

    與此操作關聯的一個或多個電子郵件地址。每次執行操作時,都會向指定的電子郵件地址發送一條訊息。用逗號分隔多個電子郵件地址。

    Max send rate

    執行操作的最大速率,與Frequency同時設定。

    例如,輸入1並設定Frequency為每天,表示每天發送一次警報。

    Frequency

    與Max send rate同時設定,可取每小時(預設)、每分鐘、每 4 小時、每 8 小時、每天。

    例如,選擇每天並將Max send rate設定為1,表示每天發送一次警報。

  3. 單擊Save

    建立完成後,可在Actions頁簽單擊目標Action名稱,在頁面底部編輯或者刪除該Action。

暫停和恢複所有警報

出於維護或故障排除需要,必要時可暫停所有啟用的警報。在暫停和恢複期間會遵守啟用或禁用的單個操作的現有設定,暫停時會忽略滿足和觸發的任何觸發條件,並抑制與觸發器關聯的所有已啟用操作。恢複警報後,下次觸發條件觸發時,其啟用的操作會發送相應的警報。如果您停止並重新啟動雲訊息佇列 Confluent 版或Control Center,暫停操作將恢複並再次變為活動狀態。

操作步驟

  1. Overview頁面,單擊Actions頁簽。

  2. 開啟Pause all actions開關。

  3. 閱讀提示對話方塊中的內容,單擊Confirm

    若要再次啟用Action,請重複該過程並開啟Pause all actions開關。

恢複暫停警報操作

  1. Overview頁面,單擊Actions頁簽。

  2. 關閉Pause all actions開關。

  3. 閱讀提示對話方塊中的內容,單擊Confirm

禁用和啟用警報

建立Action時,預設情況下它處於啟用狀態。如果您不希望某個Action處於活動狀態,請禁用該Action。暫停和恢複Action優先順序低於Action的禁用設定,恢複暫停警報不會啟用禁用的Action。

操作步驟

  1. Overview頁面,單擊Actions頁簽。

  2. Actions頁簽,單擊目標Action

  3. Action詳情頁面,單擊Edit,然後關閉Enabled開關。

    若要再次啟用Action,請重複該過程並開啟Enabled開關。

相關文檔

關於警示設定的更多資訊,請參見Confluent官方文檔