警示服務是為雲上使用者提供監控警示能力,幫您第一時間得知監控資料異常,及時處理問題。
參數說明
- 產品:例如主機監控、RDS、OSS 等。
- 資源範圍:警示規則的作用範圍。分為全部資源、應用分組、執行個體三種範圍。
-
資源範圍選擇全部資源時,警示的資源最多1000個,超過1000個可能會出現達到閾值不警示的問題,建議使用應用分組按業務劃分資源後再設定警示。
-
全部資源:表示該規則作用在使用者名下對應產品的全部執行個體上。比如設定了全部資源粒度的MongoDB CPU使用率大於80%警示,則只要使用者下有MongoDB CPU使用率大於80%,就會命中這條規則。
-
應用分組:表示該規則作用在某個應用分組下的全部執行個體上。比如設定了應用分組粒度的主機 CPU使用率大於80%警示,則只要這個分組下有主機 CPU使用率大於80%,就會命中這條規則。
-
執行個體:表示該規則只作用在某個具體執行個體上。比如設定了執行個體粒度的主機 CPU 使用率大於80%警示,則只有這個執行個體 CPU使用率大於80% ,才會命中這條規則。
-
-
規則名稱:警示規則的名稱。
-
規則描述:警示規則的主體,定義在監控資料滿足何種條件時,觸發警示規則。例如規則描述為CPU使用率1分鐘平均值>=90%,則警示服務會1分鐘檢查一次1分鐘內的資料是否滿足平均值>=90%
警示規則舉例說明:以主機監控為例,單個伺服器監控指標15秒上報一個資料點,5分鐘有20個資料點。
- CPU使用率 5分鐘 平均值>90%, 含義是 CPU使用率 5分鐘的20個資料點平均值大於90%。
-
CPU使用率 5分鐘 總是>90%, 含義是CPU使用率 5分鐘的20個資料點全部大於90%。
-
CPU使用率 5分鐘 只要有一次>90%,含義是CPU使用率 5分鐘的20個資料點至少有1個大於90%。
-
公網流出流量 5分鐘 總計>50M ,含義是公網流出流量5分鐘的20個資料點求和結果大於5M。
-
連續幾次超過閾值後警示:指連續探測幾次後,結果都符合警示規則的描述,才發送警示通知。
-
生效時間:警示規則的生效時間,警示規則只在生效時間內才會檢查監控資料是否需要警示。
-
通知對象:發送警示的連絡人群組。
-
警示等級:分為Critical 、Warning、Info三個等級,不同等級對應不同的通知方式。
- Critical:電話語音+手機SMS+郵件+釘釘機器人
- Warning:手機SMS+郵件+釘釘機器人
- Info:郵件+釘釘機器人
-
郵件備忘:自訂警示郵件補充資訊。填寫郵件備忘後,發送警示的郵件通知中會附帶您的備忘。