警示服務是為雲上使用者提供監控警示能力,幫您第一時間得知監控資料異常,及時處理問題。

參數說明

  • 產品:例如主機監控、RDS、OSS 等。
  • 資源範圍:警示規則的作用範圍。分為全部資源應用分組執行個體三種範圍。
  • 資源範圍選擇全部資源時,警示的資源最多1000個,超過1000個可能會出現達到閾值不警示的問題,建議使用應用分組按業務劃分資源後再設定警示。

    • 全部資源:表示該規則作用在使用者名下對應產品的全部執行個體上。比如設定了全部資源粒度的MongoDB CPU使用率大於80%警示,則只要使用者下有MongoDB CPU使用率大於80%,就會命中這條規則。

    • 應用分組:表示該規則作用在某個應用分組下的全部執行個體上。比如設定了應用分組粒度的主機 CPU使用率大於80%警示,則只要這個分組下有主機 CPU使用率大於80%,就會命中這條規則。

    • 執行個體:表示該規則只作用在某個具體執行個體上。比如設定了執行個體粒度的主機 CPU 使用率大於80%警示,則只有這個執行個體 CPU使用率大於80% ,才會命中這條規則。

  • 規則名稱:警示規則的名稱。

  • 規則描述:警示規則的主體,定義在監控資料滿足何種條件時,觸發警示規則。例如規則描述為CPU使用率1分鐘平均值>=90%,則警示服務會1分鐘檢查一次1分鐘內的資料是否滿足平均值>=90%

    警示規則舉例說明:以主機監控為例,單個伺服器監控指標15秒上報一個資料點,5分鐘有20個資料點。

    • CPU使用率 5分鐘 平均值>90%, 含義是 CPU使用率 5分鐘的20個資料點平均值大於90%。
    • CPU使用率 5分鐘 總是>90%, 含義是CPU使用率 5分鐘的20個資料點全部大於90%。

    • CPU使用率 5分鐘 只要有一次>90%,含義是CPU使用率 5分鐘的20個資料點至少有1個大於90%。

    • 公網流出流量 5分鐘 總計>50M ,含義是公網流出流量5分鐘的20個資料點求和結果大於5M。

  • 連續幾次超過閾值後警示:指連續探測幾次後,結果都符合警示規則的描述,才發送警示通知。

  • 生效時間:警示規則的生效時間,警示規則只在生效時間內才會檢查監控資料是否需要警示。

  • 通知對象:發送警示的連絡人群組。

  • 警示等級:分為Critical 、Warning、Info三個等級,不同等級對應不同的通知方式。

    • Critical:電話語音+手機SMS+郵件+釘釘機器人
    • Warning:手機SMS+郵件+釘釘機器人
    • Info:郵件+釘釘機器人
  • 郵件備忘:自訂警示郵件補充資訊。填寫郵件備忘後,發送警示的郵件通知中會附帶您的備忘。

管理警示規則

Cloud Monitor為使用者提供3個入口管理警示規則,分別是應用分組頁面、各類監控的監控列表頁面和警示服務的警示規則列表頁面。