全部產品
Search
文件中心

Cloud Monitor:通過日誌監控實現日誌關鍵字的監控與警示

更新時間:Jun 25, 2024

CloudMonitor統計Log Service(Log Service)中關鍵字的數量,並在關鍵字數量達到一定條件時警示,是日誌的常見需求之一。通過本文您可以快速掌握日誌關鍵字監控和設定警示的操作方法。

重要

僅2022年09月13日22:00:00之前已訂購訂用帳戶套餐(cms_edition)的使用者或已開通隨用隨付(cms_post)的使用者能使用日誌監控功能。日誌監控功能將於2024年09月14日下線,建議您使用企業CloudMonitor中的SLS日誌監控替代。

前提條件

請確保您已將本地日誌收集到Log Service中。更多資訊,請參見Log Service

背景資訊

Log Service中日誌的範例如下:

2017-06-21 14:38:05 [INFO] [impl.FavServiceImpl] execute_fail and run time is 100msuserid=
2017-06-21 14:38:05 [WARN] [impl.ShopServiceImpl] execute_fail, wait moment 200ms
2017-06-21 14:38:05 [INFO] [impl.ShopServiceImpl] execute_fail and run time is 100ms,reason:user_id invalid
2017-06-21 14:38:05 [INFO] [impl.FavServiceImpl] execute_success, wait moment ,reason:user_id invalid
2017-06-21 14:38:05 [WARN] [impl.UserServiceImpl] execute_fail and run time is 100msuserid=
2017-06-21 14:38:06 [WARN] [impl.FavServiceImpl] execute_fail, wait moment userid=
2017-06-21 14:38:06 [ERROR] [impl.UserServiceImpl] userid=, action=, test=, wait moment ,reason:user_id invalid
2017-06-21 14:38:06 [ERROR] [impl.ShopServiceImpl] execute_success:send msg,200ms

本文以監控日誌段中關鍵字ERROR為例,為您介紹通過日誌監控實現日誌關鍵字的監控與警示的操作方法。Key為level,Value為具體的日誌段。Key-Value格式如下表所示。

Key

Value

level

2017-06-21 14:38:05 [INFO] [impl.FavServiceImpl] execute_fail and run time is 100msuserid=

level

2017-06-21 14:38:05 [WARN] [impl.ShopServiceImpl] execute_fail, wait moment 200ms

level

2017-06-21 14:38:06 [ERROR] [impl.ShopServiceImpl] execute_success:send msg,200ms

操作步驟

  1. (可選)授權CloudMonitor訪問Log Service的許可權。

    當您首次使用日誌監控功能時,需要授權CloudMonitor訪問Log Service的許可權。

    1. 登入CloudMonitor控制台

    2. 在左側導覽列,選擇接入中心 > 日誌監控

    3. CloudMonitor服務關聯角色對話方塊,單擊確定

  2. 建立日誌監控,監控level中包含關鍵字ERROR的日誌。

    1. 日誌監控頁面,單擊左上方的建立日誌監控

    2. 關聯資源頁面,設定Log Service相關參數,單擊下一步

      參數

      描述

      地區

      Log Service中記錄項目(日誌Project)所在地區。

      日誌Project

      Log Service中記錄項目的名稱。

      日誌Logstore

      Log Service中日誌庫的名稱。

    3. 監控項定義頁面,設定監控項相關參數,單擊下一步

      建立日誌監控

      參數

      描述

      監控項

      監控指標的名稱。

      單位

      監控項的單位。

      計算周期

      監控項的計算周期。單位:分鐘。取值:1、2、3、4、5、10、15、20、30、60。

      統計方法

      在計算周期內根據選定的統計方法對日誌資料進行彙總處理。如果欄位值是數值型,可以使用所有統計方法,否則只能使用計數countps兩種彙總演算法。取值:

      • 計數:計算統計周期內指定欄位數值的個數。

      • 求和:計算1分鐘內指定欄位數值之和。

      • 最大值:計算統計周期內指定欄位數值的最大值。

      • 最小值:計算統計周期內指定欄位數值的最小值。

      • 平均值:計算統計周期內指定欄位數值的平均值。

      • countps:計算統計周期內指定欄位求count後的每秒平均值。

      • sumps:計算統計周期內指定欄位求sum後的每秒平均值。

      • distinct:去重後計算統計周期內指定欄位出現的次數。

      擴充欄位

      為統計方法中的結果提供四則運算功能,例如:在統計方法中配置了HTTP狀態代碼請求總數TotalNumber和HTTP狀態代碼大於499的請求數5xxNumber,則可以通過擴充欄位計算出服務端的錯誤率:5xxNumber/TotalNumber*100。

      日誌篩選

      對日誌資料進行過濾,相當於SQL中的where條件,例如:Key為level,Value中需要監控的關鍵字為ERROR,該參數設定為level>=ERROR

      選擇過濾的日誌欄位名不能包含中文。

      Group-By

      對資料進行空間維度彙總,相當於SQL中的Group By。

      根據指定的維度,對監控資料進行分組。如果Group By不選擇任何維度,則根據彙總方法對全部監控資料進行彙總。

      關於Group By,請參見Group By子句

      Select SQL

      將統計方法轉化成SQL語句,方便您理解資料的處理方式。

      應用分組

      應用分組的名稱。將該監控項添加到指定應用分組中。

    4. 警示設定頁面,設定關鍵字ERROR的警示規則,單擊下一步

      參數

      描述

      規則名稱

      警示規則的名稱。

      規則描述

      警示規則的主體。當監控資料滿足指定警示條件時,觸發警示規則。

      警示層級

      警示通知方式。取值:

      郵件+WebHook

      連續幾次超過閾值後警示

      連續幾次超過閾值後,警示連絡人群組中的連絡人會收到警示通知。取值:1、3、5、10、15、30、60、90、120、180。

      通道沉默周期

      警示發生後未恢複正常,間隔多久重複發送一次警示通知。取值:5分鐘、15分鐘、30分鐘、60分鐘、3小時、6小時、12小時、24小時。

      監控指標達到警示閾值時發送警示,如果監控指標在通道沉默周期內持續超過警示閾值,在通道沉默周期內不會重複發送警示通知;如果監控指標在通道沉默周期後仍未恢複正常,則CloudMonitor再次發送警示通知。

      生效時間

      警示規則的生效時間,警示規則只在生效時間內才會檢查監控資料是否需要警示。

      警示回調

      填寫公網可訪問的URL地址,CloudMonitor會將警示資訊通過POST或GET請求推送到該URL地址,目前僅支援HTTP協議。關於警示回調的設定方法,請參見使用閾值警示回調

    5. 建立結果頁面,單擊關閉

  3. 查看關鍵字ERROR的監控資料。

    建立日誌監控後,等待3~5分鐘。在日誌監控頁面,單擊目標監控項對應操作列的監控圖表表徵圖,查看監控圖表。

  4. 查看關鍵字ERROR的警示通知。

    當Log Service中出現ERROR層級的日誌時,您會收到警示通知。