如果您需要檢測的指標在正常狀態下起伏不定(例如RT和QPS),不同的時間段需要適配的警示閾值不同,那麼您可以使用區間檢測功能,通過動態閾值對指標資料進行異常檢測。當資料點的異常突變超出預設的上下邊界時,系統將產生區間異常檢測事件,這種檢測主要用於監控趨勢穩定的資料或指標。
應用情境
應用效能監控:網站管理員可以使用此功能來監測網站的回應時間、請求速度等黃金指標。當某個服務的回應時間突然超出正常範圍,系統會立即發出異常警告,從而使管理員能夠快速定位和解決問題。
伺服器資源最佳化:可以監測伺服器的CPU和記憶體使用量情況。如果某台伺服器的資源使用率持續超過預設閾值,那麼系統會自動產生例外狀況事件。有助於團隊及時調整資源分派,避免潛在的系統崩潰。
應用串連池分析:可以利用此功能來監控查詢速度、並發串連數等關鍵計量。當線程的某些指標超出正常範圍,系統會自動觸發例外狀況事件,及時最佳化程式效能。
微服務架構監測:在微服務架構中,各個服務之間的互動和依賴關係複雜。通過此功能,團隊可以監測每個服務的資源使用和響應效能。當某個服務出現異常,可以迅速定位問題,確保整個系統的穩定運行。
樣本:
某工作網站的訪問量在白天(例如10:00~18:00)低於1000為異常值,但在夜間(例如22:00~06:00)超過1000可能是受到攻擊。在這種情境下,指標的正常水位會隨著時間變化而不斷變化。 如果配置一個固定閾值,例如低於1000就警示,那白天訪問異常時可以正常收到警示通知,但夜間如果被攻擊則無法及時收到警示通知;如果使用區間檢測功能,就可以智能識別正常水位,自動更新閾值區間。
前提條件
已接入應用監控,具體操作,請參見應用監控接入概述。
配置區間檢測
登入ARMS控制台。
在左側導覽列中選擇,然後在右側頁面單擊建立警示規則。
在建立應用監控警示規則頁面自訂警示名稱,並選擇警示檢測類型為區間檢測。
說明配置閾值檢測的操作,請參見閾值檢測。
在警示對象地區根據需求選擇參數。
參數
說明
警示應用
選擇需要檢測的應用。目前區間檢測只支援對單個應用配置警示。
指標類型
選擇需要檢測的指標類型。更多資訊,請參見警示規則指標說明。
選擇完成後,系統將自動計算上下邊界並進行即時渲染,您可以在警示條件地區預覽指標走勢。
說明不同的指標類型,警示規則的條件欄位和篩選條件不同。
初次渲染耗時較久,大約需要2~4秒。
上下線邊界的計算原理,請參見閾值區間計算原理。
篩選條件
針對指標進行進一步的篩選過濾以縮短監控範圍。
警示指標的維度:
遍曆:會在警示內容中透出實際觸發警示的維度內容。
無維度:警示內容中透出這個維度所有數值的和。
= :警示中只透出當前設定維度內容。
!=:警示中只透出不等於設定維度內容。
包含:警示中只透出包含設定維度內容。
不包含:警示中只透出不包含設定維度內容。
正則匹配:警示中只透出正則匹配設定維度內容。
在警示規則地區設定警示條件。
參數
說明
警示觸發模式
區間檢測只支援單條件的觸發,不支援多個觸發模式的組合。
警示條件
配置具體的警示條件,包含以下幾個因素:
最近X分鐘:選定監控的時間範圍,最多可選擇60分鐘。
指標度量:指代的是指標可以被量化的資料或值,此處根據不同指標類型有不同的度量方式,例如調用次數,調用回應時間等。
彙總方式:對指標資料的計算,包括平均值、最大值、最小值等,同樣會取決於指標和度量。
比對方式:對計算後的資料進行比對以尋找出異常的點,在區間檢測中包括三種比對方式:
動態閾值上下界之外:系統會自動計算目前時間的上下界,如果發現有資料點位於上界或者下界之外,則為異常資料,觸發警示。
動態閾值上界之外:系統會自動計算目前時間的上下界,如果發現有資料點位於上界之外,則為異常資料,觸發警示。
動態閾值下界之外:系統會自動計算目前時間的上下界,如果發現有資料點位於下界之外,則為異常資料,觸發警示。
警示等級:從P1到P4 的警示等級設定,代表不同的嚴重程度。
在資料預覽地區,藍色線條代表實際的資料點,綠色地區即上下邊界範圍。
容忍度
基於系統自動計算的上下界為基礎進行邊界展開或者收縮,如果容忍度越高(向右滑動),則上下邊界越寬,那麼資料被診斷為異常資料閾值越高,越不容易觸發警示;如果容忍度越低(向左滑動),則上下邊界越窄,那麼資料被診斷為異常資料閾值越低,越容易觸發警示。
警示數預測
查看選定時間段內指標預計超出閾值的次數,單擊具體的警示數值,可以查詢記錄點觸發警示的指標數值。
每一次建立或修改警示規則時,都推薦您使用警示數預測功能。該功能通過演算法對歷史資料進行分析,預測選定時間段內的警示數,方便您調整閾值。
設定警示通知和進階警示設定。
參數
說明
通知策略
本欄位僅在警示通知值為普通模式時展示。可選值如下:
不指定通知規則:警示被觸發時不會發送警示,僅當通知策略的匹配規則被觸發時才會發送警示。
指定通知規則發送警示:警示被觸發時,ARMS通過指定通知策略的通知方式發送警示資訊。您可以選擇已有的通知策略,也可以建立一個通知策略。更多資訊,請參見通知策略。
進階警示設定
無資料情況
用於無資料、複合指標和環比同比等異常資料的修複。當警示指標沒有達到設定的條件時,警示資料修複為0、1或不觸發警示。
更多詳細資料,請參見警示管理名詞解釋。
設定完成後單擊儲存。
閾值區間計算原理
ARMS的區間檢測功能主要基於Prophet演算法。配置區間檢測任務之後,ARMS會在後台以每24h一次的頻率,學習指標歷史7天資料的特徵,提取指標趨勢性、季節性等特徵,得到指標未來24h的預測曲線。再根據指標自身的波動情況,也就是誤差方差的大小,為未來一天指標的資料做出一個估計區間。在配置區間檢測警示時,可以預覽演算法計算出來的上下邊界。
與靜態閾值推薦功能不同的地方在於,當業務變化導致指標正常水位發生變化後,無需通過手動編輯警示規則的方式更新閾值。這是因為ARMS持續地以每天一次的頻率學習指標的特徵,並只預測未來一天的上下邊界,因此,您無需多次手動調整閾值。
警示數預測功能說明
警示數預測功能通過演算法對歷史資料進行分析,從而實現在選定時間段內對警示數進行預測,並展示歷史警示發生的時刻。協助您設定警示靜態閾值或調整區間檢測的警示靈敏度。
警示數預測原理
ARMS會根據指標歷史24h資料,計算指標會觸發每個閾值的次數來預測在該設定下警示的數量。並且,ARMS提供了指標詳細資料,您可以看到指標實際值觸發閾值的具體時間。您可以根據這些資訊調整閾值,以適配實際業務需求。