Log Service提供智能巡檢功能,用於對監控指標或業務日誌等資料進行全自動、智能化、自適應的異常巡檢。目前智能巡檢使用流式圖演算法、流式分解演算法和監督異常檢測演算法進行資料巡檢。本文介紹流式圖演算法、流式分解演算法和監督異常檢測演算法的適用情境、參數配置、預覽說明等內容。
流式圖演算法
流式圖演算法基於Time2Graph系列模型中的原理進行研發,可對資料進行整體降噪,分析異常資料相對整體的位移狀態。流式圖演算法適用於對規模大、噪音多、周期不明顯的時間序列進行異常檢測。更多資訊,請參見Time-Series Event Prediction with Evolutionary State Graph。
情境說明
流式圖演算法採用線上機器學習技術,對每條資料進行即時學習、推斷,適用於一般性時間序列的異常檢測情境,包括:
機器層級的監控指標的異常巡檢,例如CPU佔用率、記憶體利用率、硬碟讀寫速率等。
業務指標的異常巡檢,例如QPS、流量、成功率、延時等。
黃金指標的異常巡檢。
參數說明
您可以在建立智能巡檢作業設定精靈頁面的演算法配置地區,完成演算法配置。具體操作,請參見通過SQL彙總指標資料進行即時檢測。
參數 | 子參數 | 說明 |
進階參數(必填) | 時序分段個數 | 根據時序數值大小對時序數值進行劃分,用於離散化時間序列,構造時序演化圖。
|
觀測長度 | 異常檢測時需要觀測的歷史資料點的個數。
| |
環比長度 | 環比分析時的時間長度,以天為單位。異常檢測時會注重分析被檢測指標的環位元征。設定為0時,演算法不進行環比分析。 | |
重點捕獲類型 | 設定著重關注哪一種形態的時序異常。包括以下類型:
| |
樹的數量 | 異常檢測演算法使用決策樹輔助檢測,配置使用的決策樹的數量。 | |
單棵樹的樣本量 | 異常檢測構造決策樹時需要從觀測資料中採樣若干資料樣本,配置採樣的資料樣本數量。 | |
整體異常率 | 估計值,用於描述時序資料中包含的異常資料的比例,合理的取值範圍是[0.001, 0.01]。 | |
形態判別最短視窗 | 捕獲時序的異常形態時,參考的觀測序列的最小長度。 | |
形態判別最長視窗 | 捕獲時序的異常形態時,參考的觀測序列的最長長度。 | |
異常確認最短視窗 | 捕獲時序的異常形態時,待檢測序列的最小長度。 | |
異常確認最長視窗 | 捕獲時序的異常形態時,待檢測序列的最長長度。 | |
單維度特徵配置 | - | 單獨配置待檢測時序的每一個特徵,包括以下內容:
|
通知敏感度配置 | - | 對於不同時間段檢測到的例外狀況事件配置不同的通知門檻。例如忽略服務在每周定期維護期間出現的例外狀況事件。 |
流式分解演算法
流式分解演算法基於RobustSTL系列模型中的原理進行研發,可對資料流進行批處理但計算成本更高,適合小規模業務指標資料的精確巡檢。大規模資料情境下,建議您拆分資料或使用流式圖演算法。更多資訊,請參見RobustSTL: A Robust Seasonal-Trend Decomposition Algorithm for Long Time Series。
情境說明
流式分解演算法適用於對具有周期性的資料序列進行巡檢,且要求資料的周期性較為明顯。例如適用於具有明顯周期變化的業務指標巡檢的情境。
周期性資料在日常生活中比較常見,例如遊戲的訪問量、客戶的訂單量。
參數說明
您可以在建立智能巡檢作業設定精靈頁面的演算法配置地區,完成演算法配置。具體操作,請參見通過SQL彙總指標資料進行即時檢測。
配置演算法。
參數
子參數
說明
自動周期檢測
-
是否開啟周期自動檢測,主要適用於時序資料存在周期性情境。如果時序序列的周期性一直,建議關閉自動周期檢測,手動設定序列的周期長度。
周期檢測頻率
-
開啟自動周期檢測時該配置項生效。演算法根據配置的時間頻率定期更新時間序列的周期。例如周期檢測頻率是12小時,那麼演算法每隔12小時自動檢測更新序列的周期。
周期長度
-
關閉自動周期檢測時該配置項生效。設定序列周期的時間長度,如果序列無周期,那麼設定為0。
觀測長度
-
異常檢測時參考的歷史資料長度。如果序列包含周期性,那麼建議觀測長度是序列周期長度的3倍。例如序列的周期長度為1天,那麼設定觀測長度為3天。
敏感度
-
敏感度越高,檢測到的異常數量越多、異常分數越高。此時對於異常的召回率越高,準確率越低。
進階參數
趨勢項敏感度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。趨勢項敏感度越高,在對趨勢項序列異常檢測時檢測到的異常數量越多、異常分數越高。此時對於異常的召回率越高,準確率越低。
雜訊項敏感度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。雜訊項敏感度越高,在對雜訊項序列異常檢測時檢測到的異常數量越多、異常分數越高。此時對於異常的召回率越高,準確率越低。
趨勢項採樣長度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。如果序列觀測長度太長,會導致趨勢項分析速度較慢。配置的趨勢項採樣長度越長,趨勢項分析速度越快(可能會降低趨勢項檢測的準確率)。例如配置趨勢項採樣長度為8,分析趨勢項時在原始序列中每個8個點採樣一個資料點,在採樣後序列上進行分析。
周期項採樣長度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。如果序列觀測長度太長,會導致周期項分析速度較慢。配置的周期項採樣長度越長,周期項分析速度越快(可能會降低周期項檢測的準確率)。例如配置周期項採樣長度為8,分析周期項時在原始序列中每個8個點採樣一個資料點,在採樣後序列上進行分析。建議配置在5以內。
視窗長度
如果序列觀測長度太長,會導致異常檢測速度較慢。設定視窗長度後檢測演算法以滑動視窗的形式分段檢測資料序列,提高檢測速度。建議配置在5000以內。如果不需要按照滑動視窗形式檢查,配置為0。
在預覽地區體驗、查看當前參數配置下的演算法效果。
設定時間範圍,確定待檢測的時間序列的起始和結束時間。單擊資料查詢,將使用在資料特徵配置中設定的查詢分析語句,處理指定時間範圍的資料,產生時序資料。
選擇實體資訊和特徵,確定待檢測的特徵序列。單擊預覽將會調用檢測演算法處理指定的特徵序列,並在下方展示檢測結果。單擊顯示參數,會顯示當前演算法的參數配置。
檢測結果中展示趨勢項預覽、周期項預覽和雜訊項預覽。可以在趨勢項預覽和雜訊項預覽中調整異常閾值,只有當異常分數大於異常閾值的例外狀況事件才可以用來產生警示。
監督異常檢測演算法
監督異常檢測演算法
監督異常檢測演算法構造時序資料的若干特徵。使用時序資料的特徵和異常標籤,訓練決策樹、隨機森林等監督分類模型。完成模型訓練後,使用訓練好的模型進行異常檢測。
情境說明
監督異常檢測演算法適用於包含異常標籤的時序資料、流式圖演算法和流式分解演算法無法處理的時序資料。
參數說明
您可以在建立模型訓練作業設定精靈頁面的演算法配置地區,完成演算法配置。具體操作,請參見通過SQL彙總指標資料進行模型訓練。