智能巡檢功能用於對業務日誌進行自動化、智能化、自適應的異常巡檢。本文介紹通過SQL彙總指標資料進行智能巡檢的操作步驟。
前提條件
建立智能巡檢作業
進入建立作業頁面
進入建立作業頁面。
在日誌應用地區,單擊智能異常分析。
在執行個體列表中,單擊目標執行個體。
在左側導覽列中,單擊智能巡檢。
單擊即時檢測。
在巡檢任務地區,單擊立即建立。
基礎資訊
在建立智能巡檢作業設定精靈的基礎資訊地區,完成如下配置,然後單擊下一步。
參數 | 說明 |
任務名 | 自訂設定智能巡檢作業的名稱。 |
Project | 選擇源日誌庫或時序庫所在的Project。 |
地區 | 您所選擇的Project的所在地區。 |
日誌庫類型 | 根據您資料存放區的位置選擇日誌庫類型。
|
源日誌庫 | 當日誌庫類型設定為日誌庫時,需要設定源日誌庫,即您的來源資料所在的日誌庫。 |
時序庫 | 當日誌庫類型設定為時序庫時,需要設定時序庫,設定為您的來源資料所在的時序庫。 |
角色 | 如果您在建立執行個體時已完成了授權,則此處會自動顯示 |
目標庫 | 目標日誌庫,固定為 |
資料特徵配置
資料特徵配置地區的資料類型中,請選擇通過SQL格式化資料,輸入查詢和分析語句,然後完成對應的配置。查詢分析語句的更多資訊,請參見查詢概述、查詢與分析概述。
查詢語句
* | select __time__ - __time__ % 60 as time, domain, sum(request_size) as request_size from log group by time, domain limit 100000實體:
domain特徵:
request_size
參數 | 說明 |
時間 | 來源資料中用於標識時間列的欄位。Log Service預設使用LogStore中的 |
粒度 | 資料的觀測間隔,單位為秒。取值範圍為5~3600,建議觀測間隔不小於60。 |
實體 | 來源資料中用於標識具體實體的欄位。智能巡檢作業圍繞實體標識,彙總出時間序列。 |
特徵 | 來源資料中用於標識具體特徵資料的欄位。 |
演算法配置
在演算法配置地區進行演算法選擇。目前支援流式圖演算法和流式分解演算法,不同演算法需要配置的參數不同。
流式圖演算法
參數 | 子參數 | 說明 |
進階參數(必填) | 時序分段個數 | 根據時序數值大小對時序數值進行劃分,用於離散化時間序列,構造時序演化圖。
|
觀測長度 | 異常檢測時需要觀測的歷史資料點的個數。
| |
環比長度 | 環比分析時的時間長度,以天為單位。異常檢測時會注重分析被檢測指標的環位元征。設定為0時,演算法不進行環比分析。 | |
重點捕獲類型 | 設定著重關注哪一種形態的時序異常。包括以下類型:
| |
樹的數量 | 異常檢測演算法使用決策樹輔助檢測,配置使用的決策樹的數量。 | |
單棵樹的樣本量 | 異常檢測構造決策樹時需要從觀測資料中採樣若干資料樣本,配置採樣的資料樣本數量。 | |
整體異常率 | 估計值,用於描述時序資料中包含的異常資料的比例,合理的取值範圍是[0.001, 0.01]。 | |
形態判別最小視窗 | 捕獲時序的異常形態時,參考的觀測序列的最小長度。 | |
形態判別最長視窗 | 捕獲時序的異常形態時,參考的觀測序列的最長長度。 | |
異常確認最短視窗 | 捕獲時序的異常形態時,待檢測序列的最小長度。 | |
異常確認最長視窗 | 捕獲時序的異常形態時,待檢測序列的最長長度。 | |
單維度特徵配置 | - | 單獨配置待檢測時序的每一個特徵,包括以下內容:
|
通知敏感度配置 | - | 對於不同時間段檢測到的例外狀況事件配置不同的通知門檻。例如忽略服務在每周定期維護期間出現的例外狀況事件。 |
流式分解演算法
配置演算法。
參數
子參數
說明
自動周期檢測
-
是否開啟周期自動檢測,主要適用於時序資料存在周期性情境。如果時序序列的周期性一直,建議關閉自動周期檢測,手動設定序列的周期長度。
周期檢測頻率
-
開啟自動周期檢測時該配置項生效。演算法根據配置的時間頻率定期更新時間序列的周期。例如周期檢測頻率是12小時,那麼演算法每隔12小時自動檢測更新序列的周期。
周期長度
-
關閉自動周期檢測時該配置項生效。設定序列周期的時間長度,如果序列無周期,那麼設定為0。
觀測長度
-
異常檢測時參考的歷史資料長度。如果序列包含周期性,那麼建議觀測長度是序列周期長度的3倍。例如序列的周期長度為1天,那麼設定觀測長度為3天。
敏感度
-
敏感度越高,檢測到的異常數量越多、異常分數越高。此時對於異常的召回率越高,準確率越低。
進階參數
趨勢項敏感度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。趨勢項敏感度越高,在對趨勢項序列異常檢測時檢測到的異常數量越多、異常分數越高。此時對於異常的召回率越高,準確率越低。
雜訊項敏感度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。雜訊項敏感度越高,在對雜訊項序列異常檢測時檢測到的異常數量越多、異常分數越高。此時對於異常的召回率越高,準確率越低。
趨勢項採樣長度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。如果序列觀測長度太長,會導致趨勢項分析速度較慢。配置的趨勢項採樣長度越長,趨勢項分析速度越快(可能會降低趨勢項檢測的準確率)。例如配置趨勢項採樣長度為8,分析趨勢項時在原始序列中每個8個點採樣一個資料點,在採樣後序列上進行分析。
周期項採樣長度
演算法會將序列分解成趨勢項、周期項和雜訊項三部分。如果序列觀測長度太長,會導致周期項分析速度較慢。配置的周期項採樣長度越長,周期項分析速度越快(可能會降低周期項檢測的準確率)。例如配置周期項採樣長度為8,分析周期項時在原始序列中每個8個點採樣一個資料點,在採樣後序列上進行分析。建議配置在5以內。
視窗長度
如果序列觀測長度太長,會導致異常檢測速度較慢。設定視窗長度後檢測演算法以滑動視窗的形式分段檢測資料序列,提高檢測速度。建議配置在5000以內。如果不需要按照滑動視窗形式檢查,配置為0。
在預覽地區體驗、查看當前參數配置下的演算法效果。
設定時間範圍,確定待檢測的時間序列的起始和結束時間。單擊資料查詢,將使用在資料特徵配置中設定的查詢分析語句,處理指定時間範圍的資料,產生時序資料。
選擇實體資訊和特徵,確定待檢測的特徵序列。單擊預覽將會調用檢測演算法處理指定的特徵序列,並在下方展示檢測結果。單擊顯示參數,會顯示當前演算法的參數配置。
檢測結果中展示趨勢項預覽、周期項預覽和雜訊項預覽。可以在趨勢項預覽和雜訊項預覽中調整異常閾值,只有當異常分數大於異常閾值的例外狀況事件才可以用來產生警示。
在調度配置地區,完成如下配置。
參數 | 說明 |
起始時間 | 設定演算法要處理的時間序列的開始時間。任務將從該時間點開始讀取時序資料,並進行檢測。 |
資料延時時間長度 | 設定待檢測的時序資料寫入到Log Service的最大延遲。任務在讀取時序資料時會等待資料延時時間長度中配置的時間長度,確保時序資料已經寫入到Log Service中,以便可以讀到完整的時序資料 |
模型開始學習時間 | 非必填專案。設定後,背景工作會在這個時間點後開始建模,跟任務的調度開始時間保持一致。 |
模型結束學習時間 | 非必填專案。不設定,則模型會持續學習,並在任務學習到開始時間後,開始進行檢測。設定後,背景工作會在這個時間點結束模型更新,並立即開始進行檢測。 |
警示配置
在建立智能巡檢作業設定精靈的警示配置地區,完成以下配置,然後單擊完成。
參數
說明
警示策略
警示策略用於合并、靜默和抑制已產生的警示。
選擇極簡模式和普通模式時,您無需配置警示策略。Log Service預設使用SLS內建動態警示策略(sls.builtin.dynamic)進行警示管理。
選擇進階模式時,您可以選擇內建的或自訂的警示策略進行警示管理。如何建立警示策略,請參見建立警示策略。
行動策略
行動策略用於控制警示通知渠道和頻率等。
管理智能巡檢作業

查看作業:建立智能巡檢作業後,您可以在作業列表中,單擊目標作業標識,查看巡檢作業詳情。
編輯作業。
刪除作業。
重要智能巡檢作業被刪除後,不可恢複,請您謹慎操作。