智能巡檢的工作原理 - Simple Log Service

Log Service智能異常分析App提供模型訓練和即時巡檢功能，支援對日誌、指標等資料進行自動化、智能化、自適應地模型訓練和異常巡檢。本文介紹智能巡檢的背景資訊、工作原理、功能特性、基本概念、調度與執行情境和使用建議。

重要

自2025年7月15日（UTC+8）起，智能異常分析功能停止對新使用者服務，存量使用者可繼續使用。

影響範圍
本次下線涉及的核心功能模組包括智能巡檢、文本分析和時序預測。
功能平移方案
上述下線功能均可以通過Log Service的機器學習文法、定時查詢與分析（定時SQL）和儀錶盤實現完整替代。

背景資訊

基於時間的資料（例如日誌、指標）日積月累後會積累大量的資料。例如，某個服務每天產生1000萬條資料，則一年大約為36億條資料。對於這些資料，使用固定巡檢規則的人工巡檢方式面臨以下問題：

效率低：對於異常現場的定位，需要人工配置各種各樣的規則去進行異常的捕獲。
時效差：大部分時序資料具有時效性特徵。故障、變更都會引起對應指標形態的變化，前一種規則條件下的異常可能在下一時刻是正常狀態。
配置難：時序資料形態各異。有突刺變化、折點變化、周期變化等諸多形態，閾值範圍也各有不同。對於複雜形態下的異常，規則往往難以配置。
效果差：資料流不斷動態變化，業務形態日新月異，固定的規則方法很難在新的業態下起作用，從而產生大量的誤判或者漏報。對於異常的程度，不同情境，不同使用者，對其容忍的程度不同。在排查問題中，有效異常點捕捉的越多，有助於具體問題的排查；而在警示通知中，高危異常點越少，越有助於提升警示處理的效率。

針對以上問題，Log Service推出智能巡檢功能，通過自研的人工智慧演算法，對指標、日誌等流資料進行一站式整合、巡檢與警示。使用智能巡檢功能後，您只需要組織一下具體的監控項，演算法模型就會自動為您完成異常檢測、業態自適應、警示精細，讓您從複雜繁瑣的規則配置中解脫出來。

工作原理

Log Service通過SQL方式構造、彙總監控指標，按照調度規則定時拉取資料輸入模型，將巡檢出來的結果按照事件標準寫入目標日誌庫（internal-ml-log）中，並對異常發送警示通知。具體工作原理如下圖所示。

功能特性

Log Service的智能巡檢功能的特性如下表所示。

特性	說明
配置監控對象	設定SQL語句或查詢分析語句，把日誌資料轉化成監控指標，發起任務
定時分析資料	根據需求設定具體的資料特徵，配置實體項和指標項。巡檢執行個體自動探索新的監控實體，定時拉取資料進行自動建模與智能分析。模型定時調度最高支援秒級拉取。
參數設定與模型效果預覽	不同模型參數設定後支援效果預覽，同時對指標時序曲線與異常分數曲線進行可視化。您可以輕鬆配置最適合當前資料特徵的模型參數。
結果輸出多渠道	巡檢結果儲存到目標LogStore中，通過警示通知將異常語音總機給您。

基本概念

Log Service的智能巡檢功能涉及的基本概念如下表所示。

術語	說明
任務	一個巡檢任務包括資料特徵、模型參數、警示策略等資訊。
執行個體	一個巡檢任務按照任務配置產生執行執行個體。每一個執行個體針對任務配置定時拉取資料，運行演算法模型，分發巡檢結果。一個任務有且產生一個執行個體，無論是正常被調度還是您觸發異常執行個體重試的情況，不存在多個執行個體同時執行的情況。目前不支援參數的熱升級。若您修改任務配置後，巡檢任務會重新建立一個新的執行個體執行演算法模型，與之前的執行個體無關。關於不同操作對執行個體的調度與執行的影響，請參見調度與執行情境。
執行個體ID	執行執行個體的唯一標識。
建立時間	執行個體建立的時間。一般是按照您配置的任務規則產生，在補運行或追趕延遲時會立即產生執行個體。
執行時間	執行個體開始執行的時間。如果重試任務，則表示最後一次開始執行的時間。
結束時間	執行個體執行結束的時間。如果重試任務，則表示最後一次執行結束的時間。
執行狀態	執行個體的執行狀態。取值：運行中（RUNNING）重試中（STARTING）成功（SUCCEEDED）失敗（FAILED）
資料特徵	資料特徵包含以下配置：觀測間隔：資料觀測採集的時間間隔，也是演算法執行分析的時間間隔。由任務規則產生，不會受到上一個執行個體執行逾時、延遲、補運行等情況的影響。大部分情境下，資料流的觀測間隔是穩定的。最高支援秒級間隔。時間項：資料中用於指示觀測值時間位置的欄位。有且只能指定一個。實體項：資料中用於指示某一觀測實體的若干欄位。特徵項：資料中用於指示具體觀測數值的欄位。可以配置多個。每個特徵都可以配置取值範圍，從而指導模型進行更精準的異常檢測。
演算法配置	不同的演算法有不同的配置項。各個演算法的配置項說明請參見通過SQL彙總指標資料進行即時檢測。
巡檢事件	巡檢事件包含以下配置：實體資訊：標識當前巡檢結果的資料來源。配置資訊：標識當前巡檢結果的任務配置。異常分數：模型對於異常程度的量化結果，取值範圍為[0,1]。異常分數>0.75會通過警示發送通知。異常類型：模型對於異常現場的初步類型判別，包括5種類型：突刺、漂移、抖動、缺失、過閾值。

調度與執行情境

巡檢任務的調度與執行的主要情境如下表所示。

情境	說明
從某個記錄點開始執行巡檢任務	在目前時間點建立巡檢任務後，按照任務規則對歷史資料進行處理。演算法模型會快速消費歷史資料、進行模型訓練，並逐漸追上目前時間。超過任務建立時間或者模型結束學習時間後，發出巡檢事件。
修改調度配置	修改調度配置後，下一個執行個體按照新配置產生。演算法模型會記憶當前消費的時間位置，進而對新來的資料繼續巡檢。
重試失敗的執行個體	如果執行個體執行失敗（例如許可權不足、源庫不存在、目標庫不存在、配置不合法等），系統支援自動重試。若您的狀態一直顯示啟動中，可能是配置失敗。錯誤記錄檔會發送到您的internal-etl-log下，您可以檢查下配置並重新發起。調度執行完成後，系統會根據實際執行情況變更執行個體狀態為成功或失敗。

使用建議

建議您在使用智能巡檢時，根據業務情況，明確具體的監控項，從而進行高效的資料轉化與巡檢。具體說明如下：

考慮資料上傳LogStore的格式，明確欄位的具體含義，確定觀測時間間隔，從而完成巡檢任務的快速配置。
掌握所監控對象的時序資料變化情況，瞭解其穩定性、周期性，對異常形態有初步預期，從而完成演算法參數的合理配置。
按整時（例如整秒、整分鐘、整小時）對齊巡檢任務時間視窗，從而保證例外狀況事件的警示及時性與多事件關聯的準確性。

模型訓練

您還可以使用模型訓練功能加強對資料的異常學習，提升未來的異常預警準確率，模型訓練主要具備以下優勢。

直接使用即時巡檢功能，準確率不及預期。通過模型訓練任務，可提升異常檢測的準確性。
通過即時巡檢任務檢測出來的異常和您所認為的異常之間存在GAP值時，建議您先通過模型訓練任務來自適應檢測所需要的異常類型。

基本流程

輸入資料：寫入模型訓練服務所需要的資料，包含帶標籤的指標資料和不帶標籤的指標資料。這些資料統一儲存在Log Service中，需要通過SQL查詢來擷取。其中，帶標籤的指標資料可以直接進入演算法服務，不帶標籤的指標資料需要通過類比異常注入方式，在獲得標籤後進入演算法服務。
演算法服務：主要包含特徵工程和監督模型兩部分。在演算法服務中，每一個實體訓練一個模型，即會使用實體ID標識對應的模型。
結果儲存和可視化：模型訓練任務完成後，系統會將所訓練的模型進行雲端儲存，將資料集的驗證結果、任務啟動並執行事件等以日誌形式儲存到名為internal-ml-log的LogStore中。您還可以通過任務詳情查看可視化結果。
建立預測任務：模型訓練任務完成後，您將得到該任務中每個實體所訓練的模型。接著您可以建立預測任務，通過預測任務對未來指標資料做即時的異常檢測，以及Log Service打標工具，對結果進行打標，得到更多的標籤資料，反覆訓練模型，提升準確率。

演算法服務簡介

演算法服務主要包括如下三部分。

資料集：通過指定的時間範圍構建資料集，分為訓練集和驗證集。
訓練集的時間長度需大於12天，因為模型訓練任務需要歷史一周的資料做為特徵工程的前提條件；驗證集長度需大於3天，因為需要三天的資料給出驗證報告，更好地說明模型的擬合程度、魯棒性以及表現水平。
特徵工程：包括同環位元征、平移特徵、趨勢特徵、視窗特徵、時間特徵等。
整合模型：通過整合多個樹模型來構建最終的模型。