本文介紹如何通過威脅分析與響應的雲可觀測性功能和Log Service(SLS),實現對Agentic SOC自身健康度、日誌用量等核心指標的自動化監控與警示,從而提升服務可用性和營運效率。
業務情境
威脅分析與響應作為核心安全服務,其自身的穩定性與健康度至關重要。在日常營運中,可能面臨以下問題:
服務可用性風險:無法及時感知 Agentic SOC 日誌接入中斷、核心模組運行異常等問題,導致安全分析能力降級或失效。
成本管理困難:日誌接入流量超出預期,可能導致Log Service(SLS)產生非預期的儲存和查詢費用,需要有效監控和預警。
營運效率低下:缺乏統一的監控視圖和警示機制,難以將 Agentic SOC 的運行狀態整合到現有的營運體系中。
工作流程
本方案通過 Agentic SOC 的雲可觀測性功能,將運行狀態日誌投遞至Log Service(SLS),再利用 SLS 的警示功能實現監控與通知。
日誌產生:威脅分析與響應的各個模組(如用量計量、模組健康)在運行時產生監控日誌。
日誌投遞:啟用雲可觀測性功能後,Agentic SOC 將這些監控日誌即時投遞到使用者指定的Log Service(SLS)專案中。
日誌儲存:日誌在 SLS 的 Logstore 中進行儲存。
警示監控:在 SLS 中建立警示規則,周期性地執行查詢分析語句(SQL),並根據結果判斷是否滿足觸發條件。
發送通知:警示被觸發後,通過行動策略將通知發送到指定的渠道,如簡訊、DingTalk或郵件。
實施步驟
步驟一:啟用雲可觀測性功能
首先,在威脅分析與響應控制台啟用雲可觀測性功能,以允許其將監控日誌投遞到Log Service(SLS)。
進入雲可觀測性配置頁面
訪問Security Center控制台-系統設定-功能設定,在頁面左側頂部,選擇需防護資產所在的地區:中國內地或非中國內地。
在設定頁簽,單擊雲可觀測性。
啟用開關
在雲可觀測性配置頁簽的基礎設定地區,開啟啟用雲可觀測性功能開關。
配置日誌儲存資訊
在雲可觀測性配置頁簽的詳細配置地區,完成如下配置:
監控模組:根據業務要求開啟需要投遞的日誌資訊開關。
模組健康:監控各功能模組的運行狀態、串連情況和效能等資訊。
用量計量:監控日誌接入流量和日誌儲存容量的用量情況。
日誌儲存位置:
Region選擇:首次設定需選擇雲可觀測性日誌儲存的地區(Region)。
警告日誌儲存的地區(Region)首次設定後不可更改。系統將在該 Region 下自動建立專屬的 SLS Project 和 Logstore。
Project:系統將根據地區自動建立,格式為
sas-observability-帳號UID-地區ID。Logstore映射:系統自動建立兩個 Logstore。
health-log:用於儲存模組健康日誌。metering-log:用於儲存用量計量日誌。
數據保留天數:設定雲可觀測性資料在Log Service中的保留時間,預設30天,支援自訂修改。
說明保留時間越長,儲存成本越高。
儲存配置:單擊儲存配置。等待配置生效後,Agentic SOC 會開始向指定的 SLS Project 投遞日誌。
重要雲可觀測性功能產生的日誌儲存會產生額外的費用,由Log Service(SLS)出賬。
步驟二:配置警示通知規則
操作步驟
在雲可觀測性頁簽,單擊右下角警示中心,跳轉至雲可觀測性日誌Project的警示中心配置頁面 。
在警示規則頁簽,單擊建立警示。配置項說明如下:
說明更多說明,請參見建立警示監控規則。
參數
說明
規則名稱
警示監控規則的名稱。
檢查頻率
Log Service根據您配置的頻率對查詢和分析結果進行檢查。
每小時:每小時檢查一次查詢和分析結果。
每天:在每天的某個固定時間點檢查一次查詢和分析結果。
每周:在周幾的某個固定時間點檢查一次查詢和分析結果。
固定間隔:按照固定間隔檢查查詢和分析結果。
Cron:通過Cron運算式指定時間間隔,按照指定的時間間隔檢查查詢和分析結果。
說明Cron運算式在Log Service的警示規則裡最小精度為分鐘,格式為24小時制。例如:
0/5 * * * *從0分鐘開始,每隔5分鐘檢查一次0 0/1 * * *從0點0分開始,每隔1小時檢查一次0 18 * * *每天18點0分檢查一次0 0 1 * *每月1日0點0分檢查一次
Cron運算式文法,可參見Cron定時任務。
查詢統計
單擊輸入框,在查詢統計對話方塊中,設定查詢和分析語句。
關聯報表頁簽:選擇監控儀錶盤。
進階配置頁簽:
在類型列表選擇:
選擇類型為日誌庫或指標庫,且設定了查詢和分析語句時,您可以選擇是否開啟獨享SQL。更多資訊,請參見高效能完全精確查詢與分析(SQL獨享版)。
自動:預設不使用獨享SQL。當遇到查詢並發限制或者查詢結果不精確時,自動嘗試使用獨享SQL重新查詢。
啟用:始終使用獨享SQL進行查詢和分析。
關閉:關閉獨享SQL。
配置多個查詢統計時,您可以指定集合操作關聯多個查詢結果。更多資訊,請參見設定查詢統計語句。
分組評估
Log Service支援對查詢和分析結果進行分組。更多資訊,請參見設定分組評估。
標籤自訂:Log Service根據您配置的欄位對查詢和分析結果進行分組。分組後,每個組單獨評估觸發條件。在每個檢查周期內,查詢和分析結果滿足觸發條件時,各個分組各自產生一條警示。
支援設定多個欄位。
不分組:在每個檢查周期內,滿足觸發條件時,只產生一條警示。
標籤自動:當您在查詢統計中選擇指標庫(即監控時序資料的查詢和分析結果)時 ,Log Service支援標籤自動分組。
分組後,每個組單獨評估觸發條件。在每個檢查周期內,查詢和分析結果滿足觸發條件時,各個分組各自產生一條警示。
觸發條件
配置觸發條件及嚴重度。
觸發條件
有資料:當查詢和分析結果中存在資料時,觸發警示。
有特定條資料:當查詢和分析結果中存在N條資料時,觸發警示。
有資料匹配:當查詢和分析結果中存在資料滿足警示運算式時,觸發警示。
有特定條資料匹配:當查詢和分析結果中存在N條資料滿足警示運算式時,觸發警示。
嚴重度
主要用於警示降噪控制和警示通知控制,即您在建立警示策略或行動策略時,可添加關於警示嚴重度的判斷條件。更多資訊,請參見設定警示嚴重度。
簡單配置:直接選擇警示嚴重度,則表示通過該規則產生的警示都為同一嚴重度。
分條件配置:單擊添加,分條件設定警示嚴重度。
警示條件運算式的相關文法,請參見警示條件運算式文法。
添加標籤
Log Service允許您給產生的警示添加標識性屬性,索引值對格式。主要用於警示降噪控制和警示通知控制,即您在建立警示策略或行動策略時,可添加關於標籤的判斷條件。更多資訊,請參見添加標籤和標註。
添加標註
Log Service允許您給產生的警示添加非標識性屬性,索引值對格式。主要用於警示降噪控制和警示通知控制,即您在建立警示策略或行動策略時,可添加關於標註的判斷條件。更多資訊,請參見添加標籤和標註。
您還可以開啟自動添加標註開關,系統自動在警示中添加__count__等資訊。更多資訊,請參見自動標註。
恢複通知
開啟恢複通知開關後,警示恢複時觸發一條恢複警示。例如您建立了一個警示監控規則,用於監控各個主機的CPU指標,當CPU使用率超過95%時觸發警示,主機CPU使用率下降為正常值(低於等於95%)後發送一條恢複通知。更多資訊,請參見設定恢複通知。
進階配置>連續觸發閾值
連續多少次執行檢查評估都滿足觸發條件時,才會觸發一次警示。不滿足觸發條件時不計入統計。
進階配置>無資料警示
開啟無資料警示開關後,如果查詢和分析的結果(有多個時,進行集合操作後的結果)為無資料的次數超過連續觸發閾值,則產生一條警示。更多資訊,請參見無資料警示。
輸出目標
輸出目標用於配置警示事件的輸出位置,可以配置一個或多個輸出目標。
事件庫:將警示事件寫入到EventStore。
CloudMonitor事件中心:將警示事件寫入到CloudMonitor系統事件中心,通過CloudMonitor對警示進行管理和通知。
SLS通知:將警示事件輸出到SLS的通知服務,通過警示策略、行動策略等對警示進行管理和通知。
輸出目標-事件庫
輸出目標-CloudMonitor事件中心
開啟:開啟CloudMonitor事件中心開啟開關後,警示將發送到CloudMonitor事件中心。更多資訊,請參見查看系統事件。
輸出目標-SLS通知
開啟:開啟SLS通知開關後,警示將發送到SLS通知服務進行後續的管理和通知。
警示策略
極簡模式
普通模式
Log Service預設使用SLS內建動態警示策略(sls.builtin.dynamic)進行警示管理。
選擇內建的或自訂的行動策略進行警示通知。如何建立行動策略,請參見行動策略。
重複等待:在重複等待時間內,重複的警示只觸發一次行動策略,即只發送一次警示通知。
進階模式
配置完成後,單擊確定。
配置樣本
流量跌零
情境說明:日誌接入流量突降為0,沒有資料再寫入威脅分析與響應。
方案說明:系統每10分鐘檢查一次過去10分鐘內的日誌量,若日誌量為0,則判定為資料上報中斷並觸發警示。警示通過簡訊發送至指定接收人,並設定10分鐘的靜默期,以確保及時發現並響應資料鏈路異常。
配置項說明:
檢查頻率:固定間隔10分鐘。
查詢統計:單擊添加,在查詢統計彈窗的高級配置頁簽,參照如下配置:
類型:日誌庫
授權方式:預設。
日誌庫:
metering-log獨享 SQL:關閉。
查詢區間:整點10分鐘。查詢 SQL如下:
* and type: log_traffic | select if(t.log_size is null, 0, t.log_size) from (select sum(log_size) log_size from log) t

分組評估:不分組。
觸發條件:
有資料匹配,評估運算式為_col0<=0。輸出目標:選擇SLS通知後,開啟開關。
接入異常
情境說明:接入中心資料來源接入狀態出現異常。
配置方案:每15分鐘查看模組健康對應的日誌庫中是否存在
status(狀態值)不等於normal的資料,若存在則警示。配置項說明:
檢查頻率:固定間隔15分鐘。
查詢統計:單擊添加,在查詢統計彈窗的高級配置頁簽,參照如下配置:
類型:日誌庫
授權方式:預設。
日誌庫:
health-log獨享 SQL:關閉。
查詢區間:整點15分鐘。查詢 SQL如下:
* and type: data_ingestion_health | select count(*) count from log where status != 'normal'

觸發條件:
有資料匹配,評估運算式為count>0。輸出目標:選擇SLS通知後,開啟開關。
成本與風險說明
成本說明:啟用雲可觀測性功能後,監控日誌會持續投遞至Log Service(SLS),並因此產生相應的日誌儲存(預設儲存30天)與查詢分析費用,由SLS進行結算。
關鍵風險:日誌儲存的地區(Region)在首次選擇並儲存後,將無法通過控制台直接修改。請在初次配置時謹慎選擇,錯誤的 Region 可能會增加資料鏈路的延遲和管理複雜度。