全部產品
Search
文件中心

Security Center:自訂Agentic SOC服務可觀測性監控警示

更新時間:Mar 17, 2026

本文介紹如何通過威脅分析與響應的雲可觀測性功能Log Service(SLS),實現對Agentic SOC自身健康度、日誌用量等核心指標的自動化監控與警示,從而提升服務可用性和營運效率。

業務情境

威脅分析與響應作為核心安全服務,其自身的穩定性與健康度至關重要。在日常營運中,可能面臨以下問題:

  • 服務可用性風險:無法及時感知 Agentic SOC 日誌接入中斷、核心模組運行異常等問題,導致安全分析能力降級或失效。

  • 成本管理困難:日誌接入流量超出預期,可能導致Log Service(SLS)產生非預期的儲存和查詢費用,需要有效監控和預警。

  • 營運效率低下:缺乏統一的監控視圖和警示機制,難以將 Agentic SOC 的運行狀態整合到現有的營運體系中。

工作流程

本方案通過 Agentic SOC 的雲可觀測性功能,將運行狀態日誌投遞至Log Service(SLS),再利用 SLS 的警示功能實現監控與通知。

image
  1. 日誌產生威脅分析與響應的各個模組(如用量計量、模組健康)在運行時產生監控日誌。

  2. 日誌投遞:啟用雲可觀測性功能後,Agentic SOC 將這些監控日誌即時投遞到使用者指定的Log Service(SLS)專案中。

  3. 日誌儲存:日誌在 SLS 的 Logstore 中進行儲存。

  4. 警示監控:在 SLS 中建立警示規則,周期性地執行查詢分析語句(SQL),並根據結果判斷是否滿足觸發條件。

  5. 發送通知:警示被觸發後,通過行動策略將通知發送到指定的渠道,如簡訊、DingTalk或郵件。

實施步驟

步驟一:啟用雲可觀測性功能

首先,在威脅分析與響應控制台啟用雲可觀測性功能,以允許其將監控日誌投遞到Log Service(SLS)。

  1. 進入雲可觀測性配置頁面

    1. 訪問Security Center控制台-系統設定-功能設定,在頁面左側頂部,選擇需防護資產所在的地區:中國內地非中國內地

    2. 設定頁簽,單擊雲可觀測性

  2. 啟用開關

    雲可觀測性配置頁簽的基礎設定地區,開啟啟用雲可觀測性功能開關。

  3. 配置日誌儲存資訊

    雲可觀測性配置頁簽的詳細配置地區,完成如下配置:

    • 監控模組:根據業務要求開啟需要投遞的日誌資訊開關。

      • 模組健康:監控各功能模組的運行狀態、串連情況和效能等資訊。

      • 用量計量:監控日誌接入流量和日誌儲存容量的用量情況。

    • 日誌儲存位置

      • Region選擇:首次設定需選擇雲可觀測性日誌儲存的地區(Region)。

        警告

        日誌儲存的地區(Region)首次設定後不可更改。系統將在該 Region 下自動建立專屬的 SLS Project 和 Logstore。

      • Project:系統將根據地區自動建立,格式為sas-observability-帳號UID-地區ID

      • Logstore映射:系統自動建立兩個 Logstore。

        • health-log:用於儲存模組健康日誌。

        • metering-log:用於儲存用量計量日誌。

    • 數據保留天數:設定雲可觀測性資料在Log Service中的保留時間,預設30天,支援自訂修改。

      說明

      保留時間越長,儲存成本越高。

  4. 儲存配置單擊儲存配置。等待配置生效後,Agentic SOC 會開始向指定的 SLS Project 投遞日誌。

    重要

    雲可觀測性功能產生的日誌儲存會產生額外的費用,由Log Service(SLS)出賬。

步驟二:配置警示通知規則

操作步驟

  1. 雲可觀測性頁簽,單擊右下角警示中心,跳轉至雲可觀測性日誌Project的警示中心配置頁面

  2. 警示規則頁簽,單擊建立警示。配置項說明如下:

    說明

    更多說明,請參見建立警示監控規則

    參數

    說明

    規則名稱

    警示監控規則的名稱。

    檢查頻率

    Log Service根據您配置的頻率對查詢和分析結果進行檢查。

    • 每小時:每小時檢查一次查詢和分析結果。

    • 每天:在每天的某個固定時間點檢查一次查詢和分析結果。

    • 每周:在周幾的某個固定時間點檢查一次查詢和分析結果。

    • 固定間隔:按照固定間隔檢查查詢和分析結果。

    • Cron:通過Cron運算式指定時間間隔,按照指定的時間間隔檢查查詢和分析結果。

      說明

      Cron運算式在Log Service的警示規則裡最小精度為分鐘,格式為24小時制。例如:

      • 0/5 * * * *從0分鐘開始,每隔5分鐘檢查一次

      • 0 0/1 * * *從0點0分開始,每隔1小時檢查一次

      • 0 18 * * *每天18點0分檢查一次

      • 0 0 1 * *每月1日0點0分檢查一次

      Cron運算式文法,可參見Cron定時任務

    查詢統計

    單擊輸入框,在查詢統計對話方塊中,設定查詢和分析語句。

    • 關聯報表頁簽:選擇監控儀錶盤。

    • 進階配置頁簽:

      • 類型列表選擇:

      • 選擇類型日誌庫指標庫,且設定了查詢和分析語句時,您可以選擇是否開啟獨享SQL。更多資訊,請參見高效能完全精確查詢與分析(SQL獨享版)

        • 自動:預設不使用獨享SQL。當遇到查詢並發限制或者查詢結果不精確時,自動嘗試使用獨享SQL重新查詢。

        • 啟用:始終使用獨享SQL進行查詢和分析。

        • 關閉:關閉獨享SQL。

    配置多個查詢統計時,您可以指定集合操作關聯多個查詢結果。更多資訊,請參見設定查詢統計語句

    分組評估

    Log Service支援對查詢和分析結果進行分組。更多資訊,請參見設定分組評估

    • 標籤自訂:Log Service根據您配置的欄位對查詢和分析結果進行分組。分組後,每個組單獨評估觸發條件。在每個檢查周期內,查詢和分析結果滿足觸發條件時,各個分組各自產生一條警示。

      支援設定多個欄位。

    • 不分組:在每個檢查周期內,滿足觸發條件時,只產生一條警示。

    • 標籤自動:當您在查詢統計中選擇指標庫(即監控時序資料的查詢和分析結果)時 ,Log Service支援標籤自動分組。

      分組後,每個組單獨評估觸發條件。在每個檢查周期內,查詢和分析結果滿足觸發條件時,各個分組各自產生一條警示。

    觸發條件

    配置觸發條件及嚴重度。

    • 觸發條件

      • 有資料:當查詢和分析結果中存在資料時,觸發警示。

      • 有特定條資料:當查詢和分析結果中存在N條資料時,觸發警示。

      • 有資料匹配:當查詢和分析結果中存在資料滿足警示運算式時,觸發警示。

      • 有特定條資料匹配:當查詢和分析結果中存在N條資料滿足警示運算式時,觸發警示。

    • 嚴重度

      主要用於警示降噪控制和警示通知控制,即您在建立警示策略或行動策略時,可添加關於警示嚴重度的判斷條件。更多資訊,請參見設定警示嚴重度

      • 簡單配置:直接選擇警示嚴重度,則表示通過該規則產生的警示都為同一嚴重度。

      • 分條件配置:單擊添加,分條件設定警示嚴重度。

    警示條件運算式的相關文法,請參見警示條件運算式文法

    添加標籤

    Log Service允許您給產生的警示添加標識性屬性,索引值對格式。主要用於警示降噪控制和警示通知控制,即您在建立警示策略或行動策略時,可添加關於標籤的判斷條件。更多資訊,請參見添加標籤和標註

    添加標註

    Log Service允許您給產生的警示添加非標識性屬性,索引值對格式。主要用於警示降噪控制和警示通知控制,即您在建立警示策略或行動策略時,可添加關於標註的判斷條件。更多資訊,請參見添加標籤和標註

    您還可以開啟自動添加標註開關,系統自動在警示中添加__count__等資訊。更多資訊,請參見自動標註

    恢複通知

    開啟恢複通知開關後,警示恢複時觸發一條恢複警示。例如您建立了一個警示監控規則,用於監控各個主機的CPU指標,當CPU使用率超過95%時觸發警示,主機CPU使用率下降為正常值(低於等於95%)後發送一條恢複通知。更多資訊,請參見設定恢複通知

    進階配置>連續觸發閾值

    連續多少次執行檢查評估都滿足觸發條件時,才會觸發一次警示。不滿足觸發條件時不計入統計。

    進階配置>無資料警示

    開啟無資料警示開關後,如果查詢和分析的結果(有多個時,進行集合操作後的結果)為無資料的次數超過連續觸發閾值,則產生一條警示。更多資訊,請參見無資料警示

    輸出目標

    輸出目標用於配置警示事件的輸出位置,可以配置一個或多個輸出目標。

    • 事件庫:將警示事件寫入到EventStore。

    • CloudMonitor事件中心:將警示事件寫入到CloudMonitor系統事件中心,通過CloudMonitor對警示進行管理和通知。

    • SLS通知:將警示事件輸出到SLS的通知服務,通過警示策略、行動策略等對警示進行管理和通知。

    輸出目標-事件庫

    • 開啟:開啟事件庫開啟開關後,警示將寫入到EventStore中。

    • 地區:警示寫入的EventStore所屬地區。

    • Project:警示寫入的EventStore所屬專案。

    • 事件庫:警示寫入的EventStore。

    • 授權方式

      • 預設角色:單擊前往授權,根據介面提示完成授權,並扮演阿里雲系統角色AliyunLogETLRole將警示寫入目標EventStore。具體操作,請參見預設角色授權

      • 自訂角色:扮演自訂角色將警示寫入目標EventStore,填寫角色ARN。具體操作,請參見自訂角色授權

    輸出目標-CloudMonitor事件中心

    • 開啟:開啟CloudMonitor事件中心開啟開關後,警示將發送到CloudMonitor事件中心。更多資訊,請參見查看系統事件

    輸出目標-SLS通知

    • 開啟:開啟SLS通知開關後,警示將發送到SLS通知服務進行後續的管理和通知。

    • 警示策略

      極簡模式
      • Log Service預設使用SLS內建動態警示策略(sls.builtin.dynamic)進行警示管理。

      • 配置行動組。

        您配置行動組後,Log Service自動為您建立一個名為規則名稱-行動策略的行動策略。由該警示監控規則引發的所有警示都通過該行動策略發送通知。如何配置,請參見通知渠道說明

        重要

        您可以在行動策略管理頁面,修改該行動策略。具體操作,請參見行動策略。如果您在修改行動策略時添加了判斷條件,則此處的警示策略將自動變更為普通模式

      • 重複等待:在重複等待時間內,重複的警示只觸發一次行動策略,即只發送一次警示通知。

      普通模式
      • Log Service預設使用SLS內建動態警示策略(sls.builtin.dynamic)進行警示管理。

      • 選擇內建的或自訂的行動策略進行警示通知。如何建立行動策略,請參見行動策略

      • 重複等待:在重複等待時間內,重複的警示只觸發一次行動策略,即只發送一次警示通知。

      進階模式
      • 選擇內建的或自訂的警示策略進行警示管理。如何建立警示策略,請參見建立警示策略

      • 選擇內建的或自訂的行動策略進行警示通知。如何建立行動策略,請參見行動策略。還可以開啟或關閉自訂行動策略。更多資訊,請參見動態行動策略機制

      • 重複等待:在重複等待時間內,重複的警示只觸發一次行動策略,即只發送一次警示通知。

  3. 配置完成後,單擊確定

配置樣本

流量跌零

  • 情境說明:日誌接入流量突降為0,沒有資料再寫入威脅分析與響應

  • 方案說明:系統每10分鐘檢查一次過去10分鐘內的日誌量,若日誌量為0,則判定為資料上報中斷並觸發警示。警示通過簡訊發送至指定接收人,並設定10分鐘的靜默期,以確保及時發現並響應資料鏈路異常。

  • 配置項說明

    • 檢查頻率:固定間隔10分鐘。

    • 查詢統計:單擊添加,在查詢統計彈窗的高級配置頁簽,參照如下配置:

      • 類型:日誌庫

      • 授權方式:預設。

      • 日誌庫metering-log

      • 獨享 SQL:關閉。

      • 查詢區間:整點10分鐘。查詢 SQL如下:

        * and type: log_traffic |
        select if(t.log_size is null, 0, t.log_size) from (select sum(log_size) log_size from log) t

      image

    • 分組評估:不分組。

    • 觸發條件有資料匹配評估運算式_col0<=0

    • 輸出目標:選擇SLS通知後,開啟開關。

      • 警示策略

        • 模式:極簡模式。

        • 行動組

          • 渠道:簡訊,其他途徑配置請參考通知渠道說明

          • 接收人類型:靜態接收人。

          • 說明

            若設定動態接收人,請參見設定動態接收人

          • 內容範本:SLS內建內容範本。

          • 發送時段:任意。

      • 重複等待:10分鐘。

接入異常

  • 情境說明:接入中心資料來源接入狀態出現異常。

  • 配置方案:每15分鐘查看模組健康對應的日誌庫中是否存在status(狀態值)不等於normal的資料,若存在則警示。

  • 配置項說明

    • 檢查頻率:固定間隔15分鐘。

    • 查詢統計:單擊添加,在查詢統計彈窗的高級配置頁簽,參照如下配置:

      • 類型:日誌庫

      • 授權方式:預設。

      • 日誌庫health-log

      • 獨享 SQL:關閉。

      • 查詢區間:整點15分鐘。查詢 SQL如下:

      • * and type: data_ingestion_health | 
        select count(*) count from log where status != 'normal'

      image

    • 觸發條件有資料匹配評估運算式count>0

    • 輸出目標:選擇SLS通知後,開啟開關。

      • 警示策略

        • 模式:極簡模式。

        • 行動組

          • 渠道:簡訊,其他途徑配置請參考通知渠道說明

          • 接收人類型:靜態接收人。

          • 說明

            若設定動態接收人,請參見設定動態接收人

          • 內容範本:SLS內建內容範本。

          • 發送時段:任意。

      • 重複等待:15分鐘。

成本與風險說明

  • 成本說明:啟用雲可觀測性功能後,監控日誌會持續投遞至Log Service(SLS),並因此產生相應的日誌儲存(預設儲存30天)與查詢分析費用,由SLS進行結算。

  • 關鍵風險:日誌儲存的地區(Region)在首次選擇並儲存後,將無法通過控制台直接修改。請在初次配置時謹慎選擇,錯誤的 Region 可能會增加資料鏈路的延遲和管理複雜度。