如何配置Agentic SOC的可觀測性監控警示 - Security Center

業務情境

威脅分析與響應作為核心安全服務，其自身穩定性至關重要。在日常營運中，可能面臨以下問題：

服務可用性風險：無法及時感知 Agentic SOC 日誌接入中斷、核心模組運行異常等問題，導致安全分析能力降級或失效。
成本管理困難：日誌接入流量超出預期，可能導致Log Service（SLS）產生非預期的儲存和查詢費用。
營運效率低下：缺乏統一的監控視圖和警示機制，難以將 Agentic SOC 的運行狀態整合到現有營運體系中。

工作流程

本方案通過 Agentic SOC 的雲可觀測性功能，將運行狀態日誌投遞至Log Service（SLS），再利用 SLS 的警示功能實現監控與通知。

日誌產生：威脅分析與響應的各個模組（如用量計量、模組健康）在運行時產生監控日誌。
日誌投遞：啟用雲可觀測性功能後，Agentic SOC 將這些監控日誌即時投遞到使用者指定的Log Service（SLS）專案中。
日誌儲存：日誌在 SLS 的 Logstore 中進行儲存。
警示監控：在 SLS 中建立警示規則，周期性地執行查詢分析語句（SQL），並根據結果判斷是否滿足觸發條件。
發送通知：警示被觸發後，通過行動策略將通知發送到指定的渠道，如簡訊、DingTalk或郵件。

實施步驟

步驟一：啟用雲可觀測性功能

在威脅分析與響應控制台啟用雲可觀測性功能，允許系統將監控日誌投遞到Log Service（SLS）。

進入雲可觀測性配置頁面
1. 訪問Security Center控制台-系統設定-功能設定，在頁面左側頂部，選擇需防護資產所在的地區：中國內地或非中國內地。
2. 在設定頁簽，單擊雲可觀測性。
啟用開關
在雲可觀測性配置頁簽的基礎設定地區，開啟啟用雲可觀測性功能開關。
配置日誌儲存資訊
在雲可觀測性配置頁簽的詳細配置地區，完成如下配置：
- 監控模組：根據業務要求開啟需要投遞的日誌資訊開關。
  - 模組健康：監控各功能模組的運行狀態、串連情況和效能等資訊。
  - 用量計量：監控日誌接入流量和日誌儲存容量的用量情況。
- 日誌儲存位置：
  - Region選擇：首次設定需選擇雲可觀測性日誌儲存的地區（Region）。
    警告
    日誌儲存的地區（Region）首次設定後不可更改。系統將在該 Region 下自動建立專屬的 SLS Project 和 Logstore。
  - Project：系統根據地區自動建立，格式為sas-observability-帳號UID-地區ID。
  - Logstore映射：系統自動建立兩個 Logstore。
    - health-log：用於儲存模組健康日誌。
    - metering-log：用於儲存用量計量日誌。
- 數據保留天數：設定雲可觀測性資料在Log Service中的保留時間，預設30天，支援自訂修改。
  說明
  保留時間越長，儲存成本越高。
儲存配置：單擊儲存配置。等待配置生效後，Agentic SOC 會開始向指定的 SLS Project 投遞日誌。
重要
雲可觀測性功能產生的日誌儲存會產生額外的費用，由Log Service（SLS）出賬。

步驟二：配置警示通知規則

操作步驟

在雲可觀測性頁簽，單擊右下角警示中心，跳轉至雲可觀測性日誌Project的警示中心配置頁面。

在警示規則頁簽，單擊建立警示。配置項說明如下：

說明

更多說明，請參見建立警示監控規則。

參數	說明
規則名稱	警示監控規則的名稱。
檢查頻率	Log Service根據您配置的頻率對查詢和分析結果進行檢查。每小時：每小時檢查一次查詢和分析結果。每天：在每天的某個固定時間點檢查一次查詢和分析結果。每週：在周幾的某個固定時間點檢查一次查詢和分析結果。固定間隔：按照固定間隔檢查查詢和分析結果。 Cron：通過Cron運算式指定時間間隔，按照指定的時間間隔檢查查詢和分析結果。說明 Cron運算式在Log Service的警示規則裡最小精度為分鐘，格式為24小時制。例如： `0/5 * * * `從0分鐘開始，每隔5分鐘檢查一次 `0 0/1 * `從0點0分開始，每隔1小時檢查一次 `0 18 * `每天18點0分檢查一次 `0 0 1 *`每月1日0點0分檢查一次 Cron運算式文法，可參見Cron定時任務。
查詢統計	單擊輸入框，在查詢統計對話方塊中，設定查詢和分析語句。關聯報表頁簽：選擇監控儀錶盤。高級配置頁簽：在類型列表選擇：日誌庫：用於儲存日誌，相關的查詢分析配置請參見查詢與分析快速指引。指標庫：用於儲存時序資料，相關的查詢分析配置請參見查詢和分析時序資料。資源資料：用於配置特定警示監控規則所關聯的外部資料。更多資訊，請參見建立資源資料。選擇類型為日誌庫或指標庫，且設定了查詢和分析語句時，您可以選擇是否開啟獨享SQL。更多資訊，請參見高效能完全精確查詢與分析（SQL獨享版）。自動：預設不使用獨享SQL。當遇到查詢並發限制或者查詢結果不精確時，自動嘗試使用獨享SQL重新查詢。啟用：始終使用獨享SQL進行查詢和分析。關閉：關閉獨享SQL。配置多個查詢統計時，您可以指定集合操作關聯多個查詢結果。更多資訊，請參見設定查詢統計語句。
分組評估	Log Service支援對查詢和分析結果進行分組。更多資訊，請參見設定分組評估。標籤自訂：Log Service根據您配置的欄位對查詢和分析結果進行分組。分組後，每個組單獨評估觸發條件。在每個檢查周期內，查詢和分析結果滿足觸發條件時，各個分組各自產生一條警示。支援設定多個欄位。不分組：在每個檢查周期內，滿足觸發條件時，只產生一條警示。標籤自動：當您在查詢統計中選擇指標庫（即監控時序資料的查詢和分析結果）時，Log Service支援標籤自動分組。分組後，每個組單獨評估觸發條件。在每個檢查周期內，查詢和分析結果滿足觸發條件時，各個分組各自產生一條警示。
觸發條件	配置觸發條件及嚴重度。觸發條件有資料：當查詢和分析結果中存在資料時，觸發警示。有特定條資料：當查詢和分析結果中存在N條資料時，觸發警示。有資料匹配：當查詢和分析結果中存在資料滿足警示運算式時，觸發警示。有特定條資料匹配：當查詢和分析結果中存在N條資料滿足警示運算式時，觸發警示。嚴重度主要用於警示降噪控制和警示通知控制，即您在建立警示策略或行動策略時，可添加關於警示嚴重度的判斷條件。更多資訊，請參見設定警示嚴重度。簡單配置：直接選擇警示嚴重度，則表示通過該規則產生的警示都為同一嚴重度。分條件配置：單擊添加，分條件設定警示嚴重度。警示條件運算式的相關文法，請參見警示條件運算式文法。
添加標籤	Log Service允許您給產生的警示添加標識性屬性，索引值對格式。主要用於警示降噪控制和警示通知控制，即您在建立警示策略或行動策略時，可添加關於標籤的判斷條件。更多資訊，請參見添加標籤和標註。
添加標註	Log Service允許您給產生的警示添加非標識性屬性，索引值對格式。主要用於警示降噪控制和警示通知控制，即您在建立警示策略或行動策略時，可添加關於標註的判斷條件。更多資訊，請參見添加標籤和標註。您還可以開啟自動添加標註開關，系統自動在警示中添加__count__等資訊。更多資訊，請參見自動標註。
恢復通知	開啟恢復通知開關後，警示恢複時觸發一條恢複警示。例如您建立了一個警示監控規則，用於監控各個主機的CPU指標，當CPU使用率超過95%時觸發警示，主機CPU使用率下降為正常值（低於等於95%）後發送一條恢複通知。更多資訊，請參見設定恢複通知。
進階配置>連續觸發閾值	連續多少次執行檢查評估都滿足觸發條件時，才會觸發一次警示。不滿足觸發條件時不計入統計。
進階配置>無資料警示	開啟無資料警示開關後，如果查詢和分析的結果（有多個時，進行集合操作後的結果）為無資料的次數超過連續觸發閾值，則產生一條警示。更多資訊，請參見無資料警示。
輸出目標	輸出目標用於配置警示事件的輸出位置，可以配置一個或多個輸出目標。事件庫：將警示事件寫入到EventStore。 CloudMonitor事件中心：將警示事件寫入到CloudMonitor系統事件中心，通過CloudMonitor對警示進行管理和通知。 SLS通知：將警示事件輸出到SLS的通知服務，通過警示策略、行動策略等對警示進行管理和通知。
輸出目標-事件庫	開啟：開啟事件庫開啟開關後，警示將寫入到EventStore中。 Region：警示寫入的EventStore所屬地區。 Project：警示寫入的EventStore所屬專案。事件庫：警示寫入的EventStore。授權方式：預設角色：單擊前往授權，根據介面提示完成授權，並扮演阿里雲系統角色AliyunLogETLRole將警示寫入目標EventStore。具體操作，請參見預設角色授權。自訂角色：扮演自訂角色將警示寫入目標EventStore，填寫角色ARN。具體操作，請參見自訂角色授權。
輸出目標-CloudMonitor事件中心	開啟：開啟CloudMonitor事件中心開啟開關後，警示將發送到CloudMonitor事件中心。更多資訊，請參見查看系統事件。
輸出目標-SLS通知	開啟：開啟SLS通知開關後，警示將發送到SLS通知服務進行後續的管理和通知。警示策略極簡模式 Log Service預設使用SLS內建動態警示策略（sls.builtin.dynamic）進行警示管理。配置行動組。您配置行動組後，Log Service自動為您建立一個名為`規則名稱-行動策略`的行動策略。由該警示監控規則引發的所有警示都通過該行動策略發送通知。如何配置，請參見通知渠道說明。重要您可以在行動策略管理頁面，修改該行動策略。具體操作，請參見行動策略。如果您在修改行動策略時添加了判斷條件，則此處的警示策略將自動變更為普通模式。重複等待：在重複等待時間內，重複的警示只觸發一次行動策略，即只發送一次警示通知。普通模式 Log Service預設使用SLS內建動態警示策略（sls.builtin.dynamic）進行警示管理。選擇內建的或自訂的行動策略進行警示通知。如何建立行動策略，請參見行動策略。重複等待：在重複等待時間內，重複的警示只觸發一次行動策略，即只發送一次警示通知。進階模式選擇內建的或自訂的警示策略進行警示管理。如何建立警示策略，請參見建立警示策略。選擇內建的或自訂的行動策略進行警示通知。如何建立行動策略，請參見行動策略。還可以開啟或關閉自訂行動策略。更多資訊，請參見動態行動策略機制。重複等待：在重複等待時間內，重複的警示只觸發一次行動策略，即只發送一次警示通知。

配置完成後，單擊確定。

配置樣本

流量跌零

情境說明：日誌接入流量突降為0，沒有資料再寫入威脅分析與響應。
方案說明：系統每10分鐘檢查一次過去10分鐘內的日誌量。若日誌量為0，則判定為資料上報中斷並觸發警示。警示通過簡訊發送至指定接收人，靜默期為10分鐘。
配置項說明：
- 檢查頻率：固定間隔10分鐘。
- 查詢統計：單擊添加，在查詢統計彈窗的高級配置頁簽，參照如下配置：
  - 類型：日誌庫
  - 授權方式：預設。
  - 日誌庫：metering-log
  - 獨享 SQL：關閉。
  - 查詢區間：整點10分鐘。查詢 SQL如下：
```
* and type: log_traffic |
select if(t.log_size is null, 0, t.log_size) from (select sum(log_size) log_size from log) t
```
- 分組評估：不分組。
- 觸發條件：有資料匹配，評估運算式為_col0<=0。
- 輸出目標：選擇SLS通知後，開啟開關。
  - 警示策略：
    - 模式：極簡模式。
    - 行動組：
      - 渠道：簡訊，其他途徑配置請參考通知渠道說明。
      - 接收人類型：靜態接收人。
      - 內容範本：SLS內建內容範本。
      - 發送時段：任意。
  - 重複等待：10分鐘。

接入異常

情境說明：接入中心資料來源接入狀態出現異常。
配置方案：每15分鐘查看模組健康對應的日誌庫中是否存在status（狀態值）不等於normal的資料，若存在則警示。
配置項說明：
- 檢查頻率：固定間隔15分鐘。
- 查詢統計：單擊添加，在查詢統計彈窗的高級配置頁簽，參照如下配置：
  - 類型：日誌庫
  - 授權方式：預設。
  - 日誌庫：health-log
  - 獨享 SQL：關閉。
  - 查詢區間：整點15分鐘。查詢 SQL如下：
- 觸發條件：有資料匹配，評估運算式為count>0。
- 輸出目標：選擇SLS通知後，開啟開關。
  - 警示策略：
    - 模式：極簡模式。
    - 行動組：
      - 渠道：簡訊，其他途徑配置請參考通知渠道說明。
      - 接收人類型：靜態接收人。
      - 內容範本：SLS內建內容範本。
      - 發送時段：任意。
  - 重複等待：15分鐘。

成本與風險說明

成本說明：啟用雲可觀測性功能後，監控日誌持續投遞至Log Service（SLS），產生日誌儲存（預設儲存30天）與查詢分析費用，由 SLS 結算。
關鍵風險：日誌儲存的地區（Region）首次儲存後無法通過控制台修改。請在初次配置時謹慎選擇，錯誤的 Region 可能增加資料鏈路延遲和管理複雜度。