本文介绍如何通过Agentic SOC的云可观测性功能和日志服务(SLS),实现对Agentic SOC自身健康度、日志用量等核心指标的自动化监控与告警,从而提升服务可用性和运维效率。
业务场景
Agentic SOC作为核心安全服务,其自身的稳定性与健康度至关重要。在日常运维中,可能面临以下问题:
服务可用性风险:无法及时感知 Agentic SOC 日志接入中断、核心模块运行异常等问题,导致安全分析能力降级或失效。
成本管理困难:日志接入流量超出预期,可能导致日志服务(SLS)产生非预期的存储和查询费用,需要有效监控和预警。
运维效率低下:缺乏统一的监控视图和告警机制,难以将 Agentic SOC 的运行状态整合到现有的运维体系中。
工作流程
本方案通过 Agentic SOC 的云可观测性功能,将运行状态日志投递至日志服务(SLS),再利用 SLS 的告警功能实现监控与通知。
日志生成:Agentic SOC的各个模块(如用量计量、模块健康)在运行时产生监控日志。
日志投递:启用云可观测性功能后,Agentic SOC 将这些监控日志实时投递到用户指定的日志服务(SLS)项目中。
日志存储:日志在 SLS 的 Logstore 中进行存储。
告警监控:在 SLS 中创建告警规则,周期性地执行查询分析语句(SQL),并根据结果判断是否满足触发条件。
发送通知:告警被触发后,通过行动策略将通知发送到指定的渠道,如短信、钉钉或邮件。
实施步骤
步骤一:启用云可观测性功能
首先,在Agentic SOC控制台启用云可观测性功能,以允许其将监控日志投递到日志服务(SLS)。
进入云可观测性配置页面
访问云安全中心控制台-系统设置-功能设置,在页面左侧顶部,选择需防护资产所在的区域:中国内地或非中国内地。
在设置页签,单击云可观测性。
启用开关
在云可观测性配置页签的基础设置区域,打开启用云可观测性功能开关。
配置日志存储信息
在云可观测性配置页签的详细配置区域,完成如下配置:
监控模块:根据业务要求打开需要投递的日志信息开关。
模块健康:监控各功能模块的运行状态、连接情况和性能等信息。
用量计量:监控日志接入流量和日志存储容量的用量情况。
日志存储位置:
Region选择:首次设置需选择云可观测性日志存储的地域(Region)。
警告日志存储的地域(Region)首次设置后不可更改。系统将在该 Region 下自动创建专属的 SLS Project 和 Logstore。
Project:系统将根据地域自动创建,格式为
sas-observability-账号UID-地域ID。Logstore映射:系统自动创建两个 Logstore。
health-log:用于存储模块健康日志。metering-log:用于存储用量计量日志。
数据保留天数:设置云可观测性数据在日志服务中的保留时间,默认30天,支持自定义修改。
说明保留时间越长,存储成本越高。
保存配置:单击保存配置。等待配置生效后,Agentic SOC 会开始向指定的 SLS Project 投递日志。
重要云可观测性功能产生的日志存储会产生额外的费用,由日志服务(SLS)出账。
步骤二:配置告警通知规则
操作步骤
在云可观测性页签,单击右下角告警中心,跳转至云可观测性日志Project的告警中心配置页面 。
在告警规则页签,单击新建告警。配置项说明如下:
说明更多说明,请参见创建告警监控规则。
参数
说明
规则名称
告警监控规则的名称。
检查频率
日志服务根据您配置的频率对查询和分析结果进行检查。
每小时:每小时检查一次查询和分析结果。
每天:在每天的某个固定时间点检查一次查询和分析结果。
每周:在周几的某个固定时间点检查一次查询和分析结果。
固定间隔:按照固定间隔检查查询和分析结果。
Cron:通过Cron表达式指定时间间隔,按照指定的时间间隔检查查询和分析结果。
说明Cron表达式在日志服务的告警规则里最小精度为分钟,格式为24小时制。例如:
0/5 * * * *从0分钟开始,每隔5分钟检查一次0 0/1 * * *从0点0分开始,每隔1小时检查一次0 18 * * *每天18点0分检查一次0 0 1 * *每月1日0点0分检查一次
Cron表达式语法,可参见Cron定时任务。
查询统计
单击输入框,在查询统计对话框中,设置查询和分析语句。
关联报表页签:选择监控仪表盘。
高级配置页签:
在类型列表选择:
选择类型为日志库或指标库,且设置了查询和分析语句时,您可以选择是否开启独享SQL。更多信息,请参见高性能完全精确查询与分析(SQL独享版)。
自动:默认不使用独享SQL。当遇到查询并发限制或者查询结果不精确时,自动尝试使用独享SQL再次查询。
启用:始终使用独享SQL进行查询和分析。
关闭:关闭独享SQL。
配置多个查询统计时,您可以指定集合操作关联多个查询结果。更多信息,请参见设置查询统计语句。
分组评估
日志服务支持对查询和分析结果进行分组。更多信息,请参见设置分组评估。
标签自定义:日志服务根据您配置的字段对查询和分析结果进行分组。分组后,每个组单独评估触发条件。在每个检查周期内,查询和分析结果满足触发条件时,各个分组各自产生一条告警。
支持设置多个字段。
不分组:在每个检查周期内,满足触发条件时,只产生一条告警。
标签自动:当您在查询统计中选择指标库(即监控时序数据的查询和分析结果)时 ,日志服务支持标签自动分组。
分组后,每个组单独评估触发条件。在每个检查周期内,查询和分析结果满足触发条件时,各个分组各自产生一条告警。
触发条件
配置触发条件及严重度。
触发条件
有数据:当查询和分析结果中存在数据时,触发告警。
有特定条数据:当查询和分析结果中存在N条数据时,触发告警。
有数据匹配:当查询和分析结果中存在数据满足告警表达式时,触发告警。
有特定条数据匹配:当查询和分析结果中存在N条数据满足告警表达式时,触发告警。
严重度
主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于告警严重度的判断条件。更多信息,请参见设置告警严重度。
简单配置:直接选择告警严重度,则表示通过该规则产生的告警都为同一严重度。
分条件配置:单击添加,分条件设置告警严重度。
告警条件表达式的相关语法,请参见告警条件表达式语法。
添加标签
日志服务允许您给产生的告警添加标识性属性,键值对格式。主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于标签的判断条件。更多信息,请参见添加标签和标注。
添加标注
日志服务允许您给产生的告警添加非标识性属性,键值对格式。主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于标注的判断条件。更多信息,请参见添加标签和标注。
您还可以打开自动添加标注开关,系统自动在告警中添加__count__等信息。更多信息,请参见自动标注。
恢复通知
打开恢复通知开关后,告警恢复时触发一条恢复告警。例如您创建了一个告警监控规则,用于监控各个主机的CPU指标,当CPU使用率超过95%时触发告警,主机CPU使用率下降为正常值(低于等于95%)后发送一条恢复通知。更多信息,请参见设置恢复通知。
高级配置>连续触发阈值
连续多少次执行检查评估都满足触发条件时,才会触发一次告警。不满足触发条件时不计入统计。
高级配置>无数据告警
打开无数据告警开关后,如果查询和分析的结果(有多个时,进行集合操作后的结果)为无数据的次数超过连续触发阈值,则产生一条告警。更多信息,请参见无数据告警。
输出目标
输出目标用于配置告警事件的输出位置,可以配置一个或多个输出目标。
事件库:将告警事件写入到EventStore。
云监控事件中心:将告警事件写入到云监控系统事件中心,通过云监控对告警进行管理和通知。
SLS通知:将告警事件输出到SLS的通知服务,通过告警策略、行动策略等对告警进行管理和通知。
输出目标-事件库
输出目标-云监控事件中心
开启:打开云监控事件中心开启开关后,告警将发送到云监控事件中心。更多信息,请参见查看系统事件。
输出目标-SLS通知
开启:打开SLS通知开关后,告警将发送到SLS通知服务进行后续的管理和通知。
告警策略
极简模式
普通模式
日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。
选择内置的或自定义的行动策略进行告警通知。如何创建行动策略,请参见行动策略。
重复等待:在重复等待时间内,重复的告警只触发一次行动策略,即只发送一次告警通知。
高级模式
配置完成后,单击确定。
配置示例
流量跌零
场景说明:日志接入流量突降为0,没有数据再写入Agentic SOC。
方案说明:系统每10分钟检查一次过去10分钟内的日志量,若日志量为0,则判定为数据上报中断并触发告警。告警通过短信发送至指定接收人,并设置10分钟的静默期,以确保及时发现并响应数据链路异常。
配置项说明:
检查频率:固定间隔10分钟。
查询统计:单击添加,在查询统计弹窗的高级配置页签,参照如下配置:
类型:日志库
授权方式:默认。
日志库:
metering-log独享SQL:关闭。
查询区间:整点10分钟。查询 SQL如下:
* and type: log_traffic | select if(t.log_size is null, 0, t.log_size) from (select sum(log_size) log_size from log) t

分组评估:不分组。
触发条件:
有数据匹配,评估表达式为_col0<=0。输出目标:选择SLS通知后,打开开关。
接入异常
场景说明:接入中心数据源接入状态出现异常。
配置方案:每15分钟查看模块健康对应的日志库中是否存在
status(状态值)不等于normal的数据,若存在则告警。配置项说明:
检查频率:固定间隔15分钟。
查询统计:单击添加,在查询统计弹窗的高级配置页签,参照如下配置:
类型:日志库
授权方式:默认。
日志库:
health-log独享SQL:关闭。
查询区间:整点15分钟。查询 SQL如下:
* and type: data_ingestion_health | select count(*) count from log where status != 'normal'

触发条件:
有数据匹配,评估表达式为count>0。输出目标:选择SLS通知后,打开开关。
成本与风险说明
成本说明:启用云可观测性功能后,监控日志会持续投递至日志服务(SLS),并因此产生相应的日志存储(默认存储30天)与查询分析费用,由SLS进行结算。
关键风险:日志存储的地域(Region)在首次选择并保存后,将无法通过控制台直接修改。请在初次配置时谨慎选择,错误的 Region 可能会增加数据链路的延迟和管理复杂度。