WAF针对Bot管理模块进行全面升级,提供防爬场景化配置功能。您可以基于实际业务场景对防爬规则进行自定义,从而更有针对性地对业务进行爬虫风险防护。

背景信息

当今互联网爬虫种类繁多。为了绕过网站管理员的防爬策略,专业的爬虫往往会不断变换爬取手段。因此,依靠固定的规则来实现一劳永逸的完美防护是不太可能的。此外,爬虫风险管理往往与业务自身的特性有很强的关联性,需要专业的安全团队进行对抗才能取得较好的效果。

如果您对防爬效果有较高的要求,或者缺乏专业的安全团队来配置相应的安全策略,您可以使用Web应用防火墙提供的防爬场景化功能,有效防护恶意爬虫风险。WAF基于阿里云对全网威胁情报实时计算得到的恶意爬虫IP情报库、动态更新的各大公有云、IDC机房IP库等情报信息,可以帮助您直接放行合法爬虫请求,并对来自威胁情报库的恶意请求进行防护处置。

恶意爬虫的危害和特征

正常爬虫请求的user-agent字段中通常包含xxspider标识,并且爬取的请求量不大,爬取的URL和时间段都比较分散。如果对合法的爬虫IP执行反向nslookuptracert,一般都可以看到爬虫的来源地址。例如,对百度的爬虫IP执行反向nslookup,即可查询到其来源地址信息。查看源站信息

恶意爬虫则可能会在某个时间段大量请求某个域名的特定地址或接口,这种情况很可能是伪装成爬虫的CC攻击,或是经第三方伪装后针对性爬取敏感信息的请求。当恶意爬虫请求量大到一定程度后,往往造成服务器的CPU飙升,带来网站无法访问等业务中断问题。

适用版本

高级版及以上版本实例,且已开通了Bot防护模块。

相关文档

配置浏览器访问网页的防爬场景化规则

配置App防爬场景化规则

防爬场景化配置示例