當今互連網爬蟲的種類繁多,本文介紹了如何使用WAF提供的各種功能來攔截惡意爬蟲。

值得注意的是,為了繞過網站管理員的防爬策略,專業的爬蟲往往會不斷變換爬取手段,所以依靠固定的規則來實現一勞永逸的完美防護是不太可能的。此外,防爬往往與業務自身的特性有很強的關聯,需要專業的安全團隊進行對抗才能取得較好的效果。如果您對防爬效果有較高的要求,或者缺乏專業的安全團隊來配置相應的安全性原則,歡迎您掃描文末的釘釘二維碼聯絡我們,協助您定製防爬方案。

惡意爬蟲的危害和特徵

正常爬蟲通常會帶有xxspider的user-agent標識,並且爬取的請求量不大,爬取URL和時間段都比較分散。合法的爬蟲IP在做反向的nslookup或tracert時,一般都可以看到合法的來源地址。例如,下圖顯示了一條百度爬蟲的記錄。

而惡意爬蟲可能會在某個時間段大量請求某個網域名稱的特定地址/介面,這很可能是偽裝成爬蟲的CC攻擊,或是經第三方偽裝後,針對性爬取敏感資訊的請求。當惡意爬蟲請求量大到一定程度,往往可以造成伺服器的CPU飆升,帶來網站無法開啟等業務中斷問題。

WAF會針對惡意爬蟲進行風險預警,提示使用者昨日爬蟲的請求情況。您可以結合具體的業務情況,有針對性地配置下列規則中的一種或幾種,來攔截對應的爬蟲請求。

配置精準存取控制攔截特定爬蟲

通過配置精準存取控制規則,您可以靈活地結合user-agent和URL等關鍵字段來過濾惡意爬蟲請求。例如,使用下面的配置,可以只允許存取百度爬蟲,而過濾其他的爬蟲(關鍵字對大小寫不敏感)。

说明 同一條規則中的多個條件之間為“與”的關係,即必須同時滿足所有條件,該條規則才會生效。
使用下面的配置,可以禁止任何爬蟲訪問 /userinfo目錄下的所有內容。

配置自訂CC規則攔截惡意請求

使用自訂CC規則,可針對特定的路徑配置訪問頻率的檢測和阻斷規則。

配置Alibaba Antifraud Service攔截惡意請求

Alibaba Antifraud Service可基於人機識別和大資料等技術對特定介面(如登入、註冊、SMS驗證碼、投票、下單、搶購等)或目錄(如房產資訊、使用者資訊等)做防護。

配置地區封鎖攔截惡意請求

如果惡意請求大量來自於特定地區(如海外),且正常的業務訪問都沒有該地區的請求,則可以開啟地區封鎖來攔截這種請求。