如今有許多初學者學習網絡爬蟲,但他們不懂得控制速度,致使服務器資源浪費。經過 Nginx 的簡單配置,能過濾一小部分這類爬蟲。php
Nginx 參考配置以下:html
location / { if ($http_user_agent ~* "scrapy|python|curl|java|wget|httpclient|okhttp") { return 503; } # 正常請求 }
這裏只列出了部分爬蟲的 User-Agent,須要更多請參考:GitHub - JayBizzle/Crawler-Detectjava
注意:User-Agent 很容易修改node
經過禁止某個 IP 或者某個 IP 段訪問,也能起到必定效果。 Nginx 示例配置以下:python
deny 178.238.234.1; deny 1.32.128.0/18;
經過限制某個 IP 的訪問頻率,避免一部分 CC (Challenge Collapsar)攻擊。nginx
Nginx 示例配置以下:git
http{ #定義一個名爲allips的limit_req_zone用來存儲session,大小是10M內存, #以$binary_remote_addr 爲key,限制平均每秒的請求爲20個, #1M能存儲16000個狀態,rete的值必須爲整數, #若是限制兩秒鐘一個請求,能夠設置成30r/m limit_req_zone $binary_remote_addr zone=allips:10m rate=20r/s; ... server{ ... location { ... #限制每ip每秒不超過20個請求,漏桶數burst爲5 #brust的意思就是,若是第1秒、2,3,4秒請求爲19個, #第5秒的請求爲25個是被容許的。 #可是若是你第1秒就25個請求,第2秒超過20的請求返回503錯誤。 #nodelay,若是不設置該選項,嚴格使用平均速率限制請求數, #第1秒25個請求時,5個請求放到第2秒執行, #設置nodelay,25個請求將在第1秒執行。 limit_req zone=allips burst=5 nodelay; ... } ... } ... }
固然,攻擊者也能夠使用代理IP來破除頻率限制。建議在網站前面加一層 CDN。github
參考:nginx限制某個IP同一時間段的訪問次數服務器
首發地址:使用 Nginx 過濾網絡爬蟲 | 蜻蜓代理網絡