使用 Nginx 過濾網絡爬蟲

時間 2019-11-08

標籤使用 nginx 過濾網絡爬蟲欄目 Nginx 简体版

原文原文鏈接

如今有許多初學者學習網絡爬蟲，但他們不懂得控制速度，致使服務器資源浪費。經過 Nginx 的簡單配置，能過濾一小部分這類爬蟲。php

方法一：經過 User-Agent 過濾

Nginx 參考配置以下：html

location / {
        if ($http_user_agent ~* "scrapy|python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常請求
    }

這裏只列出了部分爬蟲的 User-Agent，須要更多請參考：GitHub - JayBizzle/Crawler-Detectjava

注意：User-Agent 很容易修改node

方法二：block IP

經過禁止某個 IP 或者某個 IP 段訪問，也能起到必定效果。 Nginx 示例配置以下：python

deny 178.238.234.1;
deny 1.32.128.0/18;

方法三：rate limit

經過限制某個 IP 的訪問頻率，避免一部分 CC （Challenge Collapsar）攻擊。nginx

Nginx 示例配置以下：git

http{ 
    #定義一個名爲allips的limit_req_zone用來存儲session，大小是10M內存，
    #以$binary_remote_addr 爲key,限制平均每秒的請求爲20個，
    #1M能存儲16000個狀態，rete的值必須爲整數，
    #若是限制兩秒鐘一個請求，能夠設置成30r/m
    limit_req_zone $binary_remote_addr zone=allips:10m rate=20r/s;
    ...
    server{
        ...
        location {
            ...
            #限制每ip每秒不超過20個請求，漏桶數burst爲5
            #brust的意思就是，若是第1秒、2,3,4秒請求爲19個，
            #第5秒的請求爲25個是被容許的。
            #可是若是你第1秒就25個請求，第2秒超過20的請求返回503錯誤。
            #nodelay，若是不設置該選項，嚴格使用平均速率限制請求數，
            #第1秒25個請求時，5個請求放到第2秒執行，
            #設置nodelay，25個請求將在第1秒執行。
 
            limit_req zone=allips burst=5 nodelay;
            ...
        }
        ...
    }
    ...
}

固然，攻擊者也能夠使用代理IP來破除頻率限制。建議在網站前面加一層 CDN。github

參考：nginx限制某個IP同一時間段的訪問次數服務器

首發地址：使用 Nginx 過濾網絡爬蟲 | 蜻蜓代理網絡