服務器反爬蟲攻略:Apache/Nginx/PHP禁止某些User Agent抓取網站

咱們都知道網絡上的爬蟲很是多,有對網站收錄有益的,好比百度蜘蛛(Baiduspider),也有不但不遵照robots規則對服務器形成壓力,還不能爲網站帶來流量的無用爬蟲,好比宜搜蜘蛛(YisouSpider)。最近張戈發現nginx日誌中出現了好多宜搜等垃圾的抓取記錄,因而整理收集了網絡上各類禁止垃圾蜘蛛爬站的方法,在給本身網作設置的同時,也給各位站長提供參考。php

 

1、Apache

①、經過修改 .htaccess文件

修改網站目錄下的.htaccess,添加以下代碼便可(2種代碼任選):html

 

可用代碼 (1):nginx

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.*)$ - [F]

可用代碼 (2):sql

SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT

②、經過修改httpd.conf配置文件

找到以下相似位置,根據如下代碼 新增 / 修改,而後重啓Apache便可:vim

DocumentRoot /home/wwwroot/xxx
<Directory "/home/wwwroot/xxx">
SetEnvIfNoCase User-Agent ".*(FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)" BADBOT
        Order allow,deny
        Allow from all
       deny from env=BADBOT
</Directory>

 

2、Nginx代碼

進入到nginx安裝目錄下的conf目錄,將以下代碼保存爲 agent_deny.conf數組

cd /usr/local/nginx/conf服務器

vim agent_deny.conf網絡

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) 
{
     return 403;
}
#禁止指定UA及UA爲空的訪問
if ($http_user_agent ~ "FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) 
{
     return 403;             
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) 
{
    return 403;
}

而後,在網站相關配置中的  location / {  以後插入以下代碼:curl

include agent_deny.conf;

如張戈博客的配置:tcp

[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf 
location / {
        try_files $uri $uri/ /index.php?$args;
        #這個位置新增1行:
        include agent_deny.conf;
        rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;
        rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;
        rewrite ^/sitemap_m.xml$ /sitemap_m.php last;

保存後,執行以下命令,平滑重啓nginx便可:

 /usr/local/nginx/sbin/nginx -s reload

 

 3、PHP代碼

將以下方法放到貼到網站入口文件index.php中的第一個 <?php 以後便可:

//獲取UA信息
$ua = $_SERVER['HTTP_USER_AGENT'];
//將惡意USER_AGENT存入數組
$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','YisouSpider','jikeSpider','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
//禁止空USER_AGENT,dedecms等主流採集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT
if(!$ua) {
header("Content-type: text/html; charset=utf-8");
wp_die('請勿採集本站,由於採集的站長木有小JJ!');
}else{
    foreach($now_ua as $value )
//判斷是不是數組中存在的UA
    if(eregi($value,$ua)) {
    header("Content-type: text/html; charset=utf-8");
    wp_die('請勿採集本站,由於採集的站長木有小JJ!');
    }
}

 

4、測試效果

若是是vps,那很是簡單,使用curl -A 模擬抓取便可,好比:

模擬宜搜蜘蛛抓取:

模擬宜搜蜘蛛抓取:
curl -I -A 'YisouSpider' zhangge.net
模擬UA爲空的抓取:
curl -I -A '' zhangge.net    
模擬百度蜘蛛的抓取:
curl -I -A 'Baiduspider' zhangge.net

能夠看出,宜搜蜘蛛和UA爲空的返回是403禁止訪問標識,而百度蜘蛛則成功返回200,說明生效!

 

補充:次日,查看nginx日誌的效果截圖:

①、UA信息爲空的垃圾採集被攔截:

②、被禁止的UA被攔截:

所以,對於垃圾蜘蛛的收集,咱們能夠經過分析網站的訪問日誌,找出一些沒見過的的蜘蛛(spider)名稱,通過查詢無誤以後,能夠將其加入到前文代碼的禁止列表當中,起到禁止抓取的做用。

 

5、附錄:UA收集

下面是網絡上常見的垃圾UA列表,僅供參考,同時也歡迎你來補充。

FeedDemon             內容採集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy            sql注入
Java                  內容採集
Jullo                 內容採集
Feedly                內容採集
UniversalFeedParser   內容採集
ApacheBench           cc攻擊器
Swiftbot              無用爬蟲
YandexBot             無用爬蟲
AhrefsBot             無用爬蟲
YisouSpider           無用爬蟲
jikeSpider            無用爬蟲
MJ12bot               無用爬蟲
ZmEu phpmyadmin       漏洞掃描
WinHttp               採集cc攻擊
EasouSpider           無用爬蟲
HttpClient            tcp攻擊
Microsoft URL Control 掃描
YYSpider              無用爬蟲
jaunty                wordpress爆破掃描器
oBot                  無用爬蟲
Python-urllib         內容採集
Indy Library          掃描
FlightDeckReports Bot 無用爬蟲
Linguee Bot           無用爬蟲

 

6、參考資料

 

問說:http://www.uedsc.com/acquisition.html

浩海:http://www.it300.com/article-15358.html

夜空:http://blog.slogra.com/post-135.html

相關文章
相關標籤/搜索