咱們都知道網絡上的爬蟲很是多,有對網站收錄有益的,好比百度蜘蛛(Baiduspider),也有不但不遵照robots規則對服務器形成壓力,還不能爲網站帶來流量的無用爬蟲,好比宜搜蜘蛛(YisouSpider)。最近張戈發現nginx日誌中出現了好多宜搜等垃圾的抓取記錄,因而整理收集了網絡上各類禁止垃圾蜘蛛爬站的方法,在給本身網作設置的同時,也給各位站長提供參考。php
修改網站目錄下的.htaccess,添加以下代碼便可(2種代碼任選):html
可用代碼 (1):nginx
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC] RewriteRule ^(.*)$ - [F]
可用代碼 (2):sql
SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT Order Allow,Deny Allow from all Deny from env=BADBOT
找到以下相似位置,根據如下代碼 新增 / 修改,而後重啓Apache便可:vim
DocumentRoot /home/wwwroot/xxx <Directory "/home/wwwroot/xxx"> SetEnvIfNoCase User-Agent ".*(FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)" BADBOT Order allow,deny Allow from all deny from env=BADBOT </Directory>
進入到nginx安裝目錄下的conf目錄,將以下代碼保存爲 agent_deny.conf數組
cd /usr/local/nginx/conf服務器
vim agent_deny.conf網絡
#禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA爲空的訪問 if ($http_user_agent ~ "FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { return 403; } #禁止非GET|HEAD|POST方式的抓取 if ($request_method !~ ^(GET|HEAD|POST)$) { return 403; }
而後,在網站相關配置中的 location / { 以後插入以下代碼:curl
include agent_deny.conf;
如張戈博客的配置:tcp
[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf location / { try_files $uri $uri/ /index.php?$args; #這個位置新增1行: include agent_deny.conf; rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last; rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last; rewrite ^/sitemap_m.xml$ /sitemap_m.php last;
保存後,執行以下命令,平滑重啓nginx便可:
/usr/local/nginx/sbin/nginx -s reload
將以下方法放到貼到網站入口文件index.php中的第一個 <?php 以後便可:
//獲取UA信息 $ua = $_SERVER['HTTP_USER_AGENT']; //將惡意USER_AGENT存入數組 $now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','YisouSpider','jikeSpider','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot'); //禁止空USER_AGENT,dedecms等主流採集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT if(!$ua) { header("Content-type: text/html; charset=utf-8"); wp_die('請勿採集本站,由於採集的站長木有小JJ!'); }else{ foreach($now_ua as $value ) //判斷是不是數組中存在的UA if(eregi($value,$ua)) { header("Content-type: text/html; charset=utf-8"); wp_die('請勿採集本站,由於採集的站長木有小JJ!'); } }
若是是vps,那很是簡單,使用curl -A 模擬抓取便可,好比:
模擬宜搜蜘蛛抓取:
模擬宜搜蜘蛛抓取: curl -I -A 'YisouSpider' zhangge.net 模擬UA爲空的抓取: curl -I -A '' zhangge.net 模擬百度蜘蛛的抓取: curl -I -A 'Baiduspider' zhangge.net
能夠看出,宜搜蜘蛛和UA爲空的返回是403禁止訪問標識,而百度蜘蛛則成功返回200,說明生效!
①、UA信息爲空的垃圾採集被攔截:
②、被禁止的UA被攔截:
所以,對於垃圾蜘蛛的收集,咱們能夠經過分析網站的訪問日誌,找出一些沒見過的的蜘蛛(spider)名稱,通過查詢無誤以後,能夠將其加入到前文代碼的禁止列表當中,起到禁止抓取的做用。
下面是網絡上常見的垃圾UA列表,僅供參考,同時也歡迎你來補充。
FeedDemon 內容採集 BOT/0.1 (BOT for JCE) sql注入 CrawlDaddy sql注入 Java 內容採集 Jullo 內容採集 Feedly 內容採集 UniversalFeedParser 內容採集 ApacheBench cc攻擊器 Swiftbot 無用爬蟲 YandexBot 無用爬蟲 AhrefsBot 無用爬蟲 YisouSpider 無用爬蟲 jikeSpider 無用爬蟲 MJ12bot 無用爬蟲 ZmEu phpmyadmin 漏洞掃描 WinHttp 採集cc攻擊 EasouSpider 無用爬蟲 HttpClient tcp攻擊 Microsoft URL Control 掃描 YYSpider 無用爬蟲 jaunty wordpress爆破掃描器 oBot 無用爬蟲 Python-urllib 內容採集 Indy Library 掃描 FlightDeckReports Bot 無用爬蟲 Linguee Bot 無用爬蟲
問說:http://www.uedsc.com/acquisition.html