服務器反爬蟲攻略：Apache/Nginx/PHP禁止某些User Agent抓取網站

時間 2019-12-13

標籤服務器爬蟲攻略 apache nginx php 禁止某些 user agent 抓取網站欄目網絡爬蟲简体版

原文原文鏈接

咱們都知道網絡上的爬蟲很是多，有對網站收錄有益的，好比百度蜘蛛（Baiduspider），也有不但不遵照robots 規則對服務器形成壓力，還不能爲網站帶來流量的無用爬蟲，好比~~宜搜蜘蛛（YisouSpider）~~（最新補充：宜搜蜘蛛已被UC神馬搜索收購！因此本文已去掉宜搜蜘蛛的禁封！ ==> 相關文章 )。最近張戈發現nginx日誌中出現了好多宜搜等垃圾的抓取記錄，因而整理收集了網絡上各類禁止垃圾蜘蛛爬站的方法，在給本身網作設置的同時，也給各位站長提供參考。php

1、Apache

①、經過修改.htaccess 文件

修改網站目錄下的.htaccess，添加以下代碼便可（2 種代碼任選）：html

可用代碼(1)：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.*)$ - [F]

可用代碼(2)：

SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT