搜索引擎蜘蛛給網站帶來的危害,有效指引爬蟲對應的措施[方法篇](禁止YisouSpider|EasouSpider|EtaoSpider)css
上一遍文章《搜索引擎蜘蛛給網站帶來的危害,有效指引爬蟲對應的措施(最準確搜索引擎蜘蛛名稱)》
下一篇「如何更高效發現&屏蔽搜索引擎蜘蛛」實例篇。html
如今接着詳細介紹該方法,包括如何發現蜘蛛,從網站的日誌裏統計蜘蛛,發現未知的蜘蛛。針對不一樣的蜘蛛,屏蔽蜘蛛、禁止爬蟲怎麼樣更高效,更快捷。而且經過實例來介紹。linux
收集最新最準確搜索引擎蜘蛛IPnginx
信息來源線上:最新最準確
根據線上空間的訪問日誌來整理常見的蜘蛛名稱,不求最全,但力求爬蟲信息資料最新最準確。如下搜索引擎蜘蛛名稱都是根據線上空間日誌親手提取。
各類搜索引擎的蜘蛛爬蟲會不斷地訪問抓取咱們站點的內容,也會消耗站點的必定流量,有時候就須要屏蔽某些蜘蛛訪問咱們的站點。
其實有效經常使用的搜索引擎就那麼幾個,只要在robots.txt文件裏把經常使用的幾個搜索引擎蜘蛛容許放行就行了,其它的爬蟲通通經過通配符(*)禁止掉,屏蔽某些蜘蛛。curl
YisouSpider,這貨是哪一個的蜘蛛?怎麼封掉它?
答案:國內最瘋狂的蜘蛛,能讓你的網站掛掉。VPS、小內存虛擬機就別說了,它來十遭殃。tcp
直接來有質量的內容
1.怎麼抓住這個YisouSpider爬蟲?
2.直接封YisouSpider方法。
3.檢測配置有效性
ide
1.怎麼抓住這個YisouSpider爬蟲?測試
Nginx爲例,日誌文件爲
網站
access.log cat grep access.log 命令 cat access.log | grep -i "YisouSpider" | awk '{print $1}' > iplog.txt
將他的抓取ip日誌保存起來。
分析統計,連續的IP,C段IP計算,這蜘蛛它的IP資源挺多啊!搜索引擎
cat iplog.txt | awk -F'.' '{print $1"."$2"."$3".0"}' | sort | uniq -c | sort -r -n > stat_ip.log
如下是搜索引擎蜘蛛爬蟲IP地址,這裏只是部分蜘蛛IP,不完整。
YisouSpider搜索引擎蜘蛛
iplog.txt
實例IP統計: 15370 110.75.176.51 15310 110.75.176.52 15100 110.75.176.53 15050 110.75.176.50 15040 110.75.176.54 14880 110.75.176.49 14810 118.195.65.244 14310 118.195.65.245 13560 118.195.65.242 13460 125.39.66.149 12760 125.39.66.148 12670 125.39.66.150 11300 211.138.121.37 10790 211.138.121.38 10610 125.39.66.146 10100 211.138.121.36 8880 221.176.88.90 8810 125.39.66.147 8470 118.195.65.246 6730 211.162.121.246 5560 221.176.14.6 4880 221.176.88.87 4540 118.195.65.243 2730 122.228.66.130 2560 122.228.66.134 2410 122.228.66.132 2370 221.176.88.106 2250 122.228.66.133 2030 221.176.88.78 1980 110.75.172.81 1960 221.176.88.104 1910 221.176.88.82 1880 221.176.88.86 1850 110.75.172.80 1840 122.228.66.135 1770 110.75.172.82 1650 221.176.88.89 1640 221.176.88.101 1640 110.75.172.77 1620 110.75.172.78 1600 221.176.88.81 1570 110.75.172.79 1560 221.176.88.98 1560 221.176.88.100 1540 221.176.88.88 1430 221.176.88.79 1110 119.233.255.60 1000 122.198.80.12 790 183.129.198.78 710 183.129.198.79 640 27.24.158.140 630 27.24.158.139 580 122.228.66.165 530 183.129.198.69 480 183.129.198.77 480 122.228.66.162 460 110.75.173.195 450 27.24.158.156 450 122.228.66.167 420 183.129.198.80 420 122.228.66.166 410 122.228.66.164 390 67.55.71.208 390 27.24.158.152 390 122.228.66.163 340 221.130.18.152 310 221.130.18.148 290 202.171.253.105 270 110.75.173.196 250 202.171.253.104 200 110.75.173.199 190 110.75.173.197 180 221.130.18.121 170 202.171.253.108 170 110.75.176.19 170 110.75.173.200 170 110.75.173.198 160 221.181.192.23 160 110.75.176.20 150 202.171.253.103 150 173.208.185.2 150 110.75.174.227 150 110.75.174.185 130 110.75.174.186 130 110.75.174.184 130 110.75.173.7 130 110.75.173.201 120 221.130.18.122 120 120.203.215.10 120 110.75.175.24 120 110.75.174.228 110 221.130.18.120 110 120.203.214.129 110 110.75.174.230 110 110.75.174.225 110 110.75.173.204 110 110.75.172.109 100 120.203.215.8 100 118.244.165.184 100 110.75.176.27 100 110.75.176.23 100 110.75.174.55 100 110.75.174.244 100 110.75.174.243 100 110.75.174.226 100 110.75.173.221 100 110.75.173.175 90 67.210.103.46 90 110.75.175.23 90 110.75.175.19 90 110.75.174.248 90 110.75.174.229 90 110.75.174.183 90 110.75.173.51 90 110.75.173.206 90 110.75.173.203 90 110.75.173.202 80 221.130.18.123 80 110.75.176.22 80 110.75.175.45 80 110.75.174.59 80 110.75.174.245 80 110.75.173.222 80 110.75.173.10 80 110.75.172.107 70 221.130.18.155 70 110.75.176.29 70 110.75.176.21 70 110.75.175.13 70 110.75.174.57 70 110.75.174.56 70 110.75.174.170 70 110.75.174.162 70 110.75.173.9 60 120.203.215.18 60 120.203.214.130 60 110.75.175.15 60 110.75.174.187 60 110.75.174.164 60 110.75.174.160 60 110.75.173.8 60 110.75.173.60 60 110.75.173.52 60 110.75.173.40 60 110.75.173.29 60 110.75.173.224 60 110.75.173.219 60 110.75.173.205 60 110.75.173.19 60 110.75.173.146 50 124.83.190.64 50 124.83.190.62 50 110.75.176.60 50 110.75.176.30 50 110.75.176.26 50 110.75.175.20 50 110.75.175.14 50 110.75.174.246 50 110.75.174.169 50 110.75.174.166 50 110.75.174.165 50 110.75.174.161 50 110.75.173.58 50 110.75.173.54 50 110.75.173.50 50 110.75.173.220 50 110.75.173.164 50 110.75.173.11 40 221.130.18.88 40 110.75.176.57 40 110.75.176.25 40 110.75.175.30 40 110.75.175.21 40 110.75.174.60 40 110.75.174.58 40 110.75.174.233 40 110.75.174.195 40 110.75.174.188 40 110.75.174.167 40 110.75.174.159 40 110.75.173.59 40 110.75.173.57 40 110.75.173.56 40 110.75.173.42 40 110.75.173.41 40 110.75.173.39 40 110.75.173.38 40 110.75.173.163 40 110.75.173.129 40 110.75.173.12 40 110.75.172.110 30 124.83.190.63 30 120.203.215.9 30 110.75.176.55 30 110.75.175.27 30 110.75.175.17 30 110.75.175.16 30 110.75.174.247 30 110.75.174.231 30 110.75.174.168 30 110.75.173.55 30 110.75.173.37 30 110.75.173.25 30 110.75.173.24 30 110.75.173.161 30 110.75.172.97 30 110.75.172.85 30 110.75.172.84 30 110.75.172.83 30 110.75.172.108 20 221.130.18.89 20 221.130.18.119 20 120.203.215.15 20 110.75.176.59 20 110.75.176.28 20 110.75.176.24 20 110.75.175.46 20 110.75.175.29 20 110.75.175.28 20 110.75.175.26 20 110.75.175.25 20 110.75.175.22 20 110.75.175.18 20 110.75.174.236 20 110.75.174.234 20 110.75.174.163 20 110.75.173.49 20 110.75.173.30 20 110.75.173.28 20 110.75.173.23 20 110.75.173.223 20 110.75.173.162 20 110.75.173.160 20 110.75.173.141 20 110.75.172.88 20 110.75.172.87 20 110.75.172.86 20 110.75.172.113 20 110.75.172.111 20 110.75.171.96 20 110.75.171.81 10 60.223.237.167 10 58.22.138.18 10 110.75.176.58 10 110.75.176.56 10 110.75.176.5 10 110.75.176.36 10 110.75.176.2 10 110.75.176.17 10 110.75.176.1 10 110.75.175.58 10 110.75.175.47 10 110.75.175.33 10 110.75.174.53 10 110.75.174.50 10 110.75.174.235 10 110.75.174.22 10 110.75.174.200 10 110.75.174.20 10 110.75.174.199 10 110.75.174.197 10 110.75.174.178 10 110.75.174.136 10 110.75.174.10 10 110.75.173.27 10 110.75.173.26 10 110.75.173.21 10 110.75.173.20 10 110.75.173.193 10 110.75.173.159 10 110.75.173.158 10 110.75.173.145 10 110.75.173.144 10 110.75.173.143 10 110.75.173.142 10 110.75.173.134 10 110.75.173.130 10 110.75.172.98 10 110.75.172.95 10 110.75.172.93 10 110.75.172.74 10 110.75.172.73 10 110.75.172.72 10 110.75.172.118 10 110.75.172.115 10 110.75.172.112 10 110.75.171.99 10 110.75.171.97 10 110.75.171.77 10 110.75.171.124 10 110.75.171.120 10 110.75.171.119 1 110.75.171.100 stat_ip.log 按照C段排列: 70 110.75.173.0 52 110.75.174.0 29 110.75.176.0 28 110.75.172.0 23 110.75.175.0 14 221.176.88.0 11 122.228.66.0 10 221.130.18.0 9 110.75.171.0 5 183.129.198.0 5 125.39.66.0 5 120.203.215.0 5 118.195.65.0 4 27.24.158.0 4 202.171.253.0 3 211.138.121.0 3 124.83.190.0 2 120.203.214.0 1 67.55.71.0 1 67.210.103.0 1 60.223.237.0 1 58.22.138.0 1 221.181.192.0 1 221.176.14.0 1 211.162.121.0 1 173.208.185.0 1 122.198.80.0 1 119.233.255.0 1 118.244.165.0 EtaoSpider搜索引擎蜘蛛 iplog.txt 實例IP統計: 10081 110.75.17.71 10206 110.75.17.47 10015 110.75.17.21 10010 110.75.17.55 10000 110.75.17.46 9099 110.75.17.74 9099 110.75.17.24 9095 110.75.17.72 9087 110.75.17.23 9804 110.75.17.5 9707 110.75.17.73 9704 110.75.17.49 9701 110.75.17.19 9609 110.75.17.67 9606 110.75.17.15 9603 110.75.17.70 9603 110.75.17.22 9602 110.75.17.20 9508 110.75.17.65 9503 110.75.17.30 9052 110.75.17.1 9051 110.75.17.62 9500 110.75.17.40 9404 110.75.17.42 9404 110.75.17.17 9309 110.75.17.48 9308 110.75.17.44 9290 110.75.17.51 9260 110.75.17.45 9206 110.75.17.27 9205 110.75.17.64 9022 110.75.17.37 9016 110.75.17.39 9014 110.75.17.14 9012 110.75.17.59 9009 110.75.17.69 9009 110.75.17.12 9007 110.75.17.26 9006 110.75.17.52 8906 110.75.17.18 8905 110.75.17.2 8902 110.75.17.57 8804 110.75.17.34 8801 110.75.17.32 8703 110.75.17.63 8609 110.75.17.3 8604 110.75.17.7 8602 110.75.17.43 8506 110.75.17.9 8502 110.75.17.68 8502 110.75.17.66 8501 110.75.17.6 8408 110.75.17.8 8309 110.75.17.53 8304 110.75.17.13 8302 110.75.17.31 8209 110.75.17.25 8108 110.75.17.56 8107 110.75.17.38 8107 110.75.17.33 8105 110.75.17.50 8104 110.75.17.28 8103 110.75.17.61 8101 110.75.17.75 8008 110.75.17.11 7909 110.75.17.54 7908 110.75.17.41 7907 110.75.17.16 7906 110.75.17.36 7900 110.75.17.58 7840 110.75.17.29 7801 110.75.17.60 7708 110.75.17.35 7609 110.75.17.4 7600 110.75.17.10 10 110.75.17.79
可見EtaoSpider搜索引擎蜘蛛所有IP是110.75.17.0網段。
有興趣的網友能夠按照以上一樣方法從網站日誌中統計出「EasouSpider」搜索引擎蜘蛛所有IP,其餘類推。
2.直接封YisouSpider爬蟲方法
使用防火牆直接將IP或者IP段封了,例如linux的iptable策略。而且iptable命令在CentOS/RadHat、Debian/Ubuntu 系統下都通用的。Windows系統能夠使用防火牆策略,或者TCP/IP組策略。
方法一:
Windows2008/2012添加防火牆新規則,如圖示:
Windows防火牆->>新建規則->>選擇「自定義規則」->>指定「程序」(Apache)或者選擇「端口」(80)->>做用域->>IP地址範圍(110.75.171.1-到110.75.176.1)->>完成
linux的iptable策略,實例:
iptable命令:禁止"YisouSpider"蜘蛛
# iptables -I RH-Firewall-1-INPUT-s 110.75.171.0/24 -j DROP
# iptables -I RH-Firewall-1-INPUT-s 110.75.172.0/22 -j DROP
# iptables -I RH-Firewall-1-INPUT-s 110.75.17.0/24 -j DROP
以上命令直接操做插入規則iptables,當即生效。
iptables_rules.alc
# Generated by iptables-save v1.4.8 on Sun Apr 14 10:19:40 2013
*filter
:INPUTACCEPT[0:0]
:FORWARD ACCEPT[0:0]
:OUTPUT ACCEPT[19690:39552262]
:RH-Firewall-1-INPUT-[0:0]
-AINPUT-j RH-Firewall-1-INPUT
-A FORWARD -j RH-Firewall-1-INPUT
-A RH-Firewall-1-INPUT-s 110.75.171.0/24 -j DROP
-A RH-Firewall-1-INPUT-s 110.75.172.0/22 -j DROP
-A RH-Firewall-1-INPUT-s 110.75.17.0/24 -j DROP
……中間省略其餘規則……
-A RH-Firewall-1-INPUT-p tcp -m state --state NEW -m tcp --dport 80 -j ACCEPT
-A RH-Firewall-1-INPUT-p tcp -m state --state NEW -m tcp --dport 22 -j ACCEPT
COMMIT
# Completed on Sun Apr 14 10:19:40 2013
讓iptables_rules.alc規則即時生效,命令:
# iptables-restore < iptables_rules.alc
在Debian/Ubuntu系統使用以上命令。
若是是CentOS/RadHat,打開iptables的配置文件:「vi /etc/sysconfig/iptables」內容參考上面。
所有修改完以後重啓iptables:「 service iptables restart」,你能夠驗證一下是否規則都已經生效:「iptables -L」
若是iptables爲空,則顯示
Chain INPUT (policy ACCEPT)
target prot opt source destination
Chain FORWARD (policy ACCEPT)
target prot opt source destination
Chain OUTPUT (policy ACCEPT)
target prot opt source destination
搜索引擎YisouSpider爬蟲的IP範圍可能還有以下:
'110.75.164.x', '110.75.167.x', '110.75.168.x',
'110.75.171.x', '110.75.172.x', '110.75.173.x', '110.75.174.x', '110.75.175.x', '110.75.176.x'
知道IP段後,能夠使用iptables屏蔽。
若您是使用iptables屏蔽的,可採用以下步驟查詢是否已經添加,以110.75.164.x網段爲例:
iptables -L INPUT --line-numbers | grep 110.75.164. | grep -P "DROP|REJECT"
若返回規則不爲空,而且有相關規則,表示已經添加規則。
上面這麼多IP,若是用防火牆的方法,iptable也能夠直接將IP封了。不過比較繁瑣啊,下面更簡單快捷的方法解決。
方法二:
下面以Nginx爲例,
能夠加在 server段 或者location
經過Web Server的屏蔽User-Agent限制,如下Apache爲例
方法一,在配置文件(Apache默認httpd.conf)尋找關鍵字SetEnvIfNoCase,而且添加一行以下內容:
「SetEnvIfNoCase User-Agent "YisouSpider" getout」
添加完成後須要重啓Apache。
方法二,在網站根目錄中檢查是否有.htacces文件,如有,在 ./htaccess文件查找關鍵字Yisou,若是有:
「SetEnvIfNoCase User-Agent "^Yisou" bad_bot
Deny from env=bad_bot」
則按照原有htaccess規則的那一行,添加上面相應內容。
建議站長遇到相似問題的話,影響系統正常訪問,消耗過分流量資源,就封了它,節省帶寬資源,提升系統資源有效的利用率。
另外,其餘相似的搜索引擎蜘蛛爬蟲問題也能夠按照本方法解決。
3.檢測配置有效性
使用Nginx 用 User-Agrent 禁止部分訪問
爲節省流量,禁止部分流氓爬蟲或不重要的爬蟲。nginx 用 if 和 $http_user_agent。
如:
location / {
root /home/www/;
if ($http_user_agent ~* "YisouSpider") {
return 403;
}
#...
}
而後重啓 nginx
kill -HUP `cat logs/nginx.pid`
能夠用 curl 測試一下
curl -I -A "YisouSpider" localhost
看到返回 403 就正常了,表示配置正確生效了。
附錄:
robots協議抓取限制
爲了讓搜索引擎爬蟲能獲取到你的網站內容,更好的爲你提供推薦服務,須要修改一下網站的robots.txt配置。
robots.txt放置在網站的根目錄下,例如您的站點是http://www.xxx.com/,則經過http://www.xxx.com/robots.txt能夠得到。
(禁止YisouSpider|EasouSpider|EtaoSpider)robots.txt配置方法
添加以下內容,若是網站設置了robots協議,請檢查一下協議裏的內容:
例如:
User-agent: YisouSpider
Disallow: /
User-agent: EasouSpider
Disallow: /
User-agent: EtaoSpider
Disallow: /
上面行表明不容許YisouSpider|EasouSpider|EtaoSpider爬蟲抓取您的網站內容。禁止規則,不是即刻生效(你也不知道它生效不生效,robots文件只不過是一個聲明)。要便可生效需經過本文其餘兩個方法,掌握主動權。
小結: http://jimmyli.blog.51cto.com/blog/3190309/1209336
方法篇介紹瞭如何收集最新最準確搜索引擎蜘蛛IP。而且經過實例來,從網站的日誌裏統計蜘蛛,發現未知的蜘蛛。針對不一樣的蜘蛛,屏蔽蜘蛛、禁止爬蟲怎麼樣更高效,更快捷。文章原出處
支持與交流網址:http://jimmyli.jimmyli.blog.51cto.com/【End】