網絡爬蟲引起的問題及robots協議

一.網絡爬蟲的尺寸html

1.以爬取網頁,玩轉網頁爲目的進行小規模,數據量小對爬取速度不敏感的可使用request庫實現功能(佔90%)web

2.以爬取網站或爬取系列網站爲目的,好比說獲取一個或多個旅遊網站的爬蟲,對數據要求規模較大,爬取速度敏感的可使用Scrapy庫瀏覽器

3.以爬取全網爲目的,規模很大搜索引擎爬取速度關鍵,須要定製開發服務器

二.網絡爬蟲帶來的問題網絡

總的來講有:騷擾問題,法律風險,隱私泄露ide

1.爬蟲可利用計算機的快速功能訪問服務器,它會比人類的速度快到百倍甚至千倍,受限於編寫水平和目的,網絡爬蟲將會爲web服務器帶來巨大的資源開銷。對網站運行者來說,爬蟲造成了騷擾。網站

2.網絡爬蟲會帶來法律風險。服務器上的數據有產權歸屬,好比新浪上的新聞規新浪全部,若是網絡爬蟲獲取數據牟利後將會帶來法律風險。ui

3.網絡爬蟲會形成隱私泄露。網絡爬蟲可能具有突破簡單訪問控制的能力,或得被保護數據從而泄露我的隱私。   搜索引擎

三.網絡爬蟲的限制htm

來源審查:判斷User-Agent進行限制

檢查來訪HTTP協議頭的User-Agent域,只響應瀏覽器或友好爬蟲的訪問。

發佈公告: Robots協議

告知全部爬蟲網站的爬取策略,要求爬蟲遵照。

四.Robots協議

做用:網站會告知網絡爬蟲哪些頁面能夠抓取,哪些不行

形式:在網站根目錄下的robots.txt文件。

下面我本身作了一個實例  打開京東的Robots協議 https://www.jd.com/robots.txt

會出現下面幾句話

 

 大概的意思是全部爬蟲都要遵照如下協定

任何爬蟲都不容許訪問?* 即?號開頭的網頁

任何爬蟲都不容許訪問pop*.html開頭的網頁

任何爬蟲都不容許訪問pinpai*.html開頭的網頁

此外 EtaoSpider HuihuiSpidder GwdangSpider WochachaSpider這四個網絡爬蟲都不能爬取京東的任何數據

五.Robots協議基本語法

*表明全部          /表明根目錄

User-agent:  表明哪些爬蟲

Disallow:你不容許訪問資源的目錄

 

六.其餘注意

1.Robots協議必定放在網站根目錄下

2.http://www.news.sina.com.cn/robots.txt和http://www.sina.com.cn/robots.txt它們的Robots協議是不同的

 3.若是一個網站沒有Robots協議,是容許全部爬蟲無限制爬取

相關文章
相關標籤/搜索