網絡爬蟲引起的問題及robots協議

時間 2019-11-16

標籤網絡爬蟲引起問題 robots 協議欄目系統網絡简体版

原文原文鏈接

一.網絡爬蟲的尺寸html

1.以爬取網頁，玩轉網頁爲目的進行小規模，數據量小對爬取速度不敏感的可使用request庫實現功能（佔90%）web

2.以爬取網站或爬取系列網站爲目的，好比說獲取一個或多個旅遊網站的爬蟲，對數據要求規模較大，爬取速度敏感的可使用Scrapy庫瀏覽器

3.以爬取全網爲目的，規模很大搜索引擎爬取速度關鍵，須要定製開發服務器

二.網絡爬蟲帶來的問題網絡

總的來講有：騷擾問題,法律風險，隱私泄露ide

1.爬蟲可利用計算機的快速功能訪問服務器，它會比人類的速度快到百倍甚至千倍，受限於編寫水平和目的，網絡爬蟲將會爲web服務器帶來巨大的資源開銷。對網站運行者來說，爬蟲造成了騷擾。網站

2.網絡爬蟲會帶來法律風險。服務器上的數據有產權歸屬，好比新浪上的新聞規新浪全部，若是網絡爬蟲獲取數據牟利後將會帶來法律風險。ui

3.網絡爬蟲會形成隱私泄露。網絡爬蟲可能具有突破簡單訪問控制的能力，或得被保護數據從而泄露我的隱私。搜索引擎

三.網絡爬蟲的限制htm

來源審查:判斷User-Agent進行限制

檢查來訪HTTP協議頭的User-Agent域，只響應瀏覽器或友好爬蟲的訪問。

發佈公告: Robots協議

告知全部爬蟲網站的爬取策略，要求爬蟲遵照。

四.Robots協議

做用：網站會告知網絡爬蟲哪些頁面能夠抓取，哪些不行

形式：在網站根目錄下的robots.txt文件。

下面我本身作了一個實例打開京東的Robots協議 https://www.jd.com/robots.txt

會出現下面幾句話

大概的意思是全部爬蟲都要遵照如下協定

任何爬蟲都不容許訪問?* 即?號開頭的網頁

任何爬蟲都不容許訪問pop*.html開頭的網頁

任何爬蟲都不容許訪問pinpai*.html開頭的網頁

此外 EtaoSpider HuihuiSpidder GwdangSpider WochachaSpider這四個網絡爬蟲都不能爬取京東的任何數據

五.Robots協議基本語法

*表明全部 /表明根目錄

User-agent: 表明哪些爬蟲

Disallow:你不容許訪問資源的目錄

六.其餘注意

1.Robots協議必定放在網站根目錄下

2.http：//www.news.sina.com.cn/robots.txt和http：//www.sina.com.cn/robots.txt它們的Robots協議是不同的

3.若是一個網站沒有Robots協議，是容許全部爬蟲無限制爬取

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。