網絡爬蟲_網絡爬蟲的盜亦有道

時間 2019-11-16

標籤網絡爬蟲盜亦有道欄目系統網絡简体版

原文原文鏈接

1、網絡爬蟲的尺寸

1.爬取網頁玩轉網頁html

　　小規模，數據量小
　　爬取速度不敏感
　　Requests庫
　　使用比例：>90%web

2.爬取網站爬取系列網站瀏覽器

　　中規模，數據規模較大
　　爬取速度敏感
　　Scrapy庫服務器

3.爬取全網網絡

　　大規模，搜索引擎
　　爬取速度關鍵
　　定製開發ide

2、網絡爬蟲引起的問題

1.網絡爬蟲的性能騷擾性能

　　Web服務器默認接收人類訪問
　　受限於編寫水平和目的，網絡爬蟲將會爲Web服務器帶來巨大的資源開銷網站

2.網絡爬蟲的法律風險ui

　　服務器上的數據有產權歸屬
　　網絡爬蟲獲取數據後牟利將帶來法律風險搜索引擎

3.網絡爬蟲的隱私泄露

　　網絡爬蟲可能具有突破簡單訪問控制的能力，得到被保護數據
　　從而泄露我的隱私

3、網絡爬蟲的限制

　　1. 來源審查：判斷User‐Agent進行限制
　　　　檢查來訪HTTP協議頭的User‐Agent域，只響應瀏覽器或友好爬蟲的訪問
　　2. 發佈公告：Robots協議
　　　　告知全部爬蟲網站的爬取策略，要求爬蟲遵照

4、Robots協議

1.Robots協議

　　Robots Exclusion Standard，網絡爬蟲排除標準
　　做用：網站告知網絡爬蟲哪些頁面能夠抓取，哪些不行
　　形式：在網站根目錄下的robots.txt文件

2.Robots協議基本語法

　　# 註釋，*表明全部，/表明根目錄
　　User‐agent: *
　　Disallow: /

3. 京東的Robots協議案例

文件地址：https://www.jd.com/robots.txt
文件內容

User‐agent: * 
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User‐agent: EtaoSpider
Disallow: /
User‐agent: HuihuiSpider
Disallow: /
User‐agent: GwdangSpider
Disallow: /
User‐agent: WochachaSpider
Disallow: /

4. 真實的Robots協議

1). https://www.sina.com/robots.txt

User-agent: *
Disallow:

2). http://www.baidu.com/robots.txt

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/


User-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: *
Disallow: /

3).http://news.sina.com.cn/robots.txt

User-agent: *
Disallow: /wap/
Disallow: /iframe/
Disallow: /temp/

4).https://www.qq.com/robots.txt

User-agent: *
Disallow:  
Sitemap: http://www.qq.com/sitemap_index.xml

5).https://news.qq.com/robots.txt

User-agent: *
Disallow:  
Sitemap: http://www.qq.com/sitemap_index.xml
Sitemap: http://news.qq.com/topic_sitemap.xml

6).http://news.sina.com.cn/robots.txt　

User-agent: *
Disallow: /wap/
Disallow: /iframe/
Disallow: /temp/

5、 Robots協議的遵照方式

1.Robots協議的使用

　　網絡爬蟲：自動或人工識別robots.txt，再進行內容爬取
　　約束性：Robots協議是建議但非約束性，網絡爬蟲能夠不遵照，但存在法律風險

2.對Robots協議的理解

1).爬取網頁玩轉網頁
　　訪問量很小：能夠遵照
　　訪問量較大：建議遵照
2).爬取網站爬取系列網站
　　非商業且偶爾：建議遵照
　　商業利益：必須遵照
3).爬取全網
　　必須遵照
4).原則:類人行爲可不參考Robots協議

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。