什麼是爬蟲
爬蟲就是經過編寫程序模擬瀏覽器上網,而後讓其去互聯網上抓取數據的過程。
哪些語言能夠實現爬蟲
1.php:能夠實現爬蟲。php被號稱是全世界最優美的語言(固然是其本身號稱的,就是王婆賣瓜的意思),可是php在實現爬蟲中支持多線程和多進程方面作的很差。
2.java:能夠實現爬蟲。java能夠很是好的處理和實現爬蟲,是惟一能夠與python並駕齊驅且是python的頭號勁敵。可是java實現爬蟲代碼較爲臃腫,重構成本較大。
3.c、c++:能夠實現爬蟲。可是使用這種方式實現爬蟲純粹是是某些人(大佬們)能力的體現,卻不是明智和合理的選擇。
4.python:能夠實現爬蟲。python實現和處理爬蟲語法簡單,代碼優美,支持的模塊繁多,學習成本低,具備很是強大的框架(scrapy等)且一句難以言表的好!沒有可是!
爬蟲的分類
1.通用爬蟲:通用爬蟲是搜索引擎(Baidu、Google、Yahoo等)「抓取系統」的重要組成部分。主要目的是將互聯網上的網頁下載到本地,造成一個互聯網內容的鏡像備份。 簡單來說就是儘量的;把互聯網上的全部的網頁下載下來,放到本地服務器裏造成備分,在對這些網頁作相關處理(提取關鍵字、去掉廣告),最後提供一個用戶檢索接口。
搜索引擎如何抓取互聯網上的網站數據?
門戶網站主動向搜索引擎公司提供其網站的url
搜索引擎公司與DNS服務商合做,獲取網站的url
門戶網站主動掛靠在一些知名網站的友情連接中
2.聚焦爬蟲:聚焦爬蟲是根據指定的需求抓取網絡上指定的數據。例如:獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中全部的數據值。
robots.txt協議
- 若是本身的門戶網站中的指定頁面中的數據不想讓爬蟲程序爬取到的話,那麼則能夠經過編寫一個robots.txt的協議文件來約束爬蟲程序的數據爬取。robots協議的編寫格式能夠觀察淘寶網的robots(訪問www.taobao.com/robots.txt便可)。可是須要注意的是,該協議只是至關於口頭的協議,並無使用相關技術進行強制管制,因此該協議是防君子不防小人。可是咱們在學習爬蟲階段編寫的爬蟲程序能夠先忽略robots協議。
反爬蟲
- 門戶網站經過相應的策略和技術手段,防止爬蟲程序進行網站數據的爬取。
反反爬蟲
- 爬蟲程序經過相應的策略和技術手段,破解門戶網站的反爬蟲手段,從而爬取到相應的數據。php