是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。javascript
(1)通用爬蟲:簡單來說就是儘量的;把互聯網上的全部的網頁下載下來,放到本地服務器裏造成備分,在對這些網頁作相關處理(提取關鍵字、去掉廣告),最後提供一個用戶檢索接口。 html
(2)聚焦爬蟲:抓取指定頁面的指定內容,是最經常使用的爬蟲。java
(3)增量式爬蟲:掃描本地抓取過的url,抓取新增長的url頁面。減小數據下載量,及時更新已爬行的網頁,減少時間和空間上的耗費,可是增長了爬行算法的複雜度和實現難度。node
(4)Deep Web 爬蟲:抓取隱藏在搜索表單後的,只有用戶提交一些關鍵詞才能得到的 Web 頁面,爬蟲分析填寫表單後進行抓取。python
網頁的運維人員經過分析日誌發現最近某一個IP訪問量特別特別大,某一段時間內訪問了無數次的網頁,則運維人員判斷此種訪問行爲並不是正常人的行爲,因而直接在服務器上封殺了此人IP。web
解決方法:此種方法極其容易誤傷其餘正經常使用戶,由於某一片區域的其餘用戶可能有着相同的IP,致使服務器少了許多正經常使用戶的訪問,因此通常運維人員不會經過此種方法來限制爬蟲。不過面對許多大量的訪問,服務器仍是會偶爾把該IP放入黑名單,過一段時間再將其放出來,但咱們能夠經過分佈式爬蟲以及購買代理IP也能很好的解決,只不過爬蟲的成本提升了。ajax
不少的爬蟲請求頭就是默認的一些很明顯的爬蟲頭python-requests/2.18.4,諸如此類,當運維人員發現攜帶有這類headers的數據包,直接拒絕訪問,返回403錯誤算法
解決方法:直接r=requests.get(url,headers={'User-Agent':'XXXspider'})把爬蟲請求headers假裝成其餘爬蟲或者其餘瀏覽器頭就好了。chrome
案例:雪球網瀏覽器
服務器對每個訪問網頁的人都set-cookie,給其一個cookies,當該cookies訪問超過某一個閥值時就BAN掉該COOKIE,過一段時間再放出來,固然通常爬蟲都是不帶COOKIE進行訪問的,但是網頁上有一部份內容如新浪微博是須要用戶登陸才能查看更多內容(我已經中招了)。
解決辦法:控制訪問速度,或者某些須要登陸的如新浪微博,在某寶上買多個帳號,生成多個cookies,在每一次訪問時帶上cookies
案例:螞蜂窩
當某一用戶訪問次數過多後,就自動讓請求跳轉到一個驗證碼頁面,只有在輸入正確的驗證碼以後才能繼續訪問網站
解決辦法:python能夠經過一些第三方庫如(pytesser,PIL)來對驗證碼進行處理,識別出正確的驗證碼,複雜的驗證碼能夠經過機器學習讓爬蟲自動識別複雜驗證碼,讓程序自動識別驗證碼並自動輸入驗證碼繼續抓取
案例:51Job 安全客
網頁開發者將重要信息放在網頁中但不寫入html標籤中,而瀏覽器會自動渲染<script>標籤的js代碼將信息展示在瀏覽器當中,而爬蟲是不具有執行js代碼的能力,因此沒法將js事件產生的信息讀取出來
解決辦法:經過分析提取script中的js代碼來經過正則匹配提取信息內容或經過webdriver+phantomjs直接進行無頭瀏覽器渲染網頁。
案例:前程無憂網
隨便打開一個前程無憂工做界面,直接用requests.get對其進行訪問,能夠獲得一頁的20個左右數據,顯然獲得的不全,而用webdriver訪問一樣的頁面能夠獲得50個完整的工做信息。
訪問網頁的時候服務器將網頁框架返回給客戶端,在與客戶端交互的過程當中經過異步ajax技術傳輸數據包到客戶端,呈如今網頁上,爬蟲直接抓取的話信息爲空
解決辦法:經過fiddler或是wireshark抓包分析ajax請求的界面,而後本身經過規律仿造服務器構造一個請求訪問服務器獲得返回的真實數據包。
案例:拉勾網
打開拉勾網的某一個工做招聘頁,能夠看到許許多多的招聘信息數據,點擊下一頁後發現頁面框架不變化,url地址不變,而其中的每一個招聘數據發生了變化,經過chrome開發者工具抓包找到了一個叫請求了一個叫作http://www.lagou.com/zhaopin/Java/2/?filterOption=3的網頁,打開改網頁發現爲第二頁真正的數據源,經過仿造請求能夠抓取每一頁的數據。
有些網站使用了加速樂的服務,在訪問以前先判斷客戶端的cookie正不正確。若是不正確,返回521狀態碼,set-cookie而且返回一段js代碼經過瀏覽器執行後又能夠生成一個cookie,只有這兩個cookie一塊兒發送給服務器,纔會返回正確的網頁內容。
解決辦法 :將瀏覽器返回的js代碼放在一個字符串中,而後利用nodejs對這段代碼進行反壓縮,而後對局部的信息進行解密,獲得關鍵信息放入下一次訪問請求的頭部中。
案例:加速樂
這樣的一個交互過程僅僅用python的requests庫是解決不了的,通過查閱資料,有兩種解決辦法:
1.將返回的set-cookie獲取到以後再經過腳本執行返回的eval加密的js代碼,將代碼中生成的cookie與以前set-cookie聯合發送給服務器就能夠返回正確的內容,即狀態碼從521變成了200。
2.將返回的set-cookie獲取到以後再經過腳本執行返回的eval加密的js代碼,將代碼中生成的cookie與以前set-cookie聯合發送給服務器就能夠返回正確的內容,即狀態碼從521變成了200。