這幾天在爬一個網站,網站作了不少反爬蟲工做,爬起來有些艱難,花了一些時間才繞過反爬蟲。在這裏把我寫爬蟲以來遇到的各類反爬蟲策略和應對的方法總結一下。ajax
從功能上來說,爬蟲通常分爲數據採集,處理,儲存三個部分。這裏咱們只討論數據採集部分。 json
通常網站從三個方面反爬蟲:用戶請求的Headers,用戶行爲,網站目錄和數據加載方式。前兩種比較容易遇到,大多數網站都從這些角度來反爬蟲。第三種一些應用ajax的網站會採用,這樣增大了爬取的難度。瀏覽器
從用戶請求的Headers反爬蟲是最多見的反爬蟲策略。不少網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鏈就是檢測Referer)。若是遇到了這類反爬蟲機制,能夠直接在爬蟲中添加Headers,將瀏覽器的User-Agent複製到爬蟲的Headers中;或者將Referer值修改成目標網站域名。對於檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。 網絡
還有一部分網站是經過檢測用戶行爲,例如同一IP短期內屢次訪問同一頁面,或者同一帳戶短期內屢次進行相同操做。 框架
大多數網站都是前一種狀況,對於這種狀況,使用IP代理就能夠解決。能夠專門寫一個爬蟲,爬取網上公開的代理ip,檢測後所有保存起來。這樣的代理ip爬蟲常常會用到,最好本身準備一個。有了大量代理ip後能夠每請求幾回更換一個ip,這在requests或者urllib2中很容易作到,這樣就能很容易的繞過第一種反爬蟲。 網站
對於第二種狀況,能夠在每次請求後隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站,能夠經過請求幾回,退出登陸,從新登陸,繼續請求來繞過同一帳號短期內不能屢次進行相同請求的限制。 加密
上述的幾種狀況大多都是出如今靜態頁面,還有一部分網站,咱們須要爬取的數據是經過ajax請求獲得,或者經過JavaScript生成的。首先用Firebug或者HttpFox對網絡請求進行分析。若是可以找到ajax請求,也能分析出具體的參數和響應的具體含義,咱們就能採用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應的json進行分析獲得須要的數據。 url
可以直接模擬ajax請求獲取數據當然是極好的,可是有些網站把ajax請求的全部參數所有加密了。咱們根本沒辦法構造本身所須要的數據的請求。我這幾天爬的那個網站就是這樣,除了加密ajax參數,它還把一些基本的功能都封裝了,所有都是在調用本身的接口,而接口參數都是加密的。遇到這樣的網站,咱們就不能用上面的方法了,我用的是selenium+phantomJS框架,調用瀏覽器內核,並利用phantomJS執行js來模擬人爲操做以及觸發頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面,所有均可以模擬,不考慮具體的請求和響應過程,只是完完整整的把人瀏覽頁面獲取數據的過程模擬一遍。 spa
用這套框架幾乎能繞過大多數的反爬蟲,由於它不是在假裝成瀏覽器來獲取數據(上述的經過添加 Headers必定程度上就是爲了假裝成瀏覽器),它自己就是瀏覽器,phantomJS就是一個沒有界面的瀏覽器,只是操控這個瀏覽器的不是人。利用 selenium+phantomJS能幹不少事情,例如識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等等。它在自動化滲透中還 會大展身手,之後還會提到這個。代理
做者:BSDR