爬蟲反扒與反反扒

時間 2019-11-07

原文原文鏈接

反爬蟲策略及破解方法
爬蟲和反爬的對抗一直在進行着…爲了幫助更好的進行爬蟲行爲以及反爬，今天就來介紹一下網頁開發者經常使用的反爬手段。javascript

0.0 robots.txt反扒
　　爬蟲協議：防君子不防小人

1. IP：網頁的運維人員經過分析日誌發現最近某一個IP訪問量特別特別大，某一段時間內訪問了無數次的網頁，則運維人員判斷此種訪問行爲並不是正常人的行爲，
　　　　　　因而直接在服務器上封殺了此人IP。
   解決方法：此種方法極其容易誤傷其餘正經常使用戶，由於某一片區域的其餘用戶可能有着相同的IP，致使服務器少了許多正經常使用戶的訪問，
　　　　　　因此通常運維人員不會經過此種方法來限制爬蟲。不過面對許多大量的訪問，服務器仍是會偶爾把該IP放入黑名單，過一段時間再將其放出來，
          但咱們能夠經過分佈式爬蟲以及購買代理IP也能很好的解決，只不過爬蟲的成本提升了。

2. USERAGENT：不少的爬蟲請求頭就是默認的一些很明顯的爬蟲頭python-requests/2.18.4，諸如此類，當運維人員發現攜帶有這類headers數據包，直接拒絕訪問，返回403錯誤
   解決方法：直接r=requests.get(url,headers={'User-Agent':'Baiduspider'})把爬蟲請求headers假裝成百度爬蟲或者其餘瀏覽器頭就好了。

　　　　user-agent控制訪問
　　　　　　解決方案1：headers頭攜帶user-agent瀏覽器信息就能夠解決
　　　　　　解決方案2：使用Fakeuseragent模塊解決


案例：雪球網
   返回的就是403403 Forbidden.
   Your IP Address:xxx.xxx.xxx.xxx.可是當咱們這樣寫：

   返回的就是200< !DOCTYPE html><html …

3. COOKIES:服務器對每個訪問網頁的人都set-cookie，給其一個cookies，當該cookies訪問超過某一個閥值時就BAN掉該COOKIE，過一段時間再放出來，
     固然通常爬蟲都是不帶COOKIE進行訪問的，但是網頁上有一部份內容如新浪微博是須要用戶登陸才能查看更多內容。
   解決辦法：控制訪問速度，或者某些須要登陸的如新浪微博，在某寶上買多個帳號，生成多個cookies，在每一次訪問時帶上cookies

案例：螞蜂窩
    之前由於旅遊的需求，因此想到了去抓一點遊記來找找哪些地方好玩，因而去了螞蜂窩網站找遊記，一篇一篇的看真的很慢，想到不如把全部文章抓過來而後統計每一個詞
    出現的頻率最高，統計出最熱的一些旅遊景點，就寫了一個scrapy爬蟲抓遊記，當修改了headers後開始爬取，發現訪問過快服務器就會斷開掉個人鏈接，
    而後過一段時間（幾個小時）才能繼續爬。因而放慢速度抓就發現不會再被BAN了。

4. 驗證碼驗證：當某一用戶訪問次數過多後，就自動讓請求跳轉到一個驗證碼頁面，只有在輸入正確的驗證碼以後才能繼續訪問網站

   解決辦法：python能夠經過一些第三方庫如(pytesser,PIL)來對驗證碼進行處理，識別出正確的驗證碼，複雜的驗證碼能夠經過機器學習讓爬蟲自動識別複雜驗證碼，
      讓程序自動識別驗證碼並自動輸入驗證碼繼續抓取
   案例：安全客當訪問者對安全客訪問過快他就會自動蹦出一個驗證碼界面。以下：

5. javascript渲染：網頁開發者將重要信息放在網頁中但不寫入html標籤中，而瀏覽器會自動渲染<script>標籤中的js代碼將信息展示在瀏覽器當中，
      而爬蟲是不具有執行js代碼的能力，因此沒法將js事件產生的信息讀取出來
   解決辦法：經過分析提取script中的js代碼來經過正則匹配提取信息內容或經過webdriver+phantomjs直接進行無頭瀏覽器渲染網頁。

  案例：前程無憂網隨便打開一個前程無憂工做界面，直接用requests.get對其進行訪問，能夠獲得一頁的20個左右數據，顯然獲得的不全，
   而用webdriver訪問一樣的頁面能夠獲得50個完整的工做信息。

6. ajax異步傳輸：訪問網頁的時候服務器將網頁框架返回給客戶端，在與客戶端交互的過程當中經過異步ajax技術傳輸數據包到客戶端，呈如今網頁上，爬蟲直接抓取的話信息爲空

   解決辦法：經過fiddler或是wireshark抓包分析ajax請求的界面，而後本身經過規律仿造服務器構造一個請求訪問服務器獲得返回的真實數據包。

   案例：拉勾網打開拉勾網的某一個工做招聘頁，能夠看到許許多多的招聘信息數據，點擊下一頁後發現頁面框架不變化，url地址不變，而其中的每一個招聘數據發生了變化，
      經過chrome開發者工具抓包找到了一個叫請求了一個叫作https://www.lagou.com/zhaopin/Java/2/?filterOption=3的網頁，打開改網頁發現爲第二頁真正的數據源，
     經過仿造請求能夠抓取每一頁的數據。不少網頁的運維者經過組合以上幾種手段，而後造成一套反爬策略，就像以前碰到過一個複雜網絡傳輸+加速樂+cookies時效的反爬手段。

7.加速樂：有些網站使用了加速樂的服務，在訪問以前先判斷客戶端的cookie正不正確。若是不正確，返回521狀態碼，set-cookie而且返回一段js代碼
    經過瀏覽器執行後又能夠生成一個cookie，只有這兩個cookie一塊兒發送給服務器，纔會返回正確的網頁內容。

  解決辦法：將瀏覽器返回的js代碼放在一個字符串中，而後利用nodejs對這段代碼進行反壓縮，而後對局部的信息進行解密，獲得關鍵信息放入下一次訪問請求的頭部中。
 
  案例：加速樂

這樣的一個交互過程僅僅用python的requests庫是解決不了的，通過查閱資料，有兩種解決辦法：
第一種將返回的set-cookie獲取到以後再經過腳本執行返回的eval加密的js代碼，將代碼中生成的cookie與以前set-cookie聯合發送給服務器就能夠返回正確的內容，
即狀態碼從521變成了200。直接經過這一段就能夠獲取返回的一段通過壓縮和加密處理的js代碼相似於這種：因此咱們須要對代碼進行處理,讓其格式化輸出，操做以後以下：

這裏咱們就須要對這段JS作下修改，假設咱們先把這段JS代碼存在了string sHtmlJs這個字符串變量裏，咱們須要把eval這裏執行的結果提取出來，把eval替換成 return，
而後把整個代碼放到一個JS函數裏，方式以下：解密後的代碼以下：


經過觀察代碼發現了一段：

顯而易見，這個dc就是咱們想要的cookie，執行JS，讓函數返回DC就OK了。我還發現了其中有一段

當服務器發現瀏覽器的頭部是_phantom或者__phantommas就讓瀏覽器進行死循環，即阻止用selenium操控phantomjs來訪問網頁。
至此兩端加速樂cookie以下：這個破解方法很麻煩不建議用，因此我想出了第二種方法
第二種辦法就是經過selenium的webdriver模塊控制瀏覽器自動訪問網頁而後輸出瀏覽器頭部信息中的cookie，封裝在一個字典中，
將其經過requests中的jar模塊轉換成cookiejar放入下一次訪問的request中就能夠持續訪問，
由於cookie的時效大約一個小時左右。如下是處理自動生成一個新的有效cookie的代碼:

切記，放在requests中訪問的headers信息必定要和你操控的瀏覽器headers信息一致，由於服務器端也會檢查cookies與headers信息是否一致
最厲害的武功是融會貫通，那麼最厲害的反爬策略也就是組合目前有的各類反爬手段，固然也不是沒法破解，這就須要咱們對各個反爬技術及原理都很清楚，
梳理清楚服務器的反爬邏輯，而後再見招拆招，就可讓咱們的爬蟲無孔不入。