一隻優雅的小爬蟲誕生記

時間 2019-11-16

原文原文鏈接

爬蟲，幾家歡喜幾人愁。爬者，拿到有利數據，分析行爲，產生價值。被爬者，一是損失數據，二是遇到不懷好意的爬蟲每每被全站複製或服務器受衝擊而沒法服務。今天說的是一隻友好的爬蟲是如何構建出來的，請勿用它傷害他人。python

爬蟲一輩子所遇ajax

俗話說，若是我比別人看得遠些,那是由於我站在巨人們的肩上。前人之鑑,後人之師。小爬蟲在胎教的時候就該傳授它的前輩參悟的人生經驗，瞭解網絡的可怕之處。看看我提供的胎教課程：redis

被爬網站偶然出現服務沒法響應，需重試
網站檢查某些header，特別是referer這個參數，請警戒
訪問頻率限制，短期單IP或者單賬號內每每有頻率限制。更高級的還可能用近段時間訪問頻率，時間段請求頻率來識別爬蟲行爲。
目標爬取網站須要登陸
網站採用js運算產生最終頁面

小爬蟲身份成謎docker

爬蟲如此氾濫，網站安能不防備，識別之，封禁之爬蟲就迫不得已了。你問該如何作？咱們從tcp/ip的角度來看，網站能夠識別到ip地址。那麼如此說來，網站封的頗有可能就是ip地址。網絡上但是有代理服務器這種可怕東西存在的，爬蟲依靠代理服務器假裝身份，一旦被封禁，換代理又能夠愉快的玩耍了。跨域

代理服務器那裏來？這種東西，用搜索引擎一搜索就有了。若是你想省時省力，直接購買。然而在手頭拮据的時候，只能尋找一些免費的代理。通常來講每一個網站都會提供一點點免費代理，咱們只要勤快定時定後抓取入庫便可，集腋成仇。瀏覽器

千萬不要相信代理服務器就是可用的，要定時檢查入庫的代理是否有用，除了定時檢查以外，咱們還能夠藉助squid，咱們只要把代理往裏面一丟，爬蟲代理直接設置成squid的ip和端口，這貨就會自動挑選可用代理來使用，省了本身定時檢測。服務器

題外話：免費的每每是最貴的，特別ip，帶寬這種資源。網上提供的代理每每會注入一些廣告js等東西，這個本身想解決方案了。網絡

一個堅持不懈的爬蟲多線程

一隻爬蟲的最高境界就是全自動化，無需人爲干預，不過這種事情想一想便可，不可能實現的。可是小爬蟲也有本身的修養的，最起碼在各類異常面前不能一次就退縮了吧，出錯重試屢次是必須的，最重要的是出現異常進程不能中斷，任務仍是得接着完成的。架構

最簡單的方法是什麼呢？在循環裏面搞一個try catch，是否是完美呢？大夥來看看這個例子：

然而這樣子寫是不道德，最重要的還不夠優雅，因此再看看下面這個例子：

應該分別抓取各類錯誤來分別處理，由於各類出錯的應對策略是不同的。

小爬蟲也須要團隊做戰

假如說，某一天爬蟲接到任務，一天以內要爬取100萬個網頁。假設一個網頁須要10秒，單進程單線程的爬蟲是無法實現的。這個時候咱們能夠利用下面幾個方案：

多線程（然而對於python來講有GIL問題，因此優點不明顯）
多進程，一旦使用多進程就須要解決任務分配問題，和進程管理問題，這個時候咱們可使用消息中間件來分配任務，簡簡單單上一個redis隊列，問題就迎刃而解了。
爬蟲集羣，任務分配依舊可使用消息中間件，而部署咱們可使用偉大的docker，環境都無需配置了。

爬蟲與瀏覽器的愛恨情愁

有不少網站呢，要麼登陸的時候須要提交一些js計算後的值。有些數據還要js處理生成，若是咱們的爬蟲要模擬js來運算，還得針對每個網站進行處理，這可一點都不優雅。

那麼咋辦呢？最簡單的方案是，既然咱們的瀏覽器能渲染，那麼咱們就去調用瀏覽器來拿到最終頁面嘛，平時那些稀奇古怪的交互也一併解決了。對於python來講，調用瀏覽器一點難度都沒有，由於有神器selenium。

selenium能夠很方便的使用python與谷歌呀火狐呀PhantomJS等這些瀏覽器交互，缺點是隻是模擬了GET請求，也許你會說不是能夠執行ajax，聽我一句勸，你會被跨域請求坑住的。爲了實現其它請求請再上一個庫selenium-requests，然而這庫的使用方法請查考requests，文檔這樣子也是無奈。

小爬蟲優雅架構

爬蟲與反爬蟲的較量是長久的，爬取過程千萬要注意抓取頁面異常的狀況，觸發反爬蟲預警達到必定次數，賬號或者IP就會被凍結。模擬登錄驗證碼識別能夠藉助第三方平臺，起碼比本身寫的驗證碼識別高效得多。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。