打造一個健壯高效的網絡爬蟲

如下內容轉自爬蟲界大佬崔慶才的文章,傳送門html

 

整個分享的主題叫作《健壯高效的網絡爬蟲》,本次分享從抓取、解析、存儲、反爬、加速五個方面介紹了利用 Python 進行網絡爬蟲開發的相關知識點和技巧,介紹了不一樣場景下如何採起不一樣措施高效地進行數據抓取的方法,包括 Web 抓取、App 抓取、數據存儲、代理選購、驗證碼破解、分佈式抓取及管理、智能解析等多方面的內容,另外還結合了不一樣場景介紹了經常使用的一些工具包,所有內容是我在從事網絡爬蟲研究過程以來的經驗精華總結。python

爬取mysql

對於爬取來講,咱們須要學會使用不一樣的方法來應對不一樣情景下的數據抓取任務。git

爬取的目標絕大多數狀況下要麼是網頁,要麼是 App,因此這裏就分爲這兩個大類別來進行了介紹。github

對於網頁來講,我又將其劃分爲了兩種類別,即服務端渲染和客戶端渲染,對於 App 來講,我又針對接口的形式進行了四種類別的劃分——普通接口、加密參數接口、加密內容接口、很是規協議接口。正則表達式

因此整個大綱是這樣子的:redis

  • 網頁爬取
    • 服務端渲染
    • 客戶端渲染
  • App 爬取
    • 普通接口
    • 加密參數接口
    • 加密內容接口
    • 很是規協議接口

爬取 / 網頁爬取

服務端渲染的意思就是頁面的結果是由服務器渲染後返回的,有效信息包含在請求的 HTML 頁面裏面,好比貓眼電影這個站點。客戶端渲染的意思就是頁面的主要內容由 JavaScript 渲染而成,真實的數據是經過 Ajax 接口等形式獲取的,好比淘寶、微博手機版等等站點。算法

服務端渲染的狀況就比較簡單了,用一些基本的 HTTP 請求庫就能夠實現爬取,如 urllib、urllib三、pycurl、hyper、requests、grab 等框架,其中應用最多的可能就是 requests 了。sql

對於客戶端渲染,這裏我又劃分了四個處理方法:數據庫

  • 尋找 Ajax 接口,此種情形能夠直接使用 Chrome/Firefox 的開發者工具直接查看 Ajax 具體的請求方式、參數等內容,而後用 HTTP 請求庫模擬便可,另外還能夠經過設置代理抓包來查看接口,如 Fiddler/Charles。
  • 模擬瀏覽器執行,此種情形適用於網頁接口和邏輯較爲複雜的狀況,能夠直接以可見便可爬的方式進行爬取,如可使用 Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html 等來實現。
  • 直接提取 JavaScript 數據,此種情形適用於真實數據沒有通過 Ajax 接口獲取,而是直接包含在 HTML 結果的某個變量中,直接使用正則表達式將其提取便可。
  • 模擬執行 JavaScript,某些狀況下直接模擬瀏覽器執行效率會偏低,若是咱們把 JavaScript 的某些執行和加密邏輯摸清楚了,能夠直接執行相關的 JavaScript 來完成邏輯處理和接口請求,好比使用 Selenium、PyExecJS、PyV八、js2py 等庫來完成便可。

爬取 / App 爬取

對於 App 的爬取,這裏分了四個處理狀況:

  • 對於普通無加密接口,這種直接抓包拿到接口的具體請求形式就行了,可用的抓包工具備 Charles、Fiddler、mitmproxy。
  • 對於加密參數的接口,一種方法能夠實時處理,例如 Fiddler、mitmdump、Xposed 等,另外一種方法是將加密邏輯破解,直接模擬構造便可,可能須要一些反編譯的技巧。
  • 對於加密內容的接口,即接口返回結果徹底看不懂是什麼東西,可使用可見便可爬的工具 Appium,也可使用 Xposed 來 hook 獲取渲染結果,也能夠經過反編譯和改寫手機底層來實現破解。
  • 對於很是規協議,可使用 Wireshark 來抓取全部協議的包,或者使用 Tcpdump 來進行 TCP 數據包截獲。

以上即是爬取流程的相關分類和對應的處理方法。

解析

對於解析來講,對於 HTML 類型的頁面來講,經常使用的解析方法其實無非那麼幾種,正則、XPath、CSS Selector,另外對於某些接口,常見的可能就是 JSON、XML 類型,使用對應的庫進行處理便可。

這些規則和解析方法其實寫起來是很繁瑣的,若是咱們要爬上萬個網站,若是每一個網站都去寫對應的規則,那麼不就太累了嗎?因此智能解析即是一個需求。

智能解析意思就是說,若是能提供一個頁面,算法能夠自動來提取頁面的標題、正文、日期等內容,同時把無用的信息給刨除,例如上圖,這是 Safari 中自帶的閱讀模式自動解析的結果。

對於智能解析,下面分爲四個方法進行了劃分:

  • readability 算法,這個算法定義了不一樣區塊的不一樣標註集合,經過權重計算來獲得最可能的區塊位置。
  • 疏密度判斷,計算單位個數區塊內的平均文本內容長度,根據疏密程度來大體區分。
  • Scrapyly 自學習,是 Scrapy 開發的組件,指定⻚頁⾯面和提取結果樣例例,其可⾃自學習提取規則,提取其餘同類⻚頁⾯面。
  • 深度學習,使⽤用深度學習來對解析位置進⾏行行有監督學習,須要⼤大量量標註數據。

若是可以容忍必定的錯誤率,可使用智能解析來大大節省時間。

目前這部份內容我也還在探索中,準確率有待繼續提升。

存儲

存儲,即選用合適的存儲媒介來存儲爬取到的結果,這裏仍是分爲四種存儲方式來進行介紹。

  • 文件,如 JSON、CSV、TXT、圖⽚、視頻、⾳頻等,經常使用的一些庫有 csv、xlwt、json、pandas、pickle、python-docx 等。
  • 數據庫,分爲關係型數據庫、非關係型數據庫,如 MySQL、MongoDB、HBase 等,經常使用的庫有 pymysql、pymssql、redis-py、pymongo、py2neo、thrift。
  • 搜索引擎,如 Solr、ElasticSearch 等,便於檢索和實現⽂本匹配,經常使用的庫有 elasticsearch、pysolr 等。
  • 雲存儲,某些媒體文件能夠存到如七⽜牛雲、又拍雲、阿里雲、騰訊雲、Amazon S3 等,經常使用的庫有 qiniu、upyun、boto、azure-storage、google-cloud-storage 等。

這部分的關鍵在於和實際業務相結合,看看選用哪一種方式更能夠應對業務需求。

反爬

反爬這部分是個重點,爬蟲如今已經愈來愈難了,很是多的網站已經添加了各類反爬措施,在這裏能夠分爲非瀏覽器檢測、封 IP、驗證碼、封帳號、字體反爬等。

下面主要從封 IP、驗證碼、封帳號三個方面來闡述反爬的處理手段。

反爬 / 封 IP

對於封 IP 的狀況,能夠分爲幾種狀況來處理:

  • 首先尋找手機站點、App 站點,若是存在此類站點,反爬會相對較弱。
  • 使用代理,如抓取免費代理、購買付費代理、使用 Tor 代理、Socks 代理等。
  • 在代理的基礎上維護本身的代理池,防止代理浪費,保證明時可用。
  • 搭建 ADSL 撥號代理,穩定高效。

反爬 / 驗證碼

驗證碼分爲很是多種,如普通圖形驗證碼、算術題驗證碼、滑動驗證碼、點觸驗證碼、手機驗證碼、掃二維碼等。

  • 對於普通圖形驗證碼,若是很是規整且沒有變形或干擾,可使用 OCR 識別,也可使用機器學習、深度學習來進行模型訓練,固然打碼平臺是最方便的方式。
  • 對於算術題驗證碼,推薦直接使用打碼平臺。
  • 對於滑動驗證碼,可使用破解算法,也能夠模擬滑動。後者的關鍵在於缺口的找尋,可使用圖片比對,也能夠寫基本的圖形識別算法,也能夠對接打碼平臺,也可使用深度學習訓練識別接口。
  • 對於點觸驗證碼,推薦使用打碼平臺。
  • 對於手機驗證碼,可使用驗證碼分發平臺,也能夠購買專門的收碼設備,也能夠人工驗證。
  • 對於掃二維碼,能夠人工掃碼,也能夠對接打碼平臺。

反爬 / 封帳號

某些網站須要登陸才能爬取,可是一個帳號登陸以後請求過於頻繁會被封號,爲了不封號,能夠採起以下措施:

  • 尋找手機站點或 App 站點,此種類別一般是接口形式,校驗較弱。
  • 尋找無登陸接口,儘量尋找⽆無需登陸便可爬取的接口。
  • 維護 Cookies 池,使⽤用批量帳號模擬登陸,使⽤時隨機挑選可用 Cookies 使⽤便可,實現:https://github.com/Python3WebSpider/CookiesPool。

加速

當爬取的數據量很是大時,如何高效快速地進行數據抓取是關鍵。

常見的措施有多線程、多進程、異步、分佈式、細節優化等。

加速 / 多線程、多進程

爬蟲是網絡請求密集型任務,因此使用多進程和多線程能夠大大提升抓取效率,如使用 threading、multiprocessing 等。

加速 / 異步

將爬取過程改爲非阻塞形式,當有響應式再進行處理,不然在等待時間內能夠運行其餘任務,如使用 asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy 等。

加速 / 分佈式

分佈式的關鍵在於共享爬取隊列,可使用 celery、huey、rq、rabbitmq、kafka 等來實現任務隊列的對接,也可使用現成的框架 pyspider、Scrapy-Redis、Scrapy-Cluster 等。

加速 / 優化

能夠採起某些優化措施來實現爬取的加速,如:

  • DNS 緩存
  • 使用更快的解析方法
  • 使用更高效的去重方法
  • 模塊分離化管控

加速 / 架構

若是搭建了分佈式,要實現高效的爬取和管理調度、監控等操做,咱們可使用兩種架構來維護咱們的爬蟲項目。

  • 將 Scrapy 項目打包爲 Docker 鏡像,使用 K8S 控制調度過程。
  • 將 Scrapy 項目部署到 Scrapyd,使用專用的管理工具如 SpiderKeeper、Gerapy 等管理。

以上即是我分享的所有內容,全部的內容幾乎都展開說了,一共講了一個半小時。

 

上面的文字版的總結可能比較簡略,很是建議你們若有時間的話觀看原版視頻分享,裏面還能看到我本人的真面目哦,如今已經上傳到了 Bilibili,連接爲:https://www.bilibili.com/video/av34379204,你們也能夠經過點擊原文或掃碼來查看視頻。

另外對於這部份內容,其實還有我製做的更豐富的思惟導圖,預覽圖以下:

相關文章
相關標籤/搜索