基於Redis的三種分佈式爬蟲策略

時間 2019-12-14

原文原文鏈接

前言：爬蟲是偏IO型的任務，分佈式爬蟲的實現難度比分佈式計算和分佈式存儲簡單得多。我的覺得分佈式爬蟲須要考慮的點主要有如下幾個：web 爬蟲任務的統一調度爬蟲任務的統一去重存儲問題速度問題足夠「健壯」的狀況下實現起來越簡單/方便越好最好支持「斷點續爬」功能 Python分佈式爬蟲比較經常使用的應該是scrapy框架加上Redis內存數據庫，中間的調度任務等用scrapy-redis模

>>阅读原文<<