基於Redis的三種分佈式爬蟲策略

前言: 爬蟲是偏IO型的任務,分佈式爬蟲的實現難度比分佈式計算和分佈式存儲簡單得多。 我的覺得分佈式爬蟲須要考慮的點主要有如下幾個:web 爬蟲任務的統一調度 爬蟲任務的統一去重 存儲問題 速度問題 足夠「健壯」的狀況下實現起來越簡單/方便越好 最好支持「斷點續爬」功能 Python分佈式爬蟲比較經常使用的應該是scrapy框架加上Redis內存數據庫,中間的調度任務等用scrapy-redis模
相關文章
相關標籤/搜索