分佈式爬蟲調度策略

前言: 爬蟲是偏IO型的任務,分佈式爬蟲的實現難度比分佈式計算和分佈式存儲簡單得多。  個人以爲分佈式爬蟲需要考慮的點主要有以下幾個: 爬蟲任務的統一調度 爬蟲任務的統一去重 存儲問題 速度問題 足夠「健壯」的情況下實現起來越簡單/方便越好 最好支持「斷點續爬」功能 Python分佈式爬蟲比較常用的應該是scrapy框架加上Redis內存數據庫,中間的調度任務等用scrapy-redis模塊實現。
相關文章
相關標籤/搜索