scrapy-redis數據去重與分佈式框架

 

數據去重

  • 生成指紋:利用hashlib的sha1,對request的請求體、請求url、請求方法進行加密,返回一個40位長度的16進制的字符串,稱爲指紋
fp = hashlib.sha1()
fp.update(to_bytes(request.method))
fp.update(to_bytes(canonicalize_url(request.url)))
fp.update(request.body or b'')
return fp.hexdigest()
  • 進隊:(隊列對requests對象去重,zset對指紋去重)
    1. 若是請求須要過濾,而且當前請求的指紋已經在指紋集合中存在了,就不能進入隊列了
    2. 若是請求須要過濾,而且請求的指紋是一個新的指紋,進入隊列
    3. 若是不須要過濾,直接進入隊列
def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        self.df.log(request, self.spider)
        return False
    self.queue.push(request)
    return True

 

 

分佈式爬蟲

  • 類繼承RedisSpider、RedisCrawlSpider
  • 使用redis_key,在redis數據庫中存儲start_urls的鍵名稱

每臺電腦從redis數據庫中對應的redis_key名稱中獲取url,發起請求。redis

相關文章
相關標籤/搜索