答:scrapy自己自帶一個去重中間件,scrapy源碼中能夠找到一個dupfilters.py去重器,裏面有個方法叫作request_seen,他在scheduler(發起請求的第一時間)的時候被調用,它的代碼裏面調用了request_fingerprint方法(就是給request生成一個指紋)。scrapy
就是給每個傳遞過來的url生成一個固定長度的惟一哈希值,可是這種量級千萬到億的內存是能夠應付的post
答:juejin.im/post/5c80b7…url