布隆去重

去重策略 1) 使用scrapy自帶的set集合去重,當程序結束的時候會被清空,缺點:再次運行會導致數據重複。 2) 使用mysql做去重,對url地址進行md5,base64加密,加密之後會得到一串字符,判斷字符串 是否在mysql表中,如果在表示已經爬取過了,如果不在,表示沒有爬取,執行請求,將加密後的url 地址存入表中。缺點: 但是這個方法對mysql壓力過大,導致崩潰,不推薦 3)使用s
相關文章
相關標籤/搜索