爬蟲去重策略

一、將訪問過的url保存到數據庫中。(效率很是低)數據庫

二、將訪問過的url保存到set中,只須要o(1)的代價就能夠查詢url。(內存佔用大)(1億條url佔用6個G)scrapy

三、url通過md5等方法哈希後保存到set中(md5壓縮url,下降內存) (scrapy使用的去重相似這種,1億條url佔用1個G)函數

四、用bitmap,將訪問過的url經過hash函數映射到某一位。(經過0 1來判斷,可是可能會發生衝突,多個url可能會映射到同一位)url

五、bloomfilter方法對bitmap進行改進,多重hash函數下降衝突的可能性(1億條url只佔用12M左右)內存

相關文章
相關標籤/搜索