網絡爬蟲:URL去重策略之布隆過濾器(BloomFilter)的使用

前言:   最近被網絡爬蟲中的去重策略所困擾。使用一些其他的「理想」的去重策略,不過在運行過程中總是會不太聽話。不過當我發現了BloomFilter這個東西的時候,的確,這裏是我目前找到的最靠譜的一種方法。   如果,你說URL去重嘛,有什麼難的。那麼你可以看完下面的一些問題再說這句話。 關於BloomFilter:   Bloom filter 是由 Howard Bloom 在 1970 年提
相關文章
相關標籤/搜索