什麼是布隆過濾器

在網絡爬蟲中,經常需要確認一個網址是否已經訪問過,這樣可以節約資源,減少不必要的開銷。有一個最直接的方法就是將集合中的全部元素存入計算機,每遇到一個新元素,將它和集合中的元素直接比較即可。 把已訪問過的url存入哈希表(Hash Table)中,當需要判斷當前url是否已經訪問時可以訪問哈希表,如果存在則表明已經訪問過。其優點是快速準確,缺點也顯而易見,耗費了大量的存儲空間,尤其是當集合規模巨大的
相關文章
相關標籤/搜索