Java實現布隆過濾器(已爬URL過濾)

時間 2019-12-07

標籤 java 實現過濾器 url 過濾欄目 Java 简体版

原文原文鏈接

最近寫爬蟲須要下降內存的佔用，如今用的是HashSet進行已爬URL的過濾，因此想到用布隆過濾器(Bloom Filter)來替換，從而減小內存的開銷。由於HashSet內部是由HashMap處理的，HashMap則經過計算一個int型的hash值得出信息指紋，因此一個信息指紋佔4字節，可是因爲哈希的存儲效率通常只有一半，全部說一條URL就須要8字節的信息指紋，而Bloom Filter 則只須要

>>阅读原文<<