url去重 --布隆過濾器 bloom filter原理及python實現

##常見URL過濾方法 ###1 直接查詢比較 即假設要存儲url A,在入庫前首先查詢url庫中是否存在 A,若是存在,則url A 不入庫,不然存入url庫。這種方法準確性高,可是一旦數據量變大,佔用的存儲空間也變大,同時,因爲要查庫,數據一多,查詢時間變長,存儲效率降低。html ###2 基於hash的存儲 對於給定的url,經過創建的hash函數,來得到對應的hash值,並將該值存入庫中
相關文章
相關標籤/搜索