爬蟲去重方法和編碼小結

爬蟲去重方法 ①將訪問過的url保存到數據庫中 ②將訪問過的url保存到set中,只需要o(1)的代價就可以查詢url ③url經過md5等方法哈希後保存到set中④用bitmap方法, 將訪問過的url通過hash函數映射到某一位 ⑤bloomfilter方法對bitmap進行改進, 多重hash函數降低衝突 字符串編碼 ①計算機只能處理數字, 文本轉換爲數字才能處理。計算機中8個bit作爲一個
相關文章
相關標籤/搜索