網路爬蟲(3):url索引

url索引的作用是判斷一個url是否被抓取過,採用的算法主要是MD5數字簽名。 假設一共要抓取的url不超過1億條,用一個二進制的位表示一個url是否被抓取過,則至少需要1億個位,我們管每一個位叫一個「槽」。考慮到MD5的算法是可能出現衝突(即不同的url算出來的MD5可能相同,這種概率很小),槽越少,衝突越明顯,所以槽越多越好。但另一方面,還要考慮到佔用內存的大小,因爲在抓取的過程中,爲了保證效
相關文章
相關標籤/搜索