Java網絡爬蟲(九)--海量URL去重之布隆過濾器

簡介布隆過濾器 當咱們要對海量URL進行抓取的時候,咱們經常關心一件事,就是URL的去重問題,對已經抓取過的URL咱們不須要在進行從新抓取。在進行URL去重的時候,咱們的基本思路是將拿到的URL與已經抓取過的URL隊列進行比對,看當前URL是否在此隊列中,若是在已抓取過的隊列中,則將此URL進行捨棄,若是沒有在,則對此URL進行抓取。看到這,若是有哈希表基礎的同窗,很天然的就會想到那麼若是用哈希表
相關文章
相關標籤/搜索