爬蟲入門——02

爬蟲入門——02 1. 引言     在上一篇中,我們簡單的瞭解了爬蟲的工作流程,也簡單的實現了一個爬蟲,並且在文末簡單分析了目前存在的問題。這一篇博客將會對上一篇分析出的問題,給出改進方法。我們將從以下幾個方面加以改進。 2. 改進 (1) Bloom Filter     我們首先利用Bloom Filet來改進UrlQueue中的visitedSet。     在上一篇中,我們使用visit
相關文章
相關標籤/搜索