《本身動手寫網絡爬蟲》筆記5-設計爬蟲對列

以前使用內存數據結構(隊列或者鏈表)來實現爬蟲隊列,可是在一些大型的搜索引擎中有十幾億的URL須要抓取。所以,內存數據結構並不適用於這些應用,最適合的一種方法是使用內存數據庫,或者直接使用數據庫來存儲這些URL。本節講的是一種很是流行的內存數據庫——Berkeley DB。java 爬蟲隊列的特色 可以存儲海量數據,當數據超出內存限制的時候,可以固化在硬盤上 存取數據速度很是快 可以支持多線程訪問
相關文章
相關標籤/搜索