爬蟲去重策略

時間 2019-12-07

標籤爬蟲策略欄目網絡爬蟲简体版

原文原文鏈接

一、將訪問過的url保存到數據庫中。（效率很是低）數據庫

二、將訪問過的url保存到set中，只須要o(1)的代價就能夠查詢url。（內存佔用大）（1億條url佔用6個G）scrapy

三、url通過md5等方法哈希後保存到set中（md5壓縮url，下降內存）（scrapy使用的去重相似這種，1億條url佔用1個G）函數

四、用bitmap，將訪問過的url經過hash函數映射到某一位。（經過0 1來判斷，可是可能會發生衝突，多個url可能會映射到同一位）url

五、bloomfilter方法對bitmap進行改進，多重hash函數下降衝突的可能性（1億條url只佔用12M左右）內存

相關文章

相關標籤/搜索

爬蟲－反爬蟲

Docker命令大全

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<