URL 去重[爬蟲專題(22)]

不管是什麼網站,都會存在大量的URL重複的問題,若是不處理好這個問題,最嚴重的狀況是可能會陷入死循環中。python   例如大多數網站的第一個URL都是連接到首頁的,若是採用深度優先策略,而不對URL進行去重,就會陷入死循環中。數據庫   還有可能出現什麼問題呢,那就是雖然可以向整個網站的全部URL發起請求,可是將會耗費巨大的內存,甚至還沒等爬取完整個網站的URL,內存就已經不夠用了。框架 因此
相關文章
相關標籤/搜索