手把手教你寫網絡爬蟲（7）

時間 2021-01-01

原文原文鏈接

本期我們來聊聊URL去重那些事兒。以前我們曾使用Python的字典來保存抓取過的URL，目的是將重複抓取的URL去除，避免多次抓取同一網頁。爬蟲會將待抓取的URL放在todo隊列中，從抓取到的網頁中提取到新的URL，在它們被放入隊列之前，首先要確定這些新的URL是否被抓取過，如果之前已經抓取過了，就不再放入隊列。有別於單機系統，在分佈式系統中，這些URL應該存放在公共緩存中，才能讓多個爬蟲實例共

>>阅读原文<<