手把手教你寫網絡爬蟲(7)

本期我們來聊聊URL去重那些事兒。以前我們曾使用Python的字典來保存抓取過的URL,目的是將重複抓取的URL去除,避免多次抓取同一網頁。爬蟲會將待抓取的URL放在todo隊列中,從抓取到的網頁中提取到新的URL,在它們被放入隊列之前,首先要確定這些新的URL是否被抓取過,如果之前已經抓取過了,就不再放入隊列。 有別於單機系統,在分佈式系統中,這些URL應該存放在公共緩存中,才能讓多個爬蟲實例共
相關文章
相關標籤/搜索