爬蟲總結(四)-- 分佈式爬蟲

分佈式爬蟲的演習。 分佈式爬蟲問題其實也就是多臺機器多個 spider 對 多個 url 的同時處理問題,怎樣 schedule 這些 url,怎樣彙總 spider 抓取的數據。最簡單粗暴的方法就是將 url 進行分片,交給不一樣機器,最後對不一樣機器抓取的數據進行彙總。然而這樣每一個 spider 只能對本身處理的 url 去重,沒辦法全局的去重,另外性能也很難控制,可能有某臺機器很早就跑完了
相關文章
相關標籤/搜索