基於scrapy_redis部署的scrapy分佈式爬蟲

大家都知道scrapy是一個快速高效爬去網頁信息的爬蟲框架,但是當面對大量的信息大量的url(幾千幾萬等以上),用一個服務器爬還是很慢的,所以尼就出現了一個項目多個服務器共同爬去的方法,就是分佈式,即主從服務器,一個主機控制運行暫停等操作,多個從屬服務器爬去數據,從屬服務器只是用來幫忙爬去數據,從主機服務器那裏拿url,再返回響應(包含信息或者新的url),那每個從屬服務器每次拿的url怎麼保證不
相關文章
相關標籤/搜索