基於scrapy_redis部署的scrapy分佈式爬蟲

時間 2021-01-04

原文原文鏈接

大家都知道scrapy是一個快速高效爬去網頁信息的爬蟲框架，但是當面對大量的信息大量的url（幾千幾萬等以上），用一個服務器爬還是很慢的，所以尼就出現了一個項目多個服務器共同爬去的方法，就是分佈式，即主從服務器，一個主機控制運行暫停等操作，多個從屬服務器爬去數據，從屬服務器只是用來幫忙爬去數據，從主機服務器那裏拿url，再返回響應（包含信息或者新的url），那每個從屬服務器每次拿的url怎麼保證不

>>阅读原文<<