scrapy簡單分佈式爬蟲

時間 2020-01-15

原文原文鏈接

雖然scrapy能作的事情不少，可是要作到大規模的分佈式應用則捉襟見肘。有能人改變了scrapy的隊列調度，將起始的網址從start_urls裏分離出來，改成從redis讀取，多個客戶端能夠同時讀取同一個redis，從而實現了分佈式的爬蟲。就算在同一臺電腦上，也能夠多進程的運行爬蟲，在大規模抓取的過程當中很是有效。html 準備：python 一、windows一臺(從：scrapy)linux

>>阅读原文<<