分佈式爬蟲原理

一、分佈式爬蟲架構 在瞭解分佈式爬蟲架構之前,首先回顧一下Scrapy的架構,如下圖所示。 Scrapy單機爬蟲中有一個本地爬取隊列Queue,這個隊列是利用deque模塊實現的。如果新的Request生成就會放到隊列裏面,隨後Request被Scheduler調度。之後,Request交給Downloader執行爬取,簡單的調度架構如下圖所示。 如果兩個Scheduler同時從隊列裏面取Requ
相關文章
相關標籤/搜索