分佈式爬蟲原理之分佈式爬蟲原理

咱們在前面已經實現了Scrapy微博爬蟲,雖然爬蟲是異步加多線程的,可是咱們只能在一臺主機上運行,因此爬取效率仍是有限的,分佈式爬蟲則是將多臺主機組合起來,共同完成一個爬取任務,這將大大提升爬取的效率。 html 1、分佈式爬蟲架構 在瞭解分佈式爬蟲架構以前,首先回顧一下Scrapy的架構,以下圖所示。數據庫 Scrapy單機爬蟲中有一個本地爬取隊列Queue,這個隊列是利用deque模塊實現的。
相關文章
相關標籤/搜索