分佈式爬蟲

時間 2021-01-05

原文原文鏈接

一介紹原來scrapy的Scheduler維護的是本機的任務隊列（存放Request對象及其回調函數等信息）+本機的去重隊列（存放訪問過的url地址）所以實現分佈式爬取的關鍵就是，找一臺專門的主機上運行一個共享的隊列比如Redis，然後重寫Scrapy的Scheduler，讓新的Scheduler到共享隊列存取Request，並且去除重複的Request請求，所以總結下來，實現分佈式的關鍵

>>阅读原文<<