Scrapy如何實現分佈式抓取?

能夠藉助scrapy_redis類庫來實現。web 在分佈式爬取時,會有master機器和slave機器,其中,master爲核心服務器,slave爲具體的爬蟲服務器。redis 咱們在master服務器上搭建一個redis數據庫,並將要抓取的url存放到redis數據庫中,全部的slave爬蟲服務器在抓取的時候從redis數據庫中去連接,因爲scrapy_redis自身的隊列機制,slave獲取
相關文章
相關標籤/搜索