scrapy-Redis 分佈式爬蟲

時間 2021-01-02

原文原文鏈接

抓取大量數據是時，一個機器爬取過於緩慢，所以需要多臺機器一起進行爬取。 1. 使用scrapy框架搭建爬蟲項目創建爬取B站視頻信息的scrapy爬蟲項目 middlewares.py文件設置中間件，定義隨機的IP代理防止B站的IP屏蔽處理 2 pipeline.py文件設置連接的數據庫，保存採集數據，數據庫的屬性在settings文件設置。 3 settings.py文件 scrapy項目

>>阅读原文<<