scrapy-Redis 分佈式爬蟲

抓取大量數據是時,一個機器爬取過於緩慢,所以需要多臺機器一起進行爬取。 1. 使用scrapy框架搭建爬蟲項目 創建爬取B站視頻信息的scrapy爬蟲項目 middlewares.py文件 設置中間件,定義隨機的IP代理 防止B站的IP屏蔽處理 2 pipeline.py文件 設置連接的數據庫,保存採集數據,數據庫的屬性在settings文件設置。 3 settings.py文件 scrapy項目
相關文章
相關標籤/搜索