12scrapy_redis

一.簡介

1.redis

redis是一個key-value存儲系統。和Memcached相似,它支持存儲的value類型相對更多,包括string(字符串)、list(鏈表)、set(集合)、zset(sorted set --有序集合)和hash(哈希類型)。html

redis會週期性的把更新的數據寫入磁盤或者把修改操做寫入追加的記錄文件,而且在此基礎上實現了master-slave(主從)同步。git

2.github地址

https://github.com/rmax/scrapy-redisgithub

3.爲何學習redis

Scrapy_redis在scrapy的基礎上實現了更多,更強大的功能,具體體如今:reqeust去重,爬蟲持久化,和輕鬆實現分佈式。redis

二.爬蟲過程

 

 

三.使用

1.經常使用命令

 

中文文檔       http://www.redis.cn/commands.htmldom

2.代碼

 

3.源碼

git clone https://github.com/rolando/scrapy-redis.gitscrapy

三.源碼

1.domz

 

 

執行domz的爬蟲,會發現redis中多了一下三個鍵:分佈式

 

變化結果:ide

       dmoz:requests 有變化(變多或者變少或者不變)學習

       dmoz:dupefilter 變多3d

       dmoz:items 不變

變化結果分析:

       redispipeline中僅僅實現了item數據存儲到redis的過程,咱們能夠新建一個pipeline(或者修改默認的ExamplePipeline),讓數據存儲到任意地方

2.RedisPipeline

 

 

3. RFPDupeFilter

 

4. Scheduler

 

 

四.在項目中使用

1.RedisSpider

 

 

 

2. RedisCrawlSpider

 

五. Crontab爬蟲定時執行

1.安裝及介紹

 

 

2.執行步驟

 

相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息