Redis分佈式爬取

 

首先咱們進行scrapy-redis分佈式爬取的時候 先了解一下redisredis

  1. Redis 是目前公認的速度最快的基於內存的鍵值對數據庫
  2. Redis 做爲臨時數據的緩存區,能夠充分利用內存的高速讀寫能力大大提升爬蟲爬取效率。
  3. scrapy-redis 是爲了更方便地實現 Scrapy 分佈式爬取,而提供的一些以 Redis 爲基礎的組件。
  4. scrapy-redis 把 deque 換成 redis 數據庫,能讓多個 spider 讀取同一個 redis 數據庫裏,解決了分佈式的主要問題。

 

那麼瞭解了以後咱們進行設置 在項目的 setting當中數據庫

# 過濾器  去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 調度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 調度狀態持久化   也能夠不用設置
SCHEDULER_PERSIST = True
# 請求調度使用優先隊列   也能夠不用設置
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
# redis 使用的端口和地址  
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
或者使用 REDIS_URL = 'redis://127.0.0.1:6379'
 
 
設置完成以後 咱們須要安裝 redis可視化的工具 將他打開咱們設置 

 
 

點擊咱們進行加入緩存

 

就設置一下名字和host就能夠  通常若是須要多臺機器進行一塊兒爬取的話那麼咱們在設置host的時候 在本身電腦cmd命令行內 ipconfig 查看本身的ip地址 寫入到host裏面,你們還得記得將本身電腦的防火牆關閉 另一臺電腦須要鏈接你的電腦進行爬取網絡

 

 

將本身代碼 py文件內 進行導入RedisCrawlSpider

 

 

咱們在安裝redis 的文件內找到scrapy

 

開啓redis服務的圖像分佈式

 

輸入cmd以後出現的命令ide

 

輸入完成以後工具

 

顯示已經完成那麼咱們在運行咱們的項目 就能夠了 隊列裏就有數據了oop

 

 

遇到的問題 以下:this

1. 若是咱們開啓 redis可視化工具的時候會報下面的錯誤

 

這是因爲咱們開啓redis服務 將服務開啓以後就能夠鏈接了

 

 

 

2. 咱們在鏈接 另一臺電腦進行一塊兒爬取的時候 會請求超時

那麼 解決的方法就是 將對方的防火牆進行關閉 這樣是鏈接成功

 

3. 咱們在進行遠程鏈接的時候 須要輸入外網的ip 10.30. 或者 192.168.等 因此在鏈接時常常會報錯誤

連接redis 時只能經過本地localhost (127.0.0.1)這個來連接,而不能用網絡ip(192.168..)這個連接,若是用網絡ip 連接會報如下的錯誤:

(error) DENIED Redis is running in protected mode because protected mode is enabled, no bind address was specified, no authentication password is requested to clients. In this mode connections are only accepted from the loopback interface. If you want to connect from external computers to Redis you may adopt one of the following solutions: 1) Just disable protected mode sending the command 'CONFIG SET protected-mode no' from the loopback interface by connecting to Redis from the same host the server is running, however MAKE SURE Redis is not publicly accessible from internet if you do so. Use CONFIG REWRITE to make this change permanent. 2) Alternatively you can just disable the protected mode by editing the Redis configuration file, and setting the protected mode option to 'no', and then restarting the server. 3) If you started the server manually just for testing, restart it with the '--protected-mode no' option. 4) Setup a bind address or an authentication password. NOTE: You only need to do one of the above things in order for the server to start accepting connections from the outside.

解決的方法:

 

進入它以後咱們設置  後面兩個不用動也能夠

1)打開配置文件把下面對應的註釋掉
# bind 127.0.0.1 

2)Redis默認不是以守護進程的方式運行,能夠經過該配置項修改,使用yes啓用守護進程,設置爲no
daemonize no

3)保護模式
protected-mode no 

 

將它給 註釋了 我給你們發的可視化的工具包內的設置已經改完你們就不用動了

相關文章
相關標籤/搜索