首先咱們進行scrapy-redis分佈式爬取的時候 先了解一下redisredis
那麼瞭解了以後咱們進行設置 在項目的 setting當中數據庫
# 過濾器 去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 調度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 調度狀態持久化 也能夠不用設置
SCHEDULER_PERSIST = True
# 請求調度使用優先隊列 也能夠不用設置
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
# redis 使用的端口和地址
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
或者使用 REDIS_URL = 'redis://127.0.0.1:6379'
設置完成以後 咱們須要安裝 redis可視化的工具 將他打開咱們設置
點擊咱們進行加入緩存
就設置一下名字和host就能夠 通常若是須要多臺機器進行一塊兒爬取的話那麼咱們在設置host的時候 在本身電腦cmd命令行內 ipconfig 查看本身的ip地址 寫入到host裏面,你們還得記得將本身電腦的防火牆關閉 另一臺電腦須要鏈接你的電腦進行爬取網絡
將本身代碼 py文件內 進行導入RedisCrawlSpider
咱們在安裝redis 的文件內找到scrapy
開啓redis服務的圖像分佈式
輸入cmd以後出現的命令ide
輸入完成以後工具
顯示已經完成那麼咱們在運行咱們的項目 就能夠了 隊列裏就有數據了oop
遇到的問題 以下:this
1. 若是咱們開啓 redis可視化工具的時候會報下面的錯誤
這是因爲咱們開啓redis服務 將服務開啓以後就能夠鏈接了
2. 咱們在鏈接 另一臺電腦進行一塊兒爬取的時候 會請求超時
那麼 解決的方法就是 將對方的防火牆進行關閉 這樣是鏈接成功
3. 咱們在進行遠程鏈接的時候 須要輸入外網的ip 10.30. 或者 192.168.等 因此在鏈接時常常會報錯誤
連接redis 時只能經過本地localhost (127.0.0.1)這個來連接,而不能用網絡ip(192.168..)這個連接,若是用網絡ip 連接會報如下的錯誤:
(error) DENIED Redis is running in protected mode because protected mode is enabled, no bind address was specified, no authentication password is requested to clients. In this mode connections are only accepted from the loopback interface. If you want to connect from external computers to Redis you may adopt one of the following solutions: 1) Just disable protected mode sending the command 'CONFIG SET protected-mode no' from the loopback interface by connecting to Redis from the same host the server is running, however MAKE SURE Redis is not publicly accessible from internet if you do so. Use CONFIG REWRITE to make this change permanent. 2) Alternatively you can just disable the protected mode by editing the Redis configuration file, and setting the protected mode option to 'no', and then restarting the server. 3) If you started the server manually just for testing, restart it with the '--protected-mode no' option. 4) Setup a bind address or an authentication password. NOTE: You only need to do one of the above things in order for the server to start accepting connections from the outside.
解決的方法:
進入它以後咱們設置 後面兩個不用動也能夠
1)打開配置文件把下面對應的註釋掉
# bind 127.0.0.1
2)Redis默認不是以守護進程的方式運行,能夠經過該配置項修改,使用yes啓用守護進程,設置爲no
daemonize no
3)保護模式
protected-mode no
將它給 註釋了 我給你們發的可視化的工具包內的設置已經改完你們就不用動了