Scrapy爬蟲的暫停和啓動

時間 2019-11-20

原文原文鏈接

scrapy的每個爬蟲，暫停時能夠記錄暫停狀態以及爬取了哪些url，重啓時能夠從暫停狀態開始爬取過的URL不在爬取scrapy

實現暫停與重啓記錄狀態url

方法一：spa

1、首先cd進入到scrapy項目裏（固然你也能夠經過編寫腳本Python文件直接在pycharm中運行）

2、在scrapy項目裏建立保存記錄信息的文件夾

3、執行命令：

　　scrapy crawl 爬蟲名稱 -s JOBDIR=保存記錄信息的路徑

　　如：scrapy crawl cnblogs -s JOBDIR=zant/001

　　執行命令會啓動指定爬蟲，而且記錄狀態到指定目錄

爬蟲已經啓動，咱們能夠按鍵盤上的ctrl+c中止爬蟲，中止後咱們看一下記錄文件夾，會多出3個文件，其中的requests.queue文件夾裏的p0文件就是URL記錄文件，這個文件存在就說明還有未完成的URL，當全部URL完成後會自動刪除此文件

當咱們從新執行命令：scrapy crawl cnblogs -s JOBDIR=zant/001  時爬蟲會根據p0文件從中止的地方開始繼續爬取。