scrapy的每個爬蟲,暫停時能夠記錄暫停狀態以及爬取了哪些url,重啓時能夠從暫停狀態開始爬取過的URL不在爬取html
實現暫停與重啓記錄狀態scrapy
方法一:post
一、首先cd進入到scrapy項目裏(固然你也能夠經過編寫腳本Python文件直接在pycharm中運行) 二、在scrapy項目裏建立保存記錄信息的文件夾 三、執行命令: scrapy crawl 爬蟲名稱 -s JOBDIR=保存記錄信息的路徑 如:scrapy crawl cnblogs -s JOBDIR=zant/001 執行命令會啓動指定爬蟲,而且記錄狀態到指定目錄 爬蟲已經啓動,咱們能夠按鍵盤上的ctrl+c中止爬蟲,中止後咱們看一下記錄文件夾,會多出3個文件,其中的requests.queue文件夾裏的p0文件就是URL記錄文件,這個文件存在就說明還有未完成的URL,當全部URL完成後會自動刪除此文件 當咱們從新執行命令:scrapy crawl cnblogs -s JOBDIR=zant/001 時爬蟲會根據p0文件從中止的地方開始繼續爬取。
方法二:url
在settings.py文件里加入下面的代碼: spa
JOBDIR='sharejs.com'
使用命令scrapy crawl 爬蟲名,就會自動生成一個sharejs.com的目錄,而後將工做列表放到這個文件夾裏 code