pyspider是好東西,很是穩定,好久好久之前架了一個,心冷了一段時間,但人家盡忠職守地持續運行,一直在抓取東西。chrome
結合chrome,抓取代碼簡直不要太好寫,沒想到,最頭大的,仍是它的調度。明明感受沒問題的,就是不運行。在這個上面花的時間,比頁面解析的要多。因此,把近期的學習心得記錄下來:服務器
第1、控制檯的含義。rate/burst控制併發和速度基本不用管。progress現實近期調用次數能夠參考一下。我用得最多的是左上角的Recent Active Tasks,能夠查看究竟運行了幾個爬蟲任務(對應self.crawl)併發
第2、幾個重要控制設置。@every(minutes=24*60)是指的運行間隔。@config(age=300)指的頁面週期(單位秒),週期範圍內將不執行抓取。ide
第3、個人需求,是對一些固定頁面(已經存在庫中了)進行定時檢查,解析出連接,已經入庫的老連接忽略,新連接入庫。因此,不採用默認的start頁面進入總頁面,解析出一組分頁面連接,再分別調用分頁面的方式。而直接在start中啓動全部分頁面,分頁面設置有效期,按期自動從新獲取。而start天天重入一次,保證連接活動便可。以下:學習
補充一下,若是設定了從新刷新的間隔,那麼——這個間隔很難修改,哪怕把服務器上pyspider關了,重開,仍是原來的間隔。最後沒辦法,只能新建一個項目,把代碼複製過去才ok!pyspider