關於粗略解決scrapy斷點續爬的問題

時間 2019-12-12

原文原文鏈接

** 任何程序在運行的過程當中都有可能會崩潰，爬蟲也不例外。**數據庫當咱們須要爬取的數據量很大很大的時候，爬取的過程當中不免會出現各類各樣的問題致使程序崩潰斷掉，這個時候咱們就須要記錄爬蟲的狀態，當爬蟲掛掉的時候能夠恢復原來的狀態繼續跑。服務器 scrapy簡單易用，效率極高，自帶多線程機制。可是也正由於它的多線程機制致使在用scrapy寫爬蟲的時候處理斷點續爬很惱火。當你用for循環遍歷一個