Scrapy爬蟲提升效率

時間 2019-11-08

原文原文鏈接

如何提升scrapy的爬取效率cookie

增長併發：
    默認scrapy開啓的併發線程爲32個，能夠適當進行增長。在settings配置文件中修改CONCURRENT_REQUESTS = 100值爲100,併發設置成了爲100。 下降日誌級別： 在運行scrapy時，會有大量日誌信息的輸出，爲了減小CPU的使用率。能夠設置log輸出信息爲INFO或者ERROR便可。在配置文件中編寫：LOG_LEVEL = ‘INFO’ 禁止cookie： 若是不是真的須要cookie，則在scrapy爬取數據時能夠進制cookie從而減小CPU的使用率，提高爬取效率。在配置文件中編寫：COOKIES_ENABLED = False 禁止重試： 對失敗的HTTP進行從新請求（重試）會減慢爬取速度，所以能夠禁止重試。在配置文件中編寫：RETRY_ENABLED = False 減小下載超時： 若是對一個很是慢的連接進行爬取，減小下載超時能夠能讓卡住的連接快速被放棄，從而提高效率。在配置文件中進行編寫：DOWNLOAD_TIMEOUT = 10 超時時間爲10s

Scrapy的日誌等級併發

　　- 在使用scrapy crawl spiderFileName運行程序時，在終端裏打印輸出的就是scrapy的日誌信息。app

　　- 日誌信息的種類：scrapy

　　　　　　　　ERROR ：通常錯誤ide

　　　　　　　　WARNING : 警告ui

　　　　　　　　INFO : 通常的信息spa

　　　　　　　　DEBUG ：調試信息線程

　　- 設置日誌信息指定輸出：調試

　　　　在settings.py配置文件中，加入日誌

LOG_LEVEL = ‘指定日誌信息種類’便可。

LOG_FILE = 'log.txt'則表示將日誌信息寫入到指定文件中進行存儲。