如何提升scrapy的爬取效率cookie
增長併發: 默認scrapy開啓的併發線程爲32個,能夠適當進行增長。在settings配置文件中修改CONCURRENT_REQUESTS = 100值爲100,併發設置成了爲100。 下降日誌級別: 在運行scrapy時,會有大量日誌信息的輸出,爲了減小CPU的使用率。能夠設置log輸出信息爲INFO或者ERROR便可。在配置文件中編寫:LOG_LEVEL = ‘INFO’ 禁止cookie: 若是不是真的須要cookie,則在scrapy爬取數據時能夠進制cookie從而減小CPU的使用率,提高爬取效率。在配置文件中編寫:COOKIES_ENABLED = False 禁止重試: 對失敗的HTTP進行從新請求(重試)會減慢爬取速度,所以能夠禁止重試。在配置文件中編寫:RETRY_ENABLED = False 減小下載超時: 若是對一個很是慢的連接進行爬取,減小下載超時能夠能讓卡住的連接快速被放棄,從而提高效率。在配置文件中進行編寫:DOWNLOAD_TIMEOUT = 10 超時時間爲10s
Scrapy的日誌等級併發
- 在使用scrapy crawl spiderFileName運行程序時,在終端裏打印輸出的就是scrapy的日誌信息。app
- 日誌信息的種類:scrapy
ERROR : 通常錯誤ide
WARNING : 警告ui
INFO : 通常的信息spa
DEBUG : 調試信息線程
- 設置日誌信息指定輸出:調試
在settings.py配置文件中,加入日誌
LOG_LEVEL = ‘指定日誌信息種類’便可。
LOG_FILE = 'log.txt'則表示將日誌信息寫入到指定文件中進行存儲。