Scrapy爬蟲提升效率

如何提升scrapy的爬取效率cookie

增長併發:
    默認scrapy開啓的併發線程爲32個,能夠適當進行增長。在settings配置文件中修改CONCURRENT_REQUESTS = 100值爲100,併發設置成了爲100。 下降日誌級別: 在運行scrapy時,會有大量日誌信息的輸出,爲了減小CPU的使用率。能夠設置log輸出信息爲INFO或者ERROR便可。在配置文件中編寫:LOG_LEVEL = ‘INFO’ 禁止cookie: 若是不是真的須要cookie,則在scrapy爬取數據時能夠進制cookie從而減小CPU的使用率,提高爬取效率。在配置文件中編寫:COOKIES_ENABLED = False 禁止重試: 對失敗的HTTP進行從新請求(重試)會減慢爬取速度,所以能夠禁止重試。在配置文件中編寫:RETRY_ENABLED = False 減小下載超時: 若是對一個很是慢的連接進行爬取,減小下載超時能夠能讓卡住的連接快速被放棄,從而提高效率。在配置文件中進行編寫:DOWNLOAD_TIMEOUT = 10 超時時間爲10s



Scrapy的日誌等級併發

  - 在使用scrapy crawl spiderFileName運行程序時,在終端裏打印輸出的就是scrapy的日誌信息。app

  - 日誌信息的種類:scrapy

        ERROR : 通常錯誤ide

        WARNING : 警告ui

        INFO : 通常的信息spa

        DEBUG : 調試信息線程

       

  - 設置日誌信息指定輸出:調試

    在settings.py配置文件中,加入日誌

                    LOG_LEVEL = ‘指定日誌信息種類’便可。

                    LOG_FILE = 'log.txt'則表示將日誌信息寫入到指定文件中進行存儲。

相關文章
相關標籤/搜索