Scrapy經常使用命令

scrapy全局命令

  要想了解在scrapy中由哪些全局命令,能夠在不進入scrapy爬蟲項目目錄的狀況下運行scrapy -hshell

  

(1) fetch命令

  fetch命令主要用來顯示爬蟲爬取的過程,若是在scrapy項目目錄以外使用該命令,則會調用scrapy默認的爬蟲來進行網頁的爬取,若是在scrapy的某個項目目錄內使用該命令,則會調用該項目中的爬蟲來進行網頁的爬取瀏覽器

  --headers 控制顯示對象的爬蟲爬取網站的頭信息服務器

  --nolog 控制不顯示日誌信息scrapy

  --logfile==FILE 存儲日誌文字信息編輯器

  --spider=SPIDER 控制使用哪一個爬蟲ide

  --loglevel=LEVEL控制日誌級別函數

    日誌等級常見值:性能

      CRITICAL   發生嚴重的錯誤測試

      ERROR      發生了必須當即處理的錯誤fetch

      WARNING        出現一些警告信息

      INFO                輸出一些提示信息

      DEBUG            輸出一些調試信息,經常使用於開發階段

(2)runspider命令

  能夠實現不依託scrapy的爬蟲項目,直接運行一個爬蟲文件

  該命令尚未理解,沒看到parse()函數的打印信息

(3)setting命令

  查看scrapy對應的配置信息,若是在項目目錄內使用,查看的是對應項目的配置信息,若是在項目外使用查看的是scrapy默認配置信息

(4)shell命令

  shell命令能夠啓動scrapy的交互終端,scrapy的交互終端常常在開發以及跳水的時候用到,使用scrapy的交互終端能夠實如今不啓動scrapy爬蟲的狀況下,對網站響應進行調試

  

  能夠看到在執行命令後會出現能夠使用的scarpy對象及快捷命令

(5)startproject命令

  用於建立項目

  scrapy startproject firstspider [parm]

(6)version命令

  經過version命令能夠直接顯示scrapy的版本相關信息

(7)view命令

  實現下載某個網頁並用瀏覽器查看的功能

scrapy項目命令

(1)bench命令

  使用bench命令能夠測試本地硬件的性能,當咱們容許scrapy bench的時候,會建立一個本地服務器而且會以最大的速度爬行,再次爲了測試本地硬件的性能,避免過多的因素的影響,全部僅進行鏈接跟進,不進行內容的處理

  單純就硬件性能來講,顯示每分鐘大約能爬2400個網頁,這是一個參考標準,在實際運行爬蟲項目的時候,會因爲各類因素致使速度不一樣,通常來講,能夠根據實際運行的速度與該參考速度進行對比結果,從而對爬蟲項目進行優化與改進

(2)genspider命令

  建立爬蟲文件,能夠使用該命令的-l參數來查看當前能夠使用的爬蟲模板

  

  使用-t能夠基於其中任意一個爬蟲模板來生成一個爬蟲文件

  

  這樣會在example/spiders/country_test目錄下生成country_test.py文件

  

(3)check命令

  在scrapy中使用check命令實現對某個爬蟲文件進行合同(contract)檢查

  

(4)crawl命令

  啓動某個爬蟲

  scrapy crawl country_test --loglevel=DEBUG

(5)list命令

  列出當前能夠使用的爬蟲文件

(6)edit命令

  直接打開對應編輯器對爬蟲文件進行編輯

相關文章
相關標籤/搜索