要想了解在scrapy中由哪些全局命令,能夠在不進入scrapy爬蟲項目目錄的狀況下運行scrapy -hshell
fetch命令主要用來顯示爬蟲爬取的過程,若是在scrapy項目目錄以外使用該命令,則會調用scrapy默認的爬蟲來進行網頁的爬取,若是在scrapy的某個項目目錄內使用該命令,則會調用該項目中的爬蟲來進行網頁的爬取瀏覽器
--headers 控制顯示對象的爬蟲爬取網站的頭信息服務器
--nolog 控制不顯示日誌信息scrapy
--logfile==FILE 存儲日誌文字信息編輯器
--spider=SPIDER 控制使用哪一個爬蟲ide
--loglevel=LEVEL控制日誌級別函數
日誌等級常見值:性能
CRITICAL 發生嚴重的錯誤測試
ERROR 發生了必須當即處理的錯誤fetch
WARNING 出現一些警告信息
INFO 輸出一些提示信息
DEBUG 輸出一些調試信息,經常使用於開發階段
能夠實現不依託scrapy的爬蟲項目,直接運行一個爬蟲文件
該命令尚未理解,沒看到parse()函數的打印信息
查看scrapy對應的配置信息,若是在項目目錄內使用,查看的是對應項目的配置信息,若是在項目外使用查看的是scrapy默認配置信息
shell命令能夠啓動scrapy的交互終端,scrapy的交互終端常常在開發以及跳水的時候用到,使用scrapy的交互終端能夠實如今不啓動scrapy爬蟲的狀況下,對網站響應進行調試
能夠看到在執行命令後會出現能夠使用的scarpy對象及快捷命令
用於建立項目
scrapy startproject firstspider [parm]
經過version命令能夠直接顯示scrapy的版本相關信息
實現下載某個網頁並用瀏覽器查看的功能
使用bench命令能夠測試本地硬件的性能,當咱們容許scrapy bench的時候,會建立一個本地服務器而且會以最大的速度爬行,再次爲了測試本地硬件的性能,避免過多的因素的影響,全部僅進行鏈接跟進,不進行內容的處理
單純就硬件性能來講,顯示每分鐘大約能爬2400個網頁,這是一個參考標準,在實際運行爬蟲項目的時候,會因爲各類因素致使速度不一樣,通常來講,能夠根據實際運行的速度與該參考速度進行對比結果,從而對爬蟲項目進行優化與改進
建立爬蟲文件,能夠使用該命令的-l參數來查看當前能夠使用的爬蟲模板
使用-t能夠基於其中任意一個爬蟲模板來生成一個爬蟲文件
這樣會在example/spiders/country_test目錄下生成country_test.py文件
在scrapy中使用check命令實現對某個爬蟲文件進行合同(contract)檢查
啓動某個爬蟲
scrapy crawl country_test --loglevel=DEBUG
列出當前能夠使用的爬蟲文件
直接打開對應編輯器對爬蟲文件進行編輯