關於Scrapy爬蟲項目運行和調試的小技巧(下篇)

前幾天給你們分享了關於Scrapy爬蟲項目運行和調試的小技巧上篇,沒來得及上車的小夥伴能夠戳超連接看一下。今天小編繼續沿着上篇的思路往下延伸,給你們分享更爲實用的Scrapy項目調試技巧。shell

3、設置網站robots.txt規則爲False框架

通常的,咱們在運用Scrapy框架抓取數據以前,須要提早到settings.py文件中,將「ROBOTSTXT_OBEY = True」改成ROBOTSTXT_OBEY = False。scrapy

在未改動以後settings.py文件中默認爬蟲是遵照網站的robots.txt規則的,以下圖所示。網站

 

若是遵照robots.txt規則的話,那麼爬取的結果會自動過濾掉不少咱們想要的目標信息,所以有必要將該參數設置爲False,以下圖所示。命令行

 

設置好robots.txt規則以後,咱們即可以抓到更多網頁的信息。調試

4、利用Scrapy shell進行調試orm

一般咱們要運行Scrapy爬蟲程序的時候會在命令行中輸入「scrapy crawl crawler_name」,細心的小夥伴應該知道上篇文章中建立的main.py文件也是能夠提升調試效率的,不過這兩種方法都是須要從頭至尾運行Scrapy爬蟲項目,每次都須要請求一次URL,效率十分低。運行過Scrapy爬蟲項目的小夥伴都知道Scrapy運行的時候相對較慢,有時候由於網速不穩定,根部就沒法動彈。針對每次都須要運行Scrapy爬蟲的問題,這裏介紹Scrapy shell調試方法給你們,能夠事半功倍噢。開發

Scrapy給咱們提供了一種shell模式,讓咱們能夠在shell腳本之下獲取整個URL對應的網頁源碼。在命令行中進行運行,其語法命令是「scrapy shell URL」,URL是指你須要抓取的網頁網址或者連接,以下圖所示。get

 

該命令表明的意思是對該URL進行調試,當命令執行以後,咱們就已經獲取到了該URL所對應的網頁內容,以後咱們就能夠在該shell下進行調試,不再用每次都執行Scrapy爬蟲程序,發起URL請求了。源碼

經過shell腳本這種方式能夠極大的提升調試的效率,具體的調試方法同爬蟲主體文件中的表達式語法一致。舉個栗子,以下圖所示。

 

將兩個Xpath表達式所對應的選擇器放到scrapy shell調試的腳本下,咱們能夠很清楚的看到提取的目標信息,並且省去了每次運行Scrapy爬蟲程序的重複步驟,提升了開發效率。這種方式在Scrapy爬蟲過程當中十分經常使用,並且也十分的實用,但願小夥伴們均可以掌握,而且積極主動的爲本身所用。

關於Scrapy爬蟲項目運行和調試的部分小技巧先分享到這裏,尤爲是Debug調試和Scrapy shell調試極爲經常使用,但願小夥伴們能夠多多利用起來,讓其爲本身的項目服務,能夠事半功倍噢~~

相關文章
相關標籤/搜索