手把手教你如何新建scrapy爬蟲框架的第一個項目(下)

前幾天小編帶你們學會了如何在Scrapy框架下建立屬於本身的第一個爬蟲項目(上),今天咱們進一步深刻的瞭解Scrapy爬蟲項目建立,這裏以伯樂在線網站的全部文章頁爲例進行說明。git

  在咱們建立好Scrapy爬蟲項目以後,會獲得上圖中的提示,大意是讓咱們直接根據模板進行建立Scrapy項目。根據提示,咱們首先運行「cd article」命令,意思是打開或者進入到article文件夾下,爾後執行命令「scrapy genspider jobbole blog.jobbole.com」,表明經過Scrapy中自帶的basic模板進行建立Scrapy項目,以下圖所示。github

  根據提示,該模板建立的位置爲article.spiders.jobbole,此時再次輸入tree /f命令能夠查看到除了以前建立Scrapy爬蟲項目的基礎文件以外,在spiders文件夾下確實是多了一個jobbole.py文件,以下圖所示。框架

  固然了,爬蟲模板不必定非得用Scrapy爬蟲項目自帶的模板,也能夠自定義的進行建立,可是基本上Scrapy提供的模板是足夠使用的了。dom

  接下來,將整個爬蟲項目導入到Pycharm中去,點擊左上方「file」à「open」,找到爬蟲項目建立的文件夾,點擊確認便可。scrapy

  若是在Pycharm中的spiders文件夾下看不到jobbole.py這個文件的話,則先選中spiders文件夾,爾後右鍵,點擊「Synchronize spider」,表明與spiders文件夾進行同步的意思,爾後即可以看到jobbole.py就會被加載出來。ide

  點擊jobbole.py文件進行查看內容,以下圖所示。能夠看到該文件已經默認的填充了部分Python代碼,實際上是從源模板中進行復制建立的。網站

  能夠看到該文件中有當前Scrapy爬蟲項目的名字name,Scrapy爬蟲項目所容許的域名範圍allowed_domains,以及Scrapy爬蟲項目的起始URL,即start_urls。ui

  接下來最後檢查一下該項目的Python解釋器,點擊Pycharm的setting,而後輸入「interpreter」,找到解釋器所在的位置,以下圖所示。url

  若是「Project Interpreter」顯示出來的解釋器不是當前項目下的虛擬環境,則點擊「Project Interpreter」的右側的設置按鈕,以下圖所示。blog

  而後點擊「Add local」,以下圖所示。

  找到該項目對應的虛擬環境Python解釋器,進行添加便可,以下圖所示。

  至此,Scrapy爬蟲虛擬環境建立、Scrapy爬蟲項目的建立以及Scrapy爬蟲項目導入到Pycharm中以及解釋器的配置已經完成,接下來咱們要開始寫入爬蟲邏輯,以及數據提取等,敬請期待~~

  對爬蟲感興趣的小夥伴,歡迎來Github:https://github.com/cassieeric,喜歡的話記得給個star噢~~

相關文章
相關標籤/搜索