前幾天小編帶你們學會了如何在Scrapy框架下建立屬於本身的第一個爬蟲項目(上),今天咱們進一步深刻的瞭解Scrapy爬蟲項目建立,這裏以伯樂在線網站的全部文章頁爲例進行說明。git
在咱們建立好Scrapy爬蟲項目以後,會獲得上圖中的提示,大意是讓咱們直接根據模板進行建立Scrapy項目。根據提示,咱們首先運行「cd article」命令,意思是打開或者進入到article文件夾下,爾後執行命令「scrapy genspider jobbole blog.jobbole.com」,表明經過Scrapy中自帶的basic模板進行建立Scrapy項目,以下圖所示。github
根據提示,該模板建立的位置爲article.spiders.jobbole,此時再次輸入tree /f命令能夠查看到除了以前建立Scrapy爬蟲項目的基礎文件以外,在spiders文件夾下確實是多了一個jobbole.py文件,以下圖所示。框架
固然了,爬蟲模板不必定非得用Scrapy爬蟲項目自帶的模板,也能夠自定義的進行建立,可是基本上Scrapy提供的模板是足夠使用的了。dom
接下來,將整個爬蟲項目導入到Pycharm中去,點擊左上方「file」à「open」,找到爬蟲項目建立的文件夾,點擊確認便可。scrapy
若是在Pycharm中的spiders文件夾下看不到jobbole.py這個文件的話,則先選中spiders文件夾,爾後右鍵,點擊「Synchronize spider」,表明與spiders文件夾進行同步的意思,爾後即可以看到jobbole.py就會被加載出來。ide
點擊jobbole.py文件進行查看內容,以下圖所示。能夠看到該文件已經默認的填充了部分Python代碼,實際上是從源模板中進行復制建立的。網站
能夠看到該文件中有當前Scrapy爬蟲項目的名字name,Scrapy爬蟲項目所容許的域名範圍allowed_domains,以及Scrapy爬蟲項目的起始URL,即start_urls。ui
接下來最後檢查一下該項目的Python解釋器,點擊Pycharm的setting,而後輸入「interpreter」,找到解釋器所在的位置,以下圖所示。url
若是「Project Interpreter」顯示出來的解釋器不是當前項目下的虛擬環境,則點擊「Project Interpreter」的右側的設置按鈕,以下圖所示。blog
而後點擊「Add local」,以下圖所示。
找到該項目對應的虛擬環境Python解釋器,進行添加便可,以下圖所示。
至此,Scrapy爬蟲虛擬環境建立、Scrapy爬蟲項目的建立以及Scrapy爬蟲項目導入到Pycharm中以及解釋器的配置已經完成,接下來咱們要開始寫入爬蟲邏輯,以及數據提取等,敬請期待~~
對爬蟲感興趣的小夥伴,歡迎來Github:https://github.com/cassieeric,喜歡的話記得給個star噢~~