爬蟲學習筆記3(Scrapy安裝及基本使用)

人生苦短,我用Pythonpython

Scrapy安裝

一、windows下安裝流程:數據庫

命令行執行pip Install scrapy安裝scrapy,若是你已經配置過環境變量,則任意打開命令行窗口,輸入pip install scrapy命令,則能夠執行安裝。若沒有配置過環境變量,則進入到你python的安裝路徑下,shift+右鍵,在此處打開命令行窗口,而後輸入pip install scrapy安裝。windows




特別說明:windows下安裝,由於某些包不兼容,會出現安裝失敗的狀況,通常是twisted安裝失敗,固然也會可能其餘包安裝失敗,具體狀況根據本身安裝提示。若twisted安裝失敗,則去Python Extension Packages for Windows地址去搜索twisted,選好本身對應的版本,否則會安裝失敗,下載完以後,到下載文件所在位置,shift+右鍵,在此處打開命令行窗口,輸入pip install xxx.whl(完整文件名)。安裝完成以後,打開命令行:輸入scrapy -h驗證是否安裝成功!若提示未成功,則從新執行pip install scrapy命令。
框架

preview

二、Mac系統安裝流程scrapy

能夠直接使用pip install scrapy進行安裝ide

若是沒有安裝pip,但是使用如下命令行語句先安裝pip:網站


Scrapy爬蟲的使用

一個最基本的爬蟲只須要兩部分組成:Spider(爬蟲)、Pipeline(管道)url

Spider(爬蟲):定義瞭如何爬取某個網站,包括了爬取的動做(例如是否跟進連接)以及如何從網頁的內容中提取結構化數據(爬取item)。簡單來講,Spider就是定義爬取的動做及分析某個網頁的地方。命令行

Pipeline(管道):每一個項目管道組件是一個實現簡單方法的Python類。他們接受一個項目並對其執行操做,還決定該項目是否應該繼續經過流水線或被丟棄而且再也不被處理。cdn

Pipeline(管道的做用):

Item管道的主要責任是負責處理由蜘蛛從網頁中抽取的item,它的主要任務是清洗、驗證和存儲數據。當頁面被蜘蛛解析後,將被髮送到item管道,並通過幾個特定的次序處理數據。

項目管道的用途:

  • 清理HTML數據
  • 驗證抓取的數據(檢查項目是否包含特定字段)
  • 檢查重複
  • 將刮取的項目存儲在數據庫

第一個Scrapy項目

一、在你要存放項目的目錄下,shift+右鍵在此處打開命令行,而後輸入:scrapy startproject MyFirstDemo,建立成功,提示如圖所示:


preview

scrapy 框架文件解析:

  • MyFirstDemo/:該項目的Python模塊,以後將在此處加入代碼
  • MyFirstDemo/spiders/:放置spider代碼的目錄,在命令行使用「scrapy genspider+爬蟲名」生成的--spider文件將會被放在此目錄下。
  • MyFirstDemo/items.py:項目中的item文件
  • MyFirstDemo/pipelines.py:項目中的pipelines文件
  • MyFirstDemo/settings.py:項目的設置文件
  • scrapy.cfg:項目的配置文件,通常不須要修改,也不能刪除

建立spider文件:在cmd中切換到MyFirstDemo文件中,輸入「scrapy genspider spider_myfirstdemo baidu.com」,在spider下面生成spider_city_58文件,代碼以下:

preview

preview

preview

Scrapy基本方法和屬性:

  • 爬蟲名稱:name屬性
  • 啓動方法:start_requests(),或start_urls()啓動
  • 默認解析方法:parse()
  • 啓動連接列表:start_urls()屬性
相關文章
相關標籤/搜索