Python——Scrapy初學

時間 2019-11-13

原文原文鏈接

Scrapy是一個爲了爬取網站數據，提取結構性數據而編寫的應用框架。能夠應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。Scrapy最初是爲了頁面抓取（更確切來講, 網絡抓取）所設計的，也能夠應用在獲取API所返回的數據（例如Amazon Associates Web Services）或者通用的網絡爬蟲。css

1 安裝

簡要說明下Scrapy的安裝：html

下載網址：http://www.lfd.uci.edu/~gohlke/pythonlibs/python

下載後綴名爲whl的scrapy文件，在cmd中進入Scripts所在的位置，輸入pip install scrapy文件名.whl（可參考《Python初學基礎》中的7.1 模塊安裝），注意scrapy依賴twiste，一樣使用whl格式的包進行安裝。安裝完這兩個模塊後我在進行爬蟲操做的時候提示沒有win32api，該文件爲exe，下載地址爲https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/。正則表達式

在安裝好模塊後要注意環境變量的配置，以我本身的安裝目錄爲例，應當將D:\Program Files (x86)\Python\Scripts以及D:\Program Files (x86)\Python\Lib\site-packages加入環境變量中，不然模塊只能在安裝目錄下運行，在別的目錄下運行時會提示不是內部或者外部命令。在cmd下輸入scrapy查看是否安裝成功。shell

上述簡單介紹了scrapy的安裝，在安裝的過程當中不要着急，若是安裝出錯，要注意查看錯誤信息，根據這些信息一個一個去解決。數據庫

2 Scrapy架構及組件介紹

使用Scrapy抓取一個網站一共須要四個步驟：json

1. 建立一個Scrapy項目；api

2. 定義Item容器；網絡

3. 編寫爬蟲；架構

4. 存儲內容

學習怎麼使用Scrapy以前，咱們須要先來了解一下Scrapy的架構以及組件之間的交互。下圖展示的是Scrapy的架構，包括組件及在系統中發生的數據流（圖中綠色箭頭）。

下面對每一個組件都作了簡單介紹：

Scrapy Engine

Scrapy引擎是爬蟲工做的核心，負責控制數據流在系統中全部組件中流動，並在相應動做發生時觸發事件。

調度器（Scheduler）

調度器從引擎接受request並將他們入隊，以便以後引擎請求他們時提供給引擎。

下載器（Downloader）

下載器負責獲取頁面數據並提供給引擎，然後提供給spider。

Spiders

Spider是Scrapy用戶編寫用於分析由下載器返回的response，並提取出item和額外跟進的URL的類。 Item Pipeline Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化（例如存取到數據庫中）。

接下來是兩個中間件，它們用於提供一個簡便的機制，經過插入自定義代碼來擴展Scrapy的功能。

下載器中間件（Downloader middlewares）

下載器中間件是在引擎及下載器之間的特定鉤子（specific hook），處理Downloader傳遞給引擎的response。

Spider中間件（Spider middlewares）

Spider中間件是在引擎及Spider之間的特定鉤子（specific hook），處理spider的輸入（就是接收來自下載器的response）和輸出（就是發送items給item pipeline以及發送requests給調度器）。

3 Scrapy爬蟲框架入門實例

例程參考《scrapy爬蟲框架入門實例》，該例子是抓取慕課網（http://blog.csdn.net/zjiang1994/article/details/52779537）。慕課網的頁面結構已經變了，因此說該案例實際上已經不能達到抓取目的。可是關於scrapy爬蟲框架總體的使用方式和流程目前仍是正確的，能夠進行參考。根據慕課網現有的頁面結構作了一些改動能夠成功實現。

要抓取的內容是所有的課程名稱，課程圖片，課程人數，課程簡介，課程URL：

右鍵審查元素查看

#若是response是網頁資源的話，下面的代碼能夠幫助咱們得到div
divs = response.xpath('//div[@class="course-card-container"]')

因此若是div已經得到的話經過以下得到信息（詳解介紹見下文）：

#獲取每一個div中的課程路徑
item['url'] = 'http://www.imooc.com' + box.xpath('.//@href').extract()[0]
#獲取div中的課程標題
item['title'] = box.xpath('.//h3[@class="course-card-name"]/text()').extract()[0].strip() #獲取div中的標題圖片地址
item['image_url'] =  'http:' + box.xpath('.//@src').extract()[0] #獲取div中的學生人數
item['student'] = box.xpath('.//span/text()').extract()[1].strip() #獲取div中的課程簡介
item['introduction'] = box.xpath('.//p/text()').extract()[0].strip()

工做流程

Scrapy框架抓取的基本流程是這樣：

固然了，還有一些中間件等等，這裏是入門例子，因此不涉及。

1）建立一個Scrapy項目

在開始爬取以前，您必須建立一個新的Scrapy項目。

進入您打算存儲代碼的目錄中，運行下列命令: scrapy startproject tutorial

該命令將會建立包含下列內容的tutorial目錄：

tutorial/ scrapy.cfg tutorial/
        __init__.py items.py pipelines.py settings.py spiders/
            __init__.py ...

這些文件構成Scrapy爬蟲框架，它們分別的做用是:

scrapy.cfg – 項目的配置文件

tutorial/ – 該項目的python模塊，以後您將在此加入代碼

tutorial/items.py – 項目中的item文件

tutorial/pipelines.py – 項目中的pipelines文件

tutorial/settings.py – 項目的設置文件

tutorial/spiders/ – 放置spider代碼的目錄

2）定義Item容器

Item是保存爬取到的數據的容器，其使用方法和python字典相似，而且提供了額外保護機制來避免拼寫錯誤致使的未定義字段錯誤。

首先根據須要獲取到的數據對item進行建模。好比咱們須要從慕課網中獲取課程名稱，課程圖片，課程人數，課程簡介，課程URL。對此，咱們須要在item中定義相應的字段。

咱們在工程目錄下能夠看到一個items文件，咱們能夠更改這個文件或者建立一個新的文件來定義咱們的item。將item.py中的內容修改以下：

#引入文件
import scrapy class CourseItem(scrapy.Item): #課程標題
    title = scrapy.Field() #課程url
    url = scrapy.Field() #課程標題圖片
    image_url = scrapy.Field() #課程描述
    introduction = scrapy.Field() #學習人數
    student = scrapy.Field() image_path = scrapy.Field()

根據如上的代碼，咱們建立了一個名爲item的容器，用來保存、抓取的信息， title->課程標題, url->課程url, image_url->課程標題圖片, introduction->課程描述, student->學習人數。在建立完item文件後咱們能夠經過相似於詞典(dictionary-like)的API以及用於聲明可用字段的簡單語法。經常使用方法以下：

#定義一個item
course = CourseItem() #賦值
course['title'] = "語文"
#取值
course['title'] course.get('title') #獲取所有鍵
course.keys() #獲取所有值
course.items()

3) 建立一個爬蟲

咱們要編寫爬蟲，首先是建立一個Spider咱們在tutorial/spiders/目錄下建立一個文件MySpider.py

文件包含一個MySpider類，它必須繼承scrapy.Spider類。

同時它必須定義一下三個屬性：

-name: 用於區別Spider。該名字必須是惟一的，您不能夠爲不一樣的Spider設定相同的名字。
-start_urls: 包含了Spider在啓動時進行爬取的url列表。所以，第一個被獲取到的頁面將是其中之一。後續的URL則從初始的URL獲取到的數據中提取。
-parse() 是spider的一個方法。被調用時，每一個初始URL完成下載後生成的 Response 對象將會做爲惟一的參數傳遞給該函數。該方法負責解析返回的數據(response data)，提取數據(生成item)以及生成須要進一步處理的URL的 Request 對象。

建立完成後MySpider.py的代碼以下

#引入文件
import scrapy class MySpider(scrapy.Spider): #用於區別Spider
    name = "MySpider"
    #容許訪問的域
    allowed_domains = [] #爬取的地址
    start_urls = [] #爬取方法
    def parse(self, response): pass

爲了簡單清晰，咱們先抓取一個頁面中的信息。

首先咱們編寫爬取代碼。咱們在上文說過，爬取的部分在MySpider類的parse()方法中進行。 parse()方法負責處理response並返回處理的數據以及(/或)跟進的URL。該方法及其餘的Request回調函數必須返回一個包含 Request 及(或) Item 的可迭代的對象。

在網頁中提取咱們所須要的數據，以前所學習的是根據正則表達式來獲取，在Scrapy中是使用一種基於Xpath和CSS的表達式機制：Scrapy Selectors。

Selector是一個選擇器，它有四個基本的方法：

xpath() – 傳入xpath表達式，返回該表達式所對應的全部節點的selector list列表。

css() – 傳入CSS表達式，返回該表達式所對應的全部節點的selector list列表。

extract() – 序列化該節點爲unicode字符串並返回list。

re() – 根據傳入的正則表達式對數據進行提取，返回unicode字符串list列表。

在Shell中嘗試Selector選擇器

爲了介紹Selector的使用方法，接下來咱們將要使用內置的Scrapy shell。

你須要先進入項目的根目錄，執行下列命令來啓動Scrapy shell：

scrapy shell 「http://www.imooc.com/course/list」

shell的輸出相似：

在Shell載入後，你將得到response迴應，存儲在本地變量response中。

因此若是你輸入response.body，你將會看到response的body部分，也就是抓取到的頁面內容，或者輸入response.headers 來查看它的 header部分。如今就像是一大堆沙子握在手裏，裏面有咱們想要的金子，因此下一步咱們就要用篩子把沙子去掉，淘出金子。selector選擇器就是這樣一個篩子，正如咱們剛纔講到的，你可使用response.selector.xpath()、response.selector.css()、response.selector.extract()和response.selector.re()這四個基本方法。

使用XPath

什麼是XPath？XPath是一門在網頁中查找特定信息的語言。因此用XPath來篩選數據，要比使用正則表達式容易些。

這裏給出XPath表達式的例子及對應的含義：

/html/head/title – 選擇HTML文檔中<head>標籤內的<title>元素

/html/head/title/text() – 選擇上面提到的<title>元素的文字

//td – 選擇全部的<td>元素

//div[@class=」mine」] – 選擇全部具備class=」mine」屬性的div元素

上邊僅僅是幾個簡單的XPath例子，XPath實際上要比這遠遠強大的多。若是你想了解更多關於XPath的內容，推薦學習這篇文章http://www.w3school.com.cn/xpath/

值得一提的是，response.xpath()、response.css()已經被映射到response.selector.xpath()、response.selector.css()，因此直接使用response.xpath()便可。

在Python編寫時，因爲沒有學習過Xpath，因此我先在cmd中編寫試驗獲得正確的返回結果後再寫入代碼中，注意shell根據response的類型自動爲咱們初始化了變量sel，咱們能夠直接使用。

例如獲取每一個div中的課程路徑：

此外，咱們但願Spiders將爬取並篩選後的數據存放到item容器中，因此咱們MySpider.py的代碼應該是這樣的：

import scrapy #引入容器
from tutorial.items import CourseItem class MySpider(scrapy.Spider): #設置name
    name = "MySpider"
    #設定域名
    allowed_domains = ["imooc.com"] #填寫爬取地址
    start_urls = ["http://www.imooc.com/course/list"] #編寫爬取方法
    def parse(self, response): #實例一個容器保存爬取的信息
        item = CourseItem() #這部分是爬取部分，使用xpath的方式選擇信息，具體方法根據網頁結構而定
        #先獲取每一個課程的div
        for box in response.xpath('//div[@class="course-card-container"]'): #獲取每一個div中的課程路徑
            item['url'] = 'http://www.imooc.com' + box.xpath('.//@href').extract()[0] #獲取div中的課程標題
            item['title'] = box.xpath('.//h3[@class="course-card-name"]/text()').extract()[0].strip() #獲取div中的標題圖片地址
            item['image_url'] =  'http:' + box.xpath('.//@src').extract()[0] #獲取div中的學生人數
            item['student'] = box.xpath('.//span/text()').extract()[1].strip() #獲取div中的課程簡介
            item['introduction'] = box.xpath('.//p/text()').extract()[0].strip() #返回信息
            yield item

在parse()方法中response參數返回一個下載好的網頁信息，咱們而後經過xpath來尋找咱們須要的信息。
在scrapy框架中，可使用多種選擇器來尋找信息，這裏使用的是xpath，同時咱們也可使用BeautifulSoup，lxml等擴展來選擇，並且框架自己還提供了一套本身的機制來幫助用戶獲取信息，就是Selectors。

在執行完以上步驟以後，咱們能夠運行一下爬蟲，看看是否出錯。

在命令行下進入工程文件夾，而後運行：

scrapy crawl MySpider

若是操做正確會顯示以下信息：

上面信息表示，咱們已經獲取了信息，接下來咱們開始進行信息的儲存。

最簡單存儲爬取的數據的方式是使用Feed exports，主要能夠導出四種格式：JSON，JSON lines，CSV和XML。

咱們這裏將結果導出爲最經常使用的JSON格式：

scrapy crawl dmoz -o items.json -t json

-o 後邊是導出的文件名，-t 指定導出類型成功執行命令後，根目錄出現了一個叫 items.json 的文件，內容以下：

或者使用Pipeline處理數據：

當咱們成功獲取信息後，要進行信息的驗證、儲存等工做，這裏以儲存爲例。
當Item在Spider中被收集以後，它將會被傳遞到Pipeline，一些組件會按照必定的順序執行對Item的處理。
Pipeline常常進行如下一些操做：
清理HTML數據
驗證爬取的數據(檢查item包含某些字段)
查重(並丟棄)
將爬取結果保存到數據庫中

這裏只進行簡單的將數據儲存在json文件的操做。

改寫在tutorial/目錄下文件pipelines.py的代碼以下：

# -*- coding: utf-8 -*-

# Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

#引入文件
from scrapy.exceptions import DropItem import json class MyPipeline(object): def __init__(self): #打開文件
        self.file = open('data.json', 'w', encoding='utf-8') #該方法用於處理數據
    def process_item(self, item, spider): #讀取item中的數據
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        #寫入文件
 self.file.write(line) #返回item
        return item #該方法在spider被開啓時被調用。
    def open_spider(self, spider): pass
    #該方法在spider被關閉時被調用。
    def close_spider(self, spider): pass

要使用Pipeline，首先要註冊Pipeline

找到settings.py文件,這個文件時爬蟲的配置文件

在其中添加：

ITEM_PIPELINES = { 'tutorial.pipelines.MyPipeline': 1, }

上面的代碼用於註冊Pipeline，其中'tutorial.pipelines.MyPipeline爲你要註冊的類，右側的’1’爲該Pipeline的優先級，範圍1～1000，越小越先執行。

進行完以上操做，咱們的一個最基本的爬取操做就完成了

這時咱們再運行：

scrapy crawl MySpider

就能夠在項目根目錄下發現data.json文件，裏面存儲着爬取的課程信息。

上面的代碼只進行了比較簡單的爬取，並無完成爬取慕課網所有課程的目標。
下面進行一些簡單的擴展完成咱們的目標。

url跟進

在上面咱們介紹瞭如何進行簡單的單頁面爬取，可是咱們能夠發現慕課網的課程是分佈在去多個頁面的，因此爲了完整的爬取信息課程信息，咱們須要進行url跟進。

爲了完成這個目標須要對MySpider.py文件進行以下更改

import scrapy #引入容器
from tutorial.items import CourseItem class MySpider(scrapy.Spider): #設置name
    name = "MySpider"
    #設定域名
    allowed_domains = ["imooc.com"] #填寫爬取地址
    start_urls = ["http://www.imooc.com/course/list"] #編寫爬取方法
    def parse(self, response): #實例一個容器保存爬取的信息
        item = CourseItem() #這部分是爬取部分，使用xpath的方式選擇信息，具體方法根據網頁結構而定
        #先獲取每一個課程的div
        for box in response.xpath('//div[@class="course-card-container"]'): #獲取每一個div中的課程路徑
            item['url'] = 'http://www.imooc.com' + box.xpath('.//@href').extract()[0] #獲取div中的課程標題
            item['title'] = box.xpath('.//h3[@class="course-card-name"]/text()').extract()[0].strip() #獲取div中的標題圖片地址
            item['image_url'] =  'http:' + box.xpath('.//@src').extract()[0] #獲取div中的學生人數
            item['student'] = box.xpath('.//span/text()').extract()[1].strip() #獲取div中的課程簡介
            item['introduction'] = box.xpath('.//p/text()').extract()[0].strip() #返回信息
            yield item #url跟進開始
        #獲取下一頁的url信息
        url = response.xpath("//a[contains(text(),'下一頁')]/@href").extract() if url : #將信息組合成下一頁的url
            page = 'http://www.imooc.com' + url[0] #返回url
            yield scrapy.Request(page, callback=self.parse) #url跟進結束

修改爲功後就能夠自動進行url跟進了。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。