scrapy框架

 

一 scrapy框架簡介:html

Scrapy一個開源和協做的框架,其最初是爲了頁面抓取 (更確切來講, 網絡抓取 )所設計的,使用它能夠以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分普遍,
可用於如數據挖掘、監測和自動化測試等領域,也能夠應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。
Scrapy 是基於twisted框架開發而來,twisted是一個流行的事件驅動的python網絡框架。所以Scrapy使用了一種非阻塞(又名異步)的代碼來實現併發

事件驅動:事件驅動是指在持續事務管理過程當中,進行決策的一種策略,即跟隨當前時間點上出現的事件,調動可用資源,執行相關任務,使不斷出現的問題得以解決,防止事務堆積。
在計算機編程、公共關係、經濟活動等領域均有應用。從事件角度說,事件驅動程序的基本結構是由一個事件收集器、一個事件發送器和一個事件處理器組成

二 scrapy框架的一個總體結構流程:python

從上圖咱們能夠把整個框架分爲蜈蚣丸部分:SPIDERS、ENGINE、DOWNLOADER、SCHEDULER、ITEM PIPELINES那麼沒給我組件的功能是什麼:web

1、引擎(EGINE)
引擎負責控制系統全部組件之間的數據流,並在某些動做發生時觸發事件。有關詳細信息,請參見上面的數據流部分。

2、調度器(SCHEDULER)
用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 能夠想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

3、下載器(DOWLOADER)
用於下載網頁內容, 並將網頁內容返回給EGINE,下載器是創建在twisted這個高效的異步模型上的

4、爬蟲(SPIDERS)
SPIDERS是開發人員自定義的類,用來發送請求、解析responses,而且提取items,或者發送新的請求

5、項目管道(ITEM PIPLINES)
在items被提取後負責處理它們,主要包括清理、驗證、持久化(好比存到數據庫)等操做
下載器中間件(Downloader Middlewares)位於Scrapy引擎和下載器之間,主要用來處理從EGINE傳到DOWLOADER的請求request,已經從DOWNLOADER傳到EGINE的響應response,
你可用該中間件作如下幾件事:
    (1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
    (2) change received response before passing it to a spider;
    (3) send a new Request instead of passing received response to a spider;
    (4) pass response to a spider without fetching a web page;
    (5) silently drop some requests.

6、爬蟲中間件(Spider Middlewares)
位於EGINE和SPIDERS之間,主要工做是處理SPIDERS的輸入(即responses)和輸出(即requests)
位於ENGINE和DOWNLOADER中間,主要對下載的文件進行處理。

那麼這五個部分實際上須要咱們寫的就是就是SPIDER和PIPLINES這兩個部分。ajax

三 關於scrapy框架的安裝:shell

#Windows平臺
    一、pip3 install wheel #安裝後,便支持經過wheel文件安裝軟件,wheel文件官網:https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    五、下載並安裝pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/
    六、下載twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    七、執行pip3 install 下載目錄\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
    8、pip3 install scrapy
  
#Linux平臺
    一、pip3 install scrapy

四 安裝完以後咱們須要在命令行進行相關的操做:數據庫

# 1 查看幫助
    scrapy -h
    scrapy <command> -h

# 2 有兩種命令:其中Project-only必須切到項目文件夾下才能執行,而Global的命令則不須要
    Global commands:
        startproject #建立項目
        genspider    #建立爬蟲程序
        settings     #若是是在項目目錄下,則獲得的是該項目的配置
        runspider    #運行一個獨立的python文件,沒必要建立項目
        shell        #scrapy shell url地址  在交互式調試,如選擇器規則正確與否
        fetch        #獨立於程單純地爬取一個頁面,能夠拿到請求頭
        view         #下載完畢後直接彈出瀏覽器,以此能夠分辨出哪些數據是ajax請求
        version      #scrapy version 查看scrapy的版本,scrapy version -v查看scrapy依賴庫的版本
    Project-only commands:
        crawl        #運行爬蟲,必須建立項目才行,確保配置文件中ROBOTSTXT_OBEY = False
        check        #檢測項目中有無語法錯誤
        list         #列出項目中所包含的爬蟲名
        edit         #編輯器,通常不用
        parse        #scrapy parse url地址 --callback 回調函數  #以此能夠驗證咱們的回調函數是否正確
        bench        #scrapy bentch壓力測試

# 3 官網連接
    https://docs.scrapy.org/en/latest/topics/commands.html

 

五 項目目錄結構:編程

'''
project_name/
   scrapy.cfg               項目的主配置信息,用來部署scrapy時使用,爬蟲相關的配置信息在settings.py文件中。
   project_name/
       __init__.py
       items.py             設置數據存儲模板,用於結構化數據,如:Django的Model
       pipelines.py         數據處理行爲,如:通常結構化的數據持久化
       settings.py          配置文件,如:遞歸的層數、併發數,延遲下載等。強調:配置文件的選項必須大寫不然視爲無效,正確寫法USER_AGENT='xxxx'
       spiders/
           __init__.py
           爬蟲1.py          爬蟲目錄,如:建立文件,編寫爬蟲規則
           爬蟲2.py
           爬蟲3.py

'''

注意事項:
一、通常咱們直接使用網站域名來命名spider文件名
二、對於每次都要使用命令行來啓東程序是很麻煩的,那麼咱們如何啓動程序直接使用pycharm啓動程序呢?
#在項目根目錄下新建:entrypoint.py
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', '爬蟲文件名'])

 六 spider類:瀏覽器

Spiders是定義如何抓取某個站點(或一組站點)的類,包括如何執行爬行(即跟隨連接)以及如何從其頁面中提取結構化數據(即抓取項目)。
換句話說,Spiders是您爲特定站點(或者在某些狀況下,一組站點)爬網和解析頁面定義自定義行爲的地方。 

那麼關於spider類中方法的執行以及順序:網絡

循環執行以下過程!!!!!併發

'''
一、 生成初始的Requests來爬取第一個URLS,而且標識一個回調函數
     第一個請求定義在start_requests()方法內默認從start_urls列表中得到url地址來生成Request請求,
     默認的回調函數是parse方法。回調函數在下載完成返回response時自動觸發

二、 在回調函數中,解析response而且返回值
     返回值能夠4種:
          包含解析數據的字典
          Item對象
          新的Request對象(新的Requests也須要指定一個回調函數)
          或者是可迭代對象(包含Items或Request)

三、在回調函數中解析頁面內容
   一般使用Scrapy自帶的Selectors,但很明顯你也可使用Beutifulsoup,lxml或其餘你愛用啥用啥。

四、最後,針對返回的Items對象將會被持久化到數據庫
   經過Item Pipeline組件存到數據庫:https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline)
   或者導出到不一樣的文件(經過Feed exports:https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports)

'''
相關文章
相關標籤/搜索