Scrapy 框架 - 簡介

時間 2019-11-21

標籤 scrapy 框架簡介欄目 Python 简体版

原文原文鏈接

Scrapy 框架

介紹

Scrapy一個開源和協做的框架，其最初是爲了頁面抓取 (更確切來講, 網絡抓取 )所設計的，使用它能夠以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分普遍，可用於如數據挖掘、監測和自動化測試等領域，也能夠應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。html

Scrapy 是基於twisted框架開發而來，twisted是一個流行的事件驅動的python網絡框架。所以Scrapy使用了一種非阻塞（又名異步）的代碼來實現併發。python

框架架構

總體架構大體以下ajax

框架流程解析

一、spiders產生request請求，將請求交給引擎
二、引擎(EGINE)吧剛剛處理好的請求交給了調度器，以一個隊列或者堆棧的形式吧這些請求保存起來，調度一個出來再傳給引擎
三、調度器(SCHEDULER)返回給引擎一個要爬取的url
四、引擎把調度好的請求發送給download，經過中間件發送（這個中間件至少有兩個方法，一個請求的，一個返回的)，
五、一旦完成下載就返回一個response，經過下載器中間件,返回給引擎，引擎把response 對象傳給下載器中間件，最後到達引擎
六、引擎從下載器中收到response對象，從下載器中間件傳給了spiders（spiders裏面作兩件事，一、產生request請求，二、爲request請求綁定一個回調函數），spiders只負責解析爬取的任務。不作存儲，
七、解析完成以後返回一個解析以後的結果items對象及(跟進的)新的Request給引擎，就被ITEM PIPELUMES處理了
八、引擎將(Spider返回的)爬取到的Item給Item Pipeline，存入數據庫，持久化,若是數據不對，可從新封裝成一個request請求，傳給調度器
九、(從第二步)重複直到調度器中沒有更多地request，引擎關閉該網站

核心組件

引擎

引擎負責控制系統全部組件之間的數據流，並在某些動做發生時觸發事件。shell

調度器

用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回.數據庫

能夠想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址windows

下載器

用於下載網頁內容, 並將網頁內容返回給引擎瀏覽器

下載器是創建在 twisted 這個高效的異步模型上的網絡

爬蟲

SPIDERS是開發人員自定義的類，用來解析responses，而且提取items，或者發送新的請求架構

項目管道(ITEM PIPLINES)

在items被提取後負責處理它們併發

主要包括清理、驗證、持久化（好比存到數據庫）等操做

下載器中間件

下載器中間件是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response。

其提供了一個簡便的機制，經過插入自定義代碼來擴展Scrapy功能。

更多內容請看下載器中間件(Downloader Middleware) 。

爬蟲中間件

Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。

其提供了一個簡便的機制，經過插入自定義代碼來擴展Scrapy功能。

更多內容請看 Spider中間件(Middleware) 。

下載安裝

#Windows平臺
    一、pip3 install wheel #安裝後，便支持經過wheel文件安裝軟件，wheel文件官網：https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    五、下載並安裝pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
    六、下載twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    七、執行pip3 install 下載目錄\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
    8、pip3 install scrapy
  
#Linux平臺
    一、pip3 install scrapy

關於下載中的報錯問題請看這裏

命令行工具

#1 查看幫助
    scrapy -h
    scrapy <command> -h

#2 有兩種命令：其中Project-only必須切到項目文件夾下才能執行，而Global的命令則不須要
    Global commands:
        startproject #建立項目
        genspider    #建立爬蟲程序
        settings     #若是是在項目目錄下，則獲得的是該項目的配置
        runspider    #運行一個獨立的python文件，沒必要建立項目
        shell        #scrapy shell url地址  在交互式調試，如選擇器規則正確與否
        fetch        #獨立於程單純地爬取一個頁面，能夠拿到請求頭
        view         #下載完畢後直接彈出瀏覽器，以此能夠分辨出哪些數據是ajax請求
        version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依賴庫的版本
    Project-only commands:
        crawl        #運行爬蟲，必須建立項目才行，確保配置文件中ROBOTSTXT_OBEY = False
        check        #檢測項目中有無語法錯誤
        list         #列出項目中所包含的爬蟲名
        edit         #編輯器，通常不用
        parse        #scrapy parse url地址 --callback 回調函數  #以此能夠驗證咱們的回調函數是否正確
        bench        #scrapy bentch壓力測試

#3 官網連接
    https://docs.scrapy.org/en/latest/topics/commands.html

全局命令：全部文件夾都使用的命令,能夠不依賴與項目文件也能夠執行
項目的文件夾下執行的命令
一、scrapy startproject Myproject #建立項目
   cd Myproject

二、scrapy genspider baidu www.baidu.com  #建立爬蟲程序，baidu是爬蟲名,定位爬蟲的名字
#寫完域名之後默認會有一個url,

三、scrapy settings --get BOT_NAME  #獲取配置文件

#全局：四、scrapy runspider budui.py

五、scrapy runspider AMAZON\spiders\amazon.py  #執行爬蟲程序
   在項目下：scrapy crawl amazon  #指定爬蟲名，定位爬蟲程序來運行程序
    #robots.txt 反爬協議：在目標站點建一個文件，裏面規定了哪些能爬，哪些不能爬
    # 有的國家以爲是合法的，有的是不合法的，這就產生了反爬協議
    # 默認是ROBOTSTXT_OBEY = True
    # 修改成ROBOTSTXT_OBEY = False  #默認不遵循反扒協議

六、scrapy shell https://www.baidu.com  #直接超目標站點發請求
     response
     response.status
     response.body
     view(response)

七、scrapy view https://www.taobao.com #若是頁面顯示內容不全，不全的內容則是ajax請求實現的，以此快速定位問題

八、scrapy version  #查看版本

九、scrapy version -v #查看scrapy依賴庫鎖依賴的版本

十、scrapy fetch --nolog http://www.logou.com    #獲取響應的內容

十一、scrapy fetch --nolog --headers http://www.logou.com  #獲取響應的請求頭
    (venv3_spider) E:\twisted\scrapy框架\AMAZON>scrapy fetch --nolog --headers http://www.logou.com
    > Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    > Accept-Language: en
    > User-Agent: Scrapy/1.5.0 (+https://scrapy.org)
    > Accept-Encoding: gzip,deflate
    >
    < Content-Type: text/html; charset=UTF-8
    < Date: Tue, 23 Jan 2018 15:51:32 GMT
    < Server: Apache
    >表明請求
    <表明返回

十、scrapy shell http://www.logou.com #直接朝目標站點發請求

十一、scrapy check  #檢測爬蟲有沒有錯誤

十二、scrapy list  #全部的爬蟲名

1三、scrapy parse http://quotes.toscrape.com/ --callback parse #驗證回調函函數是否成功執行

1四、scrapy bench #壓力測試

建立項目以及啓動爬蟲

scrapy startproject xx 
cd xx 
scrapy genspider chouti chouti.com 

scrapy crawl chouti --nolog

默認只能在cmd中執行爬蟲，若是想在pycharm中執行須要以下操做

#在項目目錄下新建：entrypoint.py
from scrapy.cmdline import execute
# execute(['scrapy', 'crawl', 'amazon','--nolog'])  # 不要日誌打印
# execute('scrapy crawl amazon'.split())  # 須要列表的形式, 也能夠字符串切割爲列表傳入 

# 多個參數的傳遞也是一個一個傳便可
# "acrapy crawl amzaon -a keyword=iphone8"
execute(['scrapy', 'crawl', 'amazon1','-a','keyword=iphone8','--nolog'])  

# execute(['scrapy', 'crawl', 'amazon1'])

記得設置編碼格式在 windows 環境下

import sys,os 
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

項目結構

project_name/
   scrapy.cfg
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
           爬蟲1.py
           爬蟲2.py
           爬蟲3.py

1. Scrapy 框架 - 簡介
2. xsscrapy及scrapy框架簡介
3. Scrapy 框架入門簡介
4. python學習（三）scrapy爬蟲框架（一）——scrapy框架簡介
5. Scrapy框架介紹
6. Scrapy 框架介紹
7. scrapy框架介紹
8. scrapy框架簡介和基礎應用
9. Python高級爬蟲框架Scrapy簡介
10. Scrapy學習二框架簡介
更多相關文章...
• RDF 簡介 - RDF 教程
• Scala 簡介 - Scala教程
• Github 簡明教程
• Java Agent入門實戰（一）-Instrumentation介紹與使用

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。