爬蟲--Scrapy

時間 2019-11-12

原文原文鏈接

Scrapy

Scrapy是一個爲了爬取網站數據，提取結構性數據而編寫的應用框架。其能夠應用在數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是爲了頁面抓取 (更確切來講, 網絡抓取 )所設計的，也能夠應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。Scrapy用途普遍，能夠用於數據挖掘、監測和自動化測試。html

Scrapy框架python

Scrapy 使用了 Twisted異步網絡庫來處理網絡通信。
json

Scrapy組件

引擎(Scrapy)
用來處理整個系統的數據流處理, 觸發事務(框架核心)windows
調度器(Scheduler)
用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 能夠想像成一個URL（抓取網頁的網址或者說是連接）的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址api
下載器(Downloader)
用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是創建在twisted這個高效的異步模型上的)網絡
爬蟲(Spiders)
爬蟲是主要幹活的, 用於從特定的網頁中提取本身須要的信息, 即所謂的實體(Item)。用戶也能夠從中提取出連接,讓Scrapy繼續抓取下一個頁面併發
項目管道(Pipeline)
負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證明體的有效性、清除不須要的信息。當頁面被爬蟲解析後，將被髮送到項目管道，並通過幾個特定的次序處理數據。app
下載器中間件(Downloader Middlewares)
位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。框架
爬蟲中間件(Spider Middlewares)
介於Scrapy引擎和爬蟲之間的框架，主要工做是處理蜘蛛的響應輸入和請求輸出。dom
調度中間件(Scheduler Middewares)
介於Scrapy引擎和調度之間的中間件，從Scrapy引擎發送到調度的請求和響應。

Scrapy運行流程

引擎從調度器中取出一個連接(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器
下載器把資源下載下來，並封裝成應答包(Response)
爬蟲解析Response
解析出實體（Item）,則交給實體管道進行進一步的處理
解析出的是連接（URL）,則把URL交給調度器等待抓取

安裝

 
       pip install Scrapy

注：windows平臺須要依賴pywin32，請根據本身系統32/64位選擇下載安裝，https://sourceforge.net/projects/pywin32/

基本使用

一、建立項目

運行命令:

 
       scrapy startproject your_project_name

自動建立了目錄：

 
       project_name/ 
      
       scrapy.cfg 
      
       project_name/ 
      
       __init__.py 
      
       items.py 
      
       pipelines.py 
      
       settings.py 
      
       spiders/ 
      
       __init__.py

文件說明：

scrapy.cfg 項目的配置信息，主要爲Scrapy命令行工具提供一個基礎的配置信息。（真正爬蟲相關的配置信息在settings.py文件中）
items.py 設置數據存儲模板，用於結構化數據，如：Django的Model
pipelines 數據處理行爲，如：通常結構化的數據持久化
settings.py 配置文件，如：遞歸的層數、併發數，延遲下載等
spiders 爬蟲目錄，如：建立文件，編寫爬蟲規則

注意：通常建立爬蟲文件時，以網站域名命名

二、編寫爬蟲

在spiders目錄中新建 xiaohuar_spider.py 文件

xiaohuar_spider.py

 
       #!/usr/bin/env python 
      
       # -*- coding:utf-8 -*- 
      
       import 
       scrapy 
      
       class 
       XiaoHuarSpider(scrapy.spiders.Spider): 
      
       name  
       = 
       "xiaohuar"    #spider_name，下面運行時用這個名字 
      
       allowed_domains  
       = 
       [ 
       "xiaohuar.com" 
       ] 
      
       start_urls  
       = 
       [ 
      
       "http://www.xiaohuar.com/hua/" 
       , 
      
       ] 
      
       def 
       parse( 
       self 
       , response): 
      
       # print(response, type(response)) 
      
       # from scrapy.http.response.html import HtmlResponse 
      
       # print(response.body_as_unicode()) 
      
       current_url  
       = 
       response.url 
      
       body  
       = 
       response.body 
      
       unicode_body  
       = 
       response.body_as_unicode()

三、運行

進入project_name目錄，運行命令：

 
       scrapy crawl spider_name  
       - 
       - 
       nolog

僅僅下載了初始url

四、遞歸的訪問

以上的爬蟲僅僅是爬去初始頁，而咱們爬蟲是須要源源不斷的執行下去，直到全部的網頁被執行完畢

xiaohuar_spider.py

 
       #!/usr/bin/env python 
      
       # -*- coding:utf-8 -*- 
      
       import 
       scrapy 
      
       from 
       scrapy.http  
       import 
       Request 
      
       from 
       scrapy.selector  
       import 
       HtmlXPathSelector 
      
       import 
       re 
      
       import 
       urllib 
      
       import 
       os 
      
       class 
       XiaoHuarSpider(scrapy.spiders.Spider): 
      
       name  
       = 
       "xiaohuar" 
      
       allowed_domains  
       = 
       [ 
       "xiaohuar.com" 
       ] 
      
       start_urls  
       = 
       [ 
      
       "http://www.xiaohuar.com/list-1-1.html" 
       , 
      
       ] 
      
       def 
       parse( 
       self 
       , response): 
      
       # 分析頁面 
      
       # 找到頁面中符合規則的內容（校花圖片），保存 
      
       # 找到全部的a標籤，再訪問其餘a標籤，一層一層的搞下去 
      
       hxs  
       = 
       HtmlXPathSelector(response)    #格式化HTML源碼，選擇器，如選擇某個div下的a標籤 
      
       # 當前頁面！若是url是 http://www.xiaohuar.com/list-1-\d+.html 
      
       if 
       re.match( 
       'http://www.xiaohuar.com/list-1-\d+.html' 
       , response.url): 
      
       items  
       = 
       hxs.select( 
       '//div[@class="item_list infinite_scroll"]/div' 
       )    #找到校花列表下的全部div，一個div一個校花 
      
       for 
       i  
       in 
       range 
       ( 
       len 
       (items)): 
      
       src  
       = 
       hxs.select( 
       '//div[@class="item_list infinite_scroll"]/div[%d]//div[@class="img"]/a/img/@src' 
       % 
       i).extract() 
      
       name  
       = 
       hxs.select( 
       '//div[@class="item_list infinite_scroll"]/div[%d]//div[@class="img"]/span/text()' 
       % 
       i).extract() 
      
       school  
       = 
       hxs.select( 
       '//div[@class="item_list infinite_scroll"]/div[%d]//div[@class="img"]/div[@class="btns"]/a/text()' 
       % 
       i).extract() 
      
       if 
       src:    #保存圖片 
      
       ab_src  
       = 
       "http://www.xiaohuar.com" 
       + 
       src[ 
       0 
       ] 
      
       file_name  
       = 
       "%s_%s.jpg" 
       % 
       (school[ 
       0 
       ].encode( 
       'utf-8' 
       ), name[ 
       0 
       ].encode( 
       'utf-8' 
       )) 
      
       file_path  
       = 
       os.path.join( 
       "/Users/wupeiqi/PycharmProjects/beauty/pic" 
       , file_name) 
      
       urllib.urlretrieve(ab_src, file_path) 
      
       # 遞歸頁面！獲取全部的url，繼續訪問，並在其中尋找相同的url 
      
       all_urls  
       = 
       hxs.select( 
       '//a/@href' 
       ).extract() 
      
       for 
       url  
       in 
       all_urls: 
      
       if 
       url.startswith( 
       'http://www.xiaohuar.com/list-1-' 
       ): 
      
       yield 
       Request(url, callback 
       = 
       self 
       .parse)    #yield，遞歸的往下找

以上代碼將符合規則的頁面中的圖片保存在指定目錄，而且在HTML源碼中找到全部的其餘 a 標籤的href屬性，從而「遞歸」的執行下去，直到全部的頁面都被訪問過爲止。以上代碼之因此能夠進行「遞歸」的訪問相關URL，關鍵在於parse方法使用了 yield Request對象。

注：能夠修改settings.py 中的配置文件，以此來指定「遞歸」的層數，如： DEPTH_LIMIT = 1

五、格式化處理

上述實例只是簡單的圖片處理，因此在parse方法中直接處理。若是對於想要獲取更多的數據（獲取頁面的價格、商品名稱、QQ等），則能夠利用Scrapy的items將數據格式化，而後統一交由pipelines來處理。看下面的實例：

在items.py中建立類：

 
       # -*- coding: utf-8 -*- 
      
       # Define here the models for your scraped items 
      
       # 
      
       # See documentation in: 
      
       # http://doc.scrapy.org/en/latest/topics/items.html 
      
       import 
       scrapy 
      
       class 
       JieYiCaiItem(scrapy.Item): 
      
       company  
       = 
       scrapy.Field() 
      
       title  
       = 
       scrapy.Field() 
      
       qq  
       = 
       scrapy.Field() 
      
       info  
       = 
       scrapy.Field() 
      
       more  
       = 
       scrapy.Field()

上述定義模板，之後對於從請求的源碼中獲取的數據贊成按照此結構來獲取，因此在spider中須要有一下操做：

spiders/jieyicai.py

 
       #!/usr/bin/env python 
      
       # -*- coding:utf-8 -*- 
      
       import 
       scrapy 
      
       import 
       hashlib 
      
       from 
       beauty.items  
       import 
       JieYiCaiItem 
      
       from 
       scrapy.http  
       import 
       Request 
      
       from 
       scrapy.selector  
       import 
       HtmlXPathSelector 
      
       from 
       scrapy.spiders  
       import 
       CrawlSpider, Rule 
      
       from 
       scrapy.linkextractors  
       import 
       LinkExtractor 
      
       class 
       JieYiCaiSpider(scrapy.spiders.Spider): 
      
       count  
       = 
       0 
      
       url_set  
       = 
       set 
       () 
      
       name  
       = 
       "jieyicai" 
      
       domain  
       = 
       'http://www.jieyicai.com' 
      
       allowed_domains  
       = 
       [ 
       "jieyicai.com" 
       ] 
      
       start_urls  
       = 
       [ 
      
       "http://www.jieyicai.com" 
       , 
      
       ] 
      
       rules  
       = 
       [ 
      
       #下面是符合規則的網址,可是不抓取內容,只是提取該頁的連接(這裏網址是虛構的,實際使用時請替換) 
      
       #Rule(SgmlLinkExtractor(allow=(r'http://test_url/test?page_index=\d+'))), 
      
       #下面是符合規則的網址,提取內容,(這裏網址是虛構的,實際使用時請替換) 
      
       #Rule(LinkExtractor(allow=(r'http://www.jieyicai.com/Product/Detail.aspx?pid=\d+')), callback="parse"), 
      
       ] 
      
       def 
       parse( 
       self 
       , response): 
      
       md5_obj  
       = 
       hashlib.md5() 
      
       md5_obj.update(response.url) 
      
       md5_url  
       = 
       md5_obj.hexdigest() 
      
       if 
       md5_url  
       in 
       JieYiCaiSpider.url_set: 
      
       pass 
      
       else 
       : 
      
       JieYiCaiSpider.url_set.add(md5_url) 
      
       hxs  
       = 
       HtmlXPathSelector(response) 
      
       if 
       response.url.startswith( 
       'http://www.jieyicai.com/Product/Detail.aspx' 
       ): 
      
       item  
       = 
       JieYiCaiItem() 
      
       item[ 
       'company' 
       ]  
       = 
       hxs.select( 
       '//span[@class="username g-fs-14"]/text()' 
       ).extract() 
      
       item[ 
       'qq' 
       ]  
       = 
       hxs.select( 
       '//span[@class="g-left bor1qq"]/a/@href' 
       ).re( 
       '.*uin=(?P<qq>\d*)&' 
       ) 
      
       item[ 
       'info' 
       ]  
       = 
       hxs.select( 
       '//div[@class="padd20 bor1 comard"]/text()' 
       ).extract() 
      
       item[ 
       'more' 
       ]  
       = 
       hxs.select( 
       '//li[@class="style4"]/a/@href' 
       ).extract() 
      
       item[ 
       'title' 
       ]  
       = 
       hxs.select( 
       '//div[@class="g-left prodetail-text"]/h2/text()' 
       ).extract() 
      
       yield 
       item 
      
       current_page_urls  
       = 
       hxs.select( 
       '//a/@href' 
       ).extract() 
      
       for 
       i  
       in 
       range 
       ( 
       len 
       (current_page_urls)): 
      
       url  
       = 
       current_page_urls[i] 
      
       if 
       url.startswith( 
       '/' 
       ): 
      
       url_ab  
       = 
       JieYiCaiSpider.domain  
       + 
       url 
      
       yield 
       Request(url_ab, callback 
       = 
       self 
       .parse)

此處代碼的關鍵在於：

將獲取的數據封裝在了Item對象中
yield Item對象（一旦parse中執行yield Item對象，則自動將該對象交個pipelines的類來處理）

piplines.py

 
       import 
       json 
      
       from 
       twisted.enterprise  
       import 
       adbapi 
      
       import 
       MySQLdb.cursors 
      
       import 
       re 
      
       mobile_re  
       = 
       re. 
       compile 
       (r 
       '(13[0-9]|15[012356789]|17[678]|18[0-9]|14[57])[0-9]{8}' 
       ) 
      
       phone_re  
       = 
       re. 
       compile 
       (r 
       '(\d+-\d+|\d+)' 
       ) 
      
       class 
       JsonPipeline( 
       object 
       ): 
      
       def 
       __init__( 
       self 
       ): 
      
       self 
       . 
       file 
       = 
       open 
       ( 
       '/Users/wupeiqi/PycharmProjects/beauty/beauty/jieyicai.json' 
       ,  
       'wb' 
       ) 
      
       def 
       process_item( 
       self 
       , item, spider): 
      
       line  
       = 
       "%s  %s\n" 
       % 
       (item[ 
       'company' 
       ][ 
       0 
       ].encode( 
       'utf-8' 
       ), item[ 
       'title' 
       ][ 
       0 
       ].encode( 
       'utf-8' 
       )) 
      
       self 
       . 
       file 
       .write(line) 
      
       return 
       item 
      
       class 
       DBPipeline( 
       object 
       ): 
      
       def 
       __init__( 
       self 
       ): 
      
       self 
       .db_pool  
       = 
       adbapi.ConnectionPool( 
       'MySQLdb' 
       , 
      
       db 
       = 
       'DbCenter' 
       , 
      
       user 
       = 
       'root' 
       , 
      
       passwd 
       = 
       '123' 
       , 
      
       cursorclass 
       = 
       MySQLdb.cursors.DictCursor, 
      
       use_unicode 
       = 
       True 
       ) 
      
       def 
       process_item( 
       self 
       , item, spider): 
      
       query  
       = 
       self 
       .db_pool.runInteraction( 
       self 
       ._conditional_insert, item) 
      
       query.addErrback( 
       self 
       .handle_error) 
      
       return 
       item 
      
       def 
       _conditional_insert( 
       self 
       , tx, item): 
      
       tx.execute( 
       "select nid from company where company = %s" 
       , (item[ 
       'company' 
       ][ 
       0 
       ], )) 
      
       result  
       = 
       tx.fetchone() 
      
       if 
       result: 
      
       pass 
      
       else 
       : 
      
       phone_obj  
       = 
       phone_re.search(item[ 
       'info' 
       ][ 
       0 
       ].strip()) 
      
       phone  
       = 
       phone_obj.group()  
       if 
       phone_obj  
       else 
       ' ' 
      
       mobile_obj  
       = 
       mobile_re.search(item[ 
       'info' 
       ][ 
       1 
       ].strip()) 
      
       mobile  
       = 
       mobile_obj.group()  
       if 
       mobile_obj  
       else 
       ' ' 
      
       values  
       = 
       ( 
      
       item[ 
       'company' 
       ][ 
       0 
       ], 
      
       item[ 
       'qq' 
       ][ 
       0 
       ], 
      
       phone, 
      
       mobile, 
      
       item[ 
       'info' 
       ][ 
       2 
       ].strip(), 
      
       item[ 
       'more' 
       ][ 
       0 
       ]) 
      
       tx.execute( 
       "insert into company(company,qq,phone,mobile,address,more) values(%s,%s,%s,%s,%s,%s)" 
       , values) 
      
       def 
       handle_error( 
       self 
       , e): 
      
       print 
       'error' 
       ,e

上述中的pipelines中有多個類，到底Scapy會自動執行那個？哈哈哈哈，固然須要先配置了，否則Scapy就蒙逼了。。。

在settings.py中作以下配置：

 
       ITEM_PIPELINES  
       = 
       { 
      
       'beauty.pipelines.DBPipeline' 
       :  
       300 
       , 
      
       'beauty.pipelines.JsonPipeline' 
       :  
       100 
       , 
      
       } 
      
       # 每行後面的整型值，肯定了他們運行的順序，item按數字從低到高的順序，經過pipeline，一般將這些數字定義在0-1000範圍內。

更多請參見Scrapy文檔：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

選擇器規則

demo

 
       #!/usr/bin/env python 
      
       # -*- coding:utf-8 -*- 
      
       import 
       scrapy 
      
       import 
       hashlib 
      
       from 
       tutorial.items  
       import 
       JinLuoSiItem 
      
       from 
       scrapy.http  
       import 
       Request 
      
       from 
       scrapy.selector  
       import 
       HtmlXPathSelector 
      
       class 
       JinLuoSiSpider(scrapy.spiders.Spider): 
      
       count  
       = 
       0 
      
       url_set  
       = 
       set 
       () 
      
       name  
       = 
       "jluosi" 
      
       domain  
       = 
       'http://www.jluosi.com' 
      
       allowed_domains  
       = 
       [ 
       "jluosi.com" 
       ] 
      
       start_urls  
       = 
       [ 
      
       "http://www.jluosi.com:80/ec/goodsDetail.action?jls=QjRDNEIzMzAzOEZFNEE3NQ==" 
       , 
      
       ] 
      
       def 
       parse( 
       self 
       , response): 
      
       md5_obj  
       = 
       hashlib.md5() 
      
       md5_obj.update(response.url) 
      
       md5_url  
       = 
       md5_obj.hexdigest() 
      
       if 
       md5_url  
       in 
       JinLuoSiSpider.url_set: 
      
       pass 
      
       else 
       : 
      
       JinLuoSiSpider.url_set.add(md5_url) 
      
       hxs  
       = 
       HtmlXPathSelector(response) 
      
       if 
       response.url.startswith( 
       'http://www.jluosi.com:80/ec/goodsDetail.action' 
       ): 
      
       item  
       = 
       JinLuoSiItem() 
      
       item[ 
       'company' 
       ]  
       = 
       hxs.select( 
       '//div[@class="ShopAddress"]/ul/li[1]/text()' 
       ).extract() 
      
       item[ 
       'link' 
       ]  
       = 
       hxs.select( 
       '//div[@class="ShopAddress"]/ul/li[2]/text()' 
       ).extract() 
      
       item[ 
       'qq' 
       ]  
       = 
       hxs.select( 
       '//div[@class="ShopAddress"]//a/@href' 
       ).re( 
       '.*uin=(?P<qq>\d*)&' 
       ) 
      
       item[ 
       'address' 
       ]  
       = 
       hxs.select( 
       '//div[@class="ShopAddress"]/ul/li[4]/text()' 
       ).extract() 
      
       item[ 
       'title' 
       ]  
       = 
       hxs.select( 
       '//h1[@class="goodsDetail_goodsName"]/text()' 
       ).extract() 
      
       item[ 
       'unit' 
       ]  
       = 
       hxs.select( 
       '//table[@class="R_WebDetail_content_tab"]//tr[1]//td[3]/text()' 
       ).extract() 
      
       product_list  
       = 
       [] 
      
       product_tr  
       = 
       hxs.select( 
       '//table[@class="R_WebDetail_content_tab"]//tr' 
       ) 
      
       for 
       i  
       in 
       range 
       ( 
       2 
       , 
       len 
       (product_tr)): 
      
       temp  
       = 
       { 
      
       'standard' 
       :hxs.select( 
       '//table[@class="R_WebDetail_content_tab"]//tr[%d]//td[2]/text()' 
       % 
       i).extract()[ 
       0 
       ].strip(), 
      
       'price' 
       :hxs.select( 
       '//table[@class="R_WebDetail_content_tab"]//tr[%d]//td[3]/text()' 
       % 
       i).extract()[ 
       0 
       ].strip(), 
      
       } 
      
       product_list.append(temp) 
      
       item[ 
       'product_list' 
       ]  
       = 
       product_list 
      
       yield 
       item 
      
       current_page_urls  
       = 
       hxs.select( 
       '//a/@href' 
       ).extract() 
      
       for 
       i  
       in 
       range 
       ( 
       len 
       (current_page_urls)): 
      
       url  
       = 
       current_page_urls[i] 
      
       if 
       url.startswith( 
       'http://www.jluosi.com' 
       ): 
      
       url_ab  
       = 
       url 
      
       yield 
       Request(url_ab, callback 
       = 
       self 
       .parse)