scrapy框架之Pipeline管道類

Item Pipeline簡介

Item管道的主要責任是負責處理有蜘蛛從網頁中抽取的Item,他的主要任務是清洗、驗證和存儲數據。
當頁面被蜘蛛解析後,將被髮送到Item管道,並通過幾個特定的次序處理數據。
每一個Item管道的組件都是有一個簡單的方法組成的Python類。
他們獲取了Item並執行他們的方法,同時他們還須要肯定的是是否須要在Item管道中繼續執行下一步或是直接丟棄掉不處理。html

項目管道的執行過程

清理HTML數據
驗證解析到的數據(檢查Item是否包含必要的字段)
檢查是不是重複數據(若是重複就刪除)
將解析到的數據存儲到數據庫中

編寫本身的Item Pipeline

每一個項目管道組件是一個Python類,必須實現如下方法:mongodb

process_item(self, item, spider)

對於每一個項目管道組件調用此方法。process_item() 必須返回一個帶數據的dict,返回一個Item (或任何後代類)對象,返回一個Twisted Deferred或者raise DropItemexception。丟棄的項目再也不由其餘管道組件處理。數據庫

參數:json

  • item(Itemobject或dict) - 剪切的項目
  • Spider(Spider對象) - 抓取物品的蜘蛛

另外,它們還能夠實現如下方法:dom

# 當蜘蛛打開時調用此方法。
open_spider(self, spider)   # 參數spider打開的蜘蛛

# 當蜘蛛關閉時調用此方法。
close_spider(self, spider)   # 參數spider被關閉的蜘蛛

# 若是存在,則調用此類方法以從a建立流水線實例Crawler。它必須返回管道的新實例。Crawler對象提供對全部Scrapy核心組件(如設置和信號)的訪問; 它是管道訪問它們並將其功能掛鉤到Scrapy中的一種方式。 
from_crawler(cls, crawler)  # 參數crawler(Crawlerobject) - 使用此管道的crawler

將抓取的items以json格式保存到文件中scrapy

從spider抓取到的items將被序列化爲json格式,而且以每行一個item的形式被寫入到items.jl文件中ide

import json 
  
class JsonWriterPipeline(object): 
  
  def __init__(self): 
    self.file = open('items.jl', 'wb') 
  
  def process_item(self, item, spider): 
    line = json.dumps(dict(item)) + "\n"
    self.file.write(line) 
    return item

刪除重複項函數

假設在spider中提取到的item有重複的id,那麼咱們就能夠在process_item函數中進行過濾url

from scrapy.exceptions import DropItem 
  
class DuplicatesPipeline(object): 
  
  def __init__(self): 
    self.ids_seen = set() 
  
  def process_item(self, item, spider): 
    if item['id'] in self.ids_seen: 
      raise DropItem("Duplicate item found: %s" % item) 
    else: 
      self.ids_seen.add(item['id']) 
      return item

激活ItemPipeline組件spa

在settings.py文件中,往ITEM_PIPELINES中添加項目管道的類名,就能夠激活項目管道組件

ITEM_PIPELINES = { 
  'myproject.pipeline.PricePipeline': 300, 
  'myproject.pipeline.JsonWriterPipeline': 800, 
}

圖像管道

items

定義過濾字段

import scrapy

class ImgpilelineproItem(scrapy.Item):
    # define the fields for your item here like:
    img_src = scrapy.Field()

spider

只是用來獲取圖片的下載地址並提交至itme

import scrapy
from imgPileLinePro.items import ImgpilelineproItem

class ImgSpider(scrapy.Spider):
    name = 'img'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://pic.netbian.com/4kmeinv/']
    url = 'http://pic.netbian.com/4kmeinv/index_%d.html'
    page = 2

    def parse(self, response):
        li_list = response.xpath('//*[@id="main"]/div[3]/ul/li')
        for li in li_list:
            img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src').extract_first()
            item = ImgpilelineproItem()
            item['img_src'] = img_src

            yield item

        if self.page <= 2:  # 爬取前兩頁
            new_url = format(self.url%self.page)
            self.page += 1
            yield scrapy.Request(url=new_url,callback=self.parse)

pipelines

from scrapy.pipelines.images import ImagesPipeline
import scrapy

# 用來下載圖片的管道類
class ImgPileLine(ImagesPipeline):
    #接收item且將item中存儲的img_src進行請求發送
    def get_media_requests(self,item,info):
        yield scrapy.Request(url=item['img_src'])

    #指定數據存儲的路徑(文件夾【在配置文件中指定】+圖片名稱【該方法中返回】)
    def file_path(self,request,response=None,info=None):
        img_name = request.url.split('/')[-1]
        return img_name

    #就是將item傳遞給下一個即將被執行的管道類
    def item_completed(self,result,item,info):
        return item

settings中的配置

# 指定文件的下載路徑
IMAGES_STORE = './imgsLib'   # 該文件會自動建立
# 啓用管道
ITEM_PIPELINES = {
   'imgPileLinePro.pipelines.ImgPileLine': 300,
}

將item寫入到mongodb

import pymongo

class MongoPipeline(object):

    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    # 爬蟲開始創建與mongodb的鏈接
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    # 爬蟲結束斷開與mongodb的鏈接
    def close_spider(self, spider):
        self.client.close()
    # 數據存儲
    def process_item(self, item, spider):
        # update 去重,以url_token爲查找條件更新數據
        self.db["user"].update({"url_token":item["url_token"]},{"$set":item},True)
        return item
MONGO_URI = "localhost"
MONGO_DATABASE = "zhihu"
相關文章
相關標籤/搜索