Crawl Spider 模板的使用

1.Spider模板

  • scrapy默認建立的spider模板就是basic模板,建立spider文件的命令是:scrapy genspider dribbble dribbble.com,查看spider模板的命令是:scrapy genspider --listcss

  • 在項目中明確指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net ;html

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider類介紹

  • CrawlSpider是Spider的派生類,目的是對全站信息爬取更加簡單,爬取那些具備必定規則網站的經常使用的爬蟲, 它基於Spider並有一些獨特屬性;

3.rules規則列表

  • 語法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None),rules是Rule對象的集合,用於匹配目標網站並排除干擾;正則表達式

  • link_extractor:是一個LinkExtractor對象,其定義瞭如何從爬取到的頁面提取連接;dom

  • callback:從link_extractor中每獲取到連接獲得Responses時,會調用參數所指定的值做爲回調函數,該回調 函數接收一個response做爲其一個參數;scrapy

  • cb_kwargs:用於做爲**kwargs參數,傳遞給callback;ide

  • follow:是一個布爾值,指爬取了以後,是否還繼續從該頁面提取連接,而後繼續爬下去, 默認是False;函數

  • process_links:指定spider中哪一個的函數將會被調用,從link_extractor中獲取到連接列表時將會調用該函數 。該方法主要用來過濾;網站

  • process_request:指定處理函數,根據該Rule提取到的每一個Request時,該函數將會被調用,能夠對Request進 行處理,該函數必須返回Request或者None;url

4.LinkExtractors

  • LinkExtractors 的目的是提取連接,每一個LinkExtractor有惟一的公共方法是extract_links(),它接收一個 Response對象,並返回一個scrapy.link.Link對象;.net

  • Link Extractors要實例化一次,而且 extract_links 方法會根據不一樣的 response 調用屢次提取連接;

主要參數:

  • allow:知足括號中」正則表達式」的值會被提取,若是爲空,則所有匹配;

  • deny:與這個正則表達式(或正則表達式列表)不匹配的url必定不提取;

  • allow_domains:會被提取的鏈接的;

  • deny_domains:必定不會被提取連接的domains;

  • restrict_xpaths:使用xpath表達式,和allow共同做用過濾連接;

5.爬取CSDN的文章, 且提取URL和文章標題

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定連接提取的規律
    rules = (
        # follow:是指爬取了以後,是否還繼續從該頁面提取連接,而後繼續爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h1::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

參考:https://www.9xkd.com/user/plan-view.html?id=3716132715

相關文章
相關標籤/搜索