scrapy爬取類似頁面及回調爬取問題（以慕課網爲例）

時間 2019-11-20

標籤 scrapy 類似頁面問題爲例欄目 Python 简体版

原文原文鏈接

以爬取慕課網數據爲例

慕課網的數據很簡單，就是經過get方式獲取的

鏈接地址爲 https://www.imooc.com/course/list?page=2

根據page參數來分頁

這個時候有兩種爬取方式

一種是獲取到跳轉到下一頁的連接，經過遞歸回調爬取函數來完成爬取過程

主要代碼以下：經過css選擇器獲取到下一頁的連接，再經過urljoin獲取到絕對連接

在這裏的scrapy.Request方法，這是 Scrapy的跟蹤連接機制：當你在回調方法中產生一個Request時，Scrapy會安排發送該請求並註冊一個回調方法，以便在該請求完成時執行

import scrapy
class imoocall_Spider(scrapy.Spider):
    name = "imoocall"
    start_urls = [
        'https://www.imooc.com/course/list?page=2',
    ]
 
    def parse(self, response):
        for course in response.css('div.course-card-container'):
            yield {
                '類別': course.css('label::text').extract_first(),
                '課程名': course.css('h3::text').extract_first(),
                '難度級別': course.css('span::text').extract(),
                '簡介': course.css('p::text').extract_first(),
            }
 
        next_page = response.css('div.page a::attr("href")')[9].extract()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, self.parse)

第二種就是for循環，主要用來處理重複頁面數較少，或者所要爬取頁面的分頁機制不是很規律就能夠使用for循環

主要代碼以下：

import scrapy
 
class imooc_Spider(scrapy.Spider):
    name = "imooc"
 
    def start_requests(self):
        for num in range(1,32):
            numstr = str(num)
            url = "https://www.imooc.com/course/list?page="+numstr
            yield scrapy.Request(url=url, callback=self.parse)
 
    def parse(self, response):
        for course in response.css('div.course-card-container'):
            yield {
                '類別': course.css('label::text').extract_first(),
                '課程名': course.css('h3::text').extract_first(),
                '難度級別': course.css('span::text').extract(),
                '簡介': course.css('p::text').extract_first(),
            }