Python爬蟲 - scrapy - 爬取妹子圖 Lv2

時間 2019-12-10

標籤 python 爬蟲 scrapy lv2 欄目 Python 简体版

原文原文鏈接

0. 前言

這個文章是延續以前《爬取妹子圖 Lv1》的延續，以前的爬蟲能夠爬取一個頁面的圖片，爬取一次大概400張圖片的樣子，按照以前的計劃，本次要進一步完善爬蟲，爬取妹子圖全網圖片。因爲以前已經有了爬蟲的雛形，因此本篇文章僅對增改內容進行說明。html

系統環境

System Version：Ubuntu 16.04
Python Version：3.5.2
Scrapy Version：1.5.0正則表達式

1. 爬蟲文件

1.1. 完整文件

from scrapy import Request
from scrapy.spiders import Spider
from spider_meizitu.items import SpiderMeizituItem
import re

class MeizituSpider(Spider):
    name = 'meizitu'
    
    start_urls = {
        'http://www.meizitu.com/a/more_1.html',
    }

    def parse(self, response):
        meizi_pic_lists = response.xpath('//ul[@class="wp-list clearfix"]/li')
        for i, meizi_item in enumerate(meizi_pic_lists):
            meizi_item_url = meizi_item.xpath('.//h3[@class="tit"]/a/@href').extract()[0]
            print('===== 當前爬取頁面共有圖片%s組，正在抓取第%s組圖片，頁面連接:: %s ====='% (len(meizi_pic_lists),i+1,meizi_item_url))
            yield Request(meizi_item_url,callback=self.parse_meizi_pic)

        next_url = re.findall('<a href="(.*)">下一頁</a>',response.xpath('//*[@id="wp_page_numbers"]').extract()[0])
        print('next_url:::::',next_url)
        #print('response:::::',response.xpath('//*[@id="wp_page_numbers"]').extract()[0])

        if next_url:
            next_url = 'http://www.meizitu.com/a/' + next_url[0]
            print('========== Request Next Url :: %s ==========' % next_url )
            yield Request(next_url,callback=self.parse)
        

    def parse_meizi_pic(self,response):
        print('========== parse_meizi_pic response::: %s =========='% response)
        item = SpiderMeizituItem()
        meizitu_pics = response.xpath('//div[@id="picture"]/p/img')
        
        for i, meizitu_pic in enumerate(meizitu_pics):
            item['images'] = meizitu_pic.xpath('.//@alt').extract()[0].split('，')[0]
            item['image_urls'] = meizitu_pic.xpath('.//@src').extract()
            print('===== 當前頁面共有圖片%s張，正在抓取第%s張圖片，圖片連接:: %s ====='% (len(meizitu_pics),i+1,item['image_urls']))
            yield item

1.2. 增改項目說明

1.2.1. import re

爲了定位下一頁的跳轉連接，因此加入了正則表達式。segmentfault

1.2.2. next_url

next_url = re.findall('<a href="(.*)">下一頁</a>',response.xpath('//*[@id="wp_page_numbers"]').extract()[0])

利用正則表達式來提取下一頁的連接地址，re.findall的第一個參數是正則表達式，第二個參數是要匹配的字符串。利用response.xpath將頁面中分頁菜單部分的html代碼提取出來用於正則匹配，返回的結果就是下一頁按鈕中的超連接。若是當前頁面是http://www.meizitu.com/a/more_1.html，獲得的url就是more_2.html。cookie

接下來就將獲得的next_url 與主連接合併成完整連接，輸出給parse函數繼續處理。併發

2. settings

作完以前的改動後，我開始爬取頁面圖片，爬取more_1.html頁面以後能夠正常跳轉到more_2.html，以後到more_3.html、more_4.html。可是出現一個問題就是在爬取到後期的時候，每一個頁面的39個項目中只能爬取到最後一個，有時候一個也爬不到，最終爬蟲運行完畢後，我只獲得了900+的圖片。因爲本人基礎知識還不夠紮實，只是有兩方面懷疑，一是網站對請求作了限制，規定時間內若是請求過多則爬不到頁面，二是scrapy的download隊列有數量限制，爬取到大概50個頁面的時候，好像隊列就滿了，沒法再新增項目，只有前面的隊列完成後，纔能有新的項目進入隊列。不管是哪一個緣由，我對setting作了些修改，打開或者增長了一些setting設置，具體以下：框架