Scrapy抓取360網站圖片

時間 2019-11-21

原文原文鏈接

項目名稱：抓取360網站圖片json

目標url：http://image.so.comscrapy

項目描述：利用Scrapy的ImagePipeline抓取360網站的圖片ide

要利用Scrapy抓取圖片，第一步仍是先定義item網站

1 # -*-coding: utf-8 -*-
2 import scrapy
3 
4 class ImageItem(scrapy.Item):
5     image_urls = scrapy.Field()

第二步是在settings.py中打開ImagePipeline，而後定義一下文件的存儲路徑。url

1 ITEM_PIPELINES = {
2     'scrapy.pipelines.images.ImagesPipeline': 1,
3 }
4 
5 IMAGES_STORE = 'alfred_images'

第三步就是寫spider了spa

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 import json
   from ..items import ImageItem
 4 
 5 class ImagesSpider(scrapy.Spider):
 6     name = 'images'
 7     start_urls = 'http://image.so.com/zj?ch=home&sn=90&listtype=new&temp=1'
 8 
 9     def parse(self, response):
10         pics = json.loads(response.body) #由於返回的是json數據，全部這裏多了一個解析的步驟
11         for i in pics['list']:
12             item = ImageItem()
13             item['image_urls'] = [i["qhimg_url"]] #這裏注意，圖片的url必須放在一個列表中，不然會出現異常
14             yield item