項目名稱:抓取360網站圖片json
目標url:http://image.so.comscrapy
項目描述:利用Scrapy的ImagePipeline抓取360網站的圖片ide
要利用Scrapy抓取圖片,第一步仍是先定義item網站
1 # -*-coding: utf-8 -*- 2 import scrapy 3 4 class ImageItem(scrapy.Item): 5 image_urls = scrapy.Field()
第二步是在settings.py中打開ImagePipeline,而後定義一下文件的存儲路徑。url
1 ITEM_PIPELINES = { 2 'scrapy.pipelines.images.ImagesPipeline': 1, 3 } 4 5 IMAGES_STORE = 'alfred_images'
第三步就是寫spider了spa
1 # -*- coding: utf-8 -*- 2 import scrapy 3 import json
from ..items import ImageItem 4 5 class ImagesSpider(scrapy.Spider): 6 name = 'images' 7 start_urls = 'http://image.so.com/zj?ch=home&sn=90&listtype=new&temp=1' 8 9 def parse(self, response): 10 pics = json.loads(response.body) #由於返回的是json數據,全部這裏多了一個解析的步驟 11 for i in pics['list']: 12 item = ImageItem() 13 item['image_urls'] = [i["qhimg_url"]] #這裏注意,圖片的url必須放在一個列表中,不然會出現異常 14 yield item
幾個要注意的地方:code
1.最好在item.py中定義好image_urls = Field()blog
2.記得在settings中開啓ImagePipeline,而且定義好圖片儲存路徑圖片
3.圖片的url必須放在列表中,必須放在列表中,必須放在列表中。ip