1、建立一個項目scrapy
一、 pip3 install scrapyide
二、scrapy startproject myspider3d
2、生成一個爬蟲日誌
三、scrapy genspider itcast itcast.cn scrapy genspider + 爬蟲名字 + 爬蟲範圍。對象
三 提取數據blog
五、完善 spider 使用 xpath等方法ip
四 保存數據it
pipeline中保存數據pip
5、啓動 scrapyast
scrapy crawl itcast ##### scrapy crawl+ 項目名字
ret1 = response.xpath("//div[@class='tea_con']//h3/text()")
print(ret1)
設置日誌:
列表,列表中的每一個元素是對象, 每一個對象是 selector 對象 selector 有個 xpath 有個 data
九、
ret1 = response.xpath("//div[@class='tea_con']//h3/text()").extract()
print(ret1)
KEY表明 piplines的位置,值表明 距離引擎的遠近
值 距離引擎的遠近,越小 優先級 越大。