上一卷中咱們抓取了網頁的全部內容,如今咱們抓取下網頁的圖片名稱以及鏈接 前端
如今我再新建個爬蟲文件,名稱設置爲crawler2瀏覽器
作爬蟲的朋友應該知道,網頁裏的數據都是用文本或者塊級標籤包裹着的,scrapy框架裏自帶標籤選擇器HtmlXPathSelector,具體的使用規則能夠查閱一下我就不介紹了框架
咱們如今要爬取的內容是 網頁的圖片標題,以及網頁的圖片連接,因此咱們須要在網站瀏覽器的控制檯上查看標籤內容屬性scrapy
在控制檯上咱們發現:函數
咱們所要抓取的內容在類名爲showlist的div下的li標籤下網站
因此咱們先獲取下頁面的指定LI標籤url
先看下打印結果:3d
內容哪去了 不要慌這個選擇器打印的結果沒問題 blog
下面進行下代碼修改,獲取LI裏的內容,實現由父找子的過程圖片
這個extract()函數是我通常用來獲取標籤
看下結果
一組LI裏有好多內容,並非一一對應看起來不方便,因而可知個作網站的前端是直接一個LI裏封裝多個圖片的塊級元素
看的不舒服 來修改下代碼 ,一個LI裏有七個 爲了保證數據的準確性 每個父級LI元素我都設定一個編號
看下代碼
來看下結果:
縱然文字不健康,可是數據的展示依舊清晰可見
如今圖片的鏈接有了 咱們能夠根據連接來下載圖片 那麼咱們使用urlretrieve函數,咱們在當前爬蟲的文件夾中與SPIDER文件同級創建一個IMG文件夾
來看下代碼:
其實就像個公式同樣 讀取公式+存儲公式就能完成圖片的下載:來如今看一下結果:
真的是豪無節操的網站 我之後不會再爬取它了