python3下scrapy爬蟲(第三卷:初步抓取網頁內容之抓取網頁裏的指定數據)

上一卷中咱們抓取了網頁的全部內容,如今咱們抓取下網頁的圖片名稱以及鏈接 前端

如今我再新建個爬蟲文件,名稱設置爲crawler2瀏覽器

作爬蟲的朋友應該知道,網頁裏的數據都是用文本或者塊級標籤包裹着的,scrapy框架裏自帶標籤選擇器HtmlXPathSelector,具體的使用規則能夠查閱一下我就不介紹了框架

咱們如今要爬取的內容是 網頁的圖片標題,以及網頁的圖片連接,因此咱們須要在網站瀏覽器的控制檯上查看標籤內容屬性scrapy

在控制檯上咱們發現:函數

咱們所要抓取的內容在類名爲showlist的div下的li標籤下網站

因此咱們先獲取下頁面的指定LI標籤url

先看下打印結果:3d

內容哪去了 不要慌這個選擇器打印的結果沒問題 blog

下面進行下代碼修改,獲取LI裏的內容,實現由父找子的過程圖片

 

這個extract()函數是我通常用來獲取標籤

看下結果

一組LI裏有好多內容,並非一一對應看起來不方便,因而可知個作網站的前端是直接一個LI裏封裝多個圖片的塊級元素

看的不舒服 來修改下代碼 ,一個LI裏有七個 爲了保證數據的準確性 每個父級LI元素我都設定一個編號

看下代碼

來看下結果:

縱然文字不健康,可是數據的展示依舊清晰可見

如今圖片的鏈接有了 咱們能夠根據連接來下載圖片 那麼咱們使用urlretrieve函數,咱們在當前爬蟲的文件夾中與SPIDER文件同級創建一個IMG文件夾

來看下代碼:

其實就像個公式同樣 讀取公式+存儲公式就能完成圖片的下載:來如今看一下結果:

真的是豪無節操的網站 我之後不會再爬取它了 

相關文章
相關標籤/搜索