python3下scrapy爬蟲(第三卷:初步抓取網頁內容之抓取網頁裏的指定數據）

時間 2019-11-10

標籤 python3 python scrapy 爬蟲第三初步抓取網頁內容指定數據欄目 Python 简体版

原文原文鏈接

上一卷中咱們抓取了網頁的全部內容，如今咱們抓取下網頁的圖片名稱以及鏈接前端

如今我再新建個爬蟲文件，名稱設置爲crawler2瀏覽器

作爬蟲的朋友應該知道，網頁裏的數據都是用文本或者塊級標籤包裹着的，scrapy框架裏自帶標籤選擇器HtmlXPathSelector,具體的使用規則能夠查閱一下我就不介紹了框架

咱們如今要爬取的內容是網頁的圖片標題，以及網頁的圖片連接，因此咱們須要在網站瀏覽器的控制檯上查看標籤內容屬性scrapy

在控制檯上咱們發現：函數

咱們所要抓取的內容在類名爲showlist的div下的li標籤下網站

因此咱們先獲取下頁面的指定LI標籤url

先看下打印結果：3d

內容哪去了不要慌這個選擇器打印的結果沒問題 blog

下面進行下代碼修改，獲取LI裏的內容，實現由父找子的過程圖片

這個extract()函數是我通常用來獲取標籤

看下結果

一組LI裏有好多內容，並非一一對應看起來不方便，因而可知個作網站的前端是直接一個LI裏封裝多個圖片的塊級元素

看的不舒服來修改下代碼，一個LI裏有七個爲了保證數據的準確性每個父級LI元素我都設定一個編號

看下代碼

來看下結果：

縱然文字不健康，可是數據的展示依舊清晰可見

如今圖片的鏈接有了咱們能夠根據連接來下載圖片那麼咱們使用urlretrieve函數，咱們在當前爬蟲的文件夾中與SPIDER文件同級創建一個IMG文件夾

來看下代碼：

其實就像個公式同樣讀取公式+存儲公式就能完成圖片的下載：來如今看一下結果：

真的是豪無節操的網站我之後不會再爬取它了

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。