Web Scraper 高級用法——抓取屬性信息 | 簡易數據分析 16

這是簡易數據分析系列的第 16 篇文章。css

這期課程咱們講一個用的較少的 Web Scraper 功能——抓取屬性信息。html

網頁在展現信息的時候,除了咱們看到的內容,其實還有不少隱藏的信息。咱們拿豆瓣電影250舉個例子:web

電影圖片正常顯示的時候是這個樣子:json

若是網絡異常,圖片加載失敗,就會顯示圖片的默認文案,這個文案其實就是這個圖片的屬性信息:網絡

咱們查看一下這個結構的 HTML(查看方法可見 CSS 選擇器的使用的第一節內容),就會發現圖片的默認文案其實就是這個 <img/> 標籤的 alt 屬性:spa

咱們能夠看一下 HTML 文檔裏對 alt 屬性的描述:code

alt 屬性是一個必需的屬性,它規定在圖像沒法顯示時的替代文本htm

在 web scraper 裏,咱們能夠利用 Element attribute 屬性來抓取這種屬性信息。blog

由於此次的內容比較簡單,新建 sitemap 這一步我就先省略了,咱們直接上來使用 Element attribute 抓取數據。圖片

咱們把 Type 選爲 Element attribute,而後用 Selector 選中圖片這個元素:

Element attribute 會多一個選項——Attribute name,咱們在這個輸入框裏輸入咱們要抓取的屬性名字。

觀察一下這個 img 標籤的屬性,有 alt(替換文本)、width(圖片寬度)和 src(圖片連接)3 種:

這裏我先輸入 alt,表示抓取圖片的替代文本:

還能夠輸入 src,表示抓取圖片的連接:

也能夠輸入 width,抓取圖片寬度:

經過 Element attribute 這個選擇器,咱們就能夠抓取一些網頁沒有直接展現出來的數據信息,很是的方便。

sitemap 分享

{"_id":"douban2","startUrl":["https://movie.douban.com/top250?start=0&filter="],"selectors":[{"id":"ele","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"image_name","type":"SelectorElementAttribute","parentSelectors":["ele"],"selector":"img","multiple":false,"extractAttribute":"alt","delay":0}]}

推薦閱讀

Web Scraper 高級用法——CSS 選擇器的使用 | 簡易數據分析 15

HTML img 標籤的 alt 屬性

聯繫我

由於文章發在各大平臺上,帳號較多不能及時回覆評論和私信,有問題可關注公衆號 ——「鹵代烴實驗室」,(或 wx 搜索 sky-chx)關注上車防失聯。

img

原文出處:https://www.cnblogs.com/web-scraper/p/web-scraper-element-attribute.html

相關文章
相關標籤/搜索