這是簡易數據分析系列的第 16 篇文章。css
這期課程咱們講一個用的較少的 Web Scraper 功能——抓取屬性信息。html
網頁在展現信息的時候,除了咱們看到的內容,其實還有不少隱藏的信息。咱們拿豆瓣電影250舉個例子:web
電影圖片正常顯示的時候是這個樣子:json
若是網絡異常,圖片加載失敗,就會顯示圖片的默認文案,這個文案其實就是這個圖片的屬性信息:網絡
咱們查看一下這個結構的 HTML(查看方法可見 CSS 選擇器的使用的第一節內容),就會發現圖片的默認文案其實就是這個 <img/>
標籤的 alt
屬性:spa
咱們能夠看一下 HTML 文檔裏對 alt 屬性的描述:code
alt 屬性是一個必需的屬性,它規定在圖像沒法顯示時的替代文本htm
在 web scraper 裏,咱們能夠利用 Element attribute
屬性來抓取這種屬性信息。blog
由於此次的內容比較簡單,新建 sitemap 這一步我就先省略了,咱們直接上來使用 Element attribute
抓取數據。圖片
咱們把 Type 選爲 Element attribute
,而後用 Selector 選中圖片這個元素:
Element attribute
會多一個選項——Attribute name,咱們在這個輸入框裏輸入咱們要抓取的屬性名字。
觀察一下這個 img 標籤的屬性,有 alt(替換文本)、width(圖片寬度)和 src(圖片連接)3 種:
這裏我先輸入 alt
,表示抓取圖片的替代文本:
還能夠輸入 src
,表示抓取圖片的連接:
也能夠輸入 width
,抓取圖片寬度:
經過 Element attribute
這個選擇器,咱們就能夠抓取一些網頁沒有直接展現出來的數據信息,很是的方便。
{"_id":"douban2","startUrl":["https://movie.douban.com/top250?start=0&filter="],"selectors":[{"id":"ele","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"image_name","type":"SelectorElementAttribute","parentSelectors":["ele"],"selector":"img","multiple":false,"extractAttribute":"alt","delay":0}]}
Web Scraper 高級用法——CSS 選擇器的使用 | 簡易數據分析 15
由於文章發在各大平臺上,帳號較多不能及時回覆評論和私信,有問題可關注公衆號 ——「鹵代烴實驗室」,(或 wx 搜索 sky-chx)關注上車防失聯。
原文出處:https://www.cnblogs.com/web-scraper/p/web-scraper-element-attribute.html