Web Scraper 高級用法——抓取屬性信息 | 簡易數據分析 16

時間 2020-04-18

標籤 web scraper 高級用法抓取屬性信息簡易數據分析欄目 HTML 简体版

原文原文鏈接

這是簡易數據分析系列的第 16 篇文章。css

這期課程咱們講一個用的較少的 Web Scraper 功能——抓取屬性信息。html

網頁在展現信息的時候，除了咱們看到的內容，其實還有不少隱藏的信息。咱們拿豆瓣電影250舉個例子：web

電影圖片正常顯示的時候是這個樣子：json

若是網絡異常，圖片加載失敗，就會顯示圖片的默認文案，這個文案其實就是這個圖片的屬性信息：網絡

咱們查看一下這個結構的 HTML（查看方法可見 CSS 選擇器的使用的第一節內容），就會發現圖片的默認文案其實就是這個 <img/> 標籤的 alt 屬性：spa

咱們能夠看一下 HTML 文檔裏對 alt 屬性的描述：code

alt 屬性是一個必需的屬性，它規定在圖像沒法顯示時的替代文本htm

在 web scraper 裏，咱們能夠利用 Element attribute 屬性來抓取這種屬性信息。blog

由於此次的內容比較簡單，新建 sitemap 這一步我就先省略了，咱們直接上來使用 Element attribute 抓取數據。圖片

咱們把 Type 選爲 Element attribute，而後用 Selector 選中圖片這個元素：

Element attribute 會多一個選項——Attribute name，咱們在這個輸入框裏輸入咱們要抓取的屬性名字。

觀察一下這個 img 標籤的屬性，有 alt（替換文本）、width（圖片寬度）和 src（圖片連接）3 種：

這裏我先輸入 alt，表示抓取圖片的替代文本：

還能夠輸入 src，表示抓取圖片的連接：

也能夠輸入 width，抓取圖片寬度：

經過 Element attribute 這個選擇器，咱們就能夠抓取一些網頁沒有直接展現出來的數據信息，很是的方便。

sitemap 分享

{"_id":"douban2","startUrl":["https://movie.douban.com/top250?start=0&filter="],"selectors":[{"id":"ele","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"image_name","type":"SelectorElementAttribute","parentSelectors":["ele"],"selector":"img","multiple":false,"extractAttribute":"alt","delay":0}]}