使用 Chrome 瀏覽器插件 Web Scraper 10分鐘輕鬆實現網頁數據的爬取

web scraper 下載:Web-Scraper_v0.2.0.10程序員

使用 Chrome 瀏覽器插件 Web Scraper 能夠輕鬆實現網頁數據的爬取,不寫代碼,鼠標操做,點哪爬哪,還不用考慮爬蟲中的登錄、驗證碼、異步加載等複雜問題。web

Web Scraper插件瀏覽器

Web Scraper 官網中的簡介:網絡

Web Scraper Extension (Free!)
Using our extension you can create a plan (sitemap) how a web site should be traversed and what should be extracted. Using these sitemaps the Web Scraper will navigate the site accordingly and extract all data. Scraped data later can be exported as CSV.dom

先看一下,我用 web scaper 爬取到的數據:異步

1. 知乎輪子哥粉絲ide

輪子哥有 54 萬多粉絲,我只抓取了前 20 頁400條記錄函數

設定數據字段工具

2.簡書七日熱門數據post

運行爬蟲獲得數據

導出數據

Web Scraper 抓取流程及要點:

安裝Web Scraper插件後,三步完成爬取操做
一、Create new sitemap(建立爬取項目)
二、選取爬取網頁中的內容,點~點~點,操做
三、開啓爬取,下載CSV數據

其中最關鍵的是第二步,兩個要點:

  1. 先選中數據塊 Element,每塊數據咱們在頁面上取,都是重複的,選中 Multiple
  2. 在數據塊中再取須要的數據字段(上圖Excel中的列)

爬取大量數據的要點,在於掌握分頁的控制。
分頁分爲3種狀況:

  1. URL 參數分頁(比較規整方式)
    URL 中帶有分頁的 page 參數的,如:

    https://www.zhihu.com/people/excited-vczh/followers?page=2

    直接在建立sitemap時,Start URL中就能夠帶上分頁參數,寫成這樣:

    https://www.zhihu.com/people/excited-vczh/followers?page=[1-27388]
  2. 滾動加載,點擊「加載更多」 加載頁面數據

  3. 點擊分頁數字標籤(包括「下一頁」標籤)
    注意,這裏第2-3種能夠歸爲一類方式,是異步加載的方式,大部分均可以轉爲第1種的方式來處理。
    這種方式分頁不太好控制。通常使用 Link 或 Element click 來實現分頁的操做。

圖示 Web Scraper 操做步驟:

第一步:建立sitemap

第二步:選取塊數據Element

第三步:選取抓取的字段text

第四步:爬取

Web Scaper 使用體會:

1) 除了規整的分頁方式外,其餘分頁方式很差控制,不一樣的網站受頁面標籤不一樣,操做也不同。

2) 由於直接抓取頁面顯示值,抓取數據規整度不太好,須要 EXCEL 函數處理。
如,簡書七日熱門中文章發表時間,格式有好幾種。

3) 有一點網頁代碼基礎的上手很快,代碼纔是王道啊。
特別是有點Python爬蟲基礎的,在選取頁面數據中很容易操做、理解,發現操做中出現的問題。

4) 比起八爪魚、火車頭等數據採集器,web scraper不須要下載軟件,免費,無需註冊,還很體會一點點代碼的操做。固然 web scraper 也有付費的雲爬蟲。

Web Scraper 還能夠導入sitemap,把下面的這段代碼導入,你就能夠抓取到知乎輪子哥前20頁的粉絲:

{"startUrl":"https://www.zhihu.com/people/excited-vczh/followers?page=[1-20]","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"items","selector":"div.List-item","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"desc","selector":"div.RichText","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"answers","selector":"span.ContentItem-statusItem:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"articles","selector":"span.ContentItem-statusItem:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"fans","selector":"span.ContentItem-statusItem:nth-of-type(3)","regex":"","delay":""}],"_id":"zh_vczh"}

PS, Web Scraper 資料教程

  1. 官網中的視頻教程
    http://webscraper.io/tutorials

  2. 知乎@陳大欣 的回答 中寫了詳細的步驟,並錄製了視頻教程。

    這個問題來源 零基礎如何學爬蟲技術? @陳大欣 在文章中把 Excel 爬蟲,web scraper,代碼爬蟲作了比較分析。

寫在最後:FOR Freedom 看看外邊的世界,以及IT這一行,少不了去Google查資料,最後,安利一些速器代理。

網絡加速工具推薦 免費方案 付費方案 官方網站
一枝紅杏網絡加速工具 免費方案暫無,穩定高速 輸入8折優惠碼wh80,年付只需80元/年 官網直達http://whosmall.com/go/yzhx
網絡加速工具 最好用的外貿網絡加速工具 最低¥30/月 官網直達http://whosmall.com/go/yzhx
LoCo網絡加速工具 天天免費2小時 最低¥15/月 官網直達http://whosmall.com/go/yzhx

本文標籤: Mac效率工具 Mac小工具 MacOS Homebrew-Cask Mac軟件包管理器

轉自 SUN'S BLOG - 專一互聯網知識,分享互聯網精神!

原文地址 《MacOS 如何使用軟件包管理器 Homebrew-Cask 安裝軟件?

相關閱讀Mac 系統上如何用 LaunchBar 一鍵下載網頁上的全部文件?

相關閱讀MacOS 如何用 LaunchBar 一鍵上傳文件至 Google Drive?

相關閱讀最好用的 Mac App 快速啓動及切換工具:Manico 2.0

相關閱讀我爲何選擇 Window Tidy 做爲 MacOS 分屏工具?

相關閱讀Chrome 擴展 Stylish :給不喜歡某個網站一鍵「換膚」

相關閱讀將 QQ 音樂、網易雲音樂和蝦米音樂資源「整合」一塊兒的Chrome 擴展Listen 1

相關閱讀8 個「新標籤頁」Chrome 擴展: 教你把 New Tab 頁面玩的溜溜溜

相關閱讀7 款實用 Chrome 擴展推薦:幫你提高 Chrome 使用體驗

相關閱讀無擴展就不是 Chrome 了:15 款優質的Chrome 擴展推薦給你們

相關閱讀12 款不能少的使網頁瀏覽得到的最佳體驗Chrome 擴展

相關閱讀5 款能夠帶來幸福感的 Chrome 擴展

相關閱讀: 對程序員有用:2017最新能上Google的hosts文件下載及總結網友遇到的各類hosts問題解決方法及配置詳解

相關BLOG:SUN’S BLOG - 專一互聯網知識,分享互聯網精神!去看看:whosmall.com

原文連接:http://whosmall.com/?post=473

相關文章
相關標籤/搜索