今天說一個不用寫代碼,怎麼來抓取數據的方式,這種方式能知足至關部分人羣的需求。html
爬數據一般要用程序寫一段網絡請求代碼來獲取網頁,遇到有些網頁是異步加載或者用JS混淆了,又要耗費精力去分析。尤爲是不少爬蟲選手是非專業選手,寫起代碼其實挺吃力的,在個人瞭解來看大部分公司或者爬數據的需求都是一次性的,並且獲取數據的量級很小,萬或數十萬條數據這樣的規模,並且是一次性的。這能夠不用去開發程序,使用一些工具就能辦到,好比Web Scraper工具。web
Web Scraperajax
Web Scraper是一個網頁抓取工具,不須要複雜的安裝配置,是以Chrome 插件的形式運行在Chrome瀏覽器上。不用擔憂抓取的網頁是否異步加載或者有JS混淆之類的,是所見即所得的抓取方式,熟練狀況下抓取數據只須要花10-20分鐘完成配置就能開始抓取(寫代碼可能須要數小時乃至數天)。很是適合一次性/短時間/非爬蟲專業選手爬數據的需求。瀏覽器
演示一下,好比咱們要抓這個網站URL下面的商店名稱和用戶評論。網絡
如何安裝和配置Web Scraper?異步
1.Chrome瀏覽器裏的插件商店裏搜索Web Scraper便可安裝,若是你不能訪問Chrome插件商店,在猿人學Python公衆號回覆 Web Scraper ,能夠在本地安裝Chrome插件,怎麼操做就再也不贅述了。工具
2.安裝好Web Scraper插件後,打開Chrome瀏覽器的開發者工具,能看到Web Scraper選項表明安裝成功。網站
3.配置抓取規則url
配置也很簡單,先科普下,咱們在寫程序抓取網頁時,一般須要一個入口頁面(這個頁面一般是一個頻道頁,列表頁之類的),程序抽取入口頁面的URL,接着訪問這些URL再抽取裏面咱們須要的詳細信息。插件
好比,要抽取點評網上的私房菜分類下的店名和小店裏面的評論。咱們首先須要一個入口頁面(即 私房菜頻道的URL),抽取該頁面裏的小店URL,程序訪問這些小店URL,再抽取小店裏面的店名,評論等信息。
配置Web Scraper也是同樣的道理,須要一個入口頁面(Start URL),而後配置抽取入口頁面的URL規則,配置好後緊接着再配置抽取詳細頁信息的規則。詳細的Web Scraper教程能夠查看原文,我在猿人學網站上寫了個簡單的Web Scraper配置教程。
好比你要抓取點評網私房菜頻道里的小店和點評評論。
第一步把私房菜頻道的URL當着Start URL。
若是你想翻頁的話,檢查一下點評網的翻頁規則,它的翻頁是這樣:
第二頁
第三頁
就能夠把翻頁規則寫成這樣
表示從第1頁翻到第5頁
第二步建立一個抽取入口頁面裏URL的規則,即抽取小店URL,看gif最直觀:
徹底是可視化操做,Type裏選擇Link,Selector上選擇Select,而後鼠標先選幾下頁面上的小店,自動把抽取小店url的xpath規則就寫好了。點擊Data preview能夠檢查和預覽抽取規則是否生效。
第三步常見抽取小店詳細頁信息的規則,好比抽取評論:
熟練的話,10-20分鐘就能配置好一個抓取規則,固然更復雜的數據抽取規則你能夠看它官網的文檔。
www.webscraper.io/documentati…
使用Web Scraper這種抓取方法一次抓取上千條數據不成問題,適用想少許抓取用來數據分析,或者補充抓取數據。固然再配合使用切換代理ip軟件的話,也能夠作到長時間大量抓取數據用,只是效率沒那麼高。
總結Web Scraper的優勢:
1.能夠抓取動態加載的數據,好比經過ajax翻頁的數據;
2.抓取的數據能夠CSV文件格式導出到本地;
3.抓取須要登陸的數據較方便,由於這個插件是運行在瀏覽器上的;
4.不用擔憂JS/CSS混淆數據;
5.配置簡單,可視化配置抽取規則。