學了那麼久的Python,你見過不用寫代碼的爬蟲嗎?

今天說一個不用寫代碼,怎麼來抓取數據的方式,這種方式能知足至關部分人羣的需求。html

爬數據一般要用程序寫一段網絡請求代碼來獲取網頁,遇到有些網頁是異步加載或者用JS混淆了,又要耗費精力去分析。尤爲是不少爬蟲選手是非專業選手,寫起代碼其實挺吃力的,在個人瞭解來看大部分公司或者爬數據的需求都是一次性的,並且獲取數據的量級很小,萬或數十萬條數據這樣的規模,並且是一次性的。這能夠不用去開發程序,使用一些工具就能辦到,好比Web Scraper工具。web

Web Scraperajax

Web Scraper是一個網頁抓取工具,不須要複雜的安裝配置,是以Chrome 插件的形式運行在Chrome瀏覽器上。不用擔憂抓取的網頁是否異步加載或者有JS混淆之類的,是所見即所得的抓取方式,熟練狀況下抓取數據只須要花10-20分鐘完成配置就能開始抓取(寫代碼可能須要數小時乃至數天)。很是適合一次性/短時間/非爬蟲專業選手爬數據的需求。瀏覽器

演示一下,好比咱們要抓這個網站URL下面的商店名稱和用戶評論。網絡

如何安裝和配置Web Scraper?異步

1.Chrome瀏覽器裏的插件商店裏搜索Web Scraper便可安裝,若是你不能訪問Chrome插件商店,在猿人學Python公衆號回覆 Web Scraper ,能夠在本地安裝Chrome插件,怎麼操做就再也不贅述了。工具

2.安裝好Web Scraper插件後,打開Chrome瀏覽器的開發者工具,能看到Web Scraper選項表明安裝成功。網站

3.配置抓取規則url

配置也很簡單,先科普下,咱們在寫程序抓取網頁時,一般須要一個入口頁面(這個頁面一般是一個頻道頁,列表頁之類的),程序抽取入口頁面的URL,接着訪問這些URL再抽取裏面咱們須要的詳細信息。插件

好比,要抽取點評網上的私房菜分類下的店名和小店裏面的評論。咱們首先須要一個入口頁面(即 私房菜頻道的URL),抽取該頁面裏的小店URL,程序訪問這些小店URL,再抽取小店裏面的店名,評論等信息。

配置Web Scraper也是同樣的道理,須要一個入口頁面(Start URL),而後配置抽取入口頁面的URL規則,配置好後緊接着再配置抽取詳細頁信息的規則。詳細的Web Scraper教程能夠查看原文,我在猿人學網站上寫了個簡單的Web Scraper配置教程。

好比你要抓取點評網私房菜頻道里的小店和點評評論。

第一步把私房菜頻道的URL當着Start URL。

若是你想翻頁的話,檢查一下點評網的翻頁規則,它的翻頁是這樣:

第二頁

www.dianping.com/shanghai/ch…

第三頁

www.dianping.com/shanghai/ch…

就能夠把翻頁規則寫成這樣

www.dianping.com/shanghai/ch…

表示從第1頁翻到第5頁

第二步建立一個抽取入口頁面裏URL的規則,即抽取小店URL,看gif最直觀:

徹底是可視化操做,Type裏選擇Link,Selector上選擇Select,而後鼠標先選幾下頁面上的小店,自動把抽取小店url的xpath規則就寫好了。點擊Data preview能夠檢查和預覽抽取規則是否生效。

第三步常見抽取小店詳細頁信息的規則,好比抽取評論:

熟練的話,10-20分鐘就能配置好一個抓取規則,固然更復雜的數據抽取規則你能夠看它官網的文檔。

www.webscraper.io/documentati…

使用Web Scraper這種抓取方法一次抓取上千條數據不成問題,適用想少許抓取用來數據分析,或者補充抓取數據。固然再配合使用切換代理ip軟件的話,也能夠作到長時間大量抓取數據用,只是效率沒那麼高。

總結Web Scraper的優勢:

1.能夠抓取動態加載的數據,好比經過ajax翻頁的數據;

2.抓取的數據能夠CSV文件格式導出到本地;

3.抓取須要登陸的數據較方便,由於這個插件是運行在瀏覽器上的;

4.不用擔憂JS/CSS混淆數據;

5.配置簡單,可視化配置抽取規則。

相關文章
相關標籤/搜索