學了那麼久的Python，你見過不用寫代碼的爬蟲嗎？

時間 2019-11-17

標籤學了那麼 python 見過不用代碼爬蟲欄目 Python 简体版

原文原文鏈接

今天說一個不用寫代碼，怎麼來抓取數據的方式，這種方式能知足至關部分人羣的需求。html

爬數據一般要用程序寫一段網絡請求代碼來獲取網頁，遇到有些網頁是異步加載或者用JS混淆了，又要耗費精力去分析。尤爲是不少爬蟲選手是非專業選手，寫起代碼其實挺吃力的，在個人瞭解來看大部分公司或者爬數據的需求都是一次性的，並且獲取數據的量級很小，萬或數十萬條數據這樣的規模，並且是一次性的。這能夠不用去開發程序，使用一些工具就能辦到，好比Web Scraper工具。web

Web Scraperajax

Web Scraper是一個網頁抓取工具，不須要複雜的安裝配置，是以Chrome 插件的形式運行在Chrome瀏覽器上。不用擔憂抓取的網頁是否異步加載或者有JS混淆之類的，是所見即所得的抓取方式，熟練狀況下抓取數據只須要花10-20分鐘完成配置就能開始抓取（寫代碼可能須要數小時乃至數天）。很是適合一次性/短時間/非爬蟲專業選手爬數據的需求。瀏覽器

演示一下，好比咱們要抓這個網站URL下面的商店名稱和用戶評論。網絡

如何安裝和配置Web Scraper？異步

1.Chrome瀏覽器裏的插件商店裏搜索Web Scraper便可安裝，若是你不能訪問Chrome插件商店，在猿人學Python公衆號回覆 Web Scraper ，能夠在本地安裝Chrome插件，怎麼操做就再也不贅述了。工具

2.安裝好Web Scraper插件後，打開Chrome瀏覽器的開發者工具，能看到Web Scraper選項表明安裝成功。網站

3.配置抓取規則url

配置也很簡單，先科普下，咱們在寫程序抓取網頁時，一般須要一個入口頁面（這個頁面一般是一個頻道頁，列表頁之類的），程序抽取入口頁面的URL，接着訪問這些URL再抽取裏面咱們須要的詳細信息。插件

好比，要抽取點評網上的私房菜分類下的店名和小店裏面的評論。咱們首先須要一個入口頁面（即私房菜頻道的URL），抽取該頁面裏的小店URL，程序訪問這些小店URL，再抽取小店裏面的店名，評論等信息。

配置Web Scraper也是同樣的道理，須要一個入口頁面（Start URL），而後配置抽取入口頁面的URL規則，配置好後緊接着再配置抽取詳細頁信息的規則。詳細的Web Scraper教程能夠查看原文，我在猿人學網站上寫了個簡單的Web Scraper配置教程。

好比你要抓取點評網私房菜頻道里的小店和點評評論。

第一步把私房菜頻道的URL當着Start URL。

若是你想翻頁的話，檢查一下點評網的翻頁規則，它的翻頁是這樣：

第二頁

www.dianping.com/shanghai/ch…

第三頁

www.dianping.com/shanghai/ch…

就能夠把翻頁規則寫成這樣

www.dianping.com/shanghai/ch…

表示從第1頁翻到第5頁

第二步建立一個抽取入口頁面裏URL的規則，即抽取小店URL，看gif最直觀：

徹底是可視化操做，Type裏選擇Link，Selector上選擇Select，而後鼠標先選幾下頁面上的小店，自動把抽取小店url的xpath規則就寫好了。點擊Data preview能夠檢查和預覽抽取規則是否生效。

第三步常見抽取小店詳細頁信息的規則，好比抽取評論：

熟練的話，10-20分鐘就能配置好一個抓取規則，固然更復雜的數據抽取規則你能夠看它官網的文檔。

www.webscraper.io/documentati…

使用Web Scraper這種抓取方法一次抓取上千條數據不成問題，適用想少許抓取用來數據分析，或者補充抓取數據。固然再配合使用切換代理ip軟件的話，也能夠作到長時間大量抓取數據用，只是效率沒那麼高。

總結Web Scraper的優勢：

1.能夠抓取動態加載的數據，好比經過ajax翻頁的數據；

2.抓取的數據能夠CSV文件格式導出到本地；

3.抓取須要登陸的數據較方便，由於這個插件是運行在瀏覽器上的；

4.不用擔憂JS/CSS混淆數據；

5.配置簡單，可視化配置抽取規則。

相關文章

相關標籤/搜索

用Python寫網絡爬蟲

你的燈亮了嗎

Python爬蟲教學

代碼格式化

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<