介紹一些比較方便好用的爬蟲工具和服務

時間 2021-01-24

標籤 git github web 算法數據庫編程 api 框架機器學習 scrapy 欄目網絡爬蟲简体版

原文原文鏈接

工具&服務列表

Chrome 擴展

Web Scraper：http://webscraper.io/git
Data Scraper：https://data-miner.io/github
Listly：https://listly.io/web
Mercury：https://mercury.postlight.com/算法

框架

Scrapy：https://scrapy.org/數據庫
PySpider：https://github.com/binux/pyspider編程
Apify：https://sdk.apify.com/api

商業服務

Parsehub：https://www.parsehub.com/框架
Dexi.io：https://dexi.io/機器學習
Octparse：https://www.octoparse.com/scrapy
Content Grabber：http://www.contentgrabber.com/
Mozenda：https://www.mozenda.com/
ScraperAPI：https://www.scraperapi.com/
Diffbot：https://www.diffbot.com/
Import.io：https://www.import.io/
Embed.ly https://embed.ly/
ScrapeStorm https://www.scrapestorm.com/
Shenjianshou https://www.shenjian.io/
Zaoshu https://zaoshu.io/

下面來對這些工具和服務進行簡單的介紹和總結。

Web Scraper

它是一個獨立的 Chrome 擴展，安裝數目已經到了 20w。它支持點選式的數據抓取，另外支持動態頁面渲染，而且專門爲 JavaScript、Ajax、下拉拖動、分頁功能作了優化，而且帶有完整的選擇器系統，另外支持數據導出到 CSV 等格式。另外它們還有本身的 Cloud Scraper，支持定時任務、API 式管理、代理切換功能。

Web Scraper

官網：https://www.webscraper.io/

Data Scraper

Data Scraper 一樣是一個 Chrome 擴展，它能夠將單個頁面的數據經過點擊的方式爬取到 CSV、XSL 文件中。在這個擴展中已經預約義了 5w 多條規則，能夠用來爬取將近 1.5w 個熱門網站。

不過這個擴展的使用是有限制的，免費版本每月只能爬取 500 個頁面，更多則須要付費。

Data Scraper

官網：https://data-miner.io/

Listly

這一樣是一個 Chrome 插件，它能夠快速地將網頁中的數據進行提取，並將其轉化爲 Excel 表格導出，操做很是便捷。好比獲取一個電商商品數據，文章列表數據等，使用它就能夠快速完成。另外它也支持單頁面和多頁面以及父子頁面的採集，值得一試。

Listly

官網：https://listly.io/

Mercury

這是一個開源的提供自動化解析的工具，使用 JavaScript 編寫，同時還提供了 Chrome 擴展工具。利用它咱們能夠完成頁面的智能解析，如自動提取文章標題、正文、發佈時間等內容。

另外它開放了源代碼，放在了 GitHub，咱們能夠直接安裝使用，使用命令行便可完成頁面的智能解析，速度還很是快。

Mercury

官網：https://mercury.postlight.com/

Scrapy

這多是 Python 爬蟲學習者使用最多的爬蟲框架了，利用這個框架咱們能夠快速地完成爬蟲的開發。並且框架自己性能卓越、可配置化極強，另外開發者社區十分活躍，而且 Scrapy 具備配套的各類插件，幾乎能夠實現任何站點的爬取邏輯，強烈推薦。

Scrapy

官網：https://scrapy.org/

PySpider

PySpider 是一個基於 Python 開發的爬蟲工具，它帶有可視化的管理工具，而且能夠經過在線編程的方式完成爬蟲的建立和運行。另外它還支持分佈式爬取，並支持存儲到各類數據庫。因爲是代碼來實現編程，所以其可擴展性仍是很強的，簡單易用。

PySpider

GitHub：https://github.com/binux/pyspider

Apify

它是一個基於 Node.js 開發的爬蟲庫，因爲是 JavaScript 編寫，所以它對 JavaScript 渲染頁面的爬取是徹底支持的，對接了 Puppeteer、Cheerio。另外其可定製化也很是強，支持各類文件格式的導出，而且支持和 Apify Cloud 的對接實現雲爬取。

Apify

官網：https://sdk.apify.com/

Parsehub

ParseHub 是一個基於 Web 的抓取客戶端工具，支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等機制，該應用程序能夠分析和從網站獲取數據並將其轉換爲有意義的數據。它還可使用機器學習技術識別複雜的文檔，並能導出爲 JSON、CSV、Google 表格等格式的文件。

Parsehub 支持 Windows，Mac 和 Linux，並且可用做Firefox擴展。另外它還支持一些高級功能，如分頁，無限滾動頁面，彈出窗口和導航。另外還能夠將 ParseHub 中的數據可視化爲 Tableau。

固然這個也收費的，免費版本限制爲 5 個項目，每次限制爬取 200 頁。若是付費訂閱能夠得到 20 個私有項目，每次抓取 10000 個頁面，並且支持高級版的 IP 代理切換等功能。

image-20190225162051914

官網：https://www.parsehub.com

Dexi.io

Dexi.io，以前稱爲 CloudScrape。它是一個爬蟲的商業服務，它支持可視化點擊抓取，並且配有天然語言解析工具使得解析更爲精準，全部的抓取配置都在網頁端完成，而且能夠經過控制檯來完成任務的運行和調度。另外它還提供許多代理 IP，還與第三方記性了集成，包括 Box.net、Google Drive 等工具。

這也是收費的，收費標準版是 119 美刀一個月，支持一個 Worker 和基礎服務，另外還有更高級別的服務。不過支持免費試用。

Dexi.io

官網：https://dexi.io/