Web Scraper:http://webscraper.io/git
Data Scraper:https://data-miner.io/github
Listly:https://listly.io/web
Mercury:https://mercury.postlight.com/算法
Scrapy:https://scrapy.org/數據庫
PySpider:https://github.com/binux/pyspider編程
Apify:https://sdk.apify.com/api
Parsehub:https://www.parsehub.com/框架
Dexi.io:https://dexi.io/機器學習
Octparse:https://www.octoparse.com/scrapy
Content Grabber:http://www.contentgrabber.com/
Mozenda:https://www.mozenda.com/
ScraperAPI:https://www.scraperapi.com/
Diffbot:https://www.diffbot.com/
Import.io:https://www.import.io/
Embed.ly https://embed.ly/
ScrapeStorm https://www.scrapestorm.com/
Shenjianshou https://www.shenjian.io/
Zaoshu https://zaoshu.io/
下面來對這些工具和服務進行簡單的介紹和總結。
它是一個獨立的 Chrome 擴展,安裝數目已經到了 20w。它支持點選式的數據抓取,另外支持動態頁面渲染,而且專門爲 JavaScript、Ajax、下拉拖動、分頁功能作了優化,而且帶有完整的選擇器系統,另外支持數據導出到 CSV 等格式。另外它們還有本身的 Cloud Scraper,支持定時任務、API 式管理、代理切換功能。
Web Scraper
官網:https://www.webscraper.io/
Data Scraper 一樣是一個 Chrome 擴展,它能夠將單個頁面的數據經過點擊的方式爬取到 CSV、XSL 文件中。在這個擴展中已經預約義了 5w 多條規則,能夠用來爬取將近 1.5w 個熱門網站。
不過這個擴展的使用是有限制的,免費版本每月只能爬取 500 個頁面,更多則須要付費。
Data Scraper
官網:https://data-miner.io/
這一樣是一個 Chrome 插件,它能夠快速地將網頁中的數據進行提取,並將其轉化爲 Excel 表格導出,操做很是便捷。好比獲取一個電商商品數據,文章列表數據等,使用它就能夠快速完成。另外它也支持單頁面和多頁面以及父子頁面的採集,值得一試。
Listly
官網:https://listly.io/
這是一個開源的提供自動化解析的工具,使用 JavaScript 編寫,同時還提供了 Chrome 擴展工具。利用它咱們能夠完成頁面的智能解析,如自動提取文章標題、正文、發佈時間等內容。
另外它開放了源代碼,放在了 GitHub,咱們能夠直接安裝使用,使用命令行便可完成頁面的智能解析,速度還很是快。
Mercury
官網:https://mercury.postlight.com/
這多是 Python 爬蟲學習者使用最多的爬蟲框架了,利用這個框架咱們能夠快速地完成爬蟲的開發。並且框架自己性能卓越、可配置化極強,另外開發者社區十分活躍,而且 Scrapy 具備配套的各類插件,幾乎能夠實現任何站點的爬取邏輯,強烈推薦。
Scrapy
官網:https://scrapy.org/
PySpider 是一個基於 Python 開發的爬蟲工具,它帶有可視化的管理工具,而且能夠經過在線編程的方式完成爬蟲的建立和運行。另外它還支持分佈式爬取,並支持存儲到各類數據庫。因爲是代碼來實現編程,所以其可擴展性仍是很強的,簡單易用。
PySpider
GitHub:https://github.com/binux/pyspider
它是一個基於 Node.js 開發的爬蟲庫,因爲是 JavaScript 編寫,所以它對 JavaScript 渲染頁面的爬取是徹底支持的,對接了 Puppeteer、Cheerio。另外其可定製化也很是強,支持各類文件格式的導出,而且支持和 Apify Cloud 的對接實現雲爬取。
Apify
官網:https://sdk.apify.com/
ParseHub 是一個基於 Web 的抓取客戶端工具,支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等機制,該應用程序能夠分析和從網站獲取數據並將其轉換爲有意義的數據。它還可使用機器學習技術識別複雜的文檔,並能導出爲 JSON、CSV、Google 表格等格式的文件。
Parsehub 支持 Windows,Mac 和 Linux,並且可用做Firefox擴展。另外它還支持一些高級功能,如分頁,無限滾動頁面,彈出窗口和導航。另外還能夠將 ParseHub 中的數據可視化爲 Tableau。
固然這個也收費的,免費版本限制爲 5 個項目,每次限制爬取 200 頁。若是付費訂閱能夠得到 20 個私有項目,每次抓取 10000 個頁面,並且支持高級版的 IP 代理切換等功能。
image-20190225162051914
官網:https://www.parsehub.com
Dexi.io,以前稱爲 CloudScrape。它是一個爬蟲的商業服務,它支持可視化點擊抓取,並且配有天然語言解析工具使得解析更爲精準,全部的抓取配置都在網頁端完成,而且能夠經過控制檯來完成任務的運行和調度。另外它還提供許多代理 IP,還與第三方記性了集成,包括 Box.net、Google Drive 等工具。
這也是收費的,收費標準版是 119 美刀一個月,支持一個 Worker 和基礎服務,另外還有更高級別的服務。不過支持免費試用。
Dexi.io
官網:https://dexi.io/
也是一個可視化爬蟲工具,支持在網頁上進行可視化點選,而且也支持常見的 JavaScript 渲染、Ajax 爬取等等,一樣是在雲端運行和控制,另外提供了代理服務。
免費版支持建立 10 個爬取,可是提供了最基礎的服務,若是想要提供更多的服務如代理切換,則須要購買付費版本,標準版是 75 美金一個月。
Octparse
官網:https://www.octoparse.com/
Content Grabber 一樣也是一個可視化的爬蟲工具,一樣支持可視化點選,支持 JavaScript 渲染、Ajax 爬取等功能,另外還有驗證碼識別等解決方案,並使用 Nohodo 做爲 IP 代理。數據支持導出經常使用格式,也支持 PDF 格式導出。
Centent Grabber
官網:http://www.contentgrabber.com/
Mozenda 相似,也是基於一個雲端爬蟲服務,一樣支持可視化點選操做。它由兩個部分組成,一部分是用來完成數據提取功能,另外一部分是 Web 控制檯來運行和控制各個爬蟲服務。另外它還提供了 FTP、亞馬遜 S三、Dropbox 等的支持。
Mozenda
官網:https://www.mozenda.com/
這個站點提供了簡易的頁面渲染服務,站如其名,其爬取結果都是經過 API 來操做的。該站點提供了許多渲染引擎,咱們經過調用提供的 API 並傳以不一樣的參數就能夠完成頁面的渲染,相似於 Splash。
ScraperAPI
官網:https://www.scraperapi.com/
Diffbot 是一個提供智能化解析的站點。例如一個新聞頁面,咱們再也不須要規則便可完成對其中內容的提取,例如標題、正文、發佈時間等等。它經過一些機器學習算法、圖像識別、天然語言處理等方案綜合解析,能夠說是目前業界首屈一指的頁面智能解析方案提供商。
Diffbot
官網:https://www.diffbot.com/
Import.io 能夠說不只僅是一個提供爬蟲服務的網站了,它提供了從數據爬取、清洗、加工到應用的一套完整解決方案,涉及到零售與製造業、數據爬取與加工、機器學習算法、風控等等方案。
Import.io
官網:https://www.import.io/
其實 Embed.ly 是提供了自動獲取圖像,視頻,民意調查,幻燈片,音樂,實時視頻,表格,GIF,圖表等功能的服務,其中和爬蟲相關的就是頁面解析了。它提供了智能化頁面解析方案,相似 Diffbot,能夠自動完成頁面的解析。
Embed.ly
官網:https://embed.ly/
這個網站提供了一個可視化爬蟲工具,支持 Mac、Windows、Linux,工具十分強大,支持自動識別翻頁、自動識別內容,另外支持 JavaScript 渲染,另外支持模擬登陸爬取等等。
然而我下載下來以後使用了一下,裏面竟然是後裔採集器?看來是這個站點盜用了了後裔採集器的源碼吧。
ScrapeStorm
官網:https://www.scrapestorm.com/
神箭手,這能夠說是國內作的首屈一指的爬蟲平臺了,後臺的爬蟲使用 JavaScript 編寫,支持可視化點選、代碼編寫,另外提供雲端爬取,提供了驗證碼識別、分佈式爬取、JavaScript 渲染等功能。
另外神箭手還提供了規則市場、數據標註還有數據 API 服務,,目前還上市了機器學習相關的服務,目前也正朝着智能化發展中。
另外神箭手旗下有一款後裔採集器,就是上文介紹的 ScrapeStorm 所採用的爬取工具,功能很強大,支持智能解析,值得一試。
Shenjianshou
官網:https://www.shenjian.io
八爪魚採集器,能夠說是國內比較知名的一款採集器了,功能相似後裔採集器,能夠經過可視化點選完成爬蟲的相關配置,部分功能比後裔採集器更增強大。
另外官方也提供了規則市場,獲取規則以快速完成數據的爬取而不用關心爬取的邏輯。
Bazhuayu
官網:http://www.bazhuayu.com/
是一家數據爬取服務提供商,不過目前已經不面向於我的用戶,主要是提供企業數據服務,其也提供了可視化點選數據爬取服務,也能夠經過一些配置完成複雜頁面的採集。
Zaoshu
官網:https://zaoshu.io/