開源爬蟲軟件彙總 (轉)

時間 2019-11-16

原文原文鏈接

世界上已經成型的爬蟲軟件多達上百種，本文對較爲知名及常見的開源爬蟲軟件進行梳理，按開發語言進行彙總，以下表所示。雖然搜索引擎也有爬蟲，但本次我彙總的只是爬蟲軟件，而非大型、複雜的搜索引擎，由於不少兄弟只是想爬取數據，而非運營一個搜索引擎。
web

開源爬蟲彙總表 正則表達式

開發語言 sql	軟件名稱數據庫	軟件介紹網頁爬蟲	許可證網絡
Java 多線程	Arachnid 架構	微型爬蟲框架，含有一個小型HTML解析器框架	GPL 異步
	crawlzilla	安裝簡易，擁有中文分詞功能	Apache2
	Ex-Crawler	由守護進程執行，使用數據庫存儲網頁信息	GPLv3
	Heritrix	嚴格遵守robots文件的排除指示和META robots標籤	LGPL
	heyDr	輕量級開源多線程垂直檢索爬蟲框架	GPLv3
	ItSucks	提供swing GUI操做界面	不詳
	jcrawl	輕量、性能優良，能夠從網頁抓取各類類型的文件	Apache
	JSpider	功能強大，容易擴展	LGPL
	Leopdo	包括全文和分類垂直搜索，以及分詞系統	Apache
	MetaSeeker	網頁抓取、信息提取、數據抽取工具包，操做簡單	不詳
	Playfish	經過XML配置文件實現高度可定製性與可擴展性	MIT
	Spiderman	靈活、擴展性強，微內核+插件式架構，經過簡單的配置就能夠完成數據抓取，無需編寫一句代碼	Apache
	webmagic	功能覆蓋整個爬蟲生命週期，使用Xpath和正則表達式進行連接和內容的提取	Apache
	Web-Harvest	運用XSLT、XQuery、正則表達式等技術來實現對Text或XML的操做，具備可視化的界面	BSD
	WebSPHINX	由兩部分組成：爬蟲工做平臺和WebSPHINX類包	Apache
	YaCy	基於P2P的分佈式Web搜索引擎	GPL
Python	QuickRecon	具備查找子域名名稱、收集電子郵件地址並尋找人際關係等功能	GPLv3
	PyRailgun	簡潔、輕量、高效的網頁抓取框架	MIT
	Scrapy	基於Twisted的異步處理框架，文檔齊全	BSD
C++	hispider	支持多機分佈式下載, 支持網站定向下載	BSD
	larbin	高性能的爬蟲軟件，只負責抓取不負責解析	GPL
	Methabot	通過速度優化、可抓取WEB、FTP及本地文件系統	不詳
	Methanol	模塊化、可定製的網頁爬蟲，速度快	不詳
C#	NWebCrawler	統計信息、執行過程可視化	GPLv2
	Sinawler	國內第一個針對微博數據的爬蟲程序，功能強大	GPLv3
	spidernet	以遞歸樹爲模型的多線程web爬蟲程序，支持以GBK (gb2312)和utf8編碼的資源，使用sqlite存儲數據	MIT
	Web Crawler	多線程，支持抓取PDF/DOC/EXCEL等文檔來源	LGPL
	網絡礦工	功能豐富，絕不遜色於商業軟件	BSD
PHP	OpenWebSpider	開源多線程網絡爬蟲，有許多有趣的功能	不詳
	PhpDig	適用於專業化強、層次更深的個性化搜索引擎	GPL
	Snoopy	具備採集網頁內容、提交表單功能	GPL
	ThinkUp	採集推特、臉譜等社交網絡數據的社會媒體視角引擎，可進行交互分析並將結果以可視化形式展示	GPL
	微購	可採集淘寶、京東、噹噹等300多家電子商務數據	GPL
ErLang	Ebot	可伸縮的分佈式網頁爬蟲	GPLv3
Ruby	Spidr	可將一個或多個網站、某個連接徹底抓取到本地	MIT