世界上已經成型的爬蟲軟件多達上百種,本文對較爲知名及常見的開源爬蟲軟件進行梳理,按開發語言進行彙總,以下表所示。雖然搜索引擎也有爬蟲,但本次我彙總的只是爬蟲軟件,而非大型、複雜的搜索引擎,由於不少兄弟只是想爬取數據,而非運營一個搜索引擎。
web
開源爬蟲彙總表 正則表達式
開發語言 sql |
軟件名稱 數據庫 |
軟件介紹 網頁爬蟲 |
許可證 網絡 |
Java 多線程 |
Arachnid 架構 |
微型爬蟲框架,含有一個小型HTML解析器 框架 |
GPL 異步 |
crawlzilla |
安裝簡易,擁有中文分詞功能 |
Apache2 |
|
Ex-Crawler |
由守護進程執行,使用數據庫存儲網頁信息 |
GPLv3 |
|
Heritrix |
嚴格遵守robots文件的排除指示和META robots標籤 |
LGPL |
|
heyDr |
輕量級開源多線程垂直檢索爬蟲框架 |
GPLv3 |
|
ItSucks |
提供swing GUI操做界面 |
不詳 |
|
jcrawl |
輕量、性能優良,能夠從網頁抓取各類類型的文件 |
Apache |
|
JSpider |
功能強大,容易擴展 |
LGPL |
|
Leopdo |
包括全文和分類垂直搜索,以及分詞系統 |
Apache |
|
MetaSeeker |
網頁抓取、信息提取、數據抽取工具包,操做簡單 |
不詳 |
|
Playfish |
經過XML配置文件實現高度可定製性與可擴展性 |
MIT |
|
Spiderman |
靈活、擴展性強,微內核+插件式架構,經過簡單的配置就能夠完成數據抓取,無需編寫一句代碼 |
Apache |
|
webmagic |
功能覆蓋整個爬蟲生命週期,使用Xpath和正則表達式進行連接和內容的提取 |
Apache |
|
Web-Harvest |
運用XSLT、XQuery、正則表達式等技術來實現對Text或XML的操做,具備可視化的界面 |
BSD |
|
WebSPHINX |
由兩部分組成:爬蟲工做平臺和WebSPHINX類包 |
Apache |
|
YaCy |
基於P2P的分佈式Web搜索引擎 |
GPL |
|
Python |
QuickRecon |
具備查找子域名名稱、收集電子郵件地址並尋找人際關係等功能 |
GPLv3 |
PyRailgun |
簡潔、輕量、高效的網頁抓取框架 |
MIT |
|
Scrapy |
基於Twisted的異步處理框架,文檔齊全 |
BSD |
|
C++ |
hispider |
支持多機分佈式下載, 支持網站定向下載 |
BSD |
larbin |
高性能的爬蟲軟件,只負責抓取不負責解析 |
GPL |
|
Methabot |
通過速度優化、可抓取WEB、FTP及本地文件系統 |
不詳 |
|
Methanol |
模塊化、可定製的網頁爬蟲,速度快 |
不詳 |
|
C# |
NWebCrawler |
統計信息、執行過程可視化 |
GPLv2 |
Sinawler |
國內第一個針對微博數據的爬蟲程序,功能強大 |
GPLv3 |
|
spidernet |
以遞歸樹爲模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲數據 |
MIT |
|
Web Crawler |
多線程,支持抓取PDF/DOC/EXCEL等文檔來源 |
LGPL |
|
網絡礦工 |
功能豐富,絕不遜色於商業軟件 |
BSD |
|
PHP |
OpenWebSpider |
開源多線程網絡爬蟲,有許多有趣的功能 |
不詳 |
PhpDig |
適用於專業化強、層次更深的個性化搜索引擎 |
GPL |
|
Snoopy |
具備採集網頁內容、提交表單功能 |
GPL |
|
ThinkUp |
採集推特、臉譜等社交網絡數據的社會媒體視角引擎,可進行交互分析並將結果以可視化形式展示 |
GPL |
|
微購 |
可採集淘寶、京東、噹噹等300多家電子商務數據 |
GPL |
|
ErLang |
Ebot |
可伸縮的分佈式網頁爬蟲 |
GPLv3 |
Ruby |
Spidr |
可將一個或多個網站、某個連接徹底抓取到本地 |
MIT |