開源爬蟲軟件彙總 (轉)

  世界上已經成型的爬蟲軟件多達上百種,本文對較爲知名及常見的開源爬蟲軟件進行梳理,按開發語言進行彙總,以下表所示。雖然搜索引擎也有爬蟲,但本次我彙總的只是爬蟲軟件,而非大型、複雜的搜索引擎,由於不少兄弟只是想爬取數據,而非運營一個搜索引擎。
web

開源爬蟲彙總表 正則表達式

開發語言 sql

軟件名稱 數據庫

軟件介紹 網頁爬蟲

許可證 網絡

Java 多線程

Arachnid 架構

微型爬蟲框架,含有一個小型HTML解析器 框架

GPL 異步

crawlzilla

安裝簡易,擁有中文分詞功能

Apache2

Ex-Crawler

由守護進程執行,使用數據庫存儲網頁信息

GPLv3

Heritrix

嚴格遵守robots文件的排除指示和META robots標籤

LGPL

heyDr

輕量級開源多線程垂直檢索爬蟲框架

GPLv3

ItSucks

提供swing GUI操做界面

不詳

jcrawl

輕量、性能優良,能夠從網頁抓取各類類型的文件

Apache

JSpider

功能強大,容易擴展

LGPL

Leopdo

包括全文和分類垂直搜索,以及分詞系統

Apache

MetaSeeker

網頁抓取、信息提取、數據抽取工具包,操做簡單

不詳

Playfish

經過XML配置文件實現高度可定製性與可擴展性

MIT

Spiderman

靈活、擴展性強,微內核+插件式架構,經過簡單的配置就能夠完成數據抓取,無需編寫一句代碼

Apache

webmagic

功能覆蓋整個爬蟲生命週期,使用Xpath和正則表達式進行連接和內容的提取

Apache

Web-Harvest

運用XSLT、XQuery、正則表達式等技術來實現對Text或XML的操做,具備可視化的界面

BSD

WebSPHINX

由兩部分組成:爬蟲工做平臺和WebSPHINX類包

Apache

YaCy

基於P2P的分佈式Web搜索引擎

GPL

Python

QuickRecon

具備查找子域名名稱、收集電子郵件地址並尋找人際關係等功能

GPLv3

PyRailgun

簡潔、輕量、高效的網頁抓取框架

MIT

Scrapy

基於Twisted的異步處理框架,文檔齊全

BSD

C++

hispider

支持多機分佈式下載, 支持網站定向下載

BSD

larbin

高性能的爬蟲軟件,只負責抓取不負責解析

GPL

Methabot

通過速度優化、可抓取WEB、FTP及本地文件系統

不詳

Methanol

模塊化、可定製的網頁爬蟲,速度快

不詳

C#

NWebCrawler

統計信息、執行過程可視化

GPLv2

Sinawler

國內第一個針對微博數據的爬蟲程序,功能強大

GPLv3

spidernet

以遞歸樹爲模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲數據

MIT

Web Crawler

多線程,支持抓取PDF/DOC/EXCEL等文檔來源

LGPL

網絡礦工

功能豐富,絕不遜色於商業軟件

BSD

PHP

OpenWebSpider

開源多線程網絡爬蟲,有許多有趣的功能

不詳

PhpDig

適用於專業化強、層次更深的個性化搜索引擎

GPL

Snoopy

具備採集網頁內容、提交表單功能

GPL

ThinkUp

採集推特、臉譜等社交網絡數據的社會媒體視角引擎,可進行交互分析並將結果以可視化形式展示

GPL

微購

可採集淘寶、京東、噹噹等300多家電子商務數據

GPL

ErLang

Ebot

可伸縮的分佈式網頁爬蟲

GPLv3

Ruby

Spidr

可將一個或多個網站、某個連接徹底抓取到本地

MIT

相關文章
相關標籤/搜索