開源網絡爬蟲彙總

時間 2019-11-13

標籤開源網絡爬蟲彙總欄目系統網絡简体版

原文原文鏈接

Awesome-crawler-cn

互聯網爬蟲，蜘蛛，數據採集器，網頁解析器的彙總，因新技術不斷髮展，新框架層出不窮，此文會不斷更新...javascript

交流討論

歡迎推薦你知道的開源網絡爬蟲，網頁抽取框架.
開源網絡爬蟲QQ交流羣:322937592
email address: liinux at qq.com

Python

Scrapy - 一種高效的屏幕,網頁數據採集框架。
- django-dynamic-scraper - 基於Scrapy內核由django Web框架開發的爬蟲。
- Scrapy-Redis - 基於Scrapy內核採用Redis組件的爬蟲。
- scrapy-cluster - 基於Scrapy內核採用Redis 和 Kafka 開發的分佈式爬蟲框架。
- distribute_crawler - 基於Scrapy內核採用redis, mongodb開發的分佈式爬蟲框架。
pyspider - 一個強大純python的數據採集系統.
cola - 一個分佈式的爬蟲框架.
Demiurge - 基於PyQuery的微型爬蟲框架.
Scrapely - 一個純python的HTML頁面捕捉庫.
feedparser - 一個通用的feed解析器.
you-get - 靜默網站爬去下載器.
Grab - 網站採集框架.
MechanicalSoup - 一個自動化的互動網站Python庫.
portia - 基於Scrapy的可視化數據採集框架.
crawley - 基於非阻塞通訊(NIO)的python爬蟲框架.
RoboBrowser - 一個簡單的，不基於Web瀏覽器的基於Python的Web 瀏覽器.
MSpider - 一個基於gevent(協程網絡庫)的python爬蟲.
brownant - 一個輕量級的網絡數據抽取框架.

Java

Apache Nutch - 用於生產環境的高度可擴展的高度可擴展的網絡爬蟲.
- anthelion - 一個基於Apache Nutch抓取語義註釋在HTML頁面插件.
Crawler4j - 簡單和輕量級的網絡爬蟲.
JSoup - 採集，分析，處理和清洗HTML頁面.
websphinx - HTML網站特定的處理、信息提取.
Open Search Server - 全套搜索功能，創建你本身的索引策略。分析、提取全文數據，這個框架能夠索引的一切.
Gecco - 一個易於使用的輕量級網絡爬蟲.
WebCollector -簡單的抓取網頁的界面，能夠在不到5分鐘內部署一個多線程的網絡爬蟲.
Webmagic -一個可擴展的爬蟲框架.
Spiderman -一個可擴展的，多線程的網絡爬蟲.
- Spiderman2 - 分佈式網絡爬蟲框架，支持javascript渲染.
Heritrix3 - 可擴展，大規模的網絡爬蟲項目.
SeimiCrawler - 一個敏捷的分佈式爬蟲框架.
StormCrawler - 基於開放源代碼、構建低延遲的網絡資源採集框架，基於Apache Storm.
Spark-Crawler - 基於Apache Nutch 的網絡爬蟲，能夠運行於Spark.

C#

ccrawler - 一個簡單的Web內容分類方案，它能夠根據其內容分開網頁,基於C#3.5.
SimpleCrawler - 簡單的多線程網絡爬蟲，基於REG表達式.
DotnetSpider - 基於C#開發的一個輕量級，交叉平臺的網絡爬蟲.
Abot - 具備很好效率和可擴展性的C#網絡爬蟲.
Hawk - 用 C#/WPF開發的網絡爬蟲，具備簡單的ETL功能.
SkyScraper - 一個支持異步網絡和有很好擴展性的網絡爬蟲.

JavaScript

scraperjs - 基於JS的一個功能齊全的網絡爬蟲.
scrape-it - 基於Node.js的網絡爬蟲.
simplecrawler - 基於事件驅動開發的網絡爬蟲.
node-crawler - 提供簡單API，適於二次開發的網絡爬蟲.
js-crawler - 基於Node.JS,支持HTTP(S)的網絡爬蟲.
x-ray - 支持分頁的網絡爬蟲.
node-osmosis - 基於Node.js適於解析HTML結構的網絡爬蟲.

PHP

Goutte - 基於PHP的網頁截屏和爬取程序.
- laravel-goutte - 基於Laravel 5 的網絡爬蟲.
dom-crawler - 易於抽取DOM文件的網絡爬蟲.
pspider - 基於PHP的併發網絡爬蟲.
php-spider - 一個基於PHP的高可擴展的網絡爬蟲.

C++

open-source-search-engine - 基於C/C++開發的網絡爬蟲和搜索引擎.

C

httrack - 所有網站總體複製工具。 ## Ruby
upton - 一個易於上手的爬蟲框架集合，支持CSS選擇器.
wombat - 基於Ruby自然的支持DSL的網絡爬蟲，易於提取網頁正文數據.
RubyRetriever - 基於Ruby的網站數據採集和全網數據收割機.
Spidr - 全站數據採集，支持無限的網站連接地址採集.
Cobweb - 很是靈活，易於擴展的網絡爬蟲，能夠單點部署使用.
mechanize - 自動採集網站數據的框架.

R

rvest - 基於R開發的簡單網絡爬蟲.

Erlang

ebot - 一個分佈式，高可擴展的網絡爬蟲.

Perl

web-scraper - 方便使用HTML、CSS、XPath選擇器的網絡爬蟲。

Go

pholcus - 一個分佈式，支持高併發的網絡爬蟲.
gocrawl - 一個高併發的，輕量級，遵照道德的網絡爬蟲.
fetchbot -一個遵照robots.txt規則和延遲規則的輕量級網絡爬蟲.
go_spider - 一個很是好的高併發網絡爬蟲.
dht -支持DHT協議的網絡爬蟲.
ants-go - 基於Golang的高並行網絡爬蟲.
scrape - 一個簡單的提供很好開發接口的網絡爬蟲.

Scala

crawler - 基於Scala DSL的網絡爬蟲.
scrala - 由Scala開發基於scrapy內核的網絡爬蟲.
ferrit - 基於Scala開發使用了Akka, Spray，Cassandra的網絡爬蟲.

相關文章

相關標籤/搜索

python 網絡爬蟲

python網絡爬蟲

Python3網絡爬蟲開發

爬蟲－反爬蟲

用Python寫網絡爬蟲

Python網絡爬蟲三

網絡爬蟲實戰

精通python網絡爬蟲

網站品質教程

網站建設指南

網站主機教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<