分佈式爬蟲技術架構

Spiderman

Spiderman 是一個Java開源Web數據抽取工具。它可以收集指定的Web頁面並從這些頁面中提取有用的數據。 Spiderman主要是運用了像XPath、正則、表達式引擎等這些技術來實現數據抽取。git

項目結構:github

image

依賴關係以下:web

image

webmagic

webmagic採用徹底模塊化的設計,功能覆蓋整個爬蟲的生命週期(連接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分佈式抓取,並支持自動重試、自定義UA/cookie等功能。cookie

image

工程結構:多線程

image

工程間的關係:分佈式

image

衆推

用總體正在進行中,目前積中在分佈式爬蟲階段。ide

241133427088097

目前設計階段的結構爲:模塊化

cdoop

基本思想爲:工具

WEB:界面及功能部分。oop

SAMPLES:示例部分。

CORE:須要調用的核心包。

RULES:規則處理部分。

PARSERS:解析部分。

PLUGIN:插件部分。

CDOOP:分佈式處理部分。

ADAPTER:代理適配部分。

STORE:存儲層。

目前項目的地址在:

https://github.com/zongtui/zongtui-webcrawler

相關文章
相關標籤/搜索