Spiderman 是一個Java開源Web數據抽取工具。它可以收集指定的Web頁面並從這些頁面中提取有用的數據。 Spiderman主要是運用了像XPath、正則、表達式引擎等這些技術來實現數據抽取。git
項目結構:github
依賴關係以下:web
webmagic採用徹底模塊化的設計,功能覆蓋整個爬蟲的生命週期(連接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分佈式抓取,並支持自動重試、自定義UA/cookie等功能。cookie
工程結構:多線程
工程間的關係:分佈式
用總體正在進行中,目前積中在分佈式爬蟲階段。ide
目前設計階段的結構爲:模塊化
基本思想爲:工具
WEB:界面及功能部分。oop
SAMPLES:示例部分。
CORE:須要調用的核心包。
RULES:規則處理部分。
PARSERS:解析部分。
PLUGIN:插件部分。
CDOOP:分佈式處理部分。
ADAPTER:代理適配部分。
STORE:存儲層。
目前項目的地址在: