分佈式爬蟲技術架構

Spiderman Spiderman 是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。 Spiderman主要是運用了像XPath、正則、表達式引擎等這些技術來實現數據抽取。 項目結構: 依賴關係如下: webmagic webmagic採用完全模塊化的設計,功能覆蓋整個爬蟲的生命週期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分佈式抓
相關文章
相關標籤/搜索