Heritrix架構簡述

本文的目的,其實是希望通過對heritrix架構的分析,瞭解如何實現一個網絡爬蟲。 Heritrix的架構如圖: Web Administrative Console: 就是一個基於web的控制檯。Heritrix內嵌了Jetty就是爲了做這事。 CrawlOrder:這東西的名字有些奇怪。但其實就是一個crawl任務的配置。它是一個基於XML的object,Heritrix根據CrawlOrde
相關文章
相關標籤/搜索