深入學習heritrix---體系結構(Overview of the crawler)

Heritrix採用了模塊化的設計,它由一些核心類(core classes)和可插件模塊(pluggable modules)構成。 核心類可以配置,但不能被覆蓋,插件模塊可以被由第三方模塊取代。 (一)heritrix的體系結構圖:   (二)架構分析 CrawlController(下載控制器) 整個下載過程的總的控制者,整個抓取工作的起點,決定整個抓取任務的開始和結束。從Frontier獲
相關文章
相關標籤/搜索