WebCollector內核解析—如何設計一個爬蟲

本文利用WebCollector內核的解析,來描述如何設計一個網絡爬蟲。我們先來看看兩個非常優秀爬蟲的設計。 Nutch Nutch由apache開源組織提供,主頁:http://nutch.apache.org/ Nutch是目前最好的網絡爬蟲之一,Nutch分爲內核和插件兩個模塊組成,內核控制整個爬取的邏輯,插件負責完成每個細節(與流程無關的細節)的實現。具體分工如下: 內核:控制爬蟲按照 I
相關文章
相關標籤/搜索