通用網絡信息採集器(爬蟲)設計方案

一、引言   Heritrix3.X與1.X版本變化比較大,基於此帶來的Extractor定向擴展方法也受到影響,自定義擴展方面因爲接口的變化受阻,從而萌生了通用網絡信息採集器設計的想法。一直沒有一個好的網絡信息採集器,必須能夠適應下載對象的多樣性和下載內容的複雜性。比如需要同時下載100多家主流媒體的新聞信息,並解析入庫等。本文圍繞通用網絡信息採集器的設計展開。 二、需求分析   一個好的網絡爬
相關文章
相關標籤/搜索