Nutch的工作流程

Nutch的工作流程: Crawdb、linkdb 是web link目錄,存放url及url的互聯關係,作爲爬行與重新爬行的依據。 segments 是主目錄,存放抓回來的網頁。頁面內容有bytes[]的raw content 和 parsed text的形式。nutch以廣度優先的原則來爬行,因此每爬完一輪會生成一個segment目錄。 index 是lucene的索引目錄,是indexes目
相關文章
相關標籤/搜索