Nutch的工作流程

時間 2021-07-10

原文原文鏈接

Nutch的工作流程： Crawdb、linkdb 是web link目錄，存放url及url的互聯關係，作爲爬行與重新爬行的依據。 segments 是主目錄，存放抓回來的網頁。頁面內容有bytes[]的raw content 和 parsed text的形式。nutch以廣度優先的原則來爬行，因此每爬完一輪會生成一個segment目錄。 index 是lucene的索引目錄，是indexes目

>>阅读原文<<