nutch使用入門

   基本概念:數據庫    crawldb,nutch所處理的全部url信息,包括是否被fetch過,以及url被fetch時間。    linkdb,url links,包括源url和連接文本信息    segments集合,每個segment是一組fetched的urls單元,segments包括如下子目錄:                1. crawl_generate, 將要被抓取 u
相關文章
相關標籤/搜索