nutch1.6在本地模式和分佈式模式下爬取過程

一、本地模式下nutch1.6爬取 1、創建兩個目錄,crawl目錄存儲爬取的數據,urls目錄存儲爬取的url,並在urls目錄中創建一個seed.txt文件,寫入需要爬取的url地址。 2、修改./nutch1.6/runtime/local/conf/regex-urlfilter.txt文件的最後一行內容: 將文件的最後一行「+.」改爲「+^http://([a-z0-9]*\.)*nut
相關文章
相關標籤/搜索