Nutch加Hadoop集羣搭建

1、Apache Nutch Apache Nutch是一個用於網絡搜索的開源框架,它提供了我們運行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬蟲。 1.1、Nutch的組件結構 WebDB:存儲網頁數據和連接信息 Fetch lists:將WebDB所存儲的連接分成多個組,來用於分佈式檢索 Fetchers:檢索Fetch list中的內容並下載到本地,共有兩項輸出:分別是連接的upda
相關文章
相關標籤/搜索