hadoop使用(四)

做一個網絡爬蟲的程序吧,根據客戶的需求,要求把相關的內容爬取到本地 最終選擇的是apache nutch,到目前爲止最新的版本是1.3 1. Nutch是什麼? Nutch是一個開源的網頁抓取工具,主要用於收集網頁數據,然後對其進行分析,建立索引,以提供相應的接口來對其網頁數據進行查詢的一套工具。其底層使用了Hadoop來做分佈式計算與存儲,索引使用了Solr分佈式索引框架來做,Solr是一個開源
相關文章
相關標籤/搜索