solr ,hadoop ,lucene,nutch 的關係和區別

apache lucene是apache下一個著名的開源搜索引擎內核,基於Java技術,處理索引,拼寫檢查,點擊高亮和其餘分析,分詞等技術。apache

nutch和solr原來都是lucene下的子項目。但後來nutch獨立成爲獨立項目。nutch是2004年由俄勒岡州立大學開源實驗室模仿google搜索引擎創立的開源搜索引擎,後歸於apache旗下。nutch主要完成抓取,提取內容等工做。緩存

solr則是基於lucene的搜索界面。提供XML/HTTP 和 JSON/Python/Ruby API,提供搜索入口,點擊高亮,緩存,備份和管理界面。分佈式

hadoop原來是nutch下的分佈式任務子項目,如今也成爲apache下的頂級項目。nutch能夠利用hadoop進行分佈式多任務抓取和分析存儲工做。oop

因此,lucene,nutch,solr,hadoop一塊兒工做,是能完成一箇中型的搜索引擎工做的。搜索引擎

相關文章
相關標籤/搜索