Lucene搜索引擎+HDFS+MR完成垂直搜索

  介於上一篇的java實現網絡爬蟲基礎之上,這一篇的思想是將網絡收集的數據保存到HDFS和數據庫(Mysql)中;然後用MR對HDFS的數據進行索引處理,處理成倒排索引;搜索時先用HDFS建立好的索引來搜索對應的數據ID,根據ID從數據庫中提取數據,呈現到網頁上。    這是一個完整的集合網絡爬蟲、數據庫、HDFS、MapReduce、DAO設計模式、JSP/Servlet的項目,完成了數據收集
相關文章
相關標籤/搜索