基於Nutch+Hadoop+Hbase+ElasticSearch的網絡爬蟲及搜索引擎

網絡爬蟲架構在Nutch+Hadoop之上,是一個典型的分佈式離線批量處理架構,有非常優異的吞吐量和抓取性能並提供了大量的配置定製選項。由於網絡爬蟲只負責網絡資源的抓取,所以,需要一個分佈式搜索引擎,用來對網絡爬蟲抓取到的網絡資源進行實時的索引和搜索。   搜索引擎架構在ElasticSearch之上,是一個典型的分佈式在線實時交互查詢架構,無單點故障,高伸縮、高可用。對大量信息的索引與搜索都可以
相關文章
相關標籤/搜索