基於Nutch+Hadoop+Hbase+ElasticSearch的網絡爬蟲及搜索引擎

時間 2019-11-09

標籤基於 nutch+hadoop+hbase+elasticsearch nutch hadoop hbase elasticsearch 網絡爬蟲搜索引擎欄目 Hadoop 简体版

原文原文鏈接

網絡爬蟲架構在Nutch+Hadoop之上，是一個典型的分佈式離線批量處理架構，有很是優異的吞吐量和抓取性能並提供了大量的配置定製選項。因爲網絡爬蟲只負責網絡資源的抓取，因此，須要一個分佈式搜索引擎，用來對網絡爬蟲抓取到的網絡資源進行實時的索引和搜索。數據庫

搜索引擎架構在ElasticSearch之上，是一個典型的分佈式在線實時交互查詢架構，無單點故障，高伸縮、高可用。對大量信息的索引與搜索均可以在近乎實時的狀況下完成，可以快速實時搜索數十億的文件以及PB級的數據，同時提供了全方面的選項，能夠對該引擎的幾乎每一個方面進行定製。支持RESTful 的API，可使用JSON經過HTTP調用它的各類功能，包括搜索、分析與監控。此外，還爲Java、PHP、Perl、Python以及Ruby等各種語言提供了原生的客戶端類庫。網絡

網絡爬蟲經過將抓取到的數據進行結構化提取以後提交給搜索引擎進行索引，以供查詢分析使用。因爲搜索引擎的設計目標在於近乎實時的複雜的交互式查詢，因此搜索引擎並不保存索引網頁的原始內容，所以，須要一個近乎實時的分佈式數據庫來存儲網頁的原始內容。架構

分佈式數據庫架構在Hbase+Hadoop之上，是一個典型的分佈式在線實時隨機讀寫架構。極強的水平伸縮性，支持數十億的行和數百萬的列，可以對網絡爬蟲提交的數據進行實時寫入，並能配合搜索引擎，根據搜索結果實時獲取數據。分佈式

網絡爬蟲、分佈式數據庫、搜索引擎均運行在普通商業硬件構成的集羣上。集羣採用分佈式架構，能擴展到成千上萬臺機器，具備容錯機制，部分機器節點發生故障不會形成數據丟失也不會致使計算任務失敗。不但高可用，當節點發生故障時能迅速進行故障轉移，並且高伸縮，只須要簡單地增長機器就能水平線性伸縮、提高數據存儲容量和計算速度。oop

網絡爬蟲、分佈式數據庫、搜索引擎之間的關係：性能

一、網絡爬蟲將抓取到的HTML頁面解析完成以後，把解析出的數據加入緩衝區隊列，由其餘兩個線程負責處理數據，一個線程負責將數據保存到分佈式數據庫，一個線程負責將數據提交到搜索引擎進行索引。搜索引擎

二、搜索引擎處理用戶的搜索條件，並將搜索結果返回給用戶，若是用戶查看網頁快照，則從分佈式數據庫中獲取網頁的原始內容。spa

總體架構以下圖所示：線程