基於hadoop搜索引擎實踐——總體概述(一)

1.系統工作原理     搜索引擎是爲用戶提供信息檢索服務的工具。在整個搜索系統中可以分爲在線處理和離線處理兩部分。搜索引擎的離線處理主要是在接受用戶查詢的請求之前需要處理的一系列工作。主要包括抓取並整理網頁信息,建立倒排索引文件,建立二級索引文件等。離線處理涉及海量的數據,實時性要求不高。     在線處理主要是用戶輸入查詢請求,搜索引擎爲用戶響應查詢結果所完成的一系列工作。這部分主要包括:根據
相關文章
相關標籤/搜索