搜索系統簡介

搜索系統簡介 一個基本的搜索引擎系統主要由離線(建庫)和在線(檢索)兩部分構成,離線側主要完成「網頁獲取——網頁分析——建倒排索引庫」的過程,在線側主要完成「query獲取——query處理——與doc進行相關性匹配」的過程。首先給出一個全貌圖: 搜索系統概覽 網頁獲取 做過爬蟲的人都知道,網頁獲取實際上就是一個spider的過程,spider通過「抓取網頁——分析頁面——進網頁庫——提取鏈接——
相關文章
相關標籤/搜索