搜索引擎的索引和搜索

對於網絡蜘蛛技術和排序技術請參考做者其它文章[1][2],這裏以Google搜索引擎爲例主要介紹搜索引擎的數據索引和搜索過程。 數據的索引分爲三個步驟:網頁內容的提取、詞的識別、標引庫的創建。 服務器 互聯網上大部分信息都是以HTML格式存在,對於索引來講,只處理文本信息。所以須要把網頁中文本內容提取出來,過濾掉一些腳本標示符和一些無用的廣告信 息,同時記錄文本的版面格式信息[1]。詞的識別是搜索
相關文章
相關標籤/搜索