搜索引擎的原理以及倒排索引技術

1、搜索引擎的原理 (1)、抓取數據 (2)、臨時存儲 (3)、清洗數據。不符合規則的清理掉,符合規則的建立索引。 2、倒排索引技術 主要就是對文章進行切詞,然後再對每一個單詞建立索引。以後就可以通過搜索一個詞返回這個詞所對應維度文章內容。 (1)、對文章進行切詞,切成一個個的詞。(NLP:自然語言處理) (2)、對所有的詞給出唯一的編號。 (3)、建立倒排索引的列表,列表裏存儲的都是文章的ID,
相關文章
相關標籤/搜索