齊寧:搜索引擎知識 網頁查重技術

       對於搜索引擎來講,重複的網頁內容是很是有害的。重複網頁的存在乎味着這些網頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引製做中可能會在索引庫裏索引兩份相同的網頁。當有人查詢時,在搜索結果中就會出現重複的網頁連接。因此不管是從搜索體驗仍是系統效率檢索質量來講這些重負網頁都是有害處的。算法     網頁查重技術起源於複製檢測技術,即判斷一個文件內容是否存在抄襲、複製另一個或多個文件的
相關文章
相關標籤/搜索