Detecting Near Duplicates for Web Crawling - simhash與重複信息識別

隨着信息爆炸時代的來臨,互聯網上充斥着着大量的近重複信息,有效地識別它們是一個很有意義的課題。例如,對於搜索引擎的爬蟲系統來說,收錄重複的網頁是毫無意義的,只會造成存儲和計算資源的浪費;同時,展示重複的信息對於用戶來說也並不是最好的體驗。但是同樣的在另外方面,如何快速檢索相似文章需求也是很大的。造成網頁近重複的可能原因主要包括:  鏡像網站 內容複製 嵌入廣告 計數改變 少量修改 一個簡化的爬蟲系
相關文章
相關標籤/搜索