Detecting Near Duplicates for Web Crawling － simhash與重複信息識別

時間 2021-01-22

原文原文鏈接

隨着信息爆炸時代的來臨，互聯網上充斥着着大量的近重複信息，有效地識別它們是一個很有意義的課題。例如，對於搜索引擎的爬蟲系統來說，收錄重複的網頁是毫無意義的，只會造成存儲和計算資源的浪費；同時，展示重複的信息對於用戶來說也並不是最好的體驗。但是同樣的在另外方面，如何快速檢索相似文章需求也是很大的。造成網頁近重複的可能原因主要包括：鏡像網站內容複製嵌入廣告計數改變少量修改一個簡化的爬蟲系