simhash與重複信息識別

時間 2021-01-21

原文原文鏈接

在工作學習中，我往往感嘆數學奇蹟般的解決一些貌似不可能完成的任務，並且十分希望將這種喜悅分享給大家，就好比說：「老婆，出來看上帝」…… 隨着信息爆炸時代的來臨，互聯網上充斥着着大量的近重複信息，有效地識別它們是一個很有意義的課題。例如，對於搜索引擎的爬蟲系統來說，收錄重複的網頁是毫無意義的，只會造成存儲和計算資源的浪費；同時，展示重複的信息對於用戶來說也並不是最好的體驗。造成網頁近重複的可能原因主