Simhash算法原理和網頁查重應用

傳統的hash算法只負責將原始內容儘量均勻隨機地映射爲一個簽名值,原理上相當於僞隨機數產生算法。產生的兩個簽名,如果相等,說明原始內容在一定概率下是相等的;如果不相等,除了說明原始內容不相等外,不再提供任何信息,因爲即使原始內容只相差一個字節,所產生的簽名也很可能差別極大。從這個意義上來說,要設計一個hash算法,對相似的內容產生的簽名也相近,是更爲艱難的任務,因爲它的簽名值除了提供原始內容是否相
相關文章
相關標籤/搜索